Mi történik, ha egy rövidfilmet teljes egészében mesterséges intelligenciával készítesz? Nem kell kamera, színészek, stúdió vagy vágószoftver-tudás – csak egy laptop és néhány AI eszköz. Pontosan ezt próbáltuk ki: 3 perc 22 másodperces rövidfilmet készítettünk, ahol minden elemet AI generált – a forgatókönyvtől a képeken és a narrációt át a zenéig. Ebben a cikkben lépésről lépésre bemutatjuk a teljes folyamatot, az eszközöket és az eredményt.
A projekt: «Az utolsó könyvtáros»
A rövidfilm egy sci-fi történet egy jövőbeli világról, ahol az emberek már nem olvasnak könyveket – minden információt az AI szolgáltat. Az utolsó könyvtáros napjait követjük, ahogy a világ utolsó fizikai könyvtárát próbálja megmenteni. A téma szándékosan ironikus: egy AI-ról szóló filmet teljes egészében AI-val készítettünk.
A projekt célja nem az volt, hogy hollywoodi minőséget hozzunk létre, hanem hogy megmutassuk: 2026-ban egy átlagos felhasználó is képes vizuálisan meggyőző rövidfilmet készíteni, kizárólag AI eszközökkel.
1. lépés: Forgatókönyv – ChatGPT
Az első lépés a forgatókönyv megírása volt. Ehhez a ChatGPT-t használtuk (GPT-4o modell). Nem egyetlen prompttal kértük el a teljes forgatókönyvet, hanem lépésenként dolgoztunk:
- Koncepció és logline: Először a film alapötletét és a logline-t (egymondatos összefoglalót) kértük meg. Több verziót generáltunk, és a legjobbat választottuk ki.
- Karakterfejlesztés: Megkértük a ChatGPT-t, hogy dolgozza ki a főszereplő karakterét: neve, kora, motivációi, belső konfliktusa.
- Jelenetbontás: A történetet 8 jelenetre bontottuk. Minden jelenethez kértünk vizuális leírást (mit látunk), narrációs szöveget (mit hallunk), és hangulati leírást.
- Narráció finomhangolása: A narrációs szöveget többször átírtuk, amíg a hangnem egyszerre volt melankolikus és reményteli.
A teljes forgatókönyv-írás körülbelül 2 órát vett igénybe, beleértve az iterációkat. A kulcs az volt, hogy jó promptokat írtunk: pontos instrukciók, kontextus, és mindig egy lépéssel haladtunk előre.
Tipp: Ne kérd a teljes forgatókönyvet egyszerre! Bontsd fel lépésekre – koncepció, karakterek, jelenetek, dialógusok – és minden lépésnél finomíts. Így sokkal jobb eredményt kapsz.
2. lépés: Képek és vizuális világ – Midjourney
A vizuális világhoz a Midjourney v6.1-et használtuk. Minden jelenethez 2-4 képet generáltunk, amelyek együtt adják a vizuális narratívát. Ez volt a projekt legtöbb időt igénylő része.
A prompt stratégia
A Midjourney-nál a konzisztencia a legnagyobb kihívás. Hogyan biztosítod, hogy a főszereplő minden képen ugyanúgy nézzen ki? Íme a módszerünk:
- Karakter referencia: Először létrehoztunk egy részletes karakter leírást: «elderly woman, 70s, silver hair in a bun, round glasses, worn cardigan, gentle expression, cinematic lighting.» Ezt minden promptba beleillesztettük.
- Stílus konzisztencia: A «--sref» (style reference) paramétert használtuk, hogy minden kép azonos vizuális stílusban készüljön.
- Képarány: Minden képet 16:9 arányban generáltunk (--ar 16:9), hogy videóhoz illeszkedjen.
- Hangulati kulcsszavak: Minden jelenethez meghatároztuk a hangulati kulcsszavakat: «warm golden light», «melancholic atmosphere», «dust particles in air.»
Összesen 47 képet generáltunk, amelyből 24-et használtunk fel a végső filmben. Minden jelenethez 3-4 képet választottunk ki, amelyek együtt mesélnek egy vizuális történetet. A teljes képgenerálás körülbelül 4 órát vett igénybe.
Ha érdekel a képgenerálás világa, olvasd el az AI képgenerátorok összehasonlító cikkünket.
Gyakori problémák és megoldások
- Karakter inkonzisztencia: A Midjourney néha «elfelejtette» a karakter részleteit. Megoldás: a --cref (character reference) funkció használata egy korábbi, jól sikerült képpel.
- Kezek és ujjak: Közeli képeknél a kezek és ujjak még mindig problémásak lehetnek. Megoldás: olyan kompozíciókat választottunk, ahol a kezek nem hangsúlyosak.
- Szöveges elemek: Ha a képen szöveget akartunk (könyvborító, tábla), azt utólag illesztettük be Canva-val.
3. lépés: Narráció – ElevenLabs
A narrációhoz az ElevenLabs AI hangszintézis platformját használtuk. Az ElevenLabs messze a legtermészetesebb hangot produkáló AI szolgáltatás jelenleg – sokszor meg sem lehet különböztetni az emberi hangtól.
A hangválasztás folyamata
Az ElevenLabs több ezer előre készített hangot kínál, és saját hangot is klónozhatsz (amihez természetesen engedély szükséges). Mi a következőt csináltuk:
- Hangválogatás: Végighallgattunk mintegy 20 különböző hangot, amelyek passzoltak a film hangulatához. Egy meleg, kissé rekedtes női hangot választottunk, amely illeszkedett a főszereplő karakteréhez.
- Próba generálás: A forgatókönyv első bekezdését legyártottuk 5 különböző hanggal, és összehasonlítottuk.
- Érzelem beállítás: Az ElevenLabs lehetővé teszi a beszéd érzelmi tónusának finomhangolását. A «stability» csúszkával szabályoztuk a hangszín változatosságát, a «clarity» pedig a tisztaságot állítja.
- Szünetkezelés: A szövegben «...» és vesszők stratégiai elhelyezésével szabályoztuk a narráció tempóját.
A teljes narráció (3 perc 22 másodperc beszéd) generálása körülbelül 30 percet vett igénybe, beleértve a próbákat és a finomhangolást. A végeredmény megdöbbentően természetes volt – tesztelőink többsége nem hitte el, hogy nem élő ember mondta fel a szöveget.
4. lépés: Zenei aláfestés – Suno
A filmhez két zenei darabra volt szükségünk: egy melankolikus főtémára és egy reményteli záró zenére. Ehhez a Suno AI zenegenerátort használtuk.
A zenei koncepció
A Suno-nál szöveges leírással (prompt) generálhatsz teljes zeneszámokat. A mi promptjaink így néztek ki:
- Főtéma: «Melancholic piano piece, slow tempo, cinematic, emotional, minor key, with subtle strings in the background, dust and nostalgia feeling, 90 BPM»
- Záró zene: «Hopeful orchestral piece, building from quiet piano to full strings, major key resolution, cinematic, emotional uplift, 100 BPM»
A Suno 4 verziót generált mindkét promptból, és a legjobbat választottuk. A zenei minőség meglepően magas volt – a főtéma különösen sikerült, és tökéletesen illeszkedett a film hangulatához.
Töltsd le a Midjourney és DALL-E stílus gyűjteményt: 100+ bevált prompt sablon fotórealisztikus, illusztráció és 3D képekhez.
Ingyenes letöltés →Fontos tudni: A Suno ingyenes verziójában a generált zenéket nem használhatod kereskedelmi célra. A Pro csomag ($10/hó) már kereskedelmi licencet is tartalmaz.
5. lépés: Összevágás és animáció – Runway
Az utolsó lépés a legizgalmasabb: az összes elem összevágása egy koherens rövidfilmmé. Ehhez a Runway ML platformot használtuk, amely AI-alapú videószerkesztő és generáló eszköz.
A Runway két kulcsfunkciója
- Kép-videó konverzió (Image-to-Video): A Midjourney-jel készített állóképeket a Runway Gen-3 Alpha modellje mozgóképpé alakította. Nem drámai mozgásokról van szó, hanem finom animációkról: lassan szálló porszemek, gyertyaláng lobbanása, könyvlapok enyhe mozdulata a szélben. Ez adja a film mozgóképes karakterét.
- Videószerkesztő: A Runway beépített szerkesztőjében vágtuk össze a klipeket, illesztettük hozzá a narrációt és a zenét, és állítottuk be az átmeneteket.
A vágás folyamata
- Idővonal építés: Először a narrációt helyeztük el az idővonalon, mert ez határozta meg a film tempóját.
- Képek illesztése: Minden narrációs szakaszhoz hozzárendeltük a megfelelő vizuális elemeket. A képek váltását a narráció természetes szüneteihez igazítottuk.
- Animáció: Minden állóképből 4-8 másodperces mozgóképet generáltunk a Runway Image-to-Video funkciójával. A mozgás típusát és irányát prompttal határoztuk meg.
- Zene és hangeffektek: A zenét és néhány ambient hangeffektet (könyvlapozás, léptek) az utolsó fázisban illesztettük hozzá.
- Színkorrekció: Egységes színpalettát alkalmaztunk a teljes filmre, hogy vizuálisan koherens legyen.
Az összevágás körülbelül 3 órát vett igénybe. A Runway felülete intuitív, és a legtöbb funkció nem igényel korábbi vágási tapasztalatot.
Az eredmény értékelése
A kész rövidfilm 3 perc 22 másodperces lett, és őszintén szólva jobbra sikerült, mint amire számítottunk. Íme az értékelésünk:
Ami jól sikerült
- Hangulat: A narráció, a zene és a vizuális világ együtt erős hangulatot teremt. Többen mondták, hogy «megható» volt.
- Vizuális minőség: A Midjourney képek önmagukban is gyönyörűek, és a Runway animáció hozzáadott egy filmes réteget.
- Narráció: Az ElevenLabs hang annyira természetes, hogy a legtöbb néző nem vette észre, hogy AI generálta.
- Költségek: A teljes projekt költsége mindössze kb. $15 volt (Midjourney, ElevenLabs, Suno, Runway előfizetések arányos része).
Ami kevésbé sikerült
- Karakter konzisztencia: Bár a főszereplő végig felismerhető, apró különbségek vannak a jelenetek között (hajszín árnyalata, szemüveg formája). Ez az AI képgenerálás jelenlegi korlátja.
- Mozgás limitáció: A Runway animáció finom, de korlátozott. Nincs benne drámai mozgás vagy kameramozgás – inkább «élő fotó» érzetet ad.
- Ajakszinkron: Mivel a karakter nem beszél (csak narrációt hallunk), ez nem volt probléma, de egy dialógus-alapú filmnél ez komoly kihívás lenne.
Mennyibe került és mennyi idő volt?
Összesítve a projekt költségeit és időráfordítását:
- Forgatókönyv (ChatGPT): 2 óra | $0 (ingyenes verzióval is megoldható)
- Képgenerálás (Midjourney): 4 óra | ~$5 (Standard csomag arányos része)
- Narráció (ElevenLabs): 30 perc | ~$3 (Starter csomag arányos része)
- Zene (Suno): 30 perc | ~$2 (Pro csomag arányos része)
- Vágás (Runway): 3 óra | ~$5 (Standard csomag arányos része)
Összesen: ~10 óra munka, ~$15 költség. Összehasonlításképpen: egy hasonló minőségű hagyományos rövidfilm forgatása legalább 3-5 napot és több ezer dollárt igényelne.
Kinek érdemes kipróbálni az AI filmkészítést?
- Tartalomgyártók: YouTube, TikTok, Instagram videókhoz az AI filmkészítés gyors és olcsó módja a vizuálisan meggyőző tartalom készítésének.
- Vállalkozók: Termékbemutató videók, explainer videók, brandfilmek készítése töredék áron.
- Oktatók: Oktatóanyagok, bemutató videók, vizualizációk készítése.
- Kreatívok: Koncepció videók, mood boardok, pitch anyagok elkészítése.
- Hobbisták: Aki szeret alkotni, de nincs hozzáférése professzionális filmkészítő eszközökhöz.
Gyakorlati tippek AI filmkészítéshez
Ha te is szeretnél kipróbálni, íme a legfontosabb tanácsaink:
- Kezdd a történettel: Ne az eszközökkel kezdj, hanem a történettel. Mi az üzeneted? Mit szeretnél, hogy a néző érezzen? Az AI eszközök csak annyira jók, amennyire jó az ötleted.
- Dolgozz vizuális stíluslap-pal: Mielőtt képeket generálsz, határozd meg a vizuális stílust: színpaletta, megvilágítás, hangulat. Gyűjts referencia képeket.
- Narráció-vezérelt szerkesztés: Ha van narrációd, azt vágd össze először, és a képeket ehhez igazítsd. Ez sokkal természetesebb ritmust ad.
- Kevesebb mozgás, több hangulat: Az AI animáció még korlátozott. Ahelyett, hogy erőltetett mozgásokat próbálnál, használj lassú áttűnéseket, zoom-okat és finom animációkat.
- Ne akarj mindent AI-val: Ha van egy elem, amit gyorsabban és jobban meg tudsz csinálni hagyományosan (pl. egy felirat hozzáadása Canva-val), csináld úgy. Az AI egy eszköz, nem dogma.
Az AI filmkészítés nem a hagyományos filmkészítés helyettesítője – ez egy teljesen új médium. Saját szabályokkal, saját esztétikával, és saját lehetőségekkel.
Mi jön ezután? Az AI filmkészítés jövője
2026 az AI filmkészítés áttörésének éve. Íme, mire számíthatunk a közeljövőben:
- Teljes videógenerálás szövegből: Az OpenAI Sora, a Google Veo 2, és a Runway Gen-3 már képes összefüggő, több másodperces videókat generálni szövegből. Ez hamarosan percekre bővül.
- Karakter konzisztencia: A következő generációs modellek megoldják a karakter-konzisztencia problémáját, lehetővé téve hosszabb, összefüggő történeteket.
- Interaktív filmek: Az AI lehetővé teszi majd, hogy a nézők valós időben befolyásolják a történet alakulását.
- Demokratizálódás: Az AI filmkészítő eszközök ára tovább csökken, és egyre könnyebbé válik a használatuk. 1-2 éven belül bárki készíthet professzionális minőségű rövid videókat.
Ha szeretnéd felfedezni, milyen más AI eszközök segíthetnek a kreatív munkádban, olvasd el az AI eszközök tartalomkészítéshez cikkünket, vagy nézd meg a legjobb mesterséges intelligencia alkalmazások összefoglalónkat.
Összefoglalás
Egy 3 perces rövidfilmet készítettünk teljes egészében AI eszközökkel, mindössze 10 óra alatt és nagyjából $15-ért. Az eredmény nem tökéletes, de meggyőző – és ami a legfontosabb, bárki számára elérhető. A ChatGPT írta a forgatókönyvet, a Midjourney készítette a képeket, az ElevenLabs adta a narrációt, a Suno szerezte a zenét, és a Runway vágta össze az egészet. Az AI filmkészítés nem a jövő – a jelen. És most, hogy tudod hogyan, nincs más hátra, mint kipróbálni.


