Mi történik, ha egy rövidfilmet teljes egészében mesterséges intelligenciával készítesz? Nem kell kamera, színészek, stúdió vagy vágószoftver-tudás – csak egy laptop és néhány AI eszköz. Pontosan ezt próbáltuk ki: 3 perc 22 másodperces rövidfilmet készítettünk, ahol minden elemet AI generált – a forgatókönyvtől a képeken és a narrációt át a zenéig. Ebben a cikkben lépésről lépésre bemutatjuk a teljes folyamatot, az eszközöket és az eredményt.

A projekt: «Az utolsó könyvtáros»

A rövidfilm egy sci-fi történet egy jövőbeli világról, ahol az emberek már nem olvasnak könyveket – minden információt az AI szolgáltat. Az utolsó könyvtáros napjait követjük, ahogy a világ utolsó fizikai könyvtárát próbálja megmenteni. A téma szándékosan ironikus: egy AI-ról szóló filmet teljes egészében AI-val készítettünk.

A projekt célja nem az volt, hogy hollywoodi minőséget hozzunk létre, hanem hogy megmutassuk: 2026-ban egy átlagos felhasználó is képes vizuálisan meggyőző rövidfilmet készíteni, kizárólag AI eszközökkel.

1. lépés: Forgatókönyv – ChatGPT

Az első lépés a forgatókönyv megírása volt. Ehhez a ChatGPT-t használtuk (GPT-4o modell). Nem egyetlen prompttal kértük el a teljes forgatókönyvet, hanem lépésenként dolgoztunk:

  1. Koncepció és logline: Először a film alapötletét és a logline-t (egymondatos összefoglalót) kértük meg. Több verziót generáltunk, és a legjobbat választottuk ki.
  2. Karakterfejlesztés: Megkértük a ChatGPT-t, hogy dolgozza ki a főszereplő karakterét: neve, kora, motivációi, belső konfliktusa.
  3. Jelenetbontás: A történetet 8 jelenetre bontottuk. Minden jelenethez kértünk vizuális leírást (mit látunk), narrációs szöveget (mit hallunk), és hangulati leírást.
  4. Narráció finomhangolása: A narrációs szöveget többször átírtuk, amíg a hangnem egyszerre volt melankolikus és reményteli.

A teljes forgatókönyv-írás körülbelül 2 órát vett igénybe, beleértve az iterációkat. A kulcs az volt, hogy jó promptokat írtunk: pontos instrukciók, kontextus, és mindig egy lépéssel haladtunk előre.

Tipp: Ne kérd a teljes forgatókönyvet egyszerre! Bontsd fel lépésekre – koncepció, karakterek, jelenetek, dialógusok – és minden lépésnél finomíts. Így sokkal jobb eredményt kapsz.

2. lépés: Képek és vizuális világ – Midjourney

A vizuális világhoz a Midjourney v6.1-et használtuk. Minden jelenethez 2-4 képet generáltunk, amelyek együtt adják a vizuális narratívát. Ez volt a projekt legtöbb időt igénylő része.

A prompt stratégia

A Midjourney-nál a konzisztencia a legnagyobb kihívás. Hogyan biztosítod, hogy a főszereplő minden képen ugyanúgy nézzen ki? Íme a módszerünk:

  • Karakter referencia: Először létrehoztunk egy részletes karakter leírást: «elderly woman, 70s, silver hair in a bun, round glasses, worn cardigan, gentle expression, cinematic lighting.» Ezt minden promptba beleillesztettük.
  • Stílus konzisztencia: A «--sref» (style reference) paramétert használtuk, hogy minden kép azonos vizuális stílusban készüljön.
  • Képarány: Minden képet 16:9 arányban generáltunk (--ar 16:9), hogy videóhoz illeszkedjen.
  • Hangulati kulcsszavak: Minden jelenethez meghatároztuk a hangulati kulcsszavakat: «warm golden light», «melancholic atmosphere», «dust particles in air.»

Összesen 47 képet generáltunk, amelyből 24-et használtunk fel a végső filmben. Minden jelenethez 3-4 képet választottunk ki, amelyek együtt mesélnek egy vizuális történetet. A teljes képgenerálás körülbelül 4 órát vett igénybe.

Ha érdekel a képgenerálás világa, olvasd el az AI képgenerátorok összehasonlító cikkünket.

Gyakori problémák és megoldások

  • Karakter inkonzisztencia: A Midjourney néha «elfelejtette» a karakter részleteit. Megoldás: a --cref (character reference) funkció használata egy korábbi, jól sikerült képpel.
  • Kezek és ujjak: Közeli képeknél a kezek és ujjak még mindig problémásak lehetnek. Megoldás: olyan kompozíciókat választottunk, ahol a kezek nem hangsúlyosak.
  • Szöveges elemek: Ha a képen szöveget akartunk (könyvborító, tábla), azt utólag illesztettük be Canva-val.

3. lépés: Narráció – ElevenLabs

A narrációhoz az ElevenLabs AI hangszintézis platformját használtuk. Az ElevenLabs messze a legtermészetesebb hangot produkáló AI szolgáltatás jelenleg – sokszor meg sem lehet különböztetni az emberi hangtól.

A hangválasztás folyamata

Az ElevenLabs több ezer előre készített hangot kínál, és saját hangot is klónozhatsz (amihez természetesen engedély szükséges). Mi a következőt csináltuk:

  1. Hangválogatás: Végighallgattunk mintegy 20 különböző hangot, amelyek passzoltak a film hangulatához. Egy meleg, kissé rekedtes női hangot választottunk, amely illeszkedett a főszereplő karakteréhez.
  2. Próba generálás: A forgatókönyv első bekezdését legyártottuk 5 különböző hanggal, és összehasonlítottuk.
  3. Érzelem beállítás: Az ElevenLabs lehetővé teszi a beszéd érzelmi tónusának finomhangolását. A «stability» csúszkával szabályoztuk a hangszín változatosságát, a «clarity» pedig a tisztaságot állítja.
  4. Szünetkezelés: A szövegben «...» és vesszők stratégiai elhelyezésével szabályoztuk a narráció tempóját.

A teljes narráció (3 perc 22 másodperc beszéd) generálása körülbelül 30 percet vett igénybe, beleértve a próbákat és a finomhangolást. A végeredmény megdöbbentően természetes volt – tesztelőink többsége nem hitte el, hogy nem élő ember mondta fel a szöveget.

4. lépés: Zenei aláfestés – Suno

A filmhez két zenei darabra volt szükségünk: egy melankolikus főtémára és egy reményteli záró zenére. Ehhez a Suno AI zenegenerátort használtuk.

A zenei koncepció

A Suno-nál szöveges leírással (prompt) generálhatsz teljes zeneszámokat. A mi promptjaink így néztek ki:

  • Főtéma: «Melancholic piano piece, slow tempo, cinematic, emotional, minor key, with subtle strings in the background, dust and nostalgia feeling, 90 BPM»
  • Záró zene: «Hopeful orchestral piece, building from quiet piano to full strings, major key resolution, cinematic, emotional uplift, 100 BPM»

A Suno 4 verziót generált mindkét promptból, és a legjobbat választottuk. A zenei minőség meglepően magas volt – a főtéma különösen sikerült, és tökéletesen illeszkedett a film hangulatához.

🎨
Képgeneráló Stílus Gyűjtemény — 100+ stílus

Töltsd le a Midjourney és DALL-E stílus gyűjteményt: 100+ bevált prompt sablon fotórealisztikus, illusztráció és 3D képekhez.

Ingyenes letöltés →

Fontos tudni: A Suno ingyenes verziójában a generált zenéket nem használhatod kereskedelmi célra. A Pro csomag ($10/hó) már kereskedelmi licencet is tartalmaz.

5. lépés: Összevágás és animáció – Runway

Az utolsó lépés a legizgalmasabb: az összes elem összevágása egy koherens rövidfilmmé. Ehhez a Runway ML platformot használtuk, amely AI-alapú videószerkesztő és generáló eszköz.

A Runway két kulcsfunkciója

  1. Kép-videó konverzió (Image-to-Video): A Midjourney-jel készített állóképeket a Runway Gen-3 Alpha modellje mozgóképpé alakította. Nem drámai mozgásokról van szó, hanem finom animációkról: lassan szálló porszemek, gyertyaláng lobbanása, könyvlapok enyhe mozdulata a szélben. Ez adja a film mozgóképes karakterét.
  2. Videószerkesztő: A Runway beépített szerkesztőjében vágtuk össze a klipeket, illesztettük hozzá a narrációt és a zenét, és állítottuk be az átmeneteket.

A vágás folyamata

  • Idővonal építés: Először a narrációt helyeztük el az idővonalon, mert ez határozta meg a film tempóját.
  • Képek illesztése: Minden narrációs szakaszhoz hozzárendeltük a megfelelő vizuális elemeket. A képek váltását a narráció természetes szüneteihez igazítottuk.
  • Animáció: Minden állóképből 4-8 másodperces mozgóképet generáltunk a Runway Image-to-Video funkciójával. A mozgás típusát és irányát prompttal határoztuk meg.
  • Zene és hangeffektek: A zenét és néhány ambient hangeffektet (könyvlapozás, léptek) az utolsó fázisban illesztettük hozzá.
  • Színkorrekció: Egységes színpalettát alkalmaztunk a teljes filmre, hogy vizuálisan koherens legyen.

Az összevágás körülbelül 3 órát vett igénybe. A Runway felülete intuitív, és a legtöbb funkció nem igényel korábbi vágási tapasztalatot.

Az eredmény értékelése

A kész rövidfilm 3 perc 22 másodperces lett, és őszintén szólva jobbra sikerült, mint amire számítottunk. Íme az értékelésünk:

Ami jól sikerült

  • Hangulat: A narráció, a zene és a vizuális világ együtt erős hangulatot teremt. Többen mondták, hogy «megható» volt.
  • Vizuális minőség: A Midjourney képek önmagukban is gyönyörűek, és a Runway animáció hozzáadott egy filmes réteget.
  • Narráció: Az ElevenLabs hang annyira természetes, hogy a legtöbb néző nem vette észre, hogy AI generálta.
  • Költségek: A teljes projekt költsége mindössze kb. $15 volt (Midjourney, ElevenLabs, Suno, Runway előfizetések arányos része).

Ami kevésbé sikerült

  • Karakter konzisztencia: Bár a főszereplő végig felismerhető, apró különbségek vannak a jelenetek között (hajszín árnyalata, szemüveg formája). Ez az AI képgenerálás jelenlegi korlátja.
  • Mozgás limitáció: A Runway animáció finom, de korlátozott. Nincs benne drámai mozgás vagy kameramozgás – inkább «élő fotó» érzetet ad.
  • Ajakszinkron: Mivel a karakter nem beszél (csak narrációt hallunk), ez nem volt probléma, de egy dialógus-alapú filmnél ez komoly kihívás lenne.

Mennyibe került és mennyi idő volt?

Összesítve a projekt költségeit és időráfordítását:

  • Forgatókönyv (ChatGPT): 2 óra | $0 (ingyenes verzióval is megoldható)
  • Képgenerálás (Midjourney): 4 óra | ~$5 (Standard csomag arányos része)
  • Narráció (ElevenLabs): 30 perc | ~$3 (Starter csomag arányos része)
  • Zene (Suno): 30 perc | ~$2 (Pro csomag arányos része)
  • Vágás (Runway): 3 óra | ~$5 (Standard csomag arányos része)

Összesen: ~10 óra munka, ~$15 költség. Összehasonlításképpen: egy hasonló minőségű hagyományos rövidfilm forgatása legalább 3-5 napot és több ezer dollárt igényelne.

Kinek érdemes kipróbálni az AI filmkészítést?

  • Tartalomgyártók: YouTube, TikTok, Instagram videókhoz az AI filmkészítés gyors és olcsó módja a vizuálisan meggyőző tartalom készítésének.
  • Vállalkozók: Termékbemutató videók, explainer videók, brandfilmek készítése töredék áron.
  • Oktatók: Oktatóanyagok, bemutató videók, vizualizációk készítése.
  • Kreatívok: Koncepció videók, mood boardok, pitch anyagok elkészítése.
  • Hobbisták: Aki szeret alkotni, de nincs hozzáférése professzionális filmkészítő eszközökhöz.

Gyakorlati tippek AI filmkészítéshez

Ha te is szeretnél kipróbálni, íme a legfontosabb tanácsaink:

  1. Kezdd a történettel: Ne az eszközökkel kezdj, hanem a történettel. Mi az üzeneted? Mit szeretnél, hogy a néző érezzen? Az AI eszközök csak annyira jók, amennyire jó az ötleted.
  2. Dolgozz vizuális stíluslap-pal: Mielőtt képeket generálsz, határozd meg a vizuális stílust: színpaletta, megvilágítás, hangulat. Gyűjts referencia képeket.
  3. Narráció-vezérelt szerkesztés: Ha van narrációd, azt vágd össze először, és a képeket ehhez igazítsd. Ez sokkal természetesebb ritmust ad.
  4. Kevesebb mozgás, több hangulat: Az AI animáció még korlátozott. Ahelyett, hogy erőltetett mozgásokat próbálnál, használj lassú áttűnéseket, zoom-okat és finom animációkat.
  5. Ne akarj mindent AI-val: Ha van egy elem, amit gyorsabban és jobban meg tudsz csinálni hagyományosan (pl. egy felirat hozzáadása Canva-val), csináld úgy. Az AI egy eszköz, nem dogma.
Az AI filmkészítés nem a hagyományos filmkészítés helyettesítője – ez egy teljesen új médium. Saját szabályokkal, saját esztétikával, és saját lehetőségekkel.

Mi jön ezután? Az AI filmkészítés jövője

2026 az AI filmkészítés áttörésének éve. Íme, mire számíthatunk a közeljövőben:

  • Teljes videógenerálás szövegből: Az OpenAI Sora, a Google Veo 2, és a Runway Gen-3 már képes összefüggő, több másodperces videókat generálni szövegből. Ez hamarosan percekre bővül.
  • Karakter konzisztencia: A következő generációs modellek megoldják a karakter-konzisztencia problémáját, lehetővé téve hosszabb, összefüggő történeteket.
  • Interaktív filmek: Az AI lehetővé teszi majd, hogy a nézők valós időben befolyásolják a történet alakulását.
  • Demokratizálódás: Az AI filmkészítő eszközök ára tovább csökken, és egyre könnyebbé válik a használatuk. 1-2 éven belül bárki készíthet professzionális minőségű rövid videókat.

Ha szeretnéd felfedezni, milyen más AI eszközök segíthetnek a kreatív munkádban, olvasd el az AI eszközök tartalomkészítéshez cikkünket, vagy nézd meg a legjobb mesterséges intelligencia alkalmazások összefoglalónkat.

Összefoglalás

Egy 3 perces rövidfilmet készítettünk teljes egészében AI eszközökkel, mindössze 10 óra alatt és nagyjából $15-ért. Az eredmény nem tökéletes, de meggyőző – és ami a legfontosabb, bárki számára elérhető. A ChatGPT írta a forgatókönyvet, a Midjourney készítette a képeket, az ElevenLabs adta a narrációt, a Suno szerezte a zenét, és a Runway vágta össze az egészet. Az AI filmkészítés nem a jövő – a jelen. És most, hogy tudod hogyan, nincs más hátra, mint kipróbálni.