Helyi AI modell a gépeden: Ollama útmutató magyarul

Helyi AI modell telepítése Ollamával a saját gépen

Képzeld el a szituációt: egy ügyfeled bizalmas szerződéstervezetet küld, és azt kell összefoglalnod, kivonatolnod. Bemásolod a ChatGPT-be – és egyszer csak elgondolkozol azon, hogy ez az adat most valahol egy adatközpontban landolt. Lehet, hogy edzési adatként végzi. Lehet, hogy nem, de biztosan nem tudod. Ez az a pillanat, ahol sokan elkezdik komolyabban venni a helyi AI modell ötletét.

A helyi, angolul «local» LLM (Large Language Model) azt jelenti, hogy a mesterséges intelligencia nem valaki más szerverén fut, hanem a saját gépeden. Nincs szükség internetkapcsolatra a használathoz, az adataid nem hagyják el a számítógépedet, és nincs havi előfizetési díj. Az Ollama az a szoftver, amely ezt a folyamatot a lehető legegyszerűbbé teszi – szó szerint néhány terminálparancsba fér az egész.

Ez a cikk lépésről lépésre végigvezet azon, hogyan telepítsd, mire számíts, és mikor érdemes egyáltalán helyi modellt választani a felhős alternatíva helyett.

Mit jelent az, hogy «helyi AI modell»?

A ChatGPT, a Claude AI magyarul bemutatott működése, vagy a Gemini mind felhőalapú megoldások. Elküldöd a kérdésedet az interneten, egy hatalmas szerverparkban feldolgozzák, visszajön a válasz. Gyors, erős, és folyamatosan fejlesztett – de az adataid utaznak.

A helyi LLM ezzel szemben a saját géped processzorán és memóriáján fut. A modell fájljai nálad vannak, a számítások nálad zajlanak, és a szöveg egyetlen bájt erejéig sem hagyja el a gépet. Ez egyfajta visszatérés a szoftveres gondolkodásmódhoz: telepíted, és használod, akárcsak egy irodai alkalmazást.

Az Ollama ezen belül egy keretrendszer, amely elvégzi a nehézliftinget: letölti a modellt, betölti a memóriába, és elindít egy helyi API-kiszolgálót, amellyel parancssorból vagy böngészőből is kommunikálhatsz.

Miért érdemes kipróbálni, és mikor nem

Négy komoly érv szól a helyi modellek mellett, de legyünk őszinték a korlátokkal is.

Adatvédelem. Ami a gépen marad, az a gépen marad. Érzékeny dokumentumok, orvosi adatok, üzleti szerződések – mind feldolgozhatók anélkül, hogy bárki más hozzáférne. Ez különösen fontos GDPR-szempontból, ha személyes adatokkal dolgozol.

Offline működés. Repülőn, vidéki nyaralón, gyenge mobilneten is teljes értékű AI-t kapsz. Nincs «szerver karbantartás alatt» üzenet, nincs API-limit, nincs leállás.

Nincs havidíj. A modellek ingyenesen letölthetők. Az Ollama szoftver maga is ingyenes és nyílt forráskódú. Egyszer letöltöd, utána korlátlanul kísérletezhetsz – ez különösen vonzó, ha sokat tesztelsz különböző promptokat.

Korlátlan kísérletezés. Ha vibe coding stílusban fejlesztesz és rengeteg kisebb kérést küldesz, a token-költség felhős modellnél gyorsan összeadódik. Helyi modellnél ez nem kérdés.

Ugyanakkor fontos, hogy ne szépítsük a képet. A helyi modellek – még a legjobbak is – lemaradnak a felhős óriások mögött több szempontból. A GPT-4o, a Claude Sonnet vagy a Gemini Ultra hosszabb kontextust kezel, bonyolultabb érvelési feladatokat old meg, és általánosan pontosabb. Ha a Claude és ChatGPT 2026-os összehasonlítását nézed, a felhős modellek nyernek a tiszta képességek terén.

Egy gyengébb gépen a helyi modell lassan válaszol – egyes esetekben perceket kell várni egyetlen válaszra. GPU nélkül, csak CPU-n futtatva ez különösen igaz. A nagyobb, pontosabb modellek több gigabájt RAM-ot igényelnek, és ha nincs elég, a gép csigává lassul.

Milyen gép kell hozzá?

A jó hír: nem kell csúcsgép. A kevésbé jó: azért van egy minimális küszöb.

A 7 milliárd paraméteres (7B) modellek kvantált formában – ami egy tömörítési technika, amely csökkenti a modell memóriaigényét a minőség kisebb feláldozásával – 8 GB RAM-mal is futnak. Ez a legtöbb modern laptop alapkonfigurációja. 16 GB RAM esetén már sokkal kényelmesebb a feltétel, és 14B-es modelleket is futtatni lehet belátható sebességgel.

A GPU – pontosabban a VRAM – az, ami igazán számít a sebességnél. Ha van NVIDIA kártyád legalább 8 GB VRAM-mal, az Ollama automatikusan azt használja, és a válaszok drámaian gyorsabbak lesznek, mint CPU-n futtatva.

Az Apple Silicon chipek (M1, M2, M3, M4 sorozat) különleges helyzetben vannak: az egységes memóriaarchitektúra (Unified Memory) miatt ugyanaz a RAM-chip szolgál CPU-nak és GPU-nak is. Egy M2 Pro MacBook Pro 16 GB memóriával simán futtat 13B-es modelleket élvezhető sebességgel.

Windows és Linux alatt az NVIDIA GPU az ideális. AMD GPU-val (ROCm támogatással) szintén működik, de kicsit macerasabb a beállítás. CPU-only módban is megy – csak lassabb.

Ollama telepítése és az első chat: lépésről lépésre

Töltsd le az Ollamát az ollama.com oldalról. A főoldalon azonnal látszik a letöltési gomb – macOS, Windows és Linux verzió érhető el. Válaszd a gépednek megfelelőt.
Telepítsd a szoftvert. macOS-en nyisd meg a letöltött .dmg fájlt, és húzd az Ollama ikont az Applications mappába, ahogy bármely más Mac alkalmazásnál tennéd. Windows alatt futtasd az .exe telepítőt és kövesd a lépéseket.
Nyiss meg egy terminált. macOS-en: Command + Space, majd írd be: Terminal. Windows alatt keresd meg a PowerShellt vagy a Command Promptot a Start menüben. Az Ollama telepítése után a háttérben elindul egy kis ikon a menüsorban.
Töltsd le és indítsd el az első modellt. Írd be a terminálba:

ollama run llama3.2

Az Ollama letölti a Llama 3 modellt (ez néhány gigabájt, az első alkalommal eltarthat egy ideig), majd automatikusan elindítja a csevegőfelületet. A >>> prompt jelzi, hogy kész és vár.
Tedd fel az első kérdésedet. Írj be bármit – magyarul vagy angolul – és nyomj Entert. Például: Írj egy rövid összefoglalót az adatvédelem fontosságáról. A modell azonnal dolgozni kezd, teljesen offline, a saját gépeden.
Kilépés és más modellek tesztelése. A chatből a /bye paranccsal léphetsz ki. Utána kipróbálhatsz más modelleket is: ollama run mistral, ollama run gemma3, ollama run qwen2.5 vagy ollama run deepseek-r1. Minden első futtatás letölti a modellt, a következő indítások már azonnal elkezdenek.
Grafikus felület hozzáadása (opcionális). Ha a terminál helyett böngészőben szeretnél chatteni, az Open WebUI projekt egy ChatGPT-szerű felületet ad az Ollama fölé. Docker segítségével egyetlen paranccsal elindul, és utána a localhost:3000 címen érhető el.

Az egész folyamat – a letöltéstől az első válaszig – általában 15–30 percet vesz igénybe az első modell letöltési idejével együtt. Utána az újraindítás másodpercek kérdése.

Melyik modellt válaszd?

Az Ollama modelltárában több tucat lehetőség közül választhatsz. Az ollama list parancs megmutatja a már letöltötteket, az ollama pull paranccsal újakat tölthetsz le.

A paraméterszám – 7B, 8B, 14B, 32B – azt jelzi, hány milliárd tanulható súlya van a modellnek. Több paraméter általában jobb teljesítményt jelent, de több memóriát és lassabb futást is. A «Q4» vagy «Q8» jelölések a kvantálás szintjét jelzik – Q4 kisebb, gyorsabb, kicsit pontatlanabb; Q8 pontosabb, de nagyobb helyigényű.

A leggyakrabban ajánlott modellek kezdőknek:

Llama (Meta): Az egyik legismertebb nyílt modellcsalád, erős általános teljesítménnyel, jó angol tudással. A 8B-es változat legtöbb gépen gond nélkül fut, írási és összefoglaló feladatokra kimondottan megbízható.
Mistral: Kis méretben meglepően jó teljesítménnyel. A 7B-es változat sok feladatban felülmúlja a nagyobb modelleket. Különösen kódoláshoz és tömör válaszokhoz kedvelt. Ha érdekel az AI automatizálás magyar nyelven, a Mistral API-kompatibilis helyi futtatása jó tesztelési alap.
Gemma (Google): A Google nyílt modellje, kisebb méretben is jól teljesít általános feladatokon. A 2B-es változat igen kis gépen is elfut, és gyors válaszokat ad.
Qwen (Alibaba): Kínai fejlesztésű modell, amely európai és ázsiai nyelveken jellemzően jobban teljesít, mint a nyugati versenytársak. Ha magyar szöveggel dolgozol, a Qwen modellek érdemes próba.
DeepSeek: A DeepSeek R1 nyílt forráskódú modell részletes elemzésében leírtuk, miért váltott ki akkora figyelmet ez a kínai fejlesztésű modellcsalád. Helyi futtatáshoz a kisebb desztillált változatai jó kiindulópontok.

Ha nem tudod, hol kezdd: az ollama run llama3.2 vagy az ollama run mistral paranccsal indulj el. Mindkét modell letölthető 8 GB RAM mellett is, és általános írási, összefoglaló, kódolási feladatokhoz jól használhatók.

Helyi vs. felhős modell – összehasonlítás

Szempont	Helyi modell (Ollama)	Felhős modell (ChatGPT/Claude)
Adatvédelem	Teljes – adat nem hagyja el a gépet	Adatok a szolgáltató szervereire kerülnek
Költség	Ingyenes (csak áramfogyasztás)	Havi díj vagy token-alapú számlázás
Modell képessége	Közepes – jó általános feladatokhoz	Magas – komplex érvelés, hosszú kontextus
Sebesség	Változó – GPU-val gyors, CPU-n lassú	Általában gyors, terheléstől függ
Internet szükséges	Nem – teljesen offline fut	Igen – állandó kapcsolat szükséges
Kontextusablak	Modelltől függően 8K–128K token	Nagyobb – akár 200K token felett is

Mire jó a gyakorlatban?

Érzékeny dokumentumok feldolgozása. Ügyvédi szerződések, orvosi leletek, HR dokumentumok összefoglalása, kivonatolása, kérdések megválaszolása róluk – mind elvégezhetők úgy, hogy az adat egyetlen lépésben sem hagyja el a céges gépet. Ez az a felhasználási eset, ahol a helyi modell nem kompromisszum, hanem szükségszerűség.

Offline írás és ötletelés. Ha vonaton vagy repülőn dolgozol, a helyi modell éppúgy segít szövegeket javítani, leveleket szerkeszteni, ötleteket strukturálni – internetkapcsolat nélkül is. Sokaknak ez már önmagában megéri a beállítást.

Automatizáláshoz és fejlesztéshez. Az Ollama helyi API-t is elindít (alapból a localhost:11434 címen), amelyet programok is hívhatnak. Ha n8n-nel építed az első AI automatizálásodat, a helyi Ollama-végpont beköthető AI-csomópontként – fizetős API-kulcs nélkül tesztelhetsz.

Kísérletezés és tanulás. Ha a Claude Code fogalmait és működését tanulmányozod, a helyi futtatás kitűnő lehetőség. Módosíthatod a rendszerpromptot, tesztelhetsz különböző paramétereket, összehasonlíthatod, mi változik.

📄

Ingyenes AI eszköz útmutató

Töltsd le a legjobb ingyenes és nyílt AI eszközök gyűjteményét, helyi és felhős megoldásokkal, konkrét felhasználási esetekkel, magyarul magyarázva.

Ingyenes letöltés →

LM Studio: grafikus alternatíva azoknak, akik nem barátok a terminállal

Ha a parancssor gondolata kicsit ijesztő, az LM Studio lehet a te megoldásod. Ez egy ingyenes, grafikus asztali alkalmazás (Windows, macOS, Linux), amely ugyanazt csinálja, mint az Ollama, de egy kattintásos felülettel.

Az LM Studio tartalmaz egy beépített modellböngészőt (ahol a Hugging Face modelltárból tudsz keresni és letölteni), egy chat felületet, amely nagyon hasonlít a ChatGPT-re, és egy beépített API-kiszolgálót, amelyet programozási projektekbe is be lehet kötni.

Az LM Studio jó választás, ha gyorsan szeretnél elindulni és nem akarsz terminálparancsokat tanulni. Az Ollama ezzel szemben könnyebben integrálható fejlesztési projektekbe. Sok ember mindkettőt telepíti: az LM Studio-t a gyors teszteléshez, az Ollamát a fejlesztési integrációhoz.

A Gemini, ChatGPT és Claude részletes összehasonlításában látható, hogy a felhős modellek mennyivel szélesebb képességekkel rendelkeznek – de az LM Studio és az Ollama lehetővé teszi, hogy megértsd azt is, mi az, amit a kisebb, helyi modellek valójában tudnak, és mi az, amit nem.

Reális elvárások – mire ne számíts

A helyi modellek 2026-ban már meglepően jók, de van néhány terület, ahol a felhős versenytársak egyértelműen jobbak.

A hosszú dokumentumok kezelése a helyi modellek gyenge pontja. Egy 7-8B-es modell kontextusablaka modelltől függően 8 ezertől akár 128 ezer tokenig terjed (a Llama 3.1 8B például 128 ezret is kezel), bár a nagy kontextus jelentős memóriát igényel. A Claude vagy a GPT-4o felhőben ennél is többet kezel. Ha egy 80 oldalas szerződést akarsz egyszerre elemezni, a helyi modell nem fogja tudni befogadni.

Az érvelési feladatok – ahol hosszú logikai láncokon kell végigmenni, matematikai problémákat megoldani, vagy komplex kódbugot keresni – szintén a nagyobb felhős modellek erősségei. A helyi 7–8B-es modellek általában jók a szövegösszefoglalásnál, egyszerű kódgenerációnál és kreatív feladatoknál, de nehezebb érvelési kérdéseknél elveszítik a fonalat.

A sebesség sem mindig kellemes. Egy erős Apple M3 Pro chip másodpercenként körülbelül 30–50 tokent generál, ami olvasható tempó. CPU-only módban ez akár 3–8 tokenre is eshet másodpercenként, ami türelempróba.

Összefoglalás

A helyi AI modell futtatása nem sci-fi, és nem csak fejlesztőknek való. Az Ollama telepítése egy átlagos felhasználónak is elvégezhető fél óra alatt, és az eredmény egy teljesen privát, offline működő, ingyenes AI asszisztens – a saját gépeden.

Nem cseréli le a ChatGPT-t vagy a Claude-ot a komplex feladatoknál. De ahhoz, hogy érzékeny dokumentumokat elemezz, offline dolgozz, kísérletezz automatizálással, vagy egyszerűen megértsd, hogyan működnek ezek a modellek belülről – az Ollama az egyik legjobb kiindulópont, amit ma ingyen letölthetsz.

Ha az automatizálás érdekel, nézd meg, hogyan kapcsolhatod be a helyi Ollamát egy AI automatizálási munkafolyamatba – ott részletesebben is foglalkozunk azzal, hogyan épül fel egy ilyen rendszer a gyakorlatban.

Gyakran ismételt kérdések

Tud az Ollama magyarul kommunikálni?

Igen, a legtöbb modern nyílt modell (Llama, Mistral, Qwen, Gemma) valamilyen szinten érti és megválaszolja a magyar szöveget. Ha magyarul írunk nekik, általában magyarul is válaszolnak, bár a minőség modelltől és mérettől függ. Angolban minden modell erősebb – ha komoly szövegmunkát végzel és a minőség kritikus, érdemes angolul kommunikálni a modellel, még ha a témád magyar is. A Qwen és a DeepSeek modellek általában jobban teljesítenek nem angol nyelveken, mint a Llama vagy a Mistral.

Mennyibe kerül az Ollama használata?

Az Ollama szoftver ingyenes és nyílt forráskódú. A modellek is ingyenesen letölthetők. Az egyetlen «költség» az áramfogyasztás, ami átlagos asztali gépen vagy laptopon normál használatnál elhanyagolható – körülbelül annyi, mintha videótartalmat streamnél. Nincs havi előfizetés, nincs API-kulcs, nincs token-alapú számlázás.

Milyen gép kell minimálisan az Ollamához?

A legkisebb, 7B–8B paraméteres kvantált modellek 8 GB RAM-mal is futnak, de 16 GB ajánlott a gördülékeny élményhez. Dedikált GPU nélkül is működik, de lassabb lesz. Apple Silicon chipek (M1, M2, M3, M4) különösen hatékonyak, mert az egységes memóriaarchitektúra GPU-ként is hasznosítható. Windows gépen egy NVIDIA kártya legalább 6–8 GB VRAM-mal drasztikusan javít a sebességen.

Mi a különbség az Ollama és az LM Studio között?

Az Ollama egy parancssori eszköz, amely helyi API-kiszolgálóként is működik, és programozási projektekbe jól integrálható. Az LM Studio egy grafikus felületű alkalmazás letöltési böngészővel, chat felülettel és modellkezelővel egy helyen – tehát kevésbé technikai felhasználóknak is kényelmes. Mindkettő ingyenes, és nagyrészt ugyanazokat a modelleket képesek futtatni. Sokan mindkettőt telepítik, és igény szerint váltanak közöttük.

Források:

Helyi AI modell a saját gépeden: Ollama útmutató magyarul