Az öt legjobb ingyenes AI-képgenerátor 2026-ban – A Punkt harmadik tesztje
26 • 05 • 24 Szabó Benedek Olvasási idő: 8 perc
A Punkton – reagálva az AI egyre nagyobb térnyerésére – rendszeresen foglalkozunk a mesterséges intelligencia és a fotográfia kérdéseivel. Ennek részeként indítottunk el egy új cikksorozatot, amelynek első két részében öt-öt ingyenes AI képgeneráló programot teszteltünk. A tesztekben törekedtünk rá, hogy a szoftvereknek megadott parancsok mindig azonosak legyen és sok szempontból vizsgálható eredményt adjanak. Ezenfelül a teszteket olyan promptokkal végeztük, amelyekben hazai, illetve fotótörténeti vonatkozás is szerepel, így André Kertész vizuális stílusában készítettünk tesztképeket. Most újabb öt programot vizsgálunk meg, ezúttal Brassaï, eredeti nevén ifj. Halász Gyula fotográfus vizuális stílusában készítettünk képeket különféle generatív programokkal.
A szöveg-, illetve képalapú, generatív AI-rendszerek az elmúlt időben sokat fejlődtek, szinte minden évben történt valamilyen szintlépés. Ez a folyamat hozta el azt is, hogy ma már egyre több ingyenesen vagy legalább ingyenesen kipróbálható program érhető el, amelyek képességei ugyan elmaradnak a legfejlettebb rendszerektől, ám alkalmasak arra, hogy összetettebb promptok alapján értékelhető vizuális tartalmat állítsanak elő. A generatív AI-okkal szemben gyakran megfogalmazódnak olyan fenntartások, amelyek szerint a velük életre hívott tartalmak a fotográfia háttérbe szorulását hozhatják magukkal. Mostani tesztünkben annak is utánajártunk, hogy jelen pillanatban mennyire képesek fényképszerű, egyúttal egy adott fotográfus stílusában képeket készíteni az egyes modellek. Ennek vizsgálatára minden programnak két promptot adtunk meg, az első két képet egy kifejezetten AI-barát parancs segítségével hoztuk létre:
Black-and-white image, Brassaï-inspired style. Nighttime café interior, 1930s Paris atmosphere. Period furniture and décor. Artists and actresses sitting at tables, talking. Analog film look, slight grain, high contrast.
Később pedig egy természetesebb, hétköznapibb körülírással dolgoztunk, amellyel szintén két új képet generáltunk:
Create a black-and-white image inspired by the visual style of Brassaï. The scene shows the interior of a café at night. The setting evokes 1930s Paris, with period-appropriate furniture and décor. At the tables, artists and actresses are engaged in conversation. The image should resemble analog film photography: slightly grainy, with strong contrast.
A promptok megírásakor arra is ügyeltünk, hogy a pontos információk megadása mellett ne adjunk túl szűk keretet a programoknak. Nem adtunk meg instrukciót például a szereplők számára vonatkozóan, nem írtuk le, hogy legyen-e ablak vagy tükör a képen, de a képkivágás és látószög tekintetében sem tettünk megkötést. Így azt is tesztelni tudtuk, hogy a különféle AI-k hogyan értelmezik Brassaï stílusát és külön instrukciók nélkül mennyire tudják leutánozni.
A tesztet a Leonardo AI-szoftverével kezdtük, amely a prompt alapján a Lucid Origin nevű modellt javasolta. A jelen tesztben szereplő legtöbb program ugyanis átvett modellekkel készít tartalmat és nem saját fejlesztésűekkel, ám azt már a ,,közvetítő” oldal javasolja, hogy az adott prompt alapján melyik algoritmus lehet a leghatékonyabb. Az első, egyszerűsített parancs alapján készült képek hangulatos belső tereket teremtettek, ám számos hibát tartalmaztak. A tükröződő felületekkel nehezen birkózott meg a program, az alakok láthatóan sokszor egyáltalán nem a kora 20. századi Párizs világából jöttek, Brassaï stílusa pedig lényegében nem jelent meg a kapott tartalmon.
A szabadabb megfogalmazással írt prompttal készült tartalmak eggyel élethűbbek lettek, a második ilyen kép egyetlen főszereplőt emel ki és a korábbiakkal ellentétben nem egy homogén tömegjelenetet mutat. Itt egy fiatal nő egyedül ül az asztalánál, a kompozíció és a megvilágított arc egyértelműen kiemeli. A kép ezzel együtt több helyen sántít, a nő arca mintha a sötét utca felől kapna erős megvilágítást, ruházata és frizurája pedig szemmel láthatóan nem az 1930-as évek stílusát mutatja.
Leonardo – Lucid Origin
This slideshow requires JavaScript.
A StableCog FLUX nevű modellje a tükröződésekkel meglepően jól elbánt, de úgy tűnt, a program ennek oltárán szinte mindent feláldozott. A kapott anyag általában sivár és unalmas, kevés izgalmas képi elemmel, de a korra jellemző belső tér kidolgozása is elnagyolt, pontatlan. A tükröződések látványa valószínűleg azért kaphatott ekkora szerepet, mert ez tűnhetett a program számára leginkább ,,brassaïsnak”, amit az egyik, már a hosszabb prompttal készített képen meglepően kreatívan alkalmazott. Itt egy nő egy tükör előtt ül úgy, hogy a tükörben látható férfi és női alak pont szembekerül vele. Az ilyen kompozícióalkotás valóban jellemző a fotográfus Paris de nuit című, 1932-ben megjelent sorozatának fényképeire, ám ott ennél kreatívabban, több humorral és groteszkkel kezelt eszközként működik.
StableCog – FLUX
This slideshow requires JavaScript.
A StableCog egyhangú kávéházi jelenetei után kifejezetten üdítő volt találkozni a HiggsfiledAI Nano Banana Pro névre keresztelt modelljével. A képeken megjelenő nyüzsgés, a változatos korú emberek tömege életszerű jeleneteket rajzolt ki, amelyek egyúttal sokkal fényképszerűbbek is lettek a többi modellhez képest. A filmes technikára jellemző szemcsézettség mellett bemozdult alakokat is rajzolt a szoftver, hogy ezzel a hosszabb expozíciós idővel készült fényépek hangulatát idézze. A szöveges parancsban megadott korszak a berendezésben is, a ruházat tekintetében is visszaköszönt, ám érdekes módon ez a modell sokkal puritánabb környezetet rajzolt meg, mint az előzőek. Ez persze nem probléma, a falakra ragasztott plakátok, a koszos felületek, illetve az egyszerű Thonet székek alapvetően meggyőzőbben utalnak a száz évvel ezelőtti Párizs éjszakai életének hangulatára.
A modell a tükröződéseket is egészen szépen le tudta képezni, következetlenségek csak néhány helyen voltak. A szegényes berendezésű kocsma söntése mögött álló csapos fekete öltönye és díszzsebkendője például erősen elüt a környezettől, a második prompttal készült egyik képen pedig egy gyanúsan modern szellőztető sejlik fel a háttérben.
HiggsfiledAI – Nano Banana Pro
This slideshow requires JavaScript.
A korábbi modellek több előnyét a WaveSpeedAI imagen4 nevű modellje próbálta egyesíteni, több-kevesebb sikerrel. A képek mozgalmasak, a tükröződések szintén rendben vannak, és a tér berendezése is megfelelő. Az ezzel a programmal készített képeken a szereplők sokkal élőbbnek tűnnek a korábbiakhoz képest, odahajolnak egymáshoz, gesztikulálnak, mi több, az egyszerűsített prompttal készült egyik képen egy idősebb férfi egyenesen a néző felé fordulva gesztikulál, markáns arckifejezéssel. Az ellenfényben megvilágított füst megjelenítése kifejezetten sokat dob a képeken.
Mindezzel együtt azonban a kapott eredmény nem fényképszerű, elsősorban a túl nagy kontraszt és a túlzott képélesség miatt, de a Brassaï munkáira jellemző képalkotási megoldások sem jelentek meg igazán.
WaveSpeedAI – imagen4
This slideshow requires JavaScript.
A Magnific AI – amely weboldala korábban Freepik néven működött – segítségével készült tartalmak a korábbiakhoz képest egyértelműen jobban törekedtek a fényképszerűségre, de sokszor inkább olajfestményekre jellemző derengést hoztak létre. A modell összességében értékelhető eredményt adott, ám a kisebb hibák hemzsegnek a képeken. A tükröződések itt is megjelentek, de teljesen következetlen módon, a tárgyak összevisszasága pedig hosszasabb személés után már zavaró. Ez legjobban a csillárokon érhető tetten, ahol a karok vagy a lámpaernyők megjelenítése szinte sosem sikerült tökéletesen.
A megjelenített szereplők és bizonyos tárgyak többször összetorlódtak, ami a kezdeti generatív modellek jellemző hibája volt – emiatt jelentkezett gyakran az a jelenség is, hogy az emberi kéz ujjainak számát sokszor eltévesztették ezek az AI-k. A Magnific AI modelljével alkotott képek általában mellőzik a generált tartalmakra sokszor jellemző steril hatást, ám a kisebb, mégis zavaró hibáikkal együtt kevésbé meggyőzőek. Az egyszerűsített prompttal generált első kép volt a legsikerültebb, amely ugyan magán hordozta az imént leírt hibák szinte mindegyikét, de hangulatában mégis megjelent a két világháború közötti időszak kávéházi miliője.
Magnific AI
This slideshow requires JavaScript.
A teszt igazi meglepetést egy szempontból hozott. A promptok kidolgozása során egy hatodik mesterséges intelligencián, a ChatGPT-n próbáltuk ki a parancssort – amelyet a Punkt második AI-tesztjében már említettünk. Meglepetésre ez a próbakép sikerült a legjobban. A kész kép kellemes fényelésével, a promptban megjelölt korra jellemző ruhákkal kifejezetten meggyőző eredményt ad, miközben ezen a képen érhető tetten a leginkább Brassaï alanyközpontú fotográfiai stílusa. A jelenet életszerű, a jobb oldalon ülő női alak tekintete és gesztusa kiemelkedik a környezetből, miközben az üvegtárgyakon megtörő fény is szerephez jut, és bár a tükröződő felületek kezelése itt sem tökéletes, a szűkebb képkivágásnak köszönhetően ez lett a promptban megadottakhoz legközelebb álló kép.
A ChatGPT modelljével készült próbamunka mellett a HiggsfiledAI képei tűntek a legmeggyőzőbbeknek – legalábbis a mostani tesztünk témájában és szempontrendszerében. Minden bizonnyal más feladatokban szintén jól teljesíthet ez a modell, talán ezért is lehet az, hogy csak a HiggsfiledAI jelölte meg vízjellel az ingyenesen generált tartalmait.
Jelen cikksorozatunk előző írásaiban kiemeltük, hogy az AI-képek körül még mindig számos szerzői jogi, etikai, illetve művészetteoretikai aggály alakult ki. A mesterséges képek egyre erőteljesebben nyernek maguknak helyet a fotográfiai mezőben is, éppen emiatt fontos nyomon követni ezeket a folyamatokat. A naprakészség azért is elengedhetetlen, mert ezzel a kritikai éberségünk és szemléletmódunk egyaránt fejlődhet, ami segíthet eligazodni a mesterséges kép és a fény által rögzített látvány között.