Az MI-újságírás bölcsőjében. felhasználható-e egy híresség arcképe olyan élethelyzet vizuális előállításához, amiben az a híresség nem szerepelne?

Az MI-újságírás bölcsőjében – hogyan készítettünk illusztrációkat a pápa magyarországi látogatásához?

Ferenc pápa 2023 áprilisi magyarországi látogatásának alkalmából készítettünk egy összefoglaló anyagot a pápák utazásáról és a pápaság történetéről. Az anyag számos, számunkra mérföldkőnek számító módszert tartalmaz, melyekkel új szintre emeltük a munkáinktól elvárt színvonalat szimbolizáló lécet. Az egyik legnagyobb újítás a mesterséges intelligencia által készített illusztrációk használata volt. Cikkünkkel ezen képek elkészítésének módszertanába engedünk most betekintést.

Előfordul, hogy egy anyagot több nap vagy akár több hét munka után félre kell raknunk. 2021-ben, amikor Ferenc pápa alig egy napig hazánkban tartózkodott a Nemzetközi Eucharisztikus Kongresszus alkalmából, elkezdtük elkészíteni a pápa eddigi utazásainak adatbázisát. Ugyan a táblázat elkészült, és egy próbatérkép is született, a rövid látogatás miatt a téma hamar relevanciáját veszítette, és nekünk sem volt kiforrott történetünk, melyet a tőlünk elvárt minőségben prezentálni tudtunk volna. Mivel nem lehetett tudni, hogy mikor fog a pápa legközelebb Magyarországra jönni, a témát félreraktuk.

2023. február 27-én Novák Katalin köztársasági elnök bejelentette: Ferenc pápa április 28-30. között Magyarországra látogat. Ez új lehetőséget adott nekünk a két évvel korábban félbehagyott, pápáról szóló anyag befejezéséhez. Két év alatt számos komoly anyagot készítettünk az Átlóra, melyek során egyre fontosabbá vált a témák tudatos narratív felépítése. Már az elején tudtuk, hogy a cikk a februári „földrengés-atlasz” felépítését és alap módszerét fogja alapul venni: narratív struktúráját tekintve „fordított piramis”, módszerét tekintve pedig „scrollytelling”. A végleges cím is egyből a bejelentés után megszületett: Az utazó pápa.

 

Mindez persze nem lett volna jelentős fejlődés a februári földrengéses anyaghoz képest. A legnagyobb újítást a jelenleg is gyerekcipőben járó, de már most úttörőnek számító mesterséges intelligencia alkalmazása jelentette. A magyar és nemzetközi sajtóban is elterjedtek azok a képek, amin Ferenc pápa egy Balenciaga-stílusú pufikabátban sétált. Ezek viszont nem igazi fotók voltak, a képeket a Midjourney nevű képgeneráló mesterséges intelligencia (MI) segítségével állították elő. Az utazó pápában tehát az adott relevanciát és okot arra, hogy MI-t alkalmazzunk, hogy éppen jókor terjedt el a pápáról egy MI által készített valósághű illusztráció.

Valósághű, de hamis pápa – a Midjourney MI-vel készített illusztrációk módszertana

A pufikabátos pápáról „készült kép” csupán egy újabb epizód volt abban a most kezdődő történetben, ami a mesterséges intelligenciával elkészített illusztrációkról szól. A Midjourney jelenleg a legfejlettebb képkészítő MI, egy év alatt látványosan javult a generált képek minősége, és az 5. verzióval szinte zavarba ejtően valósághű képek elkészítésére képes (a május 3-án megjelent 5.1-es verzió ezt még tovább finomította). Szerettünk volna a pápa budapesti látogatásáról illusztrációt tenni az anyagba, viszont nem akartunk a szerzői joggal foglalkozni a valódi fotók felhasználásával. A korábbi látogatásokon készült fényképek ráadásul csak a korábbi, már megtörtént eseményeket tudták volna illusztrálni.

A pápa és az MI kapcsolódási pontja pedig éppen megmozgatta a világsajtót, így ez tökéletes alapot adott ahhoz, hogy mi is kísérletezzünk a mesterséges intelligencia segítségével előállított képekkel. A Midjourney MI rövid szöveges instrukciók (promptok) alapján megpróbálja vizuálisan előállítani azt, amit a szövegben megfogalmazunk. Erről rövid idő alatt egyből négy változatot is készít, amelyeket – ha megelégedünk az első változattal – nagyobb felbontásban elkészíthetünk és letölthetünk, vagy kérhetünk a négy változatra külön-külön variációkat. Ezek a variációk ugyanabban a kompozícióban készülnek el, de eltérő arcok, tárgyak, színek stb. használatával. (Kattints a képekre a nagyobb nézethez!)

A tisztán szöveges promptra épülő képgenerálás mellett a szöveget egy valódi fotóval is megtámogathatjuk, mely hasonlít ahhoz, amit az MI által generált képtől remélünk: lehet ez például a személy arcának pontossága vagy a fénykép kompozíciója miatt. Így készült el többek között Ferenc pápa repülőről leszállós és autóból integetős képe is.

A többszereplős képeknél (mint Orbán Viktor és Ferenc pápa találkozása, vagy Novák Katalin és Ferenc pápa találkozása) viszont nem lehet a híres ember arcképével megtámogatni a képkészítést, mert az MI vagy nem tudja eldönteni, hogy  kire tegye az arcot (mindenkinek ugyanolyan arca lesz), vagy a fotót erősebb beviteli elemként értelmezi, és a kép struktúráját alkotja újra, egy karakterrel. A képadatbázis, amin az MI-t tanították, számos híres ember fényképét tartalmazza, így Ferenc pápáról akár hozzáadott kép nélkül is pontos arcmást készít, de Orbán Viktor már kevésbé hasonlít saját magára, Novák Katalin pedig egy teljesen más nő benyomását kelti.

Az MI-vel generált képek körüli etikai fenntartások a laikus felhasználó számára is magától értetődőek: felhasználható-e egy híresség arcképe olyan élethelyzet vizuális előállításához, amiben az a híresség nem szerepelne? A képek egyre valósághűbb előállításával megállapítható lesz-e, hogy a kép valódi fotó vagy MI által készített illusztráció? A pár éve létező, negatív élethelyzetekben is felhasznált deepfake-ek új erőre kapnak-e a sokkal élethűbb képek és az ezeket meganimáló MI-k közös használata miatt? Milyen hatással lesznek a képkészítő MI-k a valódi művészek, fotográfusok, videókészítők, dizájnerek, stb. megélhetésére, hogyha szinte megkülönböztethetetlen eredményt lehet elérni sokkal rövidebb idő alatt?

Ezek a képek mindenesetre nem fognak eltűnni a hétköznapjainkból, sőt, egyre gyakoribbá fognak válni és valószínűleg egyre valósághűbbek lesznek. De a Midjourney-ben már vannak korlátozások, nem enged mindenről képet készíteni. A nyitókép első tervében egy vallásos ikonográfiával keretezett templomban fogott volna kezet Ferenc pápa és Orbán Viktor, szimbolizálva, hogy a pápa vallási látogatása egyben politikai jelentőséggel is bír. A templom részletes leírásához a szövegbe került a crucifix (kereszt, feszület), mely szó miatt a rendszer nem készítette el a képet. Ehelyett figyelmeztetést adott, hogy a tiltott kifejezések gyakori használatát kizárással, letiltással bünteti a Midjourney.

Számos generált kép – részben a megfelelő promptnak köszönhetően – a valósághoz hasonló kompozíciót, élethelyzetet adott vissza. Ilyen volt Ferenc pápa autóból való integetése, melyről fénykép nem született, de a TikTokra feltöltött videón látszik, hogy a pápa a Deák Ferenc téren végig integetett. A generált kép persze számos hibát is tartalmaz: Ferenc pápa a volán mögött ül a bal első ülésben. A kezén ugyan öt ujj van (ami az MI számára siker, hiszen sokáig gondot okozott neki a kéz és láb realisztikus generálása), de a gyűrűjét a valóságban a jobb kezén hordja, nem pedig a balon:

A pápa repülőről le-és felszállását az MI önmagától olyan módon ábrázolja, ahogyan a prompt szól. A pápa térdműtétje miatt a repülőről nem a lépcsőn sétált le, majd távozáskor sétált fel, hanem a repülő másik oldalán liftet használt. A megadott prompt nem mérlegelte a pápa térdműtétjét, és az ehhez köthető következményeket (korlátozott járóképesség), így a pápáról egy, a magyarországi látogatása során meg nem történt élethelyzetben készült MI-kép:

A pápa április 29-én a Papp László Sportarénában a fiatalokkal találkozott, és a beszéde előtt a résztvevők közé ment. Egy ekkor készült fotón egy fiatal fiú fejére teszi a kezét. Az MI a következő prompt alapján egy nagyon hasonló, a fiatalok közötti, azok kezét megérintő képet készített: 

Hasonló élethelyzetről készítettek fényképet, amikor szegényekkel és menekültekkel találkozott az Árpád-házi Szent Erzsébet-templomban. Az MI is egy ehhez hasonló képet állított elő:

A célunk az utazó pápában használt MI-képekkel tehát ezen új technológia felvállalása, és példamutatás, hogy etikailag is helytálló képek előállítására képes eszközzel állunk szemben. Az MI használata az újságírásban hasznos lehet a jövőben, olyan események élethű illusztrálására, melyekről csupán szöveges feljegyzések, tanúvallomások maradtak fent. Az ilyen képek egy sablonos, de vizuálisan könnyen értelmezhető segédlet szerepét tudják betölteni, mely lehetőségtől nem tartózkodni, hanem azt felvállalni, alkalmazni kell.

A teljes módszertani összefoglalót itt lehet elolvasni:

 

A pápalátogatásra készült interaktív anyagot pedig itt lehet megnézni:

 

Szabó Krisztián