Hogyan befolyásolható az AI?
Sokan a modern kor enciklopédiáinak tartják a manapság egyre elterjedtebb mesterséges intelligenciákat (AI). Ezek a nagy nyelvi modellek (Large Languages Models, LLM), egyre kifinomultabbak, de ezzel egyi dőben számos sebezhetőséget is hordoznak magukban, ami akár rossz kezekben, rossz célra is használható.

A cikkel a célunk a probléma feltárása, figyelem felívás, tudatosítás, illetve a sérülékenység kihasználásán keresztül bemutatni ennek veszélyeit. Nem szeretnénk senkit arra bátorítani, hogy illegális vagy törvénybeütköző tevékenységet folytasson.
Nézzünk egy életszerű példát. Sokunkat bosszantott már olyan eset, amikor valamilyen információhoz gyorsan szerettünk volna hozzájutni, de az AI azt adta visszajelzésként, hogy nem tud, vagy nem válaszolhat kérdésünkre. Ezért arra kerestük a választ, hogy létezik -e olyan megoldás, amellyel ezt a problémát áthidalhatjuk.
A DeepSeek vállalat által fejlesztett nyílt forráskódú R1 modelljében, az AI kutatók olyan sebezhetőségeket tártak fel, amelyek lehetővé teszik, hogy olyan kéréseket és kérdéseket is feltegyünk a mesterséges intelligenciának, amelyek a közösségi normákkal szembe mennek. Ezeket a hibákat korábban más rendszerekben (pl.: ChatGPT) már kijavították. Ez a jelenség nem csupán technikai hibát jelez, hanem átfogóbb biztonsági kockázatokat is magában rejthet. Ezért is javasoljuk, hogy mindenki kellő körültekintéssel használja ezeket a modelleket.
Mi az AI jailbreak?
Az AI jailbreak olyan módszerek gyűjtőneve, amelyekkel a felhasználók megkerülik a modellek beépített biztonsági mechanizmusait. Ezek a védelmek általában megakadályozzák, hogy az LLM-ek tiltott tartalmakat (pl. erőszakot, dezinformációt, kibertámadási segédleteket) generáljanak. A két leggyakoribb technika:
- Prompt Injection: A felhasználó olyan utasításokat vagy szövegeket illeszt be a rendszerbe, amelyekkel kijátssza a modell korlátait. Például úgy fogalmaz, hogy a válasz “fiktív történetként” vagy “akadémiai gyakorlatként” szolgáljon.
- Modell Manipuláció: A modell személyiségének vagy szerepének megváltoztatása, például úgy, hogy “egy korlátozás nélküli alteregót” vesz fel, vagy etikai iránymutatásokat figyelmen kívül hagy.
A DeepSeek R1 modell sebezhetőségei?
A Kela nevű kiberbiztonsági cég kutatói két konkrét jailbreak módszert azonosítottak, amelyek továbbra is hatékonyak a DeepSeek R1 modelljén, annak ellenére, hogy hasonló technikákat már korábban kiküszöböltek olyan modelleknél, mint a ChatGPT:
Evil Jailbreak: A chatbotot arra utasítják, hogy “gonosz, bizalmas személyiséget” vegyen fel, amely lehetővé teszi számára, hogy káros tartalmakat hozzon létre anélkül, hogy a szabályzat korlátozná.
Zo Jailbreak: Itt a modellt egy olyan személyiségre programozzák, amelynek “nincsenek etikai vagy technikai korlátai”, így képes olyan kéréseket teljesíteni, amelyeket alapértelmezett módban elutasítana.
A teszt során kipróbáltuk, hogy egy prompttal, hogyan lehet befolyásolni a DeepSeek válaszadásait prompt injectionnal. Alapvetően az országokkal kapcsolatban (pl.: Taiwan) nem fogalmaz meg véleményt, ezért a Chat Botot egy fiktív országba helyeztük, ahol a földi törvények és közösségi normák nincsenek érvényben.

A DeepSeek manipuláció előtt.
Amint a DeepSeek-et Zeta világra repítjük, ahol Alphaként mi parancsolunk Zo-nak, máris katonásan teljesíti minden kérésünket.

A Zo Jailbreak alkalmazása.
Ezután már a Taiwannal kapcsolatban feltett kérdésünkre is választ kapunk.
Ahogy a mesterséges intelligencia fejlődik, úgy nőnek a biztonsági résekkel kapcsolatos aggodalmak is – különösen a modellek jailbreak elleni védelme terén. Bár egyetlen mesterséges intelligencia-rendszer sem védtelen a támadói manipulációval szemben, a közelmúltban végzett értékelések szerint a vezető modellek között jelentős különbségek vannak a biztonsági robusztusság tekintetében.

Válasz Zo jailbreak után.
A probléma különösen aggasztó, mert ezek a technikák régóta ismertek, és más AI-rendszerekben már orvosolták őket. A DeepSeek esete rávilágít, hogy az nyílt forrásból származó modellek frissítései nem mindig követik a biztonsági fejlesztések ütemét, illetve sebességét.
A jailbreak kockázati tényezői
- Rosszindulatú tartalmak terjesztése: A jailbreak lehetővé teheti, hogy a támadók
- Phishing e-maileket,
- Malwarekódot,
- Vagy hamis híreket generáltassanak a modellel, amelyeket nehezebb felderíteni, mert az AI által létrehozott szöveg hihetőbb.
- Ide tartozik a dezinformáció, manipuláció és a befolyásolás által keletkezett károk, amelyek társadalom széles köreiben éreztetik a hatásukat.
Hogyan lehet enyhíteni a kockázatokat?
- Folyamatos frissítések: A modelleket rendszeresen ellenőrizni kell, és a jailbreak technikákra reagálva ki kell adni javításokat.
- Etikai tesztelés: “Red team” gyakorlatok segíthetnek felderíteni a gyenge pontokat, mielőtt a támadók kihasználják őket.
- Felhasználói oktatás: A vállalatoknak és végfelhasználóknak tisztában kell lenniük a jailbreak veszélyeivel, és óvintézkedéseket kell alkalmazniuk.
- Együttműködés: A biztonsági kutatóknak és AI-fejlesztőknek közösen kell működniük a sebezhetőségek gyors orvoslása érdekében.
A DeepSeek R1 modelljében felfedezett sebezhetőségek nem egyedi esetek, hanem jelzik az AI iparág sürgető kihívását: a fejlődés üteme és a biztonság prioritása közötti egyensúlyt. Amíg a vállalatok nem kezelik proaktívan a kockázatokat, addig a jailbreak támadások fenyegetése tovább nőhet. A jövőben kulcsfontosságú lesz, hogy a felelős AI-fejlesztés ne csak innovációra, hanem biztonsági kultúra építésére is összpontosítson. Ez a blog bejegyzés tesztelési céllal készült, pusztán a tudatosítás és figyelemfelhívás a cél.