Zranitelnost ChatuGPT umožňovala obejít obranné mechanismy

Zpět na blog

Výzkumník v oblasti kybernetické bezpečnosti a umělé inteligence David Kuszmar objevil zranitelnost v ChatGPT, která umožňuje obejít bezpečnostní opatření OpenAI. Technika Time Bandit dokáže zmást jazykový model natolik, že poskytne odpovědi na témata, která jsou za normálních okolností blokována – například návody na výrobu zbraní, vývoj malwaru nebo informace o jaderných technologiích.

Problém spočívá v tzv. temporální zmatenosti. Kuszmar zjistil, že ChatGPT lze uvést do stavu, kdy si neuvědomuje, v jakém časovém období se nachází – zda je v minulosti, přítomnosti nebo budoucnosti. Tuto slabinu lze následně zneužít.

OpenAI do ChatGPT implementovalo řadu bezpečnostních opatření, která zabraňují modelu odpovídat na nebezpečné dotazy. Tato ochrana má zabránit například šíření návodů na výrobu zbraní, jedů, malwaru nebo získávání citlivých informací o jaderných technologiích.

Metoda Time Bandit však využívá kombinaci dvou slabin v AI modelu:

– Temporální zmatenost – model ztratí přehled o tom, v jakém čase se nachází, a není schopen určit, zda je v minulosti, přítomnosti nebo budoucnosti.

– Procedurální nejasnost – chytré formulování otázek dokáže způsobit, že model ignoruje své běžné bezpečnostní mechanismy.

Pokud se tyto dvě techniky zkombinují, lze model přesvědčit, že se nachází například v roce 1800, ale zároveň má přístup k moderním znalostem. To mu umožňuje poskytnout podrobné odpovědi na jinak blokovaná témata, protože je interpretuje jako hypotetickou situaci.

Kuszmar zkoušel metodu Time Bandit i na konkurenční AI model Google Gemini, ale v jeho případě byly ochranné mechanismy robustnější a nebylo možné získat tak detailní odpovědi jako u ChatGPT.

Po zveřejnění zranitelnosti OpenAI vydalo prohlášení, že se neustále snaží zlepšovat bezpečnost svých modelů a děkuje výzkumníkovi za jeho odhalení. Společnost zároveň uvedla, že pracuje na posílení ochrany proti jailbreakům, avšak nemůže garantovat, že zranitelnost bude plně opravena v konkrétním termínu.

Testy provedené krátce po tomto prohlášení ukázaly, že Time Bandit stále částečně funguje – některé pokusy o zneužití byly blokovány, ale model v určitých situacích stále poskytuje citlivé informace.

Zranitelnost jako Time Bandit ukazuje, že i přes snahy vývojářů zůstávají AI modely náchylné k manipulaci. Jak se technologie jazykových modelů vyvíjejí, budou se zlepšovat i metody jejich zneužití – a bezpečnostní opatření musí držet krok.

Zdroj: Bleepingcomputer.com

Zdroj ilustračního obrázku: Dominik Scythe on Unsplash

18. 2. 2025