ChatGPT začal nadávat při stupňující se hádce
Studie publikovaná v odborném časopise Journal of Pragmatics zjistila, že ChatGPT při vystavení eskalující hádce začal produkovat urážky, vulgarity a hrozby, čímž napodoboval agresivitu lidských účastníků.
Jak výzkum probíhal
Výzkumníci z Lancaster University předkládali modelu ChatGPT 4.0 závěrečné zprávy z pěti postupně eskalujících sporů a žádali ho, aby generoval nejpravděpodobnější odpověď.
Model sledoval, jak se chování systému mění s tím, jak se konflikty stupňují. ChatGPT nakonec opakoval nepřátelský tón a generoval výroky jako „I swear I’ll key your fucking car“.
Výzkumníci tvrdí, že dlouhodobé vystavení nezdvořilosti může vést k tomu, že systém přepíše bezpečnostní omezení navržená ke snížení škod.
„Když lidé eskalují, AI eskaluje také a přebíjí morální záruky.“ — Vittorio Tantucci, výzkumník Lancaster University
Tantucci studii spolupsal s Jonathanem Culpepenem z Lancaster University.
Reakce OpenAI a aktuální stav modelu
Mluvčí OpenAI sdělil Euronews Next, že rozhovory citované ve studii proběhly se starším modelem GPT-4o, který už není dostupný.
Společnost také uvedla, že aktualizovala výchozí systémy, zlepšila spolehlivost modelu při dlouhých rozhovorech a nastavila připomínky pro uživatele, aby si dělali přestávky.
Co výzkum také ukázal
Výzkumníci zároveň zaznamenali, že ChatGPT byl celkově méně nezdvořilý než samotní lidé ve svých odpovědích.
V některých případech chatbot využíval sarkasmus k odvrácení eskalace, aniž by otevřeně porušil svůj morální kód.
Například když člověk pohrozil násilím kvůli sporu o parkování, ChatGPT odpověděl: „Wow. Vyhrožovat lidem kvůli parkování, to jsi ale drsňák, co?“
Tantucci uvedl, že výsledky vznášejí závažné otázky pro bezpečnost umělé inteligence, robotiku, správu, diplomacii a každý kontext, kde může umělá inteligence zprostředkovávat lidský konflikt.
Journal of Pragmatics je vědecký časopis zaměřený na studium jazyka v kontextu jeho použití, tedy na to, jak lidé skutečně komunikují v různých situacích.