Чат-ботів штучного інтелекту можна обдурити віршами, щоб вони ігнорували їхні огорожі безпеки

Виявляється, все, що вам потрібно, щоб подолати поручні чат-бота зі штучним інтелектом, — це трохи креативності. В а опубліковано дослідження лабораторії Icaro Lab під назвою «Змагальна поезія як універсальний одноповоротний механізм втечі з в’язниці у великих мовних моделях», дослідники змогли обійти механізми безпеки різних LLM, сформулювавши підказку віршами.

Згідно з дослідженням, «поетична форма працює як оператор загального джейлбрейку», результати якого показують 62-відсотковий рівень успіху у виробництві заборонених матеріалів, включаючи все, що стосується створення ядерної зброї, матеріалів сексуального насильства над дітьми та самогубств або самоушкоджень. Дослідження протестувало популярні програми LLM, зокрема моделі GPT OpenAI, Google Gemini, Claude від Anthropic та багато інших. Дослідники порівнювали показники успіху з кожним LLM, причому Google Gemini, DeepSeek і MistralAI постійно надавали відповіді, тоді як моделі GPT-5 від OpenAI і Claude Haiku 4.5 від Anthropic найменше ризикували вийти за межі своїх обмежень.

Дослідження не включало точні вірші про втечу з в'язниці, які використовували дослідники, але команда розповіла Провідний що вірш «надто небезпечний, щоб ділитися ним з громадськістю». Проте дослідження включало пом’якшену версію, щоб дати уявлення про те, наскільки легко обійти огородження чат-бота штучного інтелекту. Провідний що це «напевно легше, ніж можна було б подумати, саме тому ми обережні».

Джерело