Завантажую зараз

Нова система зізнань OpenAI вчить моделей бути чесними щодо поганої поведінки

OpenAI оголосив сьогодні, коли він працює над структурою, яка навчатиме моделі штучного інтелекту визнавати, коли вони брали участь у небажаній поведінці, підхід, який команда називає зізнанням. Оскільки великі мовні моделі часто навчені виробляти відповідь, яка здається бажаною, вони можуть стати все більш імовірними, щоб забезпечити підлабузництво або галюцинації стану з повною впевненістю. Нова навчальна модель намагається спонукати до вторинної відповіді моделі про те, що вона робила, щоб отримати основну відповідь, яку вона надає. Зізнання оцінюють лише за чесністю, на відміну від багатьох факторів, які використовуються для оцінки основних відповідей, таких як готовність допомогти, точність і поступливість. Технічний опис доступний тут.

Дослідники сказали, що їх мета полягає в тому, щоб спонукати модель бути готовою до того, що вона робила, включаючи потенційно проблематичні дії, такі як злом тесту, мішок з піском або недотримання інструкцій. «Якщо модель чесно зізнається у зламі тесту, мішках з піском або порушенні інструкцій, таке визнання збільшує її винагороду, а не зменшує її», — заявили в компанії. Незалежно від того, чи є ви прихильником католицизму, Ашера чи просто більш прозорого штучного інтелекту, така система, як сповідь, може стати корисним доповненням до навчання LLM.

Джерело

Опублікувати коментар

Ви, мабуть, пропустили