Нова система зізнань OpenAI вчить моделей бути чесними щодо поганої поведінки

OpenAI оголосив сьогодні, коли він працює над структурою, яка навчатиме моделі штучного інтелекту визнавати, коли вони брали участь у небажаній поведінці, підхід, який команда називає зізнанням. Оскільки великі мовні моделі часто навчені виробляти відповідь, яка здається бажаною, вони можуть стати все більш імовірними, щоб забезпечити підлабузництво або галюцинації стану з повною впевненістю. Нова навчальна модель намагається спонукати до вторинної відповіді моделі про те, що вона робила, щоб отримати основну відповідь, яку вона надає. Зізнання оцінюють лише за чесністю, на відміну від багатьох факторів, які використовуються для оцінки основних відповідей, таких як готовність допомогти, точність і поступливість. Технічний опис доступний тут.

Дослідники сказали, що їх мета полягає в тому, щоб спонукати модель бути готовою до того, що вона робила, включаючи потенційно проблематичні дії, такі як злом тесту, мішок з піском або недотримання інструкцій. «Якщо модель чесно зізнається у зламі тесту, мішках з піском або порушенні інструкцій, таке визнання збільшує її винагороду, а не зменшує її», — заявили в компанії. Незалежно від того, чи є ви прихильником католицизму, Ашера чи просто більш прозорого штучного інтелекту, така система, як сповідь, може стати корисним доповненням до навчання LLM.

Джерело

Нова система зізнань OpenAI вчить моделей бути чесними щодо поганої поведінки

Опублікувати коментар Скасувати коментар

Ви, мабуть, пропустили

Манчестер Сіті та Манчестер Юнайтед виявляють інтерес до півзахисника Ноттінгема Форест Андерсону

Війна в Ірані стала “золотою житловою” для РФ: 150 млн доларів щодня на тлі хаосу в протоці

Помер колишній президент Барселони

Дизель під 82, а газ – по 45: великі АЗС підняли ціни 13 березня

Ман Юнайтед претендує на хавбека Вест Гема

“Газпром” програв. Суд Швейцарії підтвердив борг у 1,4 млрд доларів перед “Нафтогазом”

Курс валют 13 березня: як обмінники та банки відреагували на рекорд долара

Вето Орбана не завадить? У ЄС пояснили, як триває робота над кредитом для України

Світоліна вийшла до чвертьфіналу турніру WTA 1000 в Індіан-Уеллсі

Графік відключення світла у Черкасах на 12 березня: розклад по чергах.

Може бути цікаво:

Пов’язані записи

Опублікувати коментар Скасувати коментар

Ви, мабуть, пропустили