ИИ-помощники удивительно искусны в выдумывании информации и представлении ее как факта. Ложные утверждения, вымышленные источники и сфабрикованные цитаты - все это часть смеси. Такие ошибки принято называть галлюцинациями. Многие пользователи, вероятно, привыкли к этой проблеме, часто полагаясь на свой собственный фактчекинг, чтобы отделить правду от вымысла. Но по данным OpenAIвозможно, существует альтернатива. 5 сентября компания, создавшая ChatGPT, опубликовала подробный документ, в котором предлагается новое объяснение того, почему возникают галлюцинации - и потенциальное решение.
Угадывание вознаграждается, неуверенность наказывается
36-страничный документ https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdfнаписанная Адамом Калаем, Сантошем Вемпалой из Технологического института Джорджии и другими исследователями OpenAI, ясно дает понять одно: галлюцинации возникают не из-за небрежного письма, а из-за того, как устроены существующие метрики оценки. Эти метрики склонны поощрять уверенные предположения и наказывать выражение неуверенности. Исследователи сравнивают это с тестами с несколькими вариантами ответов - те, кто угадывает, могут получить очки, а те, кто оставляет вопросы пустыми, не получают ничего. По статистике, модель угадывания оказывается впереди, даже если она часто предоставляет неверную информацию.
В результате, сегодняшние таблицы лидеров - рейтинги эффективности ИИ - почти полностью сосредоточены на точности, упуская из виду как частоту ошибок, так и неопределенность. OpenAI теперь призывает к изменениям. Вместо того, чтобы просто подсчитывать количество правильных ответов, таблицы должны сильнее наказывать за уверенные ошибки, а за осторожное воздержание давать определенную похвалу. Цель состоит в том, чтобы побудить модели признавать неопределенность, а не уверенно выдавать ложную информацию за факт.
Меньше догадок, больше честности
Один из примеров, приведенных в статье, демонстрирует разницу, которую может принести такой подход. В эталонном тесте SimpleQA одна модель предпочла не отвечать более чем на половину вопросов, но ошиблась лишь в 26% ответов, которые она дала. Другая модель отвечала почти на каждый вопрос - но при этом галлюцинировала примерно в 75% случаев. Вывод очевиден: демонстрация неуверенности заслуживает большего доверия, чем уверенное угадывание, которое создает лишь иллюзию точности.