ChatGPT, Gemini и подобные им инструменты все чаще используются в качестве консультантов по вопросам здоровья. Такие вопросы, как "У меня болит голова - в чем может быть причина?" или "У меня болит плечо - когда мне следует обратиться к врачу?", стали для этих чат-ботов обычным делом. Но новое исследование, проведенное Массачусетским технологическим институтом (MIT), показывает, что не все пользователи получают одинаковые ответы на эти распространенные запросы.
Опубликованное 23 июня на сайте исследование под названием"The Medium is the Message: How Non-Clinical Information Shapes Clinical Decisions in LLMs" ("Как неклиническая информация формирует клинические решения в LLM") изучает, как, казалось бы, неважные факторы - такие как тон, стиль письма или форматирование - могут влиять на медицинские рекомендации, которые дают системы искусственного интеллекта.
Чтобы измерить, насколько сильно язык и стиль влияют на решения ИИ-чатботов, исследователи создали "систему возмущений" Этот инструмент позволил им создать различные версии одного и того же медицинского запроса - измененные таким образом, чтобы включить в них такие элементы, как неопределенность, драматичность формулировок, опечатки или непоследовательное написание букв. Затем они протестировали эти варианты на четырех больших языковых моделях: GPT-4, LLaMA-3-70B, LLaMA-3-8B и Palmyra-Med - модель, разработанную специально для использования в медицине.
Особенно пострадали: Женщины, небинарные люди, пользователи, не владеющие техникой, и не носители языка
Результаты исследования, проведенного Массачусетским технологическим институтом, очевидны: манера письма человека может существенно повлиять на медицинские рекомендации, которые он получает от чат-ботов с искусственным интеллектом. Некоторые пользователи, в зависимости от их стиля письма или тона, чаще получали слишком осторожные рекомендации. Один из самых поразительных результатов: женщинам чаще советовали справиться с симптомами самостоятельно или реже советовали обратиться к врачу, даже если медицинское содержание их запросов было идентичным.
Люди, которые пишут нерешительным тоном, используют простой язык или делают случайные опечатки, также оказываются в невыгодном положении. Это часто касается неспециалистов, людей с ограниченными знаниями в области здравоохранения или людей со слабыми языковыми навыками, особенно не являющихся носителями языка.
Исследователи подчеркивают, что прежде чем системы искусственного интеллекта начнут широко использоваться в здравоохранении, их необходимо тщательно протестировать - не только в среднем, но и среди различных групп пользователей. Средняя точность сама по себе мало что говорит о справедливости или надежности модели, особенно когда пользователи выражают свои мысли способами, отличающимися от нормы.
YouTube: Между похвалой и мурашками по коже
В сопровождающем видеоролике на YouTube исследование хвалят за продуманный и реалистичный дизайн - но результаты описываются как "тревожные" и даже "леденящие душу" Идея о том, что поверхностные факторы, такие как тон или форматирование, могут влиять на медицинские советы, противоречит распространенному мнению об объективности и нейтральности ИИ.