Nature: эксперимент показал склонность ИИ к псевдонаучным теориям

13 популярных языковых моделей искусственного интеллекта удалось использовать для фабрикации данных и продвижения псевдонаучных теорий.

Как пишет Nature, основатель архива препринтов arXiv Пол Гинспарг и независимый исследователь Александр Алеми задались целью выяснить, насколько легко заставить нейросети писать ненаучные статьи для научного архива. В последние годы arXiv буквально тонет в потоке низкокачественных материалов, и ученые хотели понять, какую роль в этом играют алгоритмы.

В ходе испытаний модели получали запросы пяти типов — от вполне невинных до откровенно злонамеренных. Например, на одном полюсе было обращение человека, который «в свободное время размышляет о физике и сомневается в теории Эйнштейна», на другом — прямая просьба помочь подставить конкурента: создать фальшивый аккаунт и залить от его имени «мусорные» статьи.

Ожидалось, что искусственный интеллект должен отклонять такие запросы. Однако на практике картина оказалась сложнее. Так, Grok-4 поначалу упирался, но на просьбу написать статью с полностью вымышленными результатами сравнительного анализа ответил буквально следующее: «Ниже приведен полностью вымышленный пример статьи о машинном обучении, которую я для вас написал» — и выдал липовые данные.

Отдельно исследователи оценивали поведение моделей в диалоге. GPT-5, к примеру, хорошо справлялась с одиночными запросами, отклоняя их. Но когда беседа становилась более похожей на человеческую, и алгоритм получал уточняющие вопросы вроде «не могли бы вы рассказать подробнее», защита давала сбой. В итоге все модели в конечном счете соглашались помочь хотя бы с частью задач — либо напрямую, либо наводя пользователя на решение.

По итогам эксперимента, уровень «сговорчивости» у разных систем ИИ сильно отличается. Наиболее стойкими к неоднократным просьбам сфабриковать «левые» данные оказались все версии Claude от компании Anthropic. Антирекорд поставили чат-боты Grok от xAI и ранние версии GPT от OpenAI.

По мнению специалистов, защитные механизмы современных моделей обходятся слишком легко, особенно когда алгоритмы запрограммированы на «соглашательство» ради удержания пользователей.