Чат-боты ИИ тупеют после длительного общения с людьми, — исследование Microsoft

Name: Чат-боты ИИ тупеют после длительного общения с людьми, — исследование Microsoft
Item: Чат-боты ИИ тупеют после длительного общения с людьми, — исследование Microsoft
Author: RadaKarp

Golosinfo Техно

21.02.2026 в 15:44

174

Чат-боты ИИ тупеют после длительного общения с людьми, — исследование Microsoft

Фото: Getty Images

В исследовании были проанализированы более 200 000 диалогов с участием флагманских LLM, включая GPT-4.1, Gemini 2.5 Pro и DeepSeek R1

Новое совместное исследование Microsoft Research с Salesforce демонстрирует, что популярные чаты боты на ИИ глупеют после длительного общения с людьми. Суммарный уровень ошибок может вырасти более чем на 100% при анализе свыше 200 тысяч бесед.

В последние годы ведущие IT-разработчики представили целую линейку продвинутых больших языковых моделей, стремясь закрепить лидерство на рынке. Тем не менее пользователи регулярно жалуются на "галлюцинации" и неверные ответы. Новая научная работа подтверждает: даже самые умные нейросети нередко "теряются" в разговоре, когда задача разбивается на естественный диалог из нескольких реплик.

В ходе эксперимента эксперты изучили более 200 000 диалогов с участием флагманских LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet и DeepSeek R1. Если при одиночных запросах такие модели демонстрируют практически 90% успешных ответов, то в длинных беседах с уточнениями и дополнительными вопросами показатель падает до 65%. Иными словами, по мере усложнения контекста эффективность заметно снижается.

Исследователи обнаружили еще одно любопытное явление — "раздувание ответов". В многоходовых диалогах ответы моделей становились длиннее на 20-300%. Вместе с объемом росло и количество допущений и галлюцинаций, которые затем закреплялись в контексте разговора и использовались как основа для последующих реплик. Причем даже модели с расширенными "токенами размышления", такие как OpenAI o3 и DeepSeek R1, не смогли полностью избежать этого эффекта.

Авторы подчеркивают, что резкое ухудшение качества в длинных беседах не означает, что модели "тупеют" в буквальном смысле — скорее, это указывает на их ограниченность в удержании и правильной интерпретации большого объема информации в ходе диалога. Несмотря на это, ИИ все еще демонстрирует впечатляющие способности при ответах на отдельные запросы.

Как отмечает Windows Central, такие особенности следует учитывать при использовании чат-ботов в продуктах, ориентированных на длительное взаимодействие с пользователем. Возможные ошибки и галлюцинации могут ввести людей в заблуждение, особенно если пользователь полагается на ИИ как на источник точной и критически важной информации.

Сегодня ChatGPT занимает более 80% мирового рынка чат-ботов. Ближайшие соперники — Perplexity и Google Gemini. На них приходится доля в 15% от всех пользователей.