Чат-боты ИИ тупеют после длительного общения с людьми, — исследование Microsoft |
|
![]() Фото: Getty Images В исследовании были проанализированы более 200 000 диалогов с участием флагманских LLM, включая GPT-4.1, Gemini 2.5 Pro и DeepSeek R1
Новое совместное исследование Microsoft Research с Salesforce демонстрирует, что популярные чаты боты на ИИ глупеют после длительного общения с людьми. Суммарный уровень ошибок может вырасти более чем на 100% при анализе свыше 200 тысяч бесед. В последние годы ведущие IT-разработчики представили целую линейку продвинутых больших языковых моделей, стремясь закрепить лидерство на рынке. Тем не менее пользователи регулярно жалуются на "галлюцинации" и неверные ответы. Новая научная работа подтверждает: даже самые умные нейросети нередко "теряются" в разговоре, когда задача разбивается на естественный диалог из нескольких реплик. В ходе эксперимента эксперты изучили более 200 000 диалогов с участием флагманских LLM, включая GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet и DeepSeek R1. Если при одиночных запросах такие модели демонстрируют практически 90% успешных ответов, то в длинных беседах с уточнениями и дополнительными вопросами показатель падает до 65%. Иными словами, по мере усложнения контекста эффективность заметно снижается. Исследователи обнаружили еще одно любопытное явление — "раздувание ответов". В многоходовых диалогах ответы моделей становились длиннее на 20-300%. Вместе с объемом росло и количество допущений и галлюцинаций, которые затем закреплялись в контексте разговора и использовались как основа для последующих реплик. Причем даже модели с расширенными "токенами размышления", такие как OpenAI o3 и DeepSeek R1, не смогли полностью избежать этого эффекта. Авторы подчеркивают, что резкое ухудшение качества в длинных беседах не означает, что модели "тупеют" в буквальном смысле — скорее, это указывает на их ограниченность в удержании и правильной интерпретации большого объема информации в ходе диалога. Несмотря на это, ИИ все еще демонстрирует впечатляющие способности при ответах на отдельные запросы. Как отмечает Windows Central, такие особенности следует учитывать при использовании чат-ботов в продуктах, ориентированных на длительное взаимодействие с пользователем. Возможные ошибки и галлюцинации могут ввести людей в заблуждение, особенно если пользователь полагается на ИИ как на источник точной и критически важной информации. Сегодня ChatGPT занимает более 80% мирового рынка чат-ботов. Ближайшие соперники — Perplexity и Google Gemini. На них приходится доля в 15% от всех пользователей. | |
| 21.02.2026 15:44 121 | |
| Комментарии: 0 | |

