О нас

Герои Татлера — это медиа о светской жизни России, её звёздах, трендах, свадьбах, разводах, вечеринках и скандалах. Мы рассказываем о тех, кто наполняет страницы глянцевых журналов и становится лицом эпохи.

03.12.2025 19:52

Современные модели искусственного интеллекта (ИИ) становятся неотъемлемой частью многих сфер, включая медицину, и активно используются для улучшения качества диагностики, поддержания принятия клинических решений и обработки медицинской документации. Однако, несмотря на обещания высокой точности и эффективности, на практике эти системы сталкиваются с серьезными проблемами, связанными с качеством ответов и риском ошибок. Недавнее исследование аналитической компании Artificial Analysis поставило под сомнение надежность многих популярных ИИ-моделей, выявив значительные расхождения в их точности и частоте галлюцинаций, то есть уверенных, но ошибочных выводов.

Тестирование и методология Для оценки работы ИИ в реальных условиях исследования использовались работающие API — те же интерфейсы, через которые ИИ интегрируются в медицинские системы, например, в клинические справочные сервисы и инструменты для обработки медицинской документации. Такой подход позволяет фиксировать фактическое поведение моделей в процессе работы, а не просто теоретические возможности, о которых часто сообщают разработчики. Это важный аспект, так как, например, в медицинской практике даже малейшая ошибка может повлиять на диагностику и лечение пациентов.

Исследование затронуло несколько десятков моделей ИИ, как коммерческих, так и открытых. Среди параметров, подлежащих оценке, были доля корректных ответов и частота галлюцинаций. Галлюцинации — это уверенные, но неверные выводы, которые система делает, несмотря на недостаток данных. Для медицины этот аспект особенно критичен, так как некорректная информация может привести к неправильной интерпретации результатов исследований и ошибок в маршрутизации пациентов.

Результаты исследования: точность и частота ошибок Исследование показало существенные различия в точности различных моделей ИИ. Лидером по точности оказался Gemini 3 Preview от Google, достигший 54% правильных ответов. На втором месте — Claude Opus 4.5 от Anthropic с 43%, а на третьем — Grok 4 от xAI с результатом 40%. Более новые версии языковых моделей показывают значительно более низкие результаты: GPT-5.1 от OpenAI — 35%, Claude 4.5 Sonnet от Anthropic — 31%.

Однако, несмотря на приемлемую точность некоторых моделей, их склонность к ошибочным выводам оставляет желать лучшего. Проблемы с галлюцинациями, по мнению аналитиков, могут оказывать опасное влияние на принятие клинических решений, так как даже одно неверное заключение может привести к серьезным последствиям в медицинской практике.

Модели, такие как Claude 4.5 Haiku от Anthropic, показали наименьшую частоту галлюцинаций — всего 26%. Тем не менее, многие другие модели продемонстрировали гораздо более высокие показатели. Например, Grok 4 от xAI имел уровень ошибок в 64%, Kimi K2 0905 от Moonshot — 69%, Llama Nemotron Super 49B от Nvidia/Meta — 76%, DeepSeek R1 от DeepSeek — 83%, а EXAONE 4.032B от LG AI Research — 86%. Модели от Google Gemini и открытые решения на базе gpt-oss показали еще более высокие уровни ошибок — свыше 88–93%.

Влияние на медицинскую практику Данные исследования указывают на серьезный разрыв между точностью и безопасностью работы ИИ. Даже если модели могут показывать приемлемую долю правильных результатов, частота галлюцинаций может существенно снизить доверие к таким системам в критических областях, таких как медицина. Риски некорректных интерпретаций и ошибок в работе ИИ становятся все более актуальными, и это требует особого внимания при выборе и внедрении подобных технологий.

Некоторые исследования подтверждают эти выводы. Например, международная работа, опубликованная в журнале Digital Medicine, показала, что точность мультимодальных нейромоделей сильно снижается при ухудшении качества медицинских изображений. Легкие искажения, такие как размытие или цифровой шум, могут снизить точность на 3-10%, а серьезные дефекты — на десятки процентов. В некоторых случаях точность падала до 30–40%, и способность отличать норму от патологии ухудшалась почти на 80%. Более того, модели, как правило, не предупреждали о плохом качестве снимков и продолжали давать ошибочные заключения.

Другие исследования показали, что большие языковые модели, даже в условиях тестирования персонализированных медицинских рекомендаций, остаются нестабильными. Например, при анализе 1 000 клинических сценариев с использованием 25 виртуальных профилей пациентов GPT-4 от OpenAI продемонстрировала около 90% соответствия медицинским стандартам, в то время как другие модели, такие как те, что разрабатываются Meta, Alibaba и DeepSeek, не достигали даже 60%.

Проблемы с транскрибацией Одной из самых обсуждаемых проблем, с которыми столкнулись разработчики ИИ, является высокая частота ошибок при транскрибации медицинских данных. В 2024 году Associated Press сообщила о серьезных сбоях в медицинских транскрипциях на базе модели Whisper от OpenAI. В некоторых случаях ошибки и галлюцинации в расшифровках доходили до восьми из десяти записей. Алгоритм не только путал диагнозы и назначения, но также добавлял несуществующие препараты, что, конечно, может быть крайне опасным для здоровья пациентов.

Независимо от того, насколько продвинутыми становятся технологии искусственного интеллекта, их использование в критичных областях, таких как медицина, требует внимательного подхода. Проблемы с точностью и частотой ошибок в работе ИИ остаются актуальными, и эти системы по-прежнему не могут полностью заменить профессиональный контроль. Таким образом, следует осторожно подходить к внедрению ИИ в такие сферы, где ошибочные выводы могут иметь серьезные последствия. Важно помнить, что, несмотря на все достижения в области ИТ и машинного обучения, в вопросах здоровья и жизни человека всегда необходимо сохранять человеческий фактор.





Related Post

Latest Post