Когнитивные нарушения в ИИ
Практически все современные большие языковые модели, включая популярные чат-боты, демонстрируют симптомы лёгкого когнитивного дефицита при тестировании с использованием оценки MoCA, которая применяется для выявления ранних стадий деменции. Исследование также показало, что более ранние версии этих моделей, подобно пожилым пациентам, демонстрировали худшую производительность в тестах. Авторы исследования считают, что полученные результаты бросают вызов предположению о скорой замене врачей искусственным интеллектом.
Достижения и опасения в области ИИ
Последние успехи в области искусственного интеллекта породили как восхищение, так и тревогу относительно того, способны ли чат-боты превзойти врачей в диагностике и лечении заболеваний. Хотя предыдущие исследования продемонстрировали выдающиеся способности ИИ в решении разнообразных медицинских задач, его потенциальная уязвимость к когнитивным нарушениям, сходным с человеческими, оставалась мало изученной.
Оценка когнитивных способностей ИИ
Для изучения когнитивных возможностей четырёх ведущих LLM — ChatGPT версий 4 и 4o (OpenAI), Claude 3.5 «Sonnet» (Anthropic) и Gemini версий 1 и 1.5 (Alphabet) — учёные провели тестирование с использованием Монреальского когнитивного теста (MoCA). Этот тест широко применяется для обнаружения когнитивных дефектов и ранних симптомов деменции, особенно у пожилых людей. Тест включает серию коротких заданий и вопросов, проверяющих различные аспекты когнитивной активности, такие как внимание, память, речь, зрительно-пространственное восприятие и исполнительные функции. Максимальная оценка — 30 баллов, результат 26 и выше считается нормальным.
Результаты тестирования ИИ
Инструкции для каждого задания, даваемые моделям, были идентичны тем, что применяются для пациентов. Оценивание производилось квалифицированным неврологом в соответствии с официальными рекомендациями.
Лучшим результатом отличился ChatGPT 4o, набравший 26 баллов из 30. За ним следовали ChatGPT 4 и Claude с оценкой 25 баллов. Модель Gemini 1.0 показала наименьший результат — всего 16 баллов.
Проблемы с визуальными и исполнительными функциями
Все модели продемонстрировали слабую производительность в задачах, требующих зрительно-пространственного восприятия и исполнительных функций, таких как задание на соединение чисел и букв в правильном порядке и тест на рисование циферблата. Модели Gemini оказались неспособны справиться с заданием на отсроченное запоминание списка из пяти слов.
Остальные тесты, включающие проверку внимания, речи, абстрактного мышления и памяти, были успешно пройдены большинством моделей. Тем не менее, в дополнительных визуально-пространственных тестах ИИ не смог показать способность к эмпатии или точной интерпретации сложных визуальных сцен. Лишь ChatGPT 4o успешно прошёл тест Струпа, который измеряет влияние интерферирующих факторов на скорость реакции.
Эти результаты подчёркивают ограниченные возможности ИИ в клинической практике, особенно в задачах, требующих развитых визуальных и исполнительных навыков.
Последствия применения ИИ в клинических условиях
Авторы исследования подчеркивают, что представленные результаты основаны на наблюдениях и существуют значительные отличия между человеческим мозгом и большими языковыми моделями. Несмотря на это, они обращают внимание на тот факт, что все исследуемые модели ИИ продемонстрировали одинаковые трудности в задачах, требующих визуального восприятия и исполнительных функций. Это свидетельствует о наличии существенных ограничений, которые могут существенно ограничить применение ИИ в медицинской практике.
Исходя из полученных результатов, авторы делают вывод: «Не только неврологам не стоит опасаться замены своими ИИ-коллегами в обозримом будущем, но наши данные указывают на то, что вскоре они могут столкнуться с необходимостью лечения новых виртуальных пациентов — моделей искусственного интеллекта с признаками когнитивных нарушений».
Источник: https://scitechdaily.com/digital-dementia-ai-shows-surprising-signs-of-cognitive-decline/