13 декабря 2024 года, Москва
Программная платформа MedSyn, разработанная учёными Лаборатории искусственного интеллекта Сбербанка и командой экспертов из MIL Team, ускоряет создание специализированных моделей машинного обучения (ML) в сфере здравоохранения. Фреймворк решает ключевую проблему дефицита данных для обучения ML-моделей. Об этом стало известно в ходе третьего дня международной конференции AI Journey, который посвящен науке.
Реальные электронные карты пациентов содержат медицинскую тайну и приватную информацию. Чтобы использовать такие данные для обучения моделей искусственного интеллекта, их нужно анонимизировать, что занимает время и ресурсы. Создание синтетических наборов медицинских данных — оптимальная альтернатива для развития AI-моделей в сфере здравохранения.
Фреймворк MedSyn объединил большие языковые модели и медицинские графы знаний. Он позволяет генерировать большие объёмы медицинских записей, похожих на настоящие. Такие данные помогают предсказывать коды заболеваний международной классификации болезней (МКБ). Использование учёными медицинских графов знаний позволило повысить фактологическую точность и разнообразие сгенерированных текстов. По проведённым оценкам, в ряде случаев точность предсказания наиболее сложных заболеваний из МКБ возрастает почти на 20% по сравнению с системами без использования синтетических данных.
С помощью разработанного фреймворка учёные из совместной команды также создали специализированный датасет синтетических клинических записей. В его состав вошло более 41 тыс. примеров по более чем 200 заболеваниям. Датасет можно использовать как для научных исследований, так и для разработки продуктов в области здравоохранения.
Глеб Гусев, директор Лаборатории искусственного интеллекта Сбербанка:
«Результатом совместной работы двух команд стала разработка платформы MedSyn и создание крупнейшего набора синтетических медицинских записей на русском языке. Сегодня эти инструменты доступны в open source, их можно использовать для обучения и тестирования алгоритмов машинного обучения. Эксперименты в области медицины помогли выяснить, что AI-модели, обученные на синтетических текстах, часто могут придумывать несуществующие болезни или выдавать противоречивые симптомы. Для решения подобных задач мы использовали медицинские графы знаний, чтобы задавать априорную информацию в рамках конкретного случая или эпикриза. Надееемся что наши результаты будут полезны учёным, которые ведут исследования в медицине, а также компаниям разрабатывающим AI-приложения в сфере здравоохранения».
Результаты исследования возможностей искусственного интеллекта для автоматической генерации медицинских текстов опубликованы в научной статье по ссылке.
ПАО Сбербанк — один из крупнейших банков в России и один из ведущих глобальных финансовых институтов. На долю Сбербанка приходится около трети активов всего российского банковского сектора. Сбербанк является ключевым кредитором для национальной экономики и занимает одну из крупнейших долей на рынке вкладов. Основным акционером ПАО Сбербанк является Российская Федерация в лице Министерства финансов Российской Федерации, владеющая 50% уставного капитала ПАО Сбербанк плюс 1 голосующая акция. Оставшимися 50% минус 1 голосующая акция от уставного капитала банка владеют российские и международные инвесторы. Генеральная лицензия Банка России на осуществление банковских операций № 1481 от 11.08.2015. Официальные сайты банка: www.sberbank.com (сайт Группы Сбербанк), www.sberbank.ru.