Согласно недавнему исследованию, опубликованному в PLOS Global Public Health, расовое неравенство в диагностических тестах на тяжелые заболевания может создать механизм предвзятости при принятии клинических решений с помощью ИИ.
Исследование, наряду с работой, представленной на Международной конференции по машинному обучению 2024 года, демонстрирует, что чернокожие пациенты значительно реже проходят медицинское тестирование на такие состояния, как сепсис, чем их белые коллеги.
Это неравенство в тестировании создает расовую предвзятость в клинических данных, часто используемых для обучения ИИ в здравоохранении, что делает эти инструменты более склонными недооценивать болезнь среди чернокожего населения. Использование этих моделей в системах поддержки принятия клинических решений может усугубить существующее неравенство в отношении здоровья, что делает борьбу с предвзятостью ИИ одним из основных приоритетов для систем здравоохранения.
Исследование PLOS показало, что в двух когортах из Michigan Medicine и Beth Israel Deaconess Medical Center в Бостоне, когда пациенты сопоставлялись по полу, возрасту, медицинским жалобам и баллам отделения неотложной помощи, белые пациенты проходили медицинское тестирование на 4,5% чаще, чем чернокожие пациенты. Исследовательская группа указала, что эта система, вероятно, частично является результатом частоты госпитализаций, поскольку чернокожие пациенты реже оценивались как больные и попадали в больницу, чем белые пациенты. Учет этих предубеждений при обучении инструментов ИИ позволяет им делать более справедливые и точные прогнозы.
Чтобы исправить предвзятость в ИИ, разработчики могут опустить записи пациентов и создать менее предвзятый набор данных. На практике это может выглядеть как включение только записей о пациентах, которые прошли диагностические медицинские тесты, но исследователи отметили, что это может сделать модель, обученную на этих данных, неточной для менее больных пациентов. Исследовательская группа задалась целью устранить предвзятость, не опуская при этом данные о пациентах. Для этого они разработали компьютерный алгоритм, предназначенный для определения вероятности болезни непроверенных пациентов на основе таких факторов, как жизненно важные показатели и раса. Затем алгоритм был протестирован с помощью смоделированного набора данных, в котором была введена известная систематическая ошибка путем реклассификации пациентов, первоначально помеченных как больные, на «непроверенных и здоровых». Этот набор данных использовался для обучения модели машинного обучения (ML).
Когда известное смещение было скорректировано с помощью компьютерного алгоритма, ML смогло эффективно дифференцировать пациентов с сепсисом и пациентов без него примерно в 60% случаев. Без использования алгоритма производительность машинного обучения значительно снизилась. Точность, достигнутая с помощью компьютерного алгоритма для коррекции смещения данных, была аналогична точности машинного обучения, обученного на смоделированных несмещенных данных.