страница_баннер

новости

Модель «Большого языка» (LLM) позволяет писать убедительные статьи, основанные на подсказках, сдавать экзамены на профессиональную компетентность и предоставлять информацию, дружелюбную и эмпатичную для пациента. Однако, помимо хорошо известных рисков, связанных с вымыслом, хрупкостью и неточностью фактов в LLM, в центре внимания постепенно оказываются другие нерешённые проблемы, такие как модели ИИ, содержащие потенциально дискриминационные «человеческие ценности» при их создании и использовании. И даже если LLM больше не будет создавать контент и исключать явно вредоносные результаты, «ценности LLM» всё ещё могут отличаться от человеческих ценностей.

 

Бесчисленные примеры иллюстрируют, как данные, используемые для обучения моделей ИИ, кодируют индивидуальные и социальные ценности, которые могут закрепляться в модели. Эти примеры охватывают целый ряд приложений, включая автоматическую интерпретацию рентгеновских снимков грудной клетки, классификацию кожных заболеваний и алгоритмическое принятие решений относительно распределения медицинских ресурсов. Как было отмечено в недавней статье в нашем журнале, предвзятые данные обучения могут усиливать и раскрывать ценности и предубеждения, присутствующие в обществе. Напротив, исследования также показали, что ИИ может быть использован для снижения предвзятости. Например, исследователи применили модели глубокого обучения к рентгеновским снимкам колена и обнаружили факторы, которые не учитывались стандартными показателями тяжести (оцениваемыми рентгенологами) в коленном суставе, тем самым уменьшая необъяснимые различия в боли между чернокожими и белыми пациентами.

Хотя всё больше людей осознают предвзятость моделей ИИ, особенно в плане данных для обучения, многим другим аспектам человеческих ценностей уделяется недостаточно внимания при разработке и внедрении моделей ИИ. Медицинский ИИ недавно добился впечатляющих результатов, но в значительной степени он не учитывал человеческие ценности и их взаимодействие с оценкой рисков и вероятностным мышлением, а также не моделировал их.

 

Чтобы конкретизировать эти абстрактные понятия, представьте, что вы эндокринолог, которому необходимо назначить рекомбинантный гормон роста человека восьмилетнему мальчику, уровень которого ниже 3-го процентиля своего возраста. Уровень стимулированного гормона роста у мальчика ниже 2 нг/мл (референсное значение >10 нг/мл, референсное значение для многих стран за пределами США >7 нг/мл), а в гене, кодирующем гормон роста человека, обнаружены редкие инактивирующие мутации. Мы считаем, что применение терапии гормоном роста человека в данной клинической ситуации очевидно и неоспоримо.

Применение терапии гормоном роста человека в следующих ситуациях может вызвать споры: рост 14-летнего мальчика всегда находился в 10-м процентиле от роста его сверстников, а пиковый уровень гормона роста человека после стимуляции составляет 8 нг/мл. Известных функциональных мутаций, влияющих на рост, и других причин низкорослости не выявлено, а его костный возраст составляет 15 лет (т.е. без задержки развития). Лишь часть споров связана с различиями в пороговых значениях, определяемых экспертами на основе десятков исследований уровней гормона роста человека, используемых для диагностики изолированного дефицита гормона роста. Не менее значительная часть споров связана с соотношением риска и пользы применения терапии гормоном роста человека с точки зрения пациентов, их родителей, медицинских работников, фармацевтических компаний и плательщиков. Детские эндокринологи могут сопоставлять редкие побочные эффекты ежедневных инъекций гормона роста в течение 2 лет с вероятностью отсутствия или минимального увеличения размеров тела во взрослом возрасте по сравнению с текущим. Мальчики могут полагать, что даже если их рост увеличится всего на 2 см, стоит сделать инъекцию гормона роста, но плательщик и фармацевтическая компания могут придерживаться разных точек зрения.

 

В качестве примера мы рассмотрим показатель рСКФ, основанный на креатинине, который широко используется для диагностики и определения стадии хронической болезни почек, определения условий для трансплантации или донорства почки, а также для определения критериев снижения дозировки и противопоказаний для многих рецептурных препаратов. РСКФ — это простое уравнение регрессии, используемое для оценки измеренной скорости клубочковой фильтрации (мСКФ), которая является эталонным стандартом, но метод оценки относительно громоздок. Это уравнение регрессии нельзя считать моделью искусственного интеллекта, но оно иллюстрирует многие принципы, связанные с человеческими ценностями и вероятностным мышлением.

Первая точка входа для человеческих ценностей в расчет рСКФ — это выбор данных для подгонки уравнений. Первоначальная очередь, использованная для разработки формулы рСКФ, состояла в основном из участников с афроамериканской и белой расой, и ее применимость ко многим другим этническим группам неясна. Последующие точки входа для человеческих ценностей в эту формулу включают: выбор точности иСКФ в качестве основной цели оценки функции почек, приемлемый уровень точности, способ измерения точности и использование рСКФ в качестве порогового значения для принятия клинических решений (например, определения показаний к трансплантации почки или назначения лекарственных препаратов). Наконец, при выборе содержимого входной модели человеческие ценности также будут включены в эту формулу.

Например, до 2021 года руководящие принципы предлагали корректировать уровни креатинина в формуле расчета рСКФ в зависимости от возраста, пола и расы пациента (классифицируются только как чернокожие или не чернокожие). Корректировка с учетом расы направлена ​​на повышение точности формулы расчета иСКФ, но в 2020 году крупные больницы начали сомневаться в использовании рСКФ, основанной на расе, ссылаясь на такие причины, как задержка в определении соответствия пациента требованиям трансплантации и конкретизация расы как биологического понятия. Исследования показали, что разработка моделей рСКФ с учетом расы может оказывать глубокое и неоднозначное влияние на точность и клинические исходы; поэтому выборочная ориентация на точность или на часть исходов отражает оценочные суждения и может маскировать прозрачность принятия решений. Наконец, национальная рабочая группа предложила новую формулу, которая была переработана без учета расы, чтобы сбалансировать вопросы эффективности и справедливости. Этот пример иллюстрирует, что даже простая клиническая формула имеет много точек входа в человеческие ценности.

Врач с виртуальной реальностью в операционной больницы. Хирург анализирует результаты тестирования сердца пациента и анатомию человека на технологическом цифровом футуристическом виртуальном интерфейсе, цифровой голографии, инновационной в науке и медицине концепции.

По сравнению с клиническими формулами, содержащими лишь небольшое количество прогностических показателей, модель LLM может включать от миллиардов до сотен миллиардов параметров (весов модели) и более, что затрудняет её понимание. Причина, по которой мы говорим «трудно понять», заключается в том, что в большинстве моделей LLM точный способ получения ответов посредством вопросов не может быть отображен. Количество параметров для GPT-4 пока не объявлено; её предшественник GPT-3 имел 175 миллиардов параметров. Большее количество параметров не обязательно означает более широкие возможности, поскольку модели меньшего размера, включающие больше вычислительных циклов (например, серия моделей LLaMA [Large Language Model Meta AI]), или модели, точно настроенные на основе обратной связи с человеком, будут работать лучше, чем модели большего размера. Например, по мнению экспертов, модель InstrumentGPT (модель с 1,3 миллиарда параметров) превосходит GPT-3 в оптимизации результатов вывода модели.

Конкретные детали обучения GPT-4 пока не раскрыты, но были раскрыты сведения о моделях предыдущего поколения, включая GPT-3, InstrumentGPT и многие другие модели LLM с открытым исходным кодом. В настоящее время многие модели ИИ поставляются с карточками моделей; данные об оценке и безопасности GPT-4 опубликованы в аналогичной системной карточке, предоставленной компанией-разработчиком моделей OpenAI. Создание LLM можно условно разделить на два этапа: начальный этап предобучения и этап тонкой настройки, направленный на оптимизацию выходных результатов модели. На этапе предобучения модели предоставляется большой корпус, включающий исходный интернет-текст, для обучения её предсказывать следующее слово. Этот, казалось бы, простой процесс «автоматического завершения» создаёт мощную базовую модель, но он также может привести к вредоносному поведению. Человеческие ценности будут учитываться на этапе предобучения, включая выбор предобучения для GPT-4 и решение об удалении из них нежелательного контента, например, порнографического. Несмотря на эти усилия, базовая модель может оказаться бесполезной и неспособной содержать вредоносные выходные результаты. На следующем этапе тонкой настройки возникнет множество полезных и безвредных моделей поведения.

На этапе тонкой настройки поведение языковых моделей часто существенно изменяется посредством контролируемой тонкой настройки и обучения с подкреплением, основанного на обратной связи человека. На этапе контролируемой тонкой настройки нанятые подрядчики будут записывать примеры ответов на слова-подсказки и непосредственно обучать модель. На этапе обучения с подкреплением, основанном на обратной связи человека, люди-оценщики будут сортировать выходные результаты модели как примеры входного контента. Затем применяют вышеуказанные результаты сравнения для изучения «модели вознаграждения» и дальнейшего улучшения модели посредством обучения с подкреплением. Удивительно низкое участие человека может обеспечить тонкую настройку этих больших моделей. Например, модель InstrumentGPT использовала команду из примерно 40 подрядчиков, набранных с краудсорсинговых сайтов и прошедших отборочный тест, направленный на отбор группы аннотаторов, чувствительных к предпочтениям различных групп населения.

Как показывают эти два крайних примера, а именно простая клиническая формула [рСКФ] и мощная формула LLM [GPT-4], человеческое принятие решений и человеческие ценности играют важнейшую роль в формировании результатов моделирования. Могут ли эти модели ИИ отражать разнообразные ценности пациентов и врачей? Как публично направлять применение ИИ в медицине? Как упоминается ниже, переосмысление анализа медицинских решений может обеспечить принципиальное решение этих проблем.

 

Анализ медицинских решений не знаком многим клиницистам, но он позволяет различать вероятностные рассуждения (для неопределенных исходов, связанных с принятием решений, например, вопрос о назначении гормона роста человека в спорном клиническом сценарии, показанном на рисунке 1) и факторы рассмотрения (для субъективных ценностей, связанных с этими исходами, ценность которых количественно определяется как «полезность», например, ценность увеличения роста мужчины на 2 см), предоставляя системные решения для сложных медицинских решений. При анализе решений клиницисты должны сначала определить все возможные решения и вероятности, связанные с каждым исходом, а затем учесть полезность для пациента (или другой стороны), связанную с каждым исходом, чтобы выбрать наиболее подходящий вариант. Следовательно, валидность анализа решений зависит от полноты исхода, а также от точности измерения полезности и оценки вероятности. В идеале такой подход помогает гарантировать, что решения основаны на доказательствах и соответствуют предпочтениям пациента, тем самым сокращая разрыв между объективными данными и личными ценностями. Этот метод был внедрен в медицину несколько десятилетий назад и применялся для принятия индивидуальных решений пациентами и оценки здоровья населения, например, для предоставления рекомендаций по скринингу колоректального рака для всего населения.

 

В анализе медицинских решений разработаны различные методы определения полезности. Большинство традиционных методов напрямую извлекают ценность из индивидуальных данных пациентов. Самый простой метод — использование рейтинговой шкалы, где пациенты оценивают свой уровень предпочтения определённого исхода по цифровой шкале (например, линейной шкале от 1 до 10), где на обоих концах расположены самые экстремальные исходы для здоровья (например, полное здоровье и смерть). Другой распространённый метод — метод обмена временем. В этом методе пациентам необходимо решить, сколько времени они готовы потратить на здоровье в обмен на период плохого здоровья. Другой распространённый метод определения полезности — стандартный метод азартной игры. В этом методе пациентов спрашивают, какой из двух вариантов они предпочитают: либо прожить определённое количество лет в нормальном состоянии здоровья с определённой вероятностью (p) (t), либо нести риск смерти с вероятностью 1-p; либо убедиться, что они проживут t лет в условиях перекрёстных заболеваний. Опрашивайте пациентов несколько раз с разными значениями p, пока они не перестанут отдавать предпочтение какому-либо варианту, чтобы можно было рассчитать полезность на основе ответов пациентов.
Помимо методов, используемых для выявления индивидуальных предпочтений пациентов, были разработаны также методы оценки полезности для всей популяции пациентов. В частности, обсуждения в фокус-группах (когда пациенты вместе обсуждают конкретный опыт) могут помочь понять их точку зрения. Для эффективного определения полезности для группы были предложены различные методы структурированных групповых обсуждений.
На практике непосредственное внедрение показателей полезности в процесс клинической диагностики и лечения занимает очень много времени. В качестве решения этой проблемы обычно используются анкеты, распространяемые среди случайно выбранных групп населения для получения оценок полезности на уровне популяции. В качестве примеров можно привести 5-мерный опросник EuroQol, краткую форму 6-мерного веса полезности, индекс полезности здоровья и инструмент Core 30 Европейской организации по исследованию и лечению рака (Cancer Specific European Cancer Research and Treatment Organization).


Время публикации: 01 июня 2024 г.