Исследования показывают, что LLMS можно использовать для поддержки врачей-стажеров, медсестер и терапевтов
Согласно исследованию, представленному на конгрессе Европейского респираторного общества (ERS) в Вене, Австрия, чат-бот ChatGPT показал лучшие результаты, чем врачи-стажеры, в оценке сложных случаев респираторных заболеваний в таких областях, как муковисцидоз, астма и инфекции грудной клетки.
Исследование также показало, что чат-бот Google Bard в некоторых аспектах работал лучше, чем стажеры, а чат-бот Microsoft Bing — не хуже стажеров. Исследование предполагает, что эти большие языковые модели (LLM) могут быть использованы для оказания помощи врачам-стажерам, медсестрам и врачам общей практики в более быстрой сортировке пациентов и снижении нагрузки на медицинские службы.
Исследование было представлено доктором Манджитом Нараянаном, консультантом по детской пульмонологии Королевской больницы для детей и молодежи в Эдинбурге и почетным старшим клиническим преподавателем Эдинбургского университета, Великобритания.
Он сказал: “Большие языковые модели, такие как ChatGPT, приобрели известность за последние полтора года благодаря своей способности, по-видимому, понимать естественный язык и выдавать ответы, которые могут адекватно имитировать человеческий разговор. Эти инструменты имеют несколько потенциальных применений в медицине. Моей целью при проведении этого исследования было оценить, насколько хорошо магистранты могут помогать клиницистам в реальной жизни”.
Для исследования доктор Нараянан использовал клинические сценарии, которые часто встречаются в педиатрической респираторной медицине. Десяти врачам-стажерам с опытом работы в педиатрии менее четырех месяцев был предоставлен час для решения каждого сценария с использованием Интернета, но не чат-ботов. Каждый сценарий также был представлен трем чат-ботам.
Решения, предоставляемые ChatGPT версии 3.5, получили в среднем семь баллов из девяти возможных и были признаны более похожими на человеческие, чем ответы других чат-ботов. Бард набрал в среднем шесть баллов из девяти, в то время как Бинг набрал в среднем четыре балла из девяти – столько же, сколько врачи-стажеры в целом.
Доктор Нараянан заключил: “Насколько нам известно, наше исследование является первым, в котором магистранты тестируются на врачах-стажерах в ситуациях, отражающих реальную клиническую практику. Это исследование показывает нам другой способ использования LLMs и то, насколько мы близки к регулярному клиническому применению”.