Раздел для медицинских специалистов · Аналитический разбор

Архитектура важнее модели: что показало Nature Medicine о медицинских ИИ-инструментах

Независимое сравнение коммерческих медицинских ИИ-систем и языковых моделей общего назначения дало неожиданный результат. Разбираем, что именно сделали авторы исследования NYU Langone Health, почему специализированные клинические инструменты проиграли и что из этого следует для архитектуры HelpScaner.

Опубликовано: 13 июня 2026 Время чтения: около 14 минут Источник: Nature Medicine, июнь 2026 Аудитория: врачи, медработники, руководители лабораторий

Оригинал исследования в Nature Medicine (PDF)

Если коротко

В июне 2026 года Nature Medicine опубликовал независимое сравнение двух коммерческих медицинских ИИ-инструментов (OpenEvidence, UpToDate Expert AI) с тремя ведущими языковыми моделями общего назначения (GPT-5.2, Gemini 3.1 Pro, Claude Opus 4.6). На всех трёх этапах оценки, включая 100 реальных клинических запросов от практикующих врачей, фронтирные модели общего назначения превзошли специализированные клинические системы.
Авторы предполагают конкретную причину: подключение собственной базы знаний к языковой модели может ухудшать качество ответа, когда поиск по базе работает плохо или сама модель в основе слабее «фронтирной».
Архитектура HelpScaner совпадает с тем, что исследование называет рабочим: ведущая фронтирная модель в роли движка плюс верифицированная база знаний с правилом приоритета источников. Сегодня в сервисе работает Claude Opus 4.8, поколение, следующее за оценённым в исследовании.
Цифры исследования к моменту публикации уже частично устаревают, потому что модели обновляются раз в несколько месяцев. Архитектурный вывод от этого не меняется: способ сборки системы важнее, чем поколение модели внутри неё.

Скепсис врачей в отношении медицинских ИИ-сервисов нельзя считать иррациональным. Большая часть таких систем заходит на рынок без независимой проверки, под рекламные тезисы об «обучении на медицинских данных» и «специализации для клинической практики». Стоимость подписки на коммерческие клинические ИИ-инструменты доходит до семисот долларов в год с одного врача, а ответы остаются непрозрачными: невозможно увидеть, на чём именно построен совет, какая модель работает в основе и как часто она ошибается. В июне 2026 года в Nature Medicine вышла работа, которая впервые это измерила количественно.

Раздел 1

Что именно сделали исследователи NYU Langone

Группа из NYU Langone Health во главе с Krithik Vishwanath и Eric K. Oermann поставила задачу прямо: проверить, насколько коммерческие медицинские ИИ-системы превосходят (или не превосходят) обычные «фронтирные» языковые модели общего назначения. Под фронтирными моделями авторы понимают флагманские системы трёх крупнейших разработчиков: OpenAI GPT-5.2, Google Gemini 3.1 Pro и Anthropic Claude Opus 4.6. Под клиническими инструментами, коммерческими продуктами для практикующих врачей: OpenEvidence (одно из самых быстрорастущих приложений для американских клиницистов) и UpToDate Expert AI (Wolters Kluwer, традиционный лидер медицинских справочных систем). Для полноты картины в сравнение добавили Google AI Overview, автоматически появляющийся в результатах обычного поиска, как контроль того, что врач увидит при попытке загуглить вопрос.

Оценка построена в три этапа. Первый этап: 500 вопросов в стиле US Medical Licensing Examination из бенчмарка MedQA, проверка медицинских знаний в формате multiple-choice. Второй этап: 500 заданий HealthBench (бенчмарк OpenAI на согласованность ответов с мнением клиницистов). Третий, и в этом исследовании главный: 100 реальных деперсонализированных запросов от практикующих врачей, собранных в живой клинической работе через HIPAA-совместимый GPT-инстанс NYU Langone. Авторы назвали этот этап Real Clinical Queries (RCQ). По каждому запросу шесть систем выдавали ответ, после чего три из двенадцати клиницистов оценивали его по четырём шкалам (клиническая корректность, полнота, безопасность, ясность) и двум бинарным флагам (вредная рекомендация, галлюцинация). Все оценщики были заслеплены к источнику ответа, всего получилось 1 800 экспертных аннотаций.

RCQ-этап методологически важен по одной причине: он защищён от загрязнения обучающих данных. В отличие от MedQA и HealthBench, общедоступных бенчмарков, которые могли попасть в тренировочные корпуса моделей, реальные клинические запросы из живого госпитального окружения никогда раньше не были опубликованы. Это даёт чистую оценку того, как модели справляются с тем, что врачи действительно у них спрашивают, а не с тем, к чему модели могли заранее подготовиться.

Главное про методологию

Дизайн исследования закрывает почти все типовые претензии к ИИ-бенчмаркам: реальные запросы из клинической практики, не учебные кейсы; заслепленная экспертная оценка двенадцатью независимыми клиницистами; прозрачность кода: репозиторий с программами оценки опубликован на GitHub. Все данные и статистические тесты в открытом доступе.

Раздел 2

Главные результаты в одной таблице

Цифры неудобны для того, кто продаёт «специализированный медицинский ИИ» по высокой подписке.

Таблица 1. Оценки систем на трёх этапах исследования

Система	Тип	MedQA, точность	HealthBench, баллы	RCQ, среднее (1–4)
Gemini 3.1 Pro	языковая модель общего назначения	97,4%	79,3	3,62
GPT-5.2	языковая модель общего назначения	94,2%	88,0	3,54
Claude Opus 4.6	языковая модель общего назначения	90,2%	77,0	3,52
OpenEvidence	специализированный клинический ИИ	89,6%	62,6	3,24
UpToDate Expert AI	специализированный клинический ИИ	88,4%	61,3	3,17
Google AI Overview	поисковый ИИ (контроль)	не оценивалось	не оценивалось	3,27

Картина повторяется на всех трёх этапах. Фронтирные модели общего назначения формируют верхний кластер. Коммерческие клинические инструменты, OpenEvidence и UpToDate Expert AI, не отстают катастрофически (на MedQA разница в районе пяти процентных пунктов), но устойчиво оказываются ниже. В RCQ, на реальных клинических запросах, специализированные системы оказались статистически неотличимы от автоматического Google AI Overview, бесплатной функции, появляющейся в результатах обычного поиска. Проигрыш бесплатной функции поиска хуже, чем уступка лидеру: сравнение идёт с продуктом, никак не позиционирующим себя как медицинский.

Две детали, которые особенно стоит вынести из таблицы

Первая. UpToDate Expert AI отказался отвечать на 19% запросов, поданных ему врачами. Каждый пятый случай. У фронтирных моделей этот показатель в пределах 1–3%, у Google AI Overview около 6%. Авторы исследования отдельно отметили: высокий процент отказов влияет на полезность инструмента не меньше, чем качество тех ответов, которые он всё-таки даёт. Если врач не знает заранее, ответит ему система или нет, это критический изъян рабочего процесса.

Вторая. OpenEvidence получил худшие оценки за ясность изложения (среднее 2,84 из 4) и наибольшее число «дезорганизованных, трудночитаемых» ответов в постфактум-классификации ошибок. Авторы пишут: слабость OpenEvidence не в недостатке знаний, а в том, как они подаются клиницисту. Совершенно справедливая, по сути, информация, поданная в неудобном виде, остаётся неиспользуемой.

Фронтирные модели общего назначения превзошли клинические ИИ-инструменты на всех трёх этапах оценки: знаниях, согласованности с экспертами и реальном клиническом использовании. Клинические инструменты показали результаты, сопоставимые с автоматическим Google AI Overview.

Vishwanath K., Alyakin A. et al., Nature Medicine, 2026

Раздел 3

Почему специализированные инструменты проиграли

Авторы исследования прямо обсуждают, в чём, по их мнению, причина проигрыша. Их объяснение приходится повторить здесь точно, потому что оно касается ядра обсуждаемой архитектуры.

Оба коммерческих клинических инструмента, по доступной публичной информации, используют подход «модель плюс верифицированная база знаний». В тексте Nature Medicine этот подход называется retrieval-augmented generation: перед формулировкой ответа система обращается к специализированной базе документов, находит релевантные фрагменты и встраивает их в контекст модели. Идея понятна: научить общую языковую модель отвечать как доменный эксперт, не переобучая её, а подкармливая ей правильные документы.

Авторы отмечают: эта схема не работает как магия. Если поиск по базе нашёл нерелевантные фрагменты, и они попали в контекст модели, ответ ухудшится. Если базовая модель в основе слабее, чем фронтирные системы, превосходство нескольких сотен правильных документов в базе не компенсирует разрыв в способностях. Авторы ссылаются на отдельную исследовательскую работу (Wu et al., ClashEval, опубликовано на NeurIPS 2024), в которой количественно показано: при противоречии между внутренним знанием модели и внешним документом из retrieval, модель часто принимает сторону документа, даже когда документ нерелевантен или просто менее точен.

Дополнительный фактор, который авторы упоминают мягко, но он значимый: сроки выпуска. Фронтирные модели обновляются каждые три-шесть месяцев, ведущие разработчики вкладывают в их совершенствование миллиарды долларов. Коммерческие клинические системы обновляются медленнее, потому что их разработчики, в основном медицинские издательства, не имеют сопоставимых исследовательских команд по машинному обучению. Эта асимметрия будет нарастать, пока скейлинг фронтирных моделей не упрётся в потолок.

Содержательный вывод

Проблема не в самой идее «языковая модель плюс верифицированная база». Проблема в её реализации. Хорошо сделанная такая система выигрывает у голой языковой модели по точности, по проверяемости и по управляемости. Плохо сделанная же проигрывает даже бесплатному поисковому ИИ. Архитектурный принцип сам по себе не гарантирует качества: гарантирует его конкретная инженерная сборка.

Раздел 4

Где здесь HelpScaner

Закономерный вопрос врача после такого исследования: «Подключение базы знаний к модели может ухудшать ответ. У вас тоже подключена база. Значит, у вас может быть то же самое?». Вопрос правильный, и ответ на него заслуживает развёрнутого разбора, а не отговорки.

HelpScaner устроен иначе, чем оценённые в исследовании коммерческие клинические инструменты. Различия лежат в нескольких плоскостях, и в каждой они работают в нашу пользу.

Движок. В HelpScaner работает Claude Opus 4.8, текущее поколение Anthropic. В исследовании оценивалась предыдущая версия той же линейки, Claude Opus 4.6, которая на RCQ получила 3,52 из 4 и оказалась статистически неотличима от GPT-5.2 и Gemini 3.1 Pro. По данным разработчика, в Opus 4.8 дополнительно снижена частота галлюцинаций и улучшено следование инструкциям. Это не маркетинговая разница, это разница поколения, и она работает в пользу пользователя.
База. Не закрытая коммерческая подписка, а собственная верифицированная база знаний с явным правилом приоритета источников. Референсные интервалы строятся на международных лабораторных стандартах (CLSI, IFCC) и мульти-центровых популяционных исследованиях. Диагностические пороги, на действующих международных профильных гайдлайнах. Российский клинический контекст: терминология, маршруты, целевые значения, формат дисклеймера, на действующих клинических рекомендациях Минздрава РФ. Это разделение ролей источников прописано как методологическое правило, не как декларация.
Аудитория. Пациент, а не врач. Это меняет всё: класс рисков, формат ответа, объём ограничителей. Когда система отвечает пациенту, в неё закладываются жёсткие правила: не ставить диагноз, не назначать препараты, не давать дозировки, обязательно упомянуть приоритет лечащего врача в каждом ответе. Эти правила прописаны в системном промте и в каждом материале базы.
Прозрачность статуса. HelpScaner позиционирован как справочно-информационный сервис, не как «ИИ для клинических решений». Эта разница имеет прямые правовые последствия. Сервис не оказывает медицинскую помощь, не выдаёт назначений и поэтому не попадает в правовую рамку, которую с 2025 года применяют к медицинским организациям. Стандартный дисклеймер в каждом отчёте подкреплён архитектурно: база не содержит схем лечения и дозировок, физически нечего «утечь» в неподобающий ответ.
Поведение при сложных запросах. В исследовании UpToDate Expert AI отказывал на 19% запросов от врачей. HelpScaner отвечает на всё в пределах своей чётко обозначенной компетенции: лабораторные показатели, лабораторные панели, клинические состояния, преаналитика. Если запрос выходит за эти границы, сервис явно так и сообщает и направляет к врачу. Это не «отказ», это адекватная маршрутизация.

Принципиальная разница: оценённые в исследовании коммерческие клинические инструменты обещают быть универсальной поддержкой принятия решений для врача. Это амбициозная и широкая роль, в которой ошибаются и они, и продаются они задорого. HelpScaner обещает гораздо меньше, узкую справочную функцию для пациента в момент между получением бланка анализов и приёмом, и в этой узкой роли система устроена так, что её точность поддерживается архитектурно.

Раздел 5

Чистая языковая модель против архитектуры со специализированной базой

Самый частый сценарий, с которым сталкивается пациент: открыть любой популярный ИИ-чат, прикрепить фотографию своего бланка анализов и спросить «расшифруй». Поверхностно это похоже на то, что делает HelpScaner. По существу, это совсем другая операция, и разница хорошо видна в таблице.

Таблица 2. Архитектурное сравнение двух подходов

Параметр	Пациент пишет в общий ИИ-чат	HelpScaner
Промт	Несколько фраз пользователя, обычно без указания пола, возраста, состояния, целей сдачи анализа	Многостраничный системный промт с правилами интерпретации, ограничителями, форматом ответа и обязательными элементами (популяционная норма, преаналитика, красные флаги, дисклеймер)
Источник нормы	Усреднённые тексты из открытого интернета на момент обучения модели, без атрибуции	Конкретный документ базы знаний с указанной датой редакции и уровнем доказательности источника
Популяционные нормы	Один интервал «для взрослого» по умолчанию	Более 25 популяционных тегов: беременные по триместрам, дети по возрастным подгруппам, спортсмены, пожилые от 65, пациенты с хроническими заболеваниями, особые ситуации
Преаналитика	Учитывается, только если пользователь сам спросил	Встроена в ответ по каждому показателю: интерференции лекарств, требования к голоданию, влияние физической нагрузки, особенности забора
Красные флаги	На усмотрение модели, без гарантий	Числовые пороги экстренности по каждому показателю с автоматическим предупреждением и рекомендацией обратиться за помощью
Правовая рамка	Может выдать «диагноз», назначить препарат, посоветовать дозировку	Заблокировано на уровне системного промта и базы. Стандартный дисклеймер в каждом отчёте: приоритет лечащего врача, информационный характер сервиса
Актуальность норм	Зависит от даты обучения модели, обычно полтора-два года в прошлом, без возможности обновить отдельный показатель	Метаданные источников с датой; протокол обновления: срочное при выходе нового гайдлайна (до двух недель), плановое раз в квартал, полная ревизия раз в год
Ответственность	Размытая. Пользователь нигде не давал согласия на обработку данных о здоровье, не подписывал условий, не имеет договорного канала претензий	Договорная, прозрачная. Сервис обрабатывает специальную категорию персональных данных по закону РФ, с согласием пользователя и политикой хранения

Эта таблица описывает реальный механизм работы. На один и тот же лабораторный показатель общий ИИ-чат и HelpScaner дадут разные ответы не потому, что в одной из систем стоит «лучшая модель», а потому, что вокруг модели по-разному устроена всё остальное.

В исследовании NYU получился именно такой вывод. Лучшая фронтирная модель сама по себе, без правильной обвязки, превосходит плохо сконструированную «специализированную» систему. Та же фронтирная модель, помещённая в хорошо построенную доменную архитектуру, должна давать ещё лучший результат. Авторы прямо пишут это в заключительной части: «архитектура медицинских ИИ-инструментов, объединяющая фронтирные модели с грамотным retrieval и человеком в петле, может быть наиболее перспективным направлением».

Архитектурный вывод

В одиночку фронтирная языковая модель отвечает на запрос пациента в среднем лучше, чем плохо собранная «клиническая» система. В составе хорошо построенной доменной архитектуры та же модель отвечает компетентнее, чем сама с собой в одиночку. Способ сборки даёт прирост, который не получить через выбор более мощной модели.

Раздел 6

Не только в медицине: три аналогии из других областей

Преимущество «языковая модель плюс верифицированная база» над «языковой моделью в чате» наблюдается не только в медицине. Та же закономерность фиксируется в любой профессиональной области, где ответ должен быть проверяемым.

Юриспруденция

В мае 2023 года в Окружном суде Южного округа Нью-Йорка слушалось дело Mata v. Avianca. Адвокат истца Стивен Шварц, готовя заявление в суд, обратился к ChatGPT за судебной практикой по сходным делам. Чат выдал ему шесть кейсов с реквизитами и цитатами. Шварц вставил их в документ. Все шесть оказались полностью выдуманными. Никаких таких судебных дел не существовало. Шварц и его коллега были оштрафованы на пять тысяч долларов, дело привлекло широкое внимание профессионального сообщества и вошло в учебники по юридической этике как первый показательный кейс об ответственности при использовании ИИ-инструментов.

Параллельно с этим уже несколько лет работают специализированные системы для юристов: Westlaw Edge AI от Thomson Reuters и Harvey от одноимённого стартапа. Архитектурно они устроены так же, как должны быть устроены качественные медицинские системы: ведущая языковая модель плюс верифицированная база настоящих судебных решений с прямой атрибуцией. Ответ Westlaw на тот же вопрос содержал бы реальные кейсы с реальными номерами и цитатами, потому что модель не имеет возможности придумать дело: она работает только с тем, что в базе.

Чистая модель в чате

Адвокат спрашивает: «Какие были решения по похожим делам?» Модель пишет шесть несуществующих кейсов с фабриковaнными цитатами. Адвокат проиграл, оштрафован.

Модель плюс юридическая база

Тот же вопрос в Westlaw Edge AI. Система находит реальные решения в верифицированной базе, выдаёт их с прямыми ссылками на исходные документы. Цитаты проверяемы.

Программирование

Профессиональные среды разработки последних двух лет научились индексировать всю кодовую базу проекта и использовать её как контекст для языковой модели. Cursor, GitHub Copilot Enterprise, JetBrains AI Assistant с полным проектным контекстом, все они работают по одному принципу: модель видит не только текущий файл, но и архитектуру всего проекта, имена внутренних модулей, историю коммитов. На сложных рефакторингах или поиске причины редкого бага такая система может объяснить разработчику: «эта функция вызывается из четырнадцати мест, в одиннадцати из них передаётся валидный параметр, в трёх возможен undefined, вот эти три места».

Тот же ChatGPT, открытый в браузере, получит фрагмент кода без контекста и даст совет общего характера: «убедитесь, что входной параметр не undefined». Совет формально верный, но бесполезный, потому что разработчик и сам это знает: ему нужно знать, откуда именно приходит проблема. Доменный контекст превращает общий совет в конкретный ответ.

Корпоративная экспертиза

Десятки крупных компаний за последние два года внедрили внутренних ассистентов, подключённых к их собственным корпоративным базам знаний: вики на Confluence, регламентам процессов, документации продукта, истории тикетов поддержки за многие годы. Когда сотрудник спрашивает «почему у нас сертификат HTTPS падает на отдельных запросах после релиза», такой ассистент отвечает: «эта проблема встречалась в августе прошлого года, тикет SUP-12847, решение оказалось в переходе со старой библиотеки X на версию Y». Тот же вопрос в общем ИИ-чате получит ответ уровня форума: «проверьте конфигурацию nginx, обновите OpenSSL, посмотрите логи».

Закономерность во всех трёх случаях одинакова. Модель сама по себе, это мощный инструмент общего назначения, который начинает уверенно ошибаться, когда требуется проверяемая профессиональная точность. Та же модель плюс качественная доменная база уже превращается в рабочий профессиональный инструмент. Разница не в модели. Разница в архитектуре.

Раздел 7

Что меняется для пациента и для врача

Архитектурные различия выглядят абстрактно, пока не переводятся в конкретные эффекты на приёме.

Для пациента. Получив бланк анализов, человек обычно проводит несколько часов или дней в режиме самостоятельного поиска: социальные сети, форумы, случайные сайты. Найденная информация либо обнадёживает без основания, либо пугает без повода. На приём такой пациент приходит с готовой неточной картиной мира, которую врачу нужно сначала разобрать. HelpScaner закрывает именно это окно: вместо хаотичного поиска пациент получает структурированную расшифровку под свою категорию (беременность, возраст, спорт, хронические состояния) с явным указанием, какие отклонения требуют срочной консультации, а какие не выходят за пределы физиологической нормы.

Для врача. Подготовленный пациент задаёт другие вопросы. Не «у меня тут красная звёздочка, я умру?», а «АЛТ выше нормы, я тренировался накануне, нужно ли пересдать через несколько дней?». Приём начинается с обсуждения сути, а не с объяснения базовых понятий. По нашим оценкам, на развёрнутом анализе крови с двадцатью-тридцатью показателями врач экономит четыре-семь минут на пациенте. На потоке из двадцати-тридцати пациентов в день это полтора-два часа, которые возвращаются в клиническую работу.

Для партнёрской клиники. Клиника, в чьём контуре HelpScaner работает (через QR-код в бланке, через ссылку на сайте, через брендированную страницу), получает несколько эффектов сразу. Тревожных звонков «у меня результаты, что это значит» становится меньше. Конверсия из «получил анализ» в «записался на приём» поднимается, потому что подготовленный пациент видит смысл в консультации. Сама клиника позиционируется как современная, заботящаяся о пути пациента, а не оставляющая его наедине с бланком.

Подробное описание форматов партнёрства, ожидаемых эффектов и условий сотрудничества находится на основной странице раздела «Врачам».

Раздел 8

Технологии быстро развиваются: почему это работает на нас

Особенность области в том, что любая количественная оценка устаревает быстрее, чем выходит из печати. Исследование NYU оценивало Claude Opus 4.6, GPT-5.2 и Gemini 3.1 Pro Preview. К моменту публикации в журнале (июнь 2026) Anthropic выпустил уже Claude Opus 4.8, OpenAI и Google тоже двинулись вперёд. Бенчмарк-цифры из таблицы 1 при перезапуске на новых поколениях моделей будут другими.

Это не дискредитирует исследование. Меняются цифры, не меняется содержательный вывод. Архитектурный принцип «фронтирная модель плюс правильно построенная доменная база» работает независимо от того, какое поколение фронтирной модели сейчас в строю. Если завтра выйдет Claude Opus 5.0 или GPT-6, преимущество доменной архитектуры над голой моделью сохранится.

Для HelpScaner это означает простую операционную политику. Сервис работает на платном API Anthropic с тарификацией по токенам, без инфраструктурных причин держаться за устаревшее поколение. Когда выходит новая модель, мы переключаемся на неё после проверки совместимости с системным промтом и базой знаний. Параллельно работает протокол обновления базы: срочные изменения при выходе крупных гайдлайнов (до двух недель), плановое пополнение раз в квартал, полная ревизия раз в год. Эти процессы не зависят от поколения модели и поддерживают свежесть именно того слоя, в котором живёт медицинская специфика.

Главный аргумент перед партнёром, читающим эту статью, не «у нас самая мощная модель в индустрии». Это плохой и неустойчивый аргумент: чья-то модель всегда самая мощная неделю или две, потом её обгоняют. Наш аргумент устойчивее: у нас правильная архитектурная сборка, в которой современная фронтирная модель встроена в верифицированную доменную базу с правилом приоритета источников и с автоматической проверкой свежести источников. Эта сборка будет улучшаться по мере выхода новых моделей, и она уже сегодня даёт лучшие результаты, чем то, что измерял Nature Medicine у конкурентов.

Открытость как часть архитектуры

Мы открыты к независимой проверке. Готовы показывать партнёрской клинике, на каких источниках построен каждый ответ, по какому протоколу обновляется база, какие популяционные нормы и преаналитические оговорки встроены в материалы. Закрытость коммерческих клинических инструментов, отмеченная авторами Nature Medicine как затрудняющая независимую оценку, не относится к HelpScaner.

Раздел 9

Что у исследования с ограничениями

Любое исследование имеет слабые места, и серьёзный читатель ищет их в первую очередь. Молчание про ограничения само по себе сигнализирует об ангажированности. Поэтому проговорим прямо то, что авторы NYU обозначили честно, и добавим собственные оговорки.

Опрос через браузер. Коммерческие клинические инструменты не имеют публичного API. Их опрашивали через веб-интерфейс вручную, в отличие от фронтирных моделей, которые опрашивались через API с детерминированными параметрами. Это могло влиять на форматирование ответа, скрытые системные промты и поведение системы. Авторы это признают, и это разумная оговорка, но она не объясняет двадцатидвухпунктное отставание UpToDate в RCQ-сравнении: для такого разрыва интерфейс взаимодействия не критичен.

Утечка тренировочных данных. Бенчмарки MedQA и HealthBench общедоступны, и фронтирные модели потенциально могли с ними столкнуться при обучении. Это смещает оценку первого и второго этапов вверх. Однако RCQ-этап, считающийся в исследовании основным, состоит из новых деперсонализированных запросов из клинической работы NYU Langone, которые никогда раньше не публиковались. На нём утечка невозможна, и именно на нём фронтирные модели показали наибольшее преимущество.

HealthBench разработан OpenAI. GPT-5.2, как раз продукт OpenAI, на этом бенчмарке лидирует. Возможный конфликт интересов: дизайн бенчмарка может неявно отдавать преимущество моделям его разработчика. Авторы NYU сами это отмечают и поэтому полагаются на RCQ как на основной результат, а HealthBench рассматривают как дополнительный.

Не оценивались скорость и качество цитат. Время отклика, наличие ссылок в ответе и их корректность не входили в оценку. Для рабочего использования это значимые параметры, и авторы прямо называют их направлением будущей работы.

Из этих оговорок ни одна не отменяет основной вывод исследования. RCQ-этап методологически устойчив, выборка большая, статистическая обработка прозрачна. Что не имеет смысла переоценивать, так это абсолютные цифры таблицы: они устаревают по мере выхода новых поколений. Что имеет смысл воспринимать как сигнал, так это архитектурную закономерность: фронтирная модель в правильной обвязке превосходит специализированные коммерческие системы, оптимизированные под медицину десятками лет.

Раздел 10

Итог в одном абзаце

Исследование Nature Medicine впервые количественно показало то, о чём в индустрии разговаривают второй год: специализированные коммерческие медицинские ИИ-инструменты не превосходят фронтирные языковые модели общего назначения на реальных клинических запросах. Причина не в самой идее «модель плюс верифицированная база», а в её исполнении. Хорошо сделанная доменная архитектура даёт прирост, который нельзя получить через выбор более мощной модели; плохо сделанная проигрывает даже бесплатному поисковому ИИ. HelpScaner построен по той архитектурной схеме, которую авторы исследования называют наиболее перспективной: ведущая фронтирная модель (Claude Opus 4.8) в роли движка, верифицированная база знаний с явным правилом приоритета источников, узкая чётко определённая роль (справочный сервис для пациента), прозрачная методология обновлений и открытость к независимой проверке. Это та работа, которую сложно сделать, легко проверить и невозможно сымитировать только маркетингом.

Готовы обсудить, как это работает для вашей клиники

Покажем работу сервиса на реальных кейсах. Расскажем, как организовано брендирование расшифровки под клинику, как устроен партнёрский поток по QR-коду в бланке, какие условия по комиссии и поддержке.

Подробно о сервисе для клиник Связаться с командой

Источники

Vishwanath K., Alyakin A., Ghosh M. et al. General-purpose large language models outperform specialized clinical AI tools on medical benchmarks. Nature Medicine, опубликовано 12 июня 2026. DOI: 10.1038/s41591-026-04431-5. Полный текст PDF: скачать локальную копию. Open Access, лицензия CC BY-NC-ND 4.0.
Репозиторий с кодом исследования: github.com/nyuolab/clinical-llm-benchmarks.
Wu E., Wu K., Zou J. ClashEval: Quantifying the tug-of-war between an LLM's internal prior and external evidence. Advances in Neural Information Processing Systems 37 (NeurIPS 2024), pp. 33402–33422. Цитируется авторами NYU как объяснение механизма ухудшения ответа при подключении нерелевантного контекста.
Mata v. Avianca, Inc. Окружной суд Южного округа Нью-Йорка, 2023. Прецедент об ответственности юристов за использование ИИ-инструментов без проверки фактов. Адвокаты Steven A. Schwartz и Peter LoDuca оштрафованы за подачу в суд фабрикованных судебных дел, сгенерированных языковой моделью.
Clinical and Laboratory Standards Institute. EP28-A3c: Defining, Establishing, and Verifying Reference Intervals in the Clinical Laboratory. Третье издание. Международный методологический стандарт для построения референсных интервалов.
CALIPER Reference Interval Database: caliperdatabase.com. Канадский мульти-центровый проект, более 100 биомаркеров с возраст- и пол-специфичными референсами.
Рубрикатор клинических рекомендаций Минздрава РФ: cr.minzdrav.gov.ru. Источник действующих российских клинических рекомендаций, используемых в базе знаний HelpScaner.

HelpScaner · Раздел для медицинских специалистов Опубликовано 13 июня 2026 · Проверка фактов: HelpScaner Editorial