Почему нельзя просто загрузить анализы в ChatGPT
Пациенты всё чаще фотографируют бланк и просят нейросеть «расшифровать». Это выглядит удобно, но исследования показывают: языковая модель без подключённой базы знаний ошибается в нормах чаще, чем угадывает. Разбираем, что именно ломается, почему это опасно именно в лабораторной интерпретации и чем архитектура с верифицированной базой отличается от чата.
- В контролируемом исследовании Lab-AI языковая модель без подключённой базы знаний извлекала правильный нормальный диапазон анализа лишь в 38,4% случаев на уровне вопроса — то есть ошибалась чаще, чем была права.
- Та же модель, подключённая к верифицированной базе (RAG), давала верную норму в 99,5% случаев. Разница не в «мощности ИИ», а в наличии проверяемого источника под ответом.
- Главная проблема «голого» чата в анализах — универсальная норма без учёта пола, возраста и состояния, плюс уверенно звучащие выдуманные значения (галлюцинации), которые пациент не в силах распознать.
- HelpScaner построен по той архитектуре, которую исследования называют работающей: языковая модель поверх верифицированной базы с правилом приоритета источников и системой популяционных норм. Это не «чат, которому загрузили бланк».
Сценарий стал массовым: человек получает бланк анализов, фотографирует его, открывает популярный ИИ-чат и пишет «расшифруй». Ответ приходит за секунды, звучит уверенно и связно. Проблема в том, что уверенность и точность в лабораторной интерпретации — не одно и то же, и это уже измерено количественно. Языковая модель сама по себе, без подключённого проверяемого источника, ошибается в нормах анализов чаще, чем попадает в них. Разберём, почему так происходит и что меняет правильная архитектура.
Что показал контролируемый эксперимент
В 2025 году вышло исследование Lab-AI, посвящённое именно интерпретации лабораторных анализов языковыми моделями. Авторы проверили систему на 122 анализах — 40 из них требуют учёта индивидуальных факторов (пол, возраст, состояние), 82 не требуют. Задача формулировалась узко и проверяемо: назвать корректный нормальный диапазон показателя.
Результат для «голого» ИИ оказался отрезвляющим. GPT-4-turbo без подключённой базы знаний назвал правильный нормальный диапазон лишь в 38,4% случаев на уровне вопроса и в 45,6% на уровне анализа. Иными словами, отвечая напрямую из «памяти модели», система ошибалась в нормах чаще, чем попадала в них.
Та же самая модель, подключённая к верифицированной базе достоверных источников (подход retrieval-augmented generation, RAG), выдавала корректную норму уже в 99,5% случаев, а в извлечении индивидуальных факторов достигала F1-меры 0,948. Прирост относительно лучшей системы без базы — до 132% на уровне вопроса.
Разница между «ошибается чаще, чем прав» и «почти не ошибается» — это не разница между слабой и сильной моделью. Это одна и та же модель. Разница в том, есть ли под её ответом проверяемый источник или она отвечает из усреднённой «памяти» о текстах интернета.
Три вещи, которые ломаются в чате
Почему модель без базы так плохо справляется именно с нормами? Дело в трёх конкретных механизмах, каждый из которых в лабораторной интерпретации критичен.
1. Универсальная норма вместо индивидуальной
Даже пациентские порталы обычно показывают одну усреднённую норму «для взрослого», игнорируя пол, возраст и состояние. Между тем норма эритроцитов для мужчин — 4,7–6,1 млн/мкл, для женщин — 4,2–5,4. Норма ферритина, ТТГ, щелочной фосфатазы, креатинина различается по полу, возрасту, триместру беременности. «Голый» чат по умолчанию выдаёт один интервал и называет результат «в норме» там, где для конкретного пациента это уже отклонение — или наоборот.
2. Галлюцинации, которые звучат уверенно
Языковая модель без источника генерирует правдоподобный текст, а не сверяется с фактом. Она может назвать несуществующий диапазон, перепутать единицы измерения, приписать показателю чужую норму — и всё это связным, убедительным языком. Пациент без медицинского образования не в силах отличить корректную норму от выдуманной: обе выглядят одинаково авторитетно.
3. Нет приоритета источника и актуальности
Знания модели «заморожены» на дате обучения — обычно это полтора-два года в прошлом, без возможности обновить отдельный показатель под свежий клинический стандарт. И у модели нет правила, какому источнику верить: она усредняет всё, что видела, включая форумы и устаревшие данные, наравне с действующими рекомендациями.
Ошибка в норме анализа не выглядит как ошибка. Завышенная «норма» глюкозы спрячет преддиабет; заниженный порог ферритина скроет дефицит железа; универсальная норма гемоглобина «успокоит» беременную, у которой на деле анемия. Неверный ответ, поданный уверенно, опаснее честного «не знаю» — потому что пациент на него полагается.
Закономерность подтверждается не только на анализах
Провал модели без базы и резкий рост качества с базой — не единичный результат Lab-AI, а устойчивая закономерность, воспроизведённая в разных клинических задачах.
| Исследование / задача | Модель без базы | Модель с базой |
|---|---|---|
| Lab-AI — нормальные диапазоны анализов | 38,4% | 99,5% |
| ACR — рекомендации по визуализации (F1) | 0,486 | 0,879 |
| Дифференциальный диагноз с учётом лабораторных данных | базовый уровень | до +30% |
| Клинический скрининг пациентов (NEJM AI) | — | 97,9–100% |
Вывод исследователей одинаков во всех работах: языковая модель — мощный инструмент общего назначения, который начинает уверенно ошибаться, как только требуется проверяемая профессиональная точность. Подключение верифицированной базы поднимает качество скачкообразно — но только если база построена и подключена грамотно.
Низкая точность GPT без RAG в извлечении нормальных диапазонов подчёркивает ненадёжность использования модели в одиночку для этой задачи.
Lab-AI, arXiv, 2025Что именно делает HelpScaner иначе
HelpScaner — это не «чат, которому загрузили бланк». Это та самая архитектура «языковая модель плюс верифицированная база», которую исследования называют работающей, доведённая до узкой задачи расшифровки анализов для пациента.
- Ответ строится на источнике, а не на «памяти». Перед расшифровкой система находит релевантные документы в собственной базе (клинические рекомендации Минздрава РФ, международные лабораторные стандарты CLSI и IFCC, рецензируемые публикации) и опирается на них. Это тот самый RAG, который в Lab-AI поднял точность с 38% до 99%.
- Норма — под конкретного пациента. Не «один интервал для взрослого», а система из десятков популяционных тегов: пол, возраст, триместры беременности, дети по подгруппам, спортсмены, пациенты 65+, хронические состояния. Ровно тот индивидуальный контекст, отсутствие которого исследование называет главным изъяном пациентских порталов и чатов.
- Правило приоритета источников. Референсные интервалы берутся из международных лабораторных стандартов, диагностические пороги — из действующих профильных гайдлайнов, российский контекст — из клинических рекомендаций Минздрава. Это прописано как методологическое правило, а не оставлено на усмотрение модели.
- Свежесть, которой нет у «замороженной» модели. База обновляется по протоколу: срочно при выходе нового гайдлайна (до двух недель), планово раз в квартал, полная ревизия раз в год. Отдельный показатель можно обновить, не переобучая модель.
- Встроенная защита от опасного. Каждая расшифровка проходит проверку на критические значения, а сама система по построению не ставит диагноз и не назначает лечение — это заблокировано на уровне промта и базы.
Пациент, загружающий бланк в общий чат, получает ответ из усреднённой памяти модели без проверки. Тот же запрос в HelpScaner проходит через верифицированную базу с приоритетом источников и индивидуальной нормой. По данным Lab-AI, именно эта разница отделяет 38% точности от 99%.
Один показатель — два разных ответа
Разница нагляднее всего на конкретном примере. Возьмём ферритин 18 нг/мл у женщины 29 лет.
«Ферритин 18 нг/мл — в пределах нормы (норма 10–120), отклонений нет». Ответ опирается на универсальный нижний порог и формально верен. Но он упускает, что для женщины репродуктивного возраста с симптомами усталости это нижняя граница, за которой часто стоит латентный дефицит железа.
«Формально в границах лабораторной нормы, но 18 нг/мл — нижняя зона для женщины вашего возраста. При усталости, выпадении волос это может указывать на истощение запасов железа. Стоит обсудить с врачом сывороточное железо и СРБ; ферритин важно читать в связке».
Оба ответа «не врут» про число. Но первый оставляет пациента с ложным спокойствием, а второй — с точной картиной и понятным следующим шагом к врачу. Разница — не в модели, а в том, что вокруг неё выстроено: индивидуальная норма, приоритет источника, правило читать показатель в контексте.
Как это выглядит на реальных данных — можно посмотреть в примерах расшифровок и в разборе клинического кейса, где по отдельности «почти нормальные» показатели в связке сложились в серьёзный диагноз.
Что это значит для врача и пациента
Для пациента. «Загрузить в ChatGPT» ощущается как быстрое решение, но с высокой вероятностью даёт неточную норму, поданную уверенно. В лучшем случае это лишняя тревога, в худшем — ложное спокойствие поверх реального отклонения. Сервис с верифицированной базой убирает эту рулетку: ответ опирается на проверяемый источник и учитывает, кто именно перед ним.
Для врача. Пациент, который «посоветовался с нейросетью», нередко приходит с искажённой картиной, которую на приёме приходится разбирать и опровергать. Пациент, прошедший через сервис с базой, приходит с корректной структурированной расшифровкой под свою категорию — и разговор начинается с сути. Это ровно та разница, ради которой имеет смысл направлять пациента к надёжному инструменту, а не оставлять его наедине с общим чатом.
Итог в одном абзаце
«Просто загрузить анализы в ChatGPT» — это доверить интерпретацию модели, которая, по данным контролируемого исследования, называет правильную норму реже чем в 4 случаях из 10 и при этом звучит абсолютно уверенно. Проблема не в том, что ИИ «плохой», а в том, что языковой модели без проверяемого источника нечем свериться: она усредняет и правдоподобно додумывает. Подключение верифицированной базы поднимает точность до 99% — но только при грамотной архитектуре: правиле приоритета источников, системе индивидуальных норм, протоколе обновления. Именно так устроен HelpScaner. Поэтому корректный ответ на вопрос «можно ли доверить расшифровку нейросети» звучит так: не любой — а той, у которой под ответом стоит проверяемая медицинская база.
Посмотрите, как это работает на реальных анализах
Библиотека обезличенных примеров расшифровок и разбор клинического кейса покажут разницу между «ответом из чата» и структурированной расшифровкой с верифицированной базой.
Источники
- Zhang Y. et al. Lab-AI: Using Retrieval Augmentation to Enhance Language Models for Personalized Lab Test Interpretation in Clinical Medicine. arXiv, 2025 (arXiv:2409.18986). GPT-4-turbo без RAG — 38,4% точности определения нормы на уровне вопроса; с RAG — 99,5%; F1 факторов 0,948.
- Bridging Clinical Narratives and ACR Appropriateness Guidelines. Multi-Agent RAG System for Medical Imaging Decisions. arXiv:2510.04969, 2025. Падение F1 без retrieval: GPT-4.1 с 0,879 до 0,486.
- Preliminary analysis of the impact of lab results on LLM generated differential diagnoses. npj Digital Medicine, 2025. Добавление лабораторных данных повышает точность дифференциального диагноза до 30%.
- Unlü O. et al. Retrieval-Augmented Generation–Enabled GPT-4 for Clinical Trial Screening. NEJM AI, 2024. Точность RAG-системы 97,9–100% в скрининге пациентов.
- Clinical and Laboratory Standards Institute (CLSI), EP28-A3c — методологический стандарт построения референсных интервалов; IFCC — международные лабораторные стандарты. Используются в базе знаний HelpScaner.
- Рубрикатор клинических рекомендаций Минздрава РФ: cr.minzdrav.gov.ru. Источник российского клинического контекста в базе знаний сервиса.