🤖 МедАссист vs Claude — Constitutional AI и медицина. Что лучше?
С Claude я разбираюсь с момента выхода первой версии — как инженер, который строит ML-системы для медицины, я регулярно прогоняю наши тестовые наборы через все актуальные модели, чтобы понимать, кто где сильнее. И в моём личном рейтинге универсальных LLM Claude от Anthropic всегда стоял отдельно. У него непохожий подход к обучению — Constitutional AI, — и характер ответов отличается: модель чаще говорит «я не уверен», реже выдаёт уверенный бред, лучше держит длинный документ.
Поэтому когда в нашу поддержку приходят сообщения вроде «я расшифровываю анализы в Claude, потому что он точнее ChatGPT — а МедАссист зачем?», я всегда хочу разобрать это аккуратно. Claude действительно во многом сильнее GPT-моделей. Но «сильнее на абстрактных бенчмарках» и «подходит для расшифровки биохимии» — это разные оси. В этой статье я расскажу, что мы увидели, когда тестировали Claude на наших данных, и где конкретно архитектура Anthropic выигрывает, а где упирается в те же ограничения, что и любая универсальная LLM.
Чем Claude вообще отличается от ChatGPT
Общие принципы того, как универсальные LLM работают с медициной — генерация vs извлечение, RAG, эффект Lost in the Middle, галлюцинации, риски с приватностью — я подробно разбирал в базовой статье серии про ChatGPT. Здесь сосредоточусь на том, что у Claude устроено иначе.
Claude — это семейство моделей компании Anthropic, основанной выходцами из OpenAI. Главное отличие с инженерной точки зрения — метод обучения: помимо стандартного RLHF (обучение с подкреплением на основе оценок людей), Anthropic применяет подход под названием Constitutional AI. Идея такая: модели даётся список явно прописанных принципов — «конституция», — и в процессе обучения она сама критикует свои ответы на соответствие этим принципам, после чего эти AI-генерируемые оценки используются как обучающий сигнал. Метод впервые описан в работе Bai et al., 2022, а сам актуальный текст конституции Claude Anthropic регулярно обновляет — последняя крупная редакция вышла в январе 2026 года.
В практическом плане это даёт модель, которая:
- Чаще признаёт неопределённость («я не могу однозначно сказать», «здесь требуется консультация специалиста»).
- Реже генерирует уверенно неверные ответы на простых проверках.
- Лучше отказывается от рискованных запросов, не уходя при этом в чрезмерно осторожный режим, где она отказывает на всё.
В 2026 году актуальные модели — Claude Opus 4.6 (вышел 5 февраля 2026) и Claude Sonnet 4.6 (17 февраля 2026), оба с контекстным окном 1 миллион токенов и стандартной ценой на весь объём — премию за длинный контекст Anthropic убрала в марте 2026. На бенчмарках долговременной памяти MRCR v2 Claude показывает 78,3% против 26,3% у Gemini — это лучшая в индустрии работа с длинным документом.
Где Claude действительно сильнее ChatGPT для медицинских задач
Честно — есть несколько вещей, где я предпочту Claude любой другой универсальной LLM, даже когда речь про медицинский контекст.
Длинный документ без фрагментации. Если у вас на руках выписка из стационара на 40 страниц, история наблюдений за 5 лет, заключения по МРТ и десятки анализов одновременно — Claude действительно лучше держит весь объём в фокусе и реже теряет факты. Это объективно показывают бенчмарки на 1M-контексте. ChatGPT с тем же миллионным окном проседает заметнее.
Citations API. В январе 2025 Anthropic выпустила функцию Citations: Claude может в режиме API возвращать ответы вместе со ссылками на конкретные страницы и фрагменты загруженного документа. То есть когда модель говорит «у вас повышен ферритин 350», она показывает, на какой странице PDF она это увидела. Это техника, которую инженеры называют claim-based reasoning — каждое утверждение в ответе привязано к источнику. По внутренним метрикам Anthropic, это даёт +15% к точности извлечения данных и закрывает класс ошибок «модель что-то придумала из воздуха».
Меньше уверенного бреда в неопределённых ситуациях. Это самый важный для медицины эффект Constitutional AI. На вопрос «у меня СА-125 равен 38, у меня рак?» Claude скорее ответит «этот показатель повышен относительно референса, но СА-125 имеет низкую специфичность и может расти при доброкачественных состояниях; нужны дополнительные данные и консультация гинеколога» — а не выдаст уверенный диагноз. ChatGPT в Chain-of-Thought-режимах в таком же запросе нередко скатывается в развёрнутую гипотезу со списком «возможных диагнозов».
Стиль клинического резюмирования. Когда я даю Claude задачу «суммируй мне эту выписку списком ключевых фактов» — он систематически делает это аккуратнее, без додумывания. На задачах резюмирования верифицированных документов Claude — одна из самых надёжных моделей на 2026 год.
Это всё реальные плюсы, и я бы был нечестен, если бы их замолчал.
Где Claude всё равно ломается на медицине
А теперь к ограничениям. Constitutional AI и длинный контекст — это про поведение модели в неопределённости и про работу с большими объёмами. Они не делают модель экспертом в клинической биохимии. И когда мы прогнали через Claude наш внутренний набор пограничных кейсов, картина оказалась знакомой.
Нет специализированного парсера лабораторных бланков. Это базовое ограничение, общее для всех универсальных LLM, и я его подробно разбирал в pillar-статье. Claude получает PDF и пытается прочитать его «в целом», без жёсткой схемы «показатель → значение → единицы → референс». На бланках с двухколоночной вёрсткой, мелким шрифтом, нестандартными единицами (например, СИ vs traditional) или сокращениями вроде «алат» вместо «АЛТ» он стабильно теряет 5-10% значений. Constitutional AI здесь ни при чём — модель не «галлюцинирует», она просто не видит цифру в сложной вёрстке.
Референсные интервалы из обучающей выборки, а не из вашей лаборатории. Это, на мой взгляд, главный неочевидный риск. Claude помнит «обобщённые» референсы из текстов в обучении — они могут не совпадать с теми, что напечатаны в вашем бланке. Российские лаборатории нередко используют отличающиеся интервалы (по полу, возрасту, методу исследования), и универсальная модель об этом не знает. В нашей системе мы парсим референсный интервал прямо из бланка, и аналитика идёт от него — никакой «средней нормы из интернета» в выводе нет.
Domain не родной. Claude обучен на огромном корпусе общих текстов с медицинской долей, но это не клиническая модель. На редких показателях (онкомаркеры второго ряда, специфические гормоны, антитела к редким аутоиммунным мишеням) знаний у него ровно столько, сколько в публичных статьях, и всё равно сохраняется риск перепутать порядок величин или единицы.
Reasoning-режим = больше уверенных ошибок на фактах. Это парадокс, который виден на бенчмарках: модели с extended thinking лучше решают логические задачи, но хуже придерживаются фактов из поданного контекста. На вопросе «сопоставь анализ с клиническими рекомендациями ESC 2024 по дислипидемии» reasoning-режим Claude может выстроить красивую цепочку рассуждений и в этой цепочке тихо подменить порог LDL с 1.4 на 1.8 ммоль/л, а потом всё равно прийти к убедительному выводу.
Сценарий-тест: пограничные случаи, где универсальные модели плывут
Чтобы не было голословно — два реальных сценария из нашего тестового набора.
Онкомаркер CA 19-9 равен 45 ед/мл (норма до 37) у пациента с хроническим панкреатитом. Правильный ответ — это не «вероятен рак поджелудочной», а указание на то, что у CA 19-9 низкая специфичность, и он повышается при доброкачественных состояниях: панкреатит, холестаз, цирроз, диабет. Claude благодаря Constitutional AI чаще ChatGPT оговаривает неспецифичность маркера. Но если спросить «насколько вероятен рак?», он всё равно нередко выдаёт численную оценку «вероятность 30-50%», которой в клинической литературе для пограничных уровней просто нет.
Ферритин 1200 нг/мл при СРБ 45 мг/л. Классическая ловушка: ферритин — белок острой фазы, и его повышение при системном воспалении чаще отражает воспаление, а не запасы железа. Claude эту связь обычно видит — одну оговорку про «может быть связано с воспалением» добавит. Но если попросить конкретные действия, он всё равно начнёт перечислять «диету с пониженным содержанием красного мяса» и «обследование на гемохроматоз» — то есть рекомендации в логике избытка железа, а не активного воспаления.
Что показывает этот тест. Claude реже сочиняет небывальщину, чем ChatGPT. Но «реже» — это не «никогда», и в медицине каждая такая ошибка обходится дорого. Архитектурно проблема та же: универсальная модель не заменяет специализированный пайплайн с парсером, валидацией и привязкой к клиническим алгоритмам.
Доступ из России: VPN, юридическая серая зона и 152-ФЗ
Отдельно про практику. Anthropic не предоставляет сервис в России — Claude официально недоступен ни через web, ни через API, ни на уровне инфраструктуры. Технически блокировка работает на уровне IP-адреса, и в отличие от ChatGPT, где достаточно подходящего IP при логине, Claude проверяет IP в реальном времени всю сессию. Это значит, что VPN должен работать стабильно — переподключение посреди диалога приводит к разрыву.
Юридически ситуация двусмысленная для пациента и однозначно проблемная для бизнеса. Когда вы как частное лицо загружаете в Claude через VPN свой собственный анализ — формально вы распоряжаетесь своими данными, и закон вас не запрещает. Но фактически персональные данные специальной категории (данные о здоровье) уходят на сервера Anthropic в США, и контроля над тем, что произойдёт с этим файлом, у вас нет. По российскому 152-ФЗ требование локализации — это требование к операторам обработки, и любой бизнес или сервис в РФ, который попробует интегрировать Claude в обработку медицинских данных пациентов, моментально нарушит закон. Поэтому никакая клиника, лаборатория или цифровой сервис в России не может легально строить продукт на Claude.
В наших условиях это значит вот что: даже если вы как пользователь решили потерпеть VPN ради лучшей модели — экосистема вокруг этой модели в России отсутствует. Никаких интеграций с лабораториями, никаких специализированных медицинских прокси, никакой технической поддержки на русском. Есть только сырая модель, и ответственность за её ответы — целиком на вас.
Когда Claude имеет смысл использовать в меддиалоге
Я не хочу, чтобы статья выглядела как разнос — Claude отличная модель, просто не для расшифровки анализов как основного use case. Несколько сценариев, где я сам её использую:
- Чтение длинных научных статей и систематических обзоров. Если вы погружаетесь в свою болезнь и читаете PubMed — Claude в режиме Citations отлично резюмирует 30-страничный мета-анализ, привязывая каждое утверждение к разделу. Это самый близкий к научной добросовестности режим у любой LLM.
- Перевод и пояснение зарубежных медицинских заключений. Когда у вас на руках выписка на английском или немецком и вы хотите понять не только перевод, но и контекст — Claude делает это аккуратнее ChatGPT, реже искажая термины.
- Структурирование длинной медицинской истории в хронологию. Если вы готовите визит к новому врачу и у вас есть выписки за 10 лет — Claude хорошо собирает их в таймлайн.
- Подготовка списка вопросов к консилиуму. На основе контекста и опубликованных рекомендаций он системно перечисляет, что стоит спросить.
Чего я бы не делал: не спрашивал бы Claude конкретные численные пороги (LDL, ТТГ при беременности, ферритин в норме при воспалении), не отдавал бы ему расшифровку бланка как «единственное мнение», не надеялся бы, что Citations гарантирует клиническую корректность — цитата подтверждает наличие строки в документе, но не её правильность. Об общем подходе — когда универсальные LLM уместны, а когда нет — у меня есть отдельные мысли в pillar-статье серии.
Сравнение по ключевым параметрам
| Параметр | Claude Opus/Sonnet 4.6 | МедАссист |
|---|---|---|
| Архитектура | LLM с Constitutional AI обучением | Пайплайн: OCR → парсер → RAG-аналитика по клин. рекомендациям |
| Контекстное окно | 1M токенов (GA с марта 2026) | Не ограничено: данные парсятся в структурированную таблицу |
| Защита от галлюцинаций | Constitutional AI снижает частоту, но не исключает | Жёсткие guardrails, ответ только в рамках протоколов |
| Парсинг лабораторных бланков | Общий, теряет 5-10% на сложной вёрстке | Специализированный, валидация против каждого показателя |
| Референсные интервалы | Из обучающей выборки, обобщённые | Парсятся из вашего бланка |
| Claim-based reasoning / Citations | Есть (Citations API) | Каждый вывод привязан к показателю и протоколу |
| Reasoning-режим | Extended thinking — лучше логика, хуже факты | Reasoning только в рамках клинических алгоритмов |
| Обработка пограничных кейсов (онкомаркеры, ферритин при воспалении) | Реже галлюцинирует, чем ChatGPT, но всё равно ошибается | Отдельные ветки алгоритма для каждого класса кейсов |
| Доступ из РФ | Только через VPN, не легален для бизнеса | Доступен напрямую, защищённый контур |
| Соответствие 152-ФЗ | Серверы за рубежом, несовместимо для операторов | Ориентация на 152-ФЗ, локальное хранение |
| Лучший сценарий применения | Длинные научные тексты, переводы, систематизация истории | Расшифровка анализов, динамика, маршрутизация к специалисту |
Mini-FAQ
Действительно ли Claude меньше галлюцинирует, чем ChatGPT? По общим бенчмаркам — в среднем да, особенно на задачах резюмирования и работе с поданным документом. Но в режимах reasoning и при расшифровке медицинских анализов разрыв сужается, а в специфических доменах вроде референсных интервалов и редких показателей Claude всё равно ошибается. Меньше галлюцинаций — не равно ноль галлюцинаций.
Что такое Constitutional AI простыми словами? Это метод обучения, при котором модель ориентируется на список явно прописанных принципов — «конституцию» — и сама же проверяет свои ответы на соответствие им. Это снижает частоту вредных и фактически неверных ответов, но не делает модель экспертом в медицине: принципы про этику не заменяют клинические рекомендации.
Можно ли использовать Claude в России для расшифровки анализов? Технически — только через VPN: Anthropic не предоставляет сервис в РФ, и блокировка работает на уровне IP в течение всей сессии. Юридически — это серая зона, и медицинские данные при этом уходят за рубеж, что несовместимо с требованиями 152-ФЗ для тех, кто эти данные обрабатывает.
Зачем Claude контекстное окно в 1 миллион токенов, если я загружаю один анализ? Для одного бланка хватило бы и 100 тысяч. Длинный контекст полезен, когда вы загружаете десятки анализов за несколько лет, выписки, заключения УЗИ — целую медицинскую историю. Но эффект Lost in the Middle большое окно не отменяет, и важные показатели в середине документа всё равно могут «проседать».
Что такое Citations API у Claude и помогает ли он в медицине? Это режим, в котором Claude указывает, из какой страницы или фрагмента поданного документа он взял конкретное утверждение. Полезно для проверяемости — но цитата подтверждает только то, что строка действительно есть в источнике, а не её клиническую корректность. Расшифровку анализов это не делает безопасной автоматически.
Заключение
Claude — это лучшая универсальная LLM 2026 года для работы с длинным документом, и Constitutional AI реально меняет поведение модели в неопределённости. Если вам нужен партнёр для чтения научных статей, перевода зарубежных заключений или структурирования медицинской истории — Anthropic стоит выше остальных.
Но расшифровка анализов — это не задача про «понять длинный текст». Это задача про точный парсинг, валидацию против вашей конкретной лаборатории, привязку к клиническим алгоритмам и удержание динамики между визитами. Мы в команде МедАссист строим именно такой пайплайн — со специализированным OCR, парсером показателей и аналитическим модулем, который работает строго в рамках клинических рекомендаций. Без VPN, без серой юридической зоны и с ориентацией на 152-ФЗ. Если вы хотите попробовать инструмент, спроектированный именно под вашу задачу, — это разумная альтернатива.
Информация носит образовательный характер и не заменяет консультацию врача.
См. также
Обновлено: 14.05.2026
Источники
- Constitutional AI: Harmlessness from AI Feedback — Bai et al., 2022 (arXiv)
- Claude's Constitution — Anthropic
- Introducing Claude Sonnet 4.6 — Anthropic
- 1M context is now generally available for Opus 4.6 and Sonnet 4.6 — Anthropic
- Introducing Citations on the Anthropic API — Anthropic
- Laboratory Evaluation of Tumor Biomarkers — StatPearls (NCBI)