🤖 МедАссист vs Claude — Constitutional AI и медицина. Что лучше?

МедАссист vs Claude — Constitutional AI и медицина. Что лучше?

С Claude я разбираюсь с момента выхода первой версии — как инженер, который строит ML-системы для медицины, я регулярно прогоняю наши тестовые наборы через все актуальные модели, чтобы понимать, кто где сильнее. И в моём личном рейтинге универсальных LLM Claude от Anthropic всегда стоял отдельно. У него непохожий подход к обучению — Constitutional AI, — и характер ответов отличается: модель чаще говорит «я не уверен», реже выдаёт уверенный бред, лучше держит длинный документ.

Поэтому когда в нашу поддержку приходят сообщения вроде «я расшифровываю анализы в Claude, потому что он точнее ChatGPT — а МедАссист зачем?», я всегда хочу разобрать это аккуратно. Claude действительно во многом сильнее GPT-моделей. Но «сильнее на абстрактных бенчмарках» и «подходит для расшифровки биохимии» — это разные оси. В этой статье я расскажу, что мы увидели, когда тестировали Claude на наших данных, и где конкретно архитектура Anthropic выигрывает, а где упирается в те же ограничения, что и любая универсальная LLM.

Чем Claude вообще отличается от ChatGPT

Общие принципы того, как универсальные LLM работают с медициной — генерация vs извлечение, RAG, эффект Lost in the Middle, галлюцинации, риски с приватностью — я подробно разбирал в базовой статье серии про ChatGPT. Здесь сосредоточусь на том, что у Claude устроено иначе.

Claude — это семейство моделей компании Anthropic, основанной выходцами из OpenAI. Главное отличие с инженерной точки зрения — метод обучения: помимо стандартного RLHF (обучение с подкреплением на основе оценок людей), Anthropic применяет подход под названием Constitutional AI. Идея такая: модели даётся список явно прописанных принципов — «конституция», — и в процессе обучения она сама критикует свои ответы на соответствие этим принципам, после чего эти AI-генерируемые оценки используются как обучающий сигнал. Метод впервые описан в работе Bai et al., 2022, а сам актуальный текст конституции Claude Anthropic регулярно обновляет — последняя крупная редакция вышла в январе 2026 года.

В практическом плане это даёт модель, которая:

  • Чаще признаёт неопределённость («я не могу однозначно сказать», «здесь требуется консультация специалиста»).
  • Реже генерирует уверенно неверные ответы на простых проверках.
  • Лучше отказывается от рискованных запросов, не уходя при этом в чрезмерно осторожный режим, где она отказывает на всё.

В 2026 году актуальные модели — Claude Opus 4.6 (вышел 5 февраля 2026) и Claude Sonnet 4.6 (17 февраля 2026), оба с контекстным окном 1 миллион токенов и стандартной ценой на весь объём — премию за длинный контекст Anthropic убрала в марте 2026. На бенчмарках долговременной памяти MRCR v2 Claude показывает 78,3% против 26,3% у Gemini — это лучшая в индустрии работа с длинным документом.

Где Claude действительно сильнее ChatGPT для медицинских задач

Честно — есть несколько вещей, где я предпочту Claude любой другой универсальной LLM, даже когда речь про медицинский контекст.

Длинный документ без фрагментации. Если у вас на руках выписка из стационара на 40 страниц, история наблюдений за 5 лет, заключения по МРТ и десятки анализов одновременно — Claude действительно лучше держит весь объём в фокусе и реже теряет факты. Это объективно показывают бенчмарки на 1M-контексте. ChatGPT с тем же миллионным окном проседает заметнее.

Citations API. В январе 2025 Anthropic выпустила функцию Citations: Claude может в режиме API возвращать ответы вместе со ссылками на конкретные страницы и фрагменты загруженного документа. То есть когда модель говорит «у вас повышен ферритин 350», она показывает, на какой странице PDF она это увидела. Это техника, которую инженеры называют claim-based reasoning — каждое утверждение в ответе привязано к источнику. По внутренним метрикам Anthropic, это даёт +15% к точности извлечения данных и закрывает класс ошибок «модель что-то придумала из воздуха».

Меньше уверенного бреда в неопределённых ситуациях. Это самый важный для медицины эффект Constitutional AI. На вопрос «у меня СА-125 равен 38, у меня рак?» Claude скорее ответит «этот показатель повышен относительно референса, но СА-125 имеет низкую специфичность и может расти при доброкачественных состояниях; нужны дополнительные данные и консультация гинеколога» — а не выдаст уверенный диагноз. ChatGPT в Chain-of-Thought-режимах в таком же запросе нередко скатывается в развёрнутую гипотезу со списком «возможных диагнозов».

Стиль клинического резюмирования. Когда я даю Claude задачу «суммируй мне эту выписку списком ключевых фактов» — он систематически делает это аккуратнее, без додумывания. На задачах резюмирования верифицированных документов Claude — одна из самых надёжных моделей на 2026 год.

Это всё реальные плюсы, и я бы был нечестен, если бы их замолчал.

Где Claude всё равно ломается на медицине

А теперь к ограничениям. Constitutional AI и длинный контекст — это про поведение модели в неопределённости и про работу с большими объёмами. Они не делают модель экспертом в клинической биохимии. И когда мы прогнали через Claude наш внутренний набор пограничных кейсов, картина оказалась знакомой.

Нет специализированного парсера лабораторных бланков. Это базовое ограничение, общее для всех универсальных LLM, и я его подробно разбирал в pillar-статье. Claude получает PDF и пытается прочитать его «в целом», без жёсткой схемы «показатель → значение → единицы → референс». На бланках с двухколоночной вёрсткой, мелким шрифтом, нестандартными единицами (например, СИ vs traditional) или сокращениями вроде «алат» вместо «АЛТ» он стабильно теряет 5-10% значений. Constitutional AI здесь ни при чём — модель не «галлюцинирует», она просто не видит цифру в сложной вёрстке.

Референсные интервалы из обучающей выборки, а не из вашей лаборатории. Это, на мой взгляд, главный неочевидный риск. Claude помнит «обобщённые» референсы из текстов в обучении — они могут не совпадать с теми, что напечатаны в вашем бланке. Российские лаборатории нередко используют отличающиеся интервалы (по полу, возрасту, методу исследования), и универсальная модель об этом не знает. В нашей системе мы парсим референсный интервал прямо из бланка, и аналитика идёт от него — никакой «средней нормы из интернета» в выводе нет.

Domain не родной. Claude обучен на огромном корпусе общих текстов с медицинской долей, но это не клиническая модель. На редких показателях (онкомаркеры второго ряда, специфические гормоны, антитела к редким аутоиммунным мишеням) знаний у него ровно столько, сколько в публичных статьях, и всё равно сохраняется риск перепутать порядок величин или единицы.

Reasoning-режим = больше уверенных ошибок на фактах. Это парадокс, который виден на бенчмарках: модели с extended thinking лучше решают логические задачи, но хуже придерживаются фактов из поданного контекста. На вопросе «сопоставь анализ с клиническими рекомендациями ESC 2024 по дислипидемии» reasoning-режим Claude может выстроить красивую цепочку рассуждений и в этой цепочке тихо подменить порог LDL с 1.4 на 1.8 ммоль/л, а потом всё равно прийти к убедительному выводу.

Сценарий-тест: пограничные случаи, где универсальные модели плывут

Чтобы не было голословно — два реальных сценария из нашего тестового набора.

Онкомаркер CA 19-9 равен 45 ед/мл (норма до 37) у пациента с хроническим панкреатитом. Правильный ответ — это не «вероятен рак поджелудочной», а указание на то, что у CA 19-9 низкая специфичность, и он повышается при доброкачественных состояниях: панкреатит, холестаз, цирроз, диабет. Claude благодаря Constitutional AI чаще ChatGPT оговаривает неспецифичность маркера. Но если спросить «насколько вероятен рак?», он всё равно нередко выдаёт численную оценку «вероятность 30-50%», которой в клинической литературе для пограничных уровней просто нет.

Ферритин 1200 нг/мл при СРБ 45 мг/л. Классическая ловушка: ферритин — белок острой фазы, и его повышение при системном воспалении чаще отражает воспаление, а не запасы железа. Claude эту связь обычно видит — одну оговорку про «может быть связано с воспалением» добавит. Но если попросить конкретные действия, он всё равно начнёт перечислять «диету с пониженным содержанием красного мяса» и «обследование на гемохроматоз» — то есть рекомендации в логике избытка железа, а не активного воспаления.

Что показывает этот тест. Claude реже сочиняет небывальщину, чем ChatGPT. Но «реже» — это не «никогда», и в медицине каждая такая ошибка обходится дорого. Архитектурно проблема та же: универсальная модель не заменяет специализированный пайплайн с парсером, валидацией и привязкой к клиническим алгоритмам.

Доступ из России: VPN, юридическая серая зона и 152-ФЗ

Отдельно про практику. Anthropic не предоставляет сервис в России — Claude официально недоступен ни через web, ни через API, ни на уровне инфраструктуры. Технически блокировка работает на уровне IP-адреса, и в отличие от ChatGPT, где достаточно подходящего IP при логине, Claude проверяет IP в реальном времени всю сессию. Это значит, что VPN должен работать стабильно — переподключение посреди диалога приводит к разрыву.

Юридически ситуация двусмысленная для пациента и однозначно проблемная для бизнеса. Когда вы как частное лицо загружаете в Claude через VPN свой собственный анализ — формально вы распоряжаетесь своими данными, и закон вас не запрещает. Но фактически персональные данные специальной категории (данные о здоровье) уходят на сервера Anthropic в США, и контроля над тем, что произойдёт с этим файлом, у вас нет. По российскому 152-ФЗ требование локализации — это требование к операторам обработки, и любой бизнес или сервис в РФ, который попробует интегрировать Claude в обработку медицинских данных пациентов, моментально нарушит закон. Поэтому никакая клиника, лаборатория или цифровой сервис в России не может легально строить продукт на Claude.

В наших условиях это значит вот что: даже если вы как пользователь решили потерпеть VPN ради лучшей модели — экосистема вокруг этой модели в России отсутствует. Никаких интеграций с лабораториями, никаких специализированных медицинских прокси, никакой технической поддержки на русском. Есть только сырая модель, и ответственность за её ответы — целиком на вас.

Когда Claude имеет смысл использовать в меддиалоге

Я не хочу, чтобы статья выглядела как разнос — Claude отличная модель, просто не для расшифровки анализов как основного use case. Несколько сценариев, где я сам её использую:

  • Чтение длинных научных статей и систематических обзоров. Если вы погружаетесь в свою болезнь и читаете PubMed — Claude в режиме Citations отлично резюмирует 30-страничный мета-анализ, привязывая каждое утверждение к разделу. Это самый близкий к научной добросовестности режим у любой LLM.
  • Перевод и пояснение зарубежных медицинских заключений. Когда у вас на руках выписка на английском или немецком и вы хотите понять не только перевод, но и контекст — Claude делает это аккуратнее ChatGPT, реже искажая термины.
  • Структурирование длинной медицинской истории в хронологию. Если вы готовите визит к новому врачу и у вас есть выписки за 10 лет — Claude хорошо собирает их в таймлайн.
  • Подготовка списка вопросов к консилиуму. На основе контекста и опубликованных рекомендаций он системно перечисляет, что стоит спросить.

Чего я бы не делал: не спрашивал бы Claude конкретные численные пороги (LDL, ТТГ при беременности, ферритин в норме при воспалении), не отдавал бы ему расшифровку бланка как «единственное мнение», не надеялся бы, что Citations гарантирует клиническую корректность — цитата подтверждает наличие строки в документе, но не её правильность. Об общем подходе — когда универсальные LLM уместны, а когда нет — у меня есть отдельные мысли в pillar-статье серии.

Сравнение по ключевым параметрам

Параметр Claude Opus/Sonnet 4.6 МедАссист
Архитектура LLM с Constitutional AI обучением Пайплайн: OCR → парсер → RAG-аналитика по клин. рекомендациям
Контекстное окно 1M токенов (GA с марта 2026) Не ограничено: данные парсятся в структурированную таблицу
Защита от галлюцинаций Constitutional AI снижает частоту, но не исключает Жёсткие guardrails, ответ только в рамках протоколов
Парсинг лабораторных бланков Общий, теряет 5-10% на сложной вёрстке Специализированный, валидация против каждого показателя
Референсные интервалы Из обучающей выборки, обобщённые Парсятся из вашего бланка
Claim-based reasoning / Citations Есть (Citations API) Каждый вывод привязан к показателю и протоколу
Reasoning-режим Extended thinking — лучше логика, хуже факты Reasoning только в рамках клинических алгоритмов
Обработка пограничных кейсов (онкомаркеры, ферритин при воспалении) Реже галлюцинирует, чем ChatGPT, но всё равно ошибается Отдельные ветки алгоритма для каждого класса кейсов
Доступ из РФ Только через VPN, не легален для бизнеса Доступен напрямую, защищённый контур
Соответствие 152-ФЗ Серверы за рубежом, несовместимо для операторов Ориентация на 152-ФЗ, локальное хранение
Лучший сценарий применения Длинные научные тексты, переводы, систематизация истории Расшифровка анализов, динамика, маршрутизация к специалисту

Mini-FAQ

Действительно ли Claude меньше галлюцинирует, чем ChatGPT? По общим бенчмаркам — в среднем да, особенно на задачах резюмирования и работе с поданным документом. Но в режимах reasoning и при расшифровке медицинских анализов разрыв сужается, а в специфических доменах вроде референсных интервалов и редких показателей Claude всё равно ошибается. Меньше галлюцинаций — не равно ноль галлюцинаций.

Что такое Constitutional AI простыми словами? Это метод обучения, при котором модель ориентируется на список явно прописанных принципов — «конституцию» — и сама же проверяет свои ответы на соответствие им. Это снижает частоту вредных и фактически неверных ответов, но не делает модель экспертом в медицине: принципы про этику не заменяют клинические рекомендации.

Можно ли использовать Claude в России для расшифровки анализов? Технически — только через VPN: Anthropic не предоставляет сервис в РФ, и блокировка работает на уровне IP в течение всей сессии. Юридически — это серая зона, и медицинские данные при этом уходят за рубеж, что несовместимо с требованиями 152-ФЗ для тех, кто эти данные обрабатывает.

Зачем Claude контекстное окно в 1 миллион токенов, если я загружаю один анализ? Для одного бланка хватило бы и 100 тысяч. Длинный контекст полезен, когда вы загружаете десятки анализов за несколько лет, выписки, заключения УЗИ — целую медицинскую историю. Но эффект Lost in the Middle большое окно не отменяет, и важные показатели в середине документа всё равно могут «проседать».

Что такое Citations API у Claude и помогает ли он в медицине? Это режим, в котором Claude указывает, из какой страницы или фрагмента поданного документа он взял конкретное утверждение. Полезно для проверяемости — но цитата подтверждает только то, что строка действительно есть в источнике, а не её клиническую корректность. Расшифровку анализов это не делает безопасной автоматически.

Заключение

Claude — это лучшая универсальная LLM 2026 года для работы с длинным документом, и Constitutional AI реально меняет поведение модели в неопределённости. Если вам нужен партнёр для чтения научных статей, перевода зарубежных заключений или структурирования медицинской истории — Anthropic стоит выше остальных.

Но расшифровка анализов — это не задача про «понять длинный текст». Это задача про точный парсинг, валидацию против вашей конкретной лаборатории, привязку к клиническим алгоритмам и удержание динамики между визитами. Мы в команде МедАссист строим именно такой пайплайн — со специализированным OCR, парсером показателей и аналитическим модулем, который работает строго в рамках клинических рекомендаций. Без VPN, без серой юридической зоны и с ориентацией на 152-ФЗ. Если вы хотите попробовать инструмент, спроектированный именно под вашу задачу, — это разумная альтернатива.

Др. Айгерим Бисенова
Проверено медицинским экспертом Главный врач, терапевт Проверено:

Информация носит образовательный характер и не заменяет консультацию врача.

Обновлено: 14.05.2026

Источники

← Назад в Блог