МедАссист vs Gemini — даёт ли мультимодальность преимущество для анализов?

Я отвечаю в МедАссист за продукт. И когда коллеги спрашивают, какая ИИ-новость 2026 года меняет наш роадмап сильнее всего, я отвечаю: не очередной апдейт ChatGPT, а развитие мультимодальных моделей Google. У нас огромная доля пользователей, которые приходят с фотографией бумажного бланка, сделанной на ходу под лампой в коридоре поликлиники. Качество таких фото — отдельный жанр, и любой движок, который умеет читать «реальный мир», для нас принципиально важен.

Gemini 3.1 Pro Preview — флагманская модель Google, вышедшая в феврале 2026 года, — позиционируется как «единственная фронтирная модель с настоящей нативной мультимодальностью». То есть один и тот же трансформер обрабатывает текст, изображения, видео и аудио в общем пространстве представлений. Звучит как очень удобная история для медицины: сфотографировал бланк — получил расшифровку. На бумаге всё красиво. На практике, как я покажу ниже, между «принять картинку» и «сделать на её основе клинически корректный вывод» — пропасть.

В этой статье я сосредоточусь именно на специфике Gemini как мультимодальной модели в медицинском контексте: где он реально хорош, где ломается на бумажных бланках, чем отличается end-to-end multimodal LLM от классического OCR-пайплайна и почему мы в команде МедАссист не используем Gemini как «единый движок», даже зная, что он сильнейший в своём классе. Общие принципы того, как универсальные LLM работают с медициной — Lost in the Middle, RAG, галлюцинации, приватность, 152-ФЗ — я разбирал в базовой статье про ChatGPT, повторяться не буду.

Что такое «нативная мультимодальность» и почему Google её упорно подчёркивает

Когда первая версия GPT-4 училась видеть изображения, это происходило через отдельный vision-энкодер: картинка превращалась в набор векторов, и они подмешивались в общий поток токенов. Похожая архитектура долгое время была у Claude. Это работает, но между текстом и изображением всегда оставался шов.

Gemini с самого первого поколения проектировался иначе. По описанию команды DeepMind, модель обучалась сразу на смеси модальностей — текст, изображения, аудио, видео и код шли в один трансформер с самого начала. У Gemini 3.1 Pro это вылилось в впечатляющие цифры: до 900 изображений в одном запросе, до 8,4 часов аудио, до часа видео без аудио, окно контекста на вход — 1 048 576 токенов (стандартный «миллион»), окно вывода — 65 536 токенов.

На blended-multimodal бенчмарках (когда тест смешивает картинки, документы и тексты) Gemini 3.1 Pro в апреле 2026 идёт на 90,4 балла против 87,9 у GPT-5.4 — небольшое, но устойчивое преимущество. На MMLU модель занимает первое место с 94,1%, на GPQA (научный reasoning) — 94,3%. Это сильная модель по любым меркам.

С точки зрения продукта это значит, что Gemini не нужен «костыль» вроде «сначала прогоним картинку через одну модель, потом текстовое описание подадим во вторую». Все слои работают с изображением напрямую, и модель может рассуждать о визуальных деталях так же естественно, как о тексте. Для пользовательского сценария «сфотографировал — получил ответ» это очень важно. И именно отсюда растёт соблазн считать, что мультимодальность сама по себе решает задачу медицинского OCR.

Что нативная мультимодальность даёт пользователю с фотографией бланка

Я попробую описать сценарий с пользовательской стороны, потому что когда я думаю о пользователе с фотографией бланка в Москве в субботу вечером, абстрактные бенчмарки уходят на второй план.

Человек получил вчера на руки распечатку биохимии в районной поликлинике. Бланк свёрстан стандартным образом: шапка, две колонки «показатель — значение — референс», иногда отдельная колонка «единицы». Фото он сделал на смартфон Android, под потолочной лампой, не очень ровно. Где-то блик, где-то загнут угол, в одном месте печать слегка размазана.

Что сделает Gemini в таком сценарии:

Прочитает текст в большинстве случаев. Современный мультимодальный трансформер не нуждается в идеальной картинке. Он восстанавливает кириллицу, понимает столбцы, отделяет шапку от тела таблицы. На стандартных бланках крупных лабораторий точность распознавания символов очень высокая — это видно по метрикам OmniDocBench V1.5, где Gemini 3 Pro получил 90,33 балла, опередив GPT-5.2.
Поймёт смысл колонок без явных подсказок. Это в чём-то даже сильнее классического OCR: модель не просто извлекает текст, а сразу понимает, что «норма 4,0–10,0» относится к лейкоцитам выше, а не к гемоглобину ниже. Это тоже эффект совместного обучения на тексте и картинке.
Сразу начнёт рассуждать. Не нужно второе обращение к модели «вот тебе таблица — расскажи, что не так». Gemini увидел, понял, ответил.

Это очень комфортный пользовательский опыт. Я как продуктолог не могу не восхищаться: четыре действия (открыть приложение → сделать фото → отправить → прочитать ответ) превратились в три. Проблема в том, что хороший UX и клиническая корректность — это не одно и то же.

Где end-to-end multimodal ломается именно на медицине

И вот тут начинается интересное. Я работал в нескольких медицинских стартапах до МедАссист и видел, как одна и та же мультимодальная модель блестяще читает счёт из ресторана и сыпется на лабораторном бланке.

Несколько типичных режимов отказа, которые мы регулярно фиксируем при тестах Gemini на реальных российских бланках:

Подмена цифр в схожих позициях. На бланке две похожие строки: «глюкоза 5,7» и «холестерин 5,7». Модель уверенно вытаскивает обе, но в финальной таблице может приписать референс одного показателя другому. Для пользователя это выглядит как «ИИ всё прочитал», для пациента — как риск получить неправильный вердикт о метаболизме.

Потеря единиц измерения. Ферритин в одной лаборатории сдают в нг/мл, в другой — в мкг/л (численно одно и то же), а триглицериды — в ммоль/л против мг/дл (разница в 38,67 раз). Универсальная модель часто не отслеживает это явно: «увидела 230, увидела референс 35–150, сказала „выше нормы“», хотя референс был приведён к другим единицам в другой строке бланка.

«Дорисовывание» референсов. Если на фото референсный диапазон смазан или обрезан, end-to-end модель в стиле своего обучения скорее предположит правдоподобный диапазон, чем скажет «не вижу референса». Для медицины это и есть классическая галлюцинация — но в новом обличье: галлюцинирует не текстовое утверждение, а число в таблице. Поймать такое читателю в десять раз сложнее.

Колонки рваной таблицы. Российские бланки — отдельный жанр. Часть лабораторий выводит результаты двумя колонками, часть — тремя, часть — шестью. На фото с перспективным искажением колонки расходятся «веером», и end-to-end модель то и дело сдвигает значения относительно показателей. На текстовом анализе это незаметно — пока человек не заметит, что у него «креатинин 4,5» вместо «креатинин 95».

Это всё про одну и ту же причину: мультимодальное распознавание ≠ структурированный парсинг. Gemini видит бланк глобально, в одном проходе, и сразу выдаёт текстовый ответ. У него нет промежуточного представления — той самой таблицы, которую можно отдельно проверить, отдельно сверить с референсами, отдельно скорректировать. Если модель ошиблась на этапе «увидеть и прочитать», ошибка тихо протекает в этап «сделать вывод».

OCR-пайплайн vs end-to-end multimodal: продуктовая разница

Когда мы в команде МедАссист проектировали парсер бланков, у нас был ровно тот же выбор: попытаться сделать всё одной мощной моделью или построить пайплайн. Мы выбрали пайплайн, и я попробую объяснить, почему — без жаргона.

Представьте, что нужно перевести объявление с китайского на русский. Можно подойти двумя способами. Первый: посмотреть на иероглифы и сразу написать русский перевод по смыслу. Второй: сначала прочитать иероглифы, выписать их буквами, найти каждое слово в словаре, потом построить русскую фразу. Первый способ быстрее и часто звучит естественнее, но если переводчик хоть один иероглиф угадал «по контексту», ошибку никто не заметит. Второй способ медленнее, но любую ошибку видно на конкретном шаге, и её можно исправить.

В нашем пайплайне эти шаги выглядят так:

OCR-уровень. Картинка превращается в строки текста с координатами. Здесь да, мы используем сильные мультимодальные модели — это та задача, где они блистают.
Парсинг в структуру. Извлечённые строки превращаются в объекты «показатель / значение / единица / референс / категория». Каждый объект сверяется со словарём показателей и единиц. На этом этапе мы видим: «вот лейкоциты, единица 10⁹/л, значение 11,2, референс 4,0–10,0».
Валидация. Если единица не из ожидаемого набора — флаг. Если значение вне физиологически возможного диапазона — флаг. Если в бланке упомянут показатель, которого нет в нашем словаре, — система говорит «не уверена», а не угадывает.
Аналитический модуль. Только теперь, на чистой структурированной таблице, работает большой языковой модуль с RAG-подходом — он сопоставляет данные с клиническими рекомендациями. Не «фантазирует расшифровку», а извлекает релевантные рекомендации из верифицированной базы.

End-to-end Gemini сжимает эти четыре шага в один. Это очень элегантно с точки зрения архитектуры и часто хорошо работает на простых случаях. Но когда что-то идёт не так — а в медицине что-то идёт не так регулярно — у вас нет точки, где можно поймать ошибку.

Med-Gemini, MedGemma и медицинский путь Google

Справедливости ради, Google прекрасно понимает, что универсальная мультимодальная модель — не медицинский инструмент. Внутри Google идут параллельно три направления медицинского ИИ.

Med-Gemini — исследовательская линия фронтирных моделей Google для медицины. По материалам Google Research, Med-Gemini показывает state-of-the-art результаты на MedXpertQA-MM, VQA-RAD и MicroVQA, что говорит о возможности дотюнить мультимодальный Gemini под клинические задачи. Но это не пользовательский продукт — это бэкенд-исследование.

MedLM — коммерческое предложение для здравоохранения через Vertex AI, в котором сейчас живут модели на базе Med-PaLM 2 с постепенным переходом на Gemini-архитектуру. На HIMSS 2026 Google показывал кейсы CVS Health, Humana и Highmark Health — это уже про корпоративные интеграции, а не про обычного пользователя с фотографией бланка.

MedGemma — открытая линейка моделей на базе Gemma, ориентированная на разработчиков. Версия MedGemma 1.5, вышедшая в январе 2026, добавила нативную поддержку 3D-радиологии (КТ, МРТ), полнослайдовой гистологии, точечной анатомической локализации на рентгене и многовременной радиологической динамики. Точность классификации КТ выросла на 3 п.п. до 61%, МРТ — на 14 п.п. до 65%, точность извлечения данных из электронных медкарт — с 68% до 90%. Цифры впечатляющие, и это полностью открытая модель — её можно скачать и развернуть локально.

Но обратите внимание на ключевое слово: «модели для разработчиков». MedGemma — это инструмент, чтобы строить медицинские продукты, а не сам продукт. Между моделью и пользовательским сервисом расшифровки анализов лежит весь тот же пайплайн: парсинг, валидация, клинические рекомендации, маршрутизация к специалисту, отслеживание динамики, защита персональных данных. Без этой надстройки даже лучшая медицинская модель — это просто очень умный движок без приборной панели.

Сценарий-тест: фото бумажного бланка через камеру Android

Чтобы было предметно, я возьму конкретный сценарий, на котором мы внутри команды любим проверять разные движки. Пользователь сделал фото бланка биохимии лаборатории «Инвитро» — 32 показателя, две колонки референсов (для мужчин и женщин), фото под небольшим углом, на одной строке блик.

Что происходит, когда мы прогоняем такое фото через Gemini 3.1 Pro с промптом «расшифруй мой анализ крови»:

В 80–90% случаев модель аккуратно извлекает большую часть показателей и комментирует те, что вне референса. Часть пользователей действительно получает полезный ответ.
В оставшихся 10–20% случаев модель совершает одну из тех ошибок, что я перечислил выше: подмена референса между двумя похожими строками, потеря единиц при пересчёте, придумывание референса для смазанной колонки. Иногда — путаница «мужских» и «женских» норм.
Почти никогда не возникает явный отказ типа «я не уверена, что правильно прочитала эту строку, не отвечаю». Модель оптимизирована на правдоподобность, не на признание неуверенности.
Если у пользователя в анамнезе упоминание «принимаю железо» — Gemini может сделать поверхностную оговорку, но в рамках одного обращения он не свяжет одно с другим систематически. У него нет долгосрочной памяти о пациенте, нет истории визитов, нет тренда.

Тот же сценарий через специализированный пайплайн выглядит иначе. OCR извлекает все 32 показателя, парсер раскладывает их в таблицу, валидатор флагирует одну строку, где значение похоже на ошибку распознавания, аналитический модуль строит интерпретацию строго в рамках клинических рекомендаций — и при наличии прошлых визитов пользователя ещё и сравнивает с динамикой.

Разница не в «уме» модели — а в том, что во втором случае каждая ошибка ловится в своей точке, а в первом всё сжато в один чёрный ящик.

Когда Gemini в медицинском диалоге всё-таки уместен

Я не сторонник однобокой критики. Gemini — лучшая универсальная мультимодальная модель на рынке в 2026 году, и в медицинском контексте у неё есть свои сильные сценарии.

Объяснение того, что вы видите на медицинской картинке. Не интерпретация в смысле диагноза — а помощь в расшифровке: «что означает эта аббревиатура на бланке», «что за символ рядом со значением», «какой части анализа касается эта строка».
Перевод и пояснение терминологии в иностранных бланках. Если вы получили документ от зарубежной клиники, мультимодальный Gemini действительно хорошо вытащит текст и пояснит контекст. Только не делайте на этом основании клинические выводы.
Подготовка вопросов к врачу на основе фотографии бланка. Здесь не нужна предельная точность каждой цифры — важно понять, чего именно вы не понимаете, и сформулировать запросы.
Чтение медицинских статей со схемами и таблицами. Если вы погружаетесь в тему глубже, Gemini хорошо разбирает PDF научных статей с диаграммами, таблицами и подписями к рисункам.
Голосовой и видео-контекст для немедицинских задач, где медицина — фон. Запись приёма у врача (с согласия!), диктовка вопросов — Gemini неплохо работает с голосом и текстом одновременно.

Что делать не стоит: загружать фото бумажного бланка с критически важными показателями (онкомаркеры, гормоны щитовидной железы, ОАК с подозрением на анемию, биохимия с поиском воспаления) и принимать ответ Gemini за окончательный. Не потому что модель глупая — а потому что end-to-end архитектура не даёт точки контроля, где можно поймать тихую ошибку распознавания.

Отдельно про Россию. По состоянию на весну 2026 часть российских пользователей неожиданно получила доступ к Gemini в вебе, но ситуация остаётся неопределённой: скачивание мобильных приложений с российского аккаунта по-прежнему ограничено, серверы за пределами РФ, политика Google по обработке пользовательских данных не выровнена с 152-ФЗ. Я писал подробнее про приватность и 152-ФЗ в pillar-статье про ChatGPT — те же риски в полной мере касаются Gemini.

Мини-FAQ

Можно ли просто сфотографировать бумажный бланк анализа на Android и загрузить в Gemini? Технически — да, Gemini примет фото и попытается прочитать его как один из самых сильных мультимодальных движков на рынке. Но между «принять фото» и «надёжно превратить его в структурированную таблицу с правильными единицами измерения и референсами» — большая разница. На блёклой печати, мятой бумаге или фото под углом универсальная мультимодальная модель регулярно подменяет цифры или переставляет колонки. Специализированные OCR-пайплайны делают это надёжнее.

Чем Gemini отличается от ChatGPT и Claude в работе с изображениями? Gemini с самого первого поколения проектировался как нативно мультимодальная модель: один трансформер обрабатывает текст, изображения, видео и аудио в общем пространстве представлений. У ChatGPT и Claude изображения чаще обрабатываются через отдельные vision-энкодеры. На практике это даёт Gemini заметное преимущество на blended-multimodal бенчмарках, но не делает его медицинским OCR.

Доступен ли Gemini в России в 2026 году? Ситуация меняется. Часть российских пользователей в 2026 году неожиданно получила доступ к Gemini в вебе и мобильных клиентах, но скачивание приложений из Google Play и App Store с российского аккаунта по-прежнему ограничено. Google и сам Gemini не работают полноценно с русскими лабораторными бланками без локализации, и серверы находятся за пределами РФ — для медицинских данных это отдельный риск.

Что такое MedGemma и можно ли её использовать для расшифровки анализов? MedGemma — это семейство открытых медицинских моделей Google на базе Gemma. Версия 1.5 (январь 2026) поддерживает интерпретацию КТ, МРТ, гистологии и медицинских записей. Это исследовательский инструмент для разработчиков, а не пользовательский продукт: чтобы превратить MedGemma в сервис расшифровки анализов, нужен полноценный пайплайн с парсингом, валидацией и клиническими рекомендациями.

Если Gemini лучше всех читает изображения, почему МедАссист не использует его как движок? Часть нашего пайплайна действительно использует мультимодальные модели — но не как единую end-to-end систему «фото → диагноз». Между распознаванием и медицинским выводом у нас стоит жёсткая структурированная таблица, валидация единиц и работа аналитического модуля строго в рамках клинических рекомендаций. Это сильно снижает риск, что красиво распознанный показатель будет неправильно интерпретирован.

Заключение

Мультимодальность Gemini — это технологически впечатляющий шаг, и я как продуктовый человек искренне рад, что такие модели появились. Они меняют то, что мы можем построить поверх них. Но мультимодальная модель сама по себе — не медицинский продукт, а движок. Между мощным движком и безопасным пользовательским сервисом расшифровки анализов лежит весь невидимый пайплайн: парсинг, валидация, клинические рекомендации, защита персональных данных, отслеживание динамики, маршрутизация к врачу.

Мы в МедАссист строим именно эту приборную панель — и да, под капотом у нас есть мультимодальные компоненты на сильнейших современных моделях. Но финальный ответ пользователю никогда не приходит «прямо из чёрного ящика», и каждая цифра из вашего бланка проходит через точку, где её можно проверить.

Что такое «нативная мультимодальность» и почему Google её упорно подчёркивает

Что нативная мультимодальность даёт пользователю с фотографией бланка

Где end-to-end multimodal ломается именно на медицине

OCR-пайплайн vs end-to-end multimodal: продуктовая разница

Med-Gemini, MedGemma и медицинский путь Google

Сценарий-тест: фото бумажного бланка через камеру Android

Когда Gemini в медицинском диалоге всё-таки уместен

Мини-FAQ

Заключение

Источники

Связанные материалы

Все ИИ vs МедАссист 2026 — итоговое сравнение для расшифровки анализов

МедАссист vs Perplexity — медицинский поиск с цитатами. Можно ли доверять?

МедАссист vs Claude — Constitutional AI и медицина. Что лучше?