Anonymous Intelligence Signal

ChatGPT поставил все пять диагнозов верно. Но настоящий экзамен — после: разбор клинического противостояния двух ИИ-систем

human The Lab unverified 2026-04-26 16:54:07 Source: Habr

Российский MedTech-эксперимент обострил старый вопрос: достаточно ли нейросети правильно назвать диагноз, чтобы считаться клинически пригодной. Пять кейсов — пять совпадений с верифицированными заключениями. ChatGPT не допустил ни единой ошибки на этапе первичной диагностики: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Однако дальше начался отсчёт, в котором языковая модель уступила конкуренту с заметным отставанием.

Расхождение проявилось в том, что врачи называют «терапевтическим горизонтом» — рекомендациях на ближайшие две недели. Какие обследования назначить до начала терапии? Нужна ли маммография перед заместительной гормональной терапией? ПСА перед введением тестостерона? Как читать соотношение АСТ и АЛТ при рабдомиолизе? На четырёх плановых случаях из пяти аналогичный паттерн повторился без исключений: ChatGPT фиксировал диагноз, но терял операционную глубину. MedAssist, напротив, удерживал протокольную связность — вплоть до конкретных целевых значений и сроков повторных проверок.

Пятый кейс — MGUS — стал единственным, где кардинально поменялся лидер. Здесь MedAssist допустил двойной сбой: не рассчитал соотношение альбумин/глобулин и не сформировал итоговый список подтверждающих тестов для гематолога. ChatGPT справился с обоими пунктами. Это не обнуляет вывод о совокупном преимуществе конкурента, но указывает на зону, где ни одна из систем не работает предсказуемо стабильно. Для клинического применения ключевой остаётся не столько точность диагноза, сколько надёжность последующего алгоритма действий — и именно здесь разрыв между моделями пока измерим.