Значительное событие готово трансформировать ИИ в здравоохранении. Исследователи из Stanford University, совместно с ETH Zurich и технологическими лидерами, включая Google Research и Amazon, представили OpenTSLM — новое семейство моделей языка временных рядов (Time-Series Language Models, TSLMs).

Это прорыв, который решает ключевую проблему существующих LLM (large language models) — способность интерпретировать и рассуждать о сложных, непрерывных медицинских временных рядах, таких как ЭКГ, ЭЭГ и потоки данных носимых датчиков, где даже передовые модели вроде GPT‑4o сталкивались с трудностями.

Критическая слепая зона: ограничения LLM в анализе временных рядов

Медицина по своей природе временная. Точная диагностика во многом зависит от отслеживания того, как жизненные показатели, биомаркеры и сложные сигналы меняются во времени. Несмотря на распространение цифровых технологий в здравоохранении, современные модели ИИ часто не справляются с обработкой таких «сырых», непрерывных данных.
Ключевая проблема — «модальность-разрыв» (modality gap) — разница между непрерывными сигналами (например, удар сердца) и дискретными текстовыми токенами, которые понимают LLM. Предыдущие попытки преодолеть этот разрыв путём преобразования сигналов в текст оказались неэффективными и плохо масштабируемыми.

Почему модели «визуального + язык» (VLM) не справляются с данными временных рядов

Распространённый обходной путь заключается в преобразовании временных рядов в статические изображения (линейные графики) и подаче их на вход продвинутым моделям зрение-язык (Vision-Language Models, VLM). Однако исследование OpenTSLM показывает: этот подход удивительно неэффективен для точного анализа медицинских данных.


VLM в основном обучены на естественных фотографиях; они распознают объекты и сцены, а не плотную последовательную динамику визуализаций данных. Когда сигналы высокой частоты, такие как ЭКГ, преобразуются в пикселы, теряется критически важная информация о тонких временных зависимостях и высокочастотных изменениях — жизненно важная для выявления аритмий или конкретных стадий сна.
Исследование подтверждает: VLM заметно хуже справляются с такими графиками, подчёркивая, что временные ряды должны рассматриваться как отдельная модальность, а не просто как изображение.

Представляем OpenTSLM: подход к модальности «временной ряд»

OpenTSLM интегрирует временные ряды как нативную модальность напрямую в предобученные LLM (например, Llama и Gemma), позволяя задавать запросы на естественном языке и рассуждать над сложными медицинскими данными.
Исследовательская команда изучила две различные архитектуры:

1. OpenTSLM-SoftPrompt (неявное моделирование)

В этом подходе данные временных рядов кодируются в обучаемые токены, которые затем комбинируются с текстовыми токенами (soft-prompting). Хотя это эффективно для коротких фрагментов данных, масштабируется плохо: для более длинных последовательностей требуется экспоненциально больше памяти, что делает метод непрактичным для анализа в полном объёме.

2. OpenTSLM-Flamingo (явное моделирование)

Вдохновленный архитектурой Flamingo, этот подход — прорывное решение для масштабируемости. Он явно моделирует временные ряды как отдельную модальность. Используется специализированный энкодер и Perceiver Resampler для создания представления фиксированного размера, независимо от длины входных данных, и затем это представление объединяется с текстом с помощью контролируемого кросс-внимания (gated cross-attention).
OpenTSLM-Flamingo сохраняет стабильные требования к памяти даже при обширных потоках данных. Например: при обучении на сложных данных ЭКГ вариант Flamingo потребовал лишь около 40 ГБ VRAM, по сравнению с 110 ГБ у варианта SoftPrompt при том же LLM-базе.

Прорывные результаты: превзошли GPT-4o

Результаты демонстрируют явное превосходство специализированного подхода TSLM. Для оценки производительности команда создала три новых датасета Chain-of-Thought (CoT), ориентированных на медицинское рассуждение: HAR-CoT (распознавание активности), Sleep-CoT (стадирование сна по ЭЭГ), и ECG-QA-CoT (вопросы-ответы по ЭКГ).

  • Стадирование сна: OpenTSLM достиг F1 = 69,9 %, значительно обойдя лучший текст-только базовый вариант (9,05 %).

  • Распознавание активности: OpenTSLM достиг F1 = 65,4 %.
    Примечательно: даже модели OpenTSLM малого масштаба (1 миллиард параметров) значительно превзошли GPT-4o. При обработке данных как текстовых токенов (где GPT-4o набрал только 15,47 % на Sleep-CoT) или как изображения — передовая модель не смогла сравниться со специализированными TSLM.
    Этот вывод подчёркивает: специализированные, адаптированные под домен архитектуры ИИ могут достигать выдающихся результатов без массивного масштаба, что открывает путь к эффективному медицинскому ИИ даже на устройствах.

Клиническая валидация в госпитале Стэнфорда: обеспечение доверия и прозрачности

Ключевой элемент медицинского ИИ — доверие. В отличие от традиционных моделей, выдающих лишь классификацию, OpenTSLM генерирует рациональные цепочки рассуждений (Chain-of-Thought), читаемые человеком, объясняющие свои прогнозы. Такая прозрачность ИИ жизненна в клинических условиях.

Для оценки качества этих рассуждений был проведён экспертный обзор с участием пяти кардиологов из Стэнфордского госпиталя. Они оценивали рассуждения, сгенерированные моделью OpenTSLM-Flamingo при интерпретации ЭКГ.

Оценка показала: модель предоставила правильную или частично правильную интерпретацию ЭКГ в впечатляющих 92,9 % случаев. Модель продемонстрировала исключительную силу в интеграции клинического контекста — 85,1 % положительных оценок, подтверждая сложную способность рассуждать над сырыми данными датчиков.

Будущее мультимодального машинного обучения

Введение OpenTSLM знаменует значительное продвижение в мультимодальном машинном обучении. Эффективно преодолев разрыв между LLM и данными временных рядов, это исследование заложило фундамент для универсальных TSLM, способных обрабатывать различные продольные данные не только в здравоохранении, но также в финансах, промышленном мониторинге и других сферах.

Для ускорения инноваций в этой области команды Стэнфорда и ETH Цюриха открыли исходный код, наборы данных и веса предобученных моделей.

Создано при поддержке канала Слайдер Данные

Комментарии (1)


  1. proxy3d
    21.10.2025 06:57

    Чтобы не вводить в заблуждение, это скорее расширение. Так как в основе также трансформеры ограниченные контекстным окном. То есть временной рад ограничен временным окном трансформера.

    Таких кросс моделей сейчас делают много. Китайцы как дополнительные модальности пихают все в своих работах, от разных форматов документов до видео, картинок и так далее.

    По сути, в данной работе временной ряд кодируют патчами, как видео. И вставляют токены "временного ряда" с токенами текста.

    Точно так же делают когда объединяют модальности видео и текста, картинок и текста и другие.

    Так что вещь ограниченная и очень специфичная при такой реализации