Перевод статьи подготовлен в преддверии старта курса «Deep Learning. Basic».





В этой статье мы поговорим о последних инновационных решениях на основе TCN. Для начала на примере детектора движения рассмотрим архитектуру временных сверточных сетей (Temporal Convolutional Network) и их преимущества перед традиционными подходами, такими как сверточные нейронные сети (CNN) и рекуррентные нейронные сети (RNN). Затем поговорим о последних примерах применения TCN, включая улучшение прогнозирования трафика, локализатор и детектор звука и вероятностное прогнозирование.

Краткий обзор TCN


В фундаментальной работе Леа и др. (2016) было впервые предложено использовать временные сверточные сети для сегментации действий на основе видео. Обычно процесс разбивается на два этапа: во-первых, вычисление низкоуровневых признаков с использованием (чаще всего) CNN, которая кодирует пространственно-временную информацию, и во-вторых, ввод низкоуровневых признаков в классификатор, который получает высокоуровневую временную информацию с помощью (чаще всего) RNN. Главным недостатком такого подхода является потребность в двух отдельных моделях. TCN предлагает унифицированный подход, чтобы покрыть оба уровня информации по принципу иерархии.

На рисунке ниже представлена структура энкодера-декодера, информацию по архитектуре можно найти в первых двух ссылках в конце статьи. Наиболее критические вопросы решаются следующим образом: TCN может взять ряд любой длины и на выходе получить ту же самую длину. Казуальная (casual) свертка используется там, где присутствует полностью сверточная одномерная архитектура сети. Ключевой характеристикой является то, что выходное значение в момент времени t свертывается только с теми элементами, которые произошли по времени до него.



Шумиха вокруг TCN дошла даже до журнала Nature, где недавно появилась публикация работы Яна и др. (2020) об использовании TCN в задачах прогнозирования погоды. В своей работе авторы провели эксперимент по сравнению TCN и LSTM. Одним из результатов стал вывод о том, что TCN хорошо справляется с задачами прогнозирования временных рядов.



В следующих разделах представлены реализация и расширение классической TCN.

Улучшение прогнозирования трафика


Сервисы райдшеринга и онлайн-навигации могут улучшить прогнозирование трафика и изменить пребывание на дорогах к лучшему. Уменьшение количества пробок, уменьшение загрязнения окружающей среды, безопасное и быстрое вождение – вот всего несколько целей, которых можно достичь за счет улучшения прогнозирования дорожного движения. Поскольку эта проблема основывается на данных в реальном времени, необходимо использовать накопленные данные о трафике. По этой причине Дай и др. (2020) недавно представили гибридную пространственно-временную графовую сверточную сеть (Hybrid Spatio-Temporal Graph Convolutional Network, H-STGCN). Основная идея заключается в том, чтобы использовать преимущества отношения кусочно-линейной скользящей плотности потока и преобразовывать предстоящий объем трафика в его эквивалент времени движения. Одним из наиболее интересных подходов, которые они использовали в своей работе, является свертка графа для получения временной зависимости. Составная матрица смежности отражает врожденные характеристики аппроксимации трафика (чтобы узнать больше, читайте статью Ли 2017 года). В следующей архитектуре представлены четыре модуля для описания всего процесса прогнозирования.



Локализация и обнаружение звуковых событий


Область локализации и обнаружения звуковых событий (SELF) продолжает расти. В автономной навигации понимание среды играет большую роль. Гирджис и др. (2020) недавно предложили новую архитектуру звуковых событий SELF-TCN. Группа исследователей утверждает, что их фреймворк превосходит современные решения в этой области, сокращая время обучения. В их SELDnet (архитектура представлена ниже) многоканальная аудиозапись, дискретизированная на частоте 44,1 кГц, извлекает, применяя кратковременное преобразование Фурье, фазу и величину спектра и выделяет их в виде отдельных входных признаков. Затем соединяются сверточные блоки и рекуррентные блоки (двунаправленные GRU), а затем идет полностью соединенный блок. На выходе из SELDnet можно получить обнаружение звуковых событий и направление, откуда пришел звук.



И для того, чтобы превзойти существующее решение, авторы представили SELD-TCN:



Поскольку расширенные свертки позволяют сети обрабатывать различные входные данные, может потребоваться более глубокая сеть (на которую будут влиять нестабильные градиенты во время обратного распространения ошибки). Авторы исследования эту проблему смогли решить, адаптировав архитектуру WaveNet (Дарио и др., 2017). Они показали, что рекуррентные слои не требуются для задач SELD, и при этом смогли определить время начала и окончания активных звуковых событий.

Вероятностное прогнозирование


Новый фреймворк, разработанный Ченом и др. (2020) может быть применен для оценки плотности вероятности. Прогнозирование временных рядов улучшает многие сценарии принятия бизнес-решений (например, управление ресурсами). Вероятностное прогнозирование позволяет извлекать информацию из исторических данных и минимизировать неопределенность будущих событий. Когда задача прогнозирования состоит в том, чтобы предсказать миллионы связанных временных рядов (как в розничном бизнесе), требуются непомерно большие трудовые и вычислительные ресурсы для оценки параметров. Чтобы разрешить эти трудности, авторы предложили систему оценки плотности и прогнозирования на основе CNN. Их структура может выучить скрытую корреляцию между рядами. Научная новизна в их работе заключается в предложенной ими глубокой TCN, представленной в их архитектуре:



Реализация модулей энкодера-декодера может помочь в разработке прикладных крупномасштабных приложений.

Заключение


В этой статье мы рассмотрели последние работы, связанные с временными сверточными сетями, которые превосходят по тем или иным характеристикам классические подходы CNN и RNN в решении задач временных рядов.

Источники


  • Lea, Colin, et al. “Temporal convolutional networks: A unified approach to action segmentation.” European Conference on Computer Vision. Springer, Cham, 2016.
  • Lea, Colin, et al. “Temporal convolutional networks for action segmentation and detection.” proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
  • Yan, Jining, et al. “temporal convolutional networks for the Advance prediction of enSo.” Scientific Reports 10.1 (2020): 1–15.
  • Li, Yaguang, et al. “Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.” arXiv preprint arXiv:1707.01926 (2017).
  • Rethage, Dario, Jordi Pons, and Xavier Serra. “A wavenet for speech denoising.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
  • Chen, Yitian, et al. “Probabilistic forecasting with temporal convolutional neural network.” Neurocomputing (2020).
  • Guirguis, Karim, et al. “SELD-TCN: Sound Event Localization & Detection via Temporal Convolutional Networks.” arXiv preprint arXiv:2003.01609 (2020).




Читать ещё: