В рамках решения своих задач мне понадобилось перевести несколько статей по семантической сегментации. Некоторые из них я решил выложить сюда. Возможно, их перевод поможет вам в решении своих задач.
Аннотация
Недавний прогресс в области вычислительной фотографии показал, что мы можем получать физическую информацию за пределами видимых (RGB) представлений изображения. В частности, мы можем получать сигналы ближнего инфракрасного (NIR) диапазона с незначительной модификацией любой стандартной цифровой камеры. В данной работе мы изучаем, может ли этот дополнительный канал улучшить семантическую сегментацию изображений. На основе современной системы сегментации и новой базы данных изображений, сегментированных вручную, которая содержит 4-канальные изображения (RGB + NIR), мы изучаем, как наилучшим образом учесть специфические характеристики NIR-отклика. Мы показываем, что это приводит к улучшению характеристик для 7 классов из 10 в предложенном наборе данных, и обсуждаем результаты с учетом физических свойств NIR-отклика.
1. Введение
Семантическое сегментирование сцены на основе изображения является одной из важнейших задач компьютерного зрения. Хотя в последние годы мы наблюдаем большой прогресс в использовании сложных дескрипторов изображений [1,2] и более совершенных методов машинного обучения [3,4], сегментация по-прежнему остается сложной задачей. В то время как люди без труда выполняют семантическую интерпретацию изображений, системы машинного зрения все еще испытывают трудности, в основном из-за неоднозначности влияния света и отражения поверхности на заданное значение пикселя. Например, темный пиксель может быть либо результатом отражения темной поверхности в условиях нормального освещения, либо отражения светлой поверхности в тени. Декодирование вклада света и отражения от изображения является сложной задачей [5]. Чтобы решить ее, нам нужно либо сделать предположения о мире, либо получить больше информации.
В данной работе мы исследуем семантическую сегментацию с использованием последнего подхода. В частности, мы предлагаем использовать в качестве входных данных изображения ближнего инфракрасного диапазона (NIR) в дополнение к видимым (RGB) изображениям. Кремниевые сенсоры цифровых камер естественным образом чувствительны в NIR-диапазоне длин волн (750-1100 нм). Если удалить фильтр, блокирующий NIR, прикрепленный к сенсору, цифровые камеры могут захватывать как RGB, так и NIR изображения [6]. RGB и NIR сигналы были успешно объединены во многих приложениях, таких как дегазация [7], съемка в темноте со вспышкой [8] и классификация сцен [9,10].
Мы считаем, что присущие NIR-изображениям свойства делают их пригодными для семантической сегментации. Во-первых, благодаря тому, что NIR-излучение примыкает к видимому спектру, NIR-изображения имеют много общих характеристик с видимыми изображениями. В частности, формы объектов в сцене сохраняются, т.е. границы физических объектов на видимых изображениях совпадают с границами на NIR-изображениях, что необходимо для сегментации. Во-вторых, значения интенсивности на NIR-изображениях более согласованы для одного материала и, следовательно, для одной области класса, благодаря уникальному отражению некоторых природных и искусственных композитов в NIR-излучении [11]. Например, растительность последовательно «светлая», а небо и вода — «темные». В-третьих, текстура на NIR-изображениях в большей степени присуща материалу. Отчасти это объясняется прозрачностью большинства красителей и красящих веществ в NIR; текстура, привносимая (цветовыми) узорами на поверхности, менее доминирует в NIR. Кроме того, в NIR-изображениях обычно меньше дымки [7]. Следовательно, на изображениях ландшафтных сцен удаленные регионы выглядят более четкими (см. рис. 1).
Эти свойства NIR-изображений уже много лет используются в дистанционном зондировании и военном сообществе для обнаружения и классификации природных и/или искусственных объектов [12]. Однако в данной работе мы подходим к семантической сегментации изображений с другой точки зрения. Во-первых, в отличие от аэрофотосъемки, мы рассматриваем изображения в типичной уличной и ландшафтной фотографии. Во-вторых, большинство приложений дистанционного зондирования используют настоящую гиперспектральную съемку, с несколькими полосами в NIR и даже IR. Наша система использует только один канал, который объединяет все NIR-излучение, и который может быть захвачен стандартным сенсором любой цифровой камеры. Это соответствует последним достижениям в области вычислительной фотографии, где предлагаются различные варианты настройки камеры для одновременного захвата трех видимых (RGB) и одного NIR-канала, либо на двух датчиках с разветвителем луча [13], либо на одном датчике [14]. Для решения этой задачи мы применяем современную систему сегментации. Предлагаемая нами система основана на модели условного случайного поля (CRF) [15], где мы используем различные возможности объединения видимой и NIR информации в части распознавания и в части регуляризации модели.
Вклад данной работы состоит из трех частей. Во-первых, мы изучаем, как лучше использовать NIR в системе сегментации на основе CRF, исследуя различные варианты распознавания и регуляризации модели. Во-вторых, мы предоставляем новый набор данных для семантической сегментации, который содержит изображения с видимым и NIR-каналом (RGB + NIR) и аннотациями на уровне пикселей. Наконец, мы обсуждаем результаты, полученные с использованием обоих ключей для различных классов, и связываем наши наблюдения с характеристиками материалов и другими свойствами NIR-излучения.
1.1 Предыдущая работа
Семантическая сегментация изображений — это процесс разделения изображения на области, где каждая область соответствует семантическому классу из заранее определенного списка. Внешний вид этих классов изучается с помощью меченых изображений. Методы обычно объединяют две подзадачи: часть распознавания, отвечающая за маркировку, и часть регуляризации, которая заставляет соседние пиксели принадлежать к одному классу. Часть распознавания основана на локальном внешнем виде, который рассматривается на уровне пикселя [1] или на уровне участка [3]. Для описания локального внешнего вида используются различные признаки, среди которых текстура (банки фильтров), цветовая статистика и SIFT [16]. Низкоуровневые признаки часто преобразуются в признаки более высокого уровня, такие как Bag-of-Visual-Words [17] или представления вектора Фишера (FV) [18], прежде чем они попадают в классификатор. В нашей работе мы следуем [2] для локального представления и используем FV для распознавания. Локальная согласованность обычно обеспечивается парными ограничениями между соседними пикселями. Локальное представление и локальная согласованность часто объединяются с помощью случайных полей Маркова (MRF) [3] или условных случайных полей (CRF) [1]. В данной работе мы используем модель CRF.
NIR. Спектральная сигнатура различных материалов в NIR-части спектра является основой для большинства приложений дистанционного зондирования. В таких задачах для успешной классификации требуются данные с высоким спектральным разрешением [12]. Напротив, в [19] задача низкоуровневой сегментации на основе материалов решается с использованием 4-канальных изображений, которые потенциально могут быть получены любой цифровой камерой. Используя эти свободно доступные данные, мы идем на шаг дальше и не только сегментируем сцену, но и семантически маркируем каждую область изображения. Для этого мы исследуем систему с использованием контролируемых классификаторов, которые изучают связь между видимой и инфракрасной информацией, заданной классом.
Остальная часть этой статьи организована следующим образом. Используемая нами модель CRF описана в разделе 2. Различные эксперименты описаны в разделе 3. Наконец, в разделе 4 предлагается обсуждение.
2. Модель
Семантическая сегментация формулируется как дискретная задача маркировки, которая присваивает каждому пикселю метку из фиксированного набора . Учитывая наблюдения задача заключается в оценке набора случайных переменных принимающих значения в . Для определения энергии Гиббса мы используем CRF, которая учитывает апостериорное распределение: где — константа нормализации. Максимальная апостериорная (MAP) маркировка случайного поля определяется как:
Маркировка формулируется как парная КРФ, энергия которой может быть записана в виде:
и состоит из унарного и парного термина. Как и в [20], мы присваиваем вес который моделирует компромисс между распознаванием и регуляризацией.
Унарный термин отвечает за распознающую часть модели и использует вероятность принадлежности каждого пикселя к тому или иному классу. рассматривается как стоимость присвоения меток наблюдениям и определяется как: Мы использовали представление на основе патчей, поскольку патчи содержат больше информации, чем пиксели. Для каждого участка вычисляются низкоуровневые дескрипторы, которые преобразуются в векторы Фишера (FV) [18]. FV, вычисленные на пятнах обучающих изображений и их метках, используются для обучения линейных SVM-классификаторов. Для тестового изображения FV-представления участков передаются классификаторам, для каждого участка и для каждого класса выводится оценка. Оценки могут быть могут быть преобразованы в вероятности на уровне пикселей [2], получая карты вероятностей.
Парный термин регуляризирует маркировку пикселей, соседние пиксели поощряются к обмену метками. Мы использовали 4-соседнюю систему (каждый пиксель связан с 4 прямыми соседями). Мы ослабляем ограничения регуляризации вдоль краев, используя контрастно-чувствительную модель Поттса: где — дельта Кронекера, а как в [20]. Этот потенциал наказывает за несогласованные метки соседних пикселей, причем штраф становится меньше при изменении значений пикселей. Таким образом, границы между регионами поощряются следовать краям. Значение пикселя может рассматриваться в видимой области () в NIR области или в обеих (4 измерения).
Вывод модели осуществляется с помощью библиотеки оптимизации многопометных графов из [21,22] с использованием альфа-расширения.
3. Эксперименты
Сначала мы представляем наш набор данных и детали реализации (раздел 3.1). Затем мы сравниваем различные дескрипторы для части распознавания моделей (раздел 3.2), а часть регуляризации (раздел 3.3) изучается для наиболее перспективных из них.
3.1 Предлагаемый набор данных и технические детали
Наш набор данных основан на ранее выпущенном наборе данных сцен [9], где изображения состоят из 3 видимых (RGB) каналов и канала NIR. Насколько нам известно, это единственный набор разнообразных природных изображений, для которых были записаны оба видимых и NIR-канала. Исходный набор данных состоит из 477 изображений, разделенных на 8 сцен на открытом воздухе и 1 сцену в помещении. Мы отбросили классы крытых и старых зданий, внешний вид которых слишком отличается от других классов.
Оставшиеся 370 изображений были вручную сегментированы и аннотированы на уровне пикселей со следующими классами: Застройка, Облако, Трава, Дорога, Скала, Небо, Снег, Почва, Дерево, Вода. Мы следовали стилю аннотирования MSRC [1], пиксели помечались как один из этих классов или как пустой класс. Пустота соответствует пикселям, чей класс не определен как часть интересующих нас классов, или слишком неоднозначен для маркировки (см. рис. 1).
Мы извлекаем участки размером 32 × 32 на регулярной сетке (каждые 10 пикселей) в 5 различных масштабах. Для получения различных масштабов изображения изменяются по размерам с коэффициентами 1, 0.7, 0.5, 0.35 и 0.25. Мы рассматриваем два различных признака. Признак SIFT () [16] кодирует текстуру, используя гистограммы ориентированных градиентов для каждого бина сетки 4×4, покрывающей патч. Цветовая характеристика () кодирует значения интенсивности в каждом канале изображения, используя среднее и стандартное отклонение в каждом бине той же сетки, покрывающей участок. Низкоуровневые дескрипторы вычисляются для каждого патча, и их размерность уменьшается с помощью PCA (прим. перевод. — Principle Component Analysis) до 96. Визуальная кодовая книга с 128 гауссианами строится в спроецированном пространстве, и каждый патч преобразуется в FV. Благодаря использованию одинаковой размерности PCA и одинакового размера кодовой книги, FV-представление всех дескрипторов имеет одинаковую размерность.
Мы случайным образом разделили наш набор данных на 5 наборов изображений (5 складок) и определили 5 наборов экспериментов. Для каждого эксперимента одно сложение используется для валидации, одно — для тестирования, а остальные изображения используются для обучения модели. Результаты для 5 тестовых складок группируются и оцениваются одновременно, получая единый балл для набора данных по каждой мере оценки.
Мы рассматриваем два показателя, которые оценивают сегментацию как проблему категоризации на уровне пикселей. Первая (overall) — это общая точность (т.е. количество правильно классифицированных пикселей, деленное на общее количество пикселей), вторая (per-class) — это средняя точность для каждого класса (т.е. среднее по классам соотношение между истинно положительными и положительными пикселями). Пиксели, помеченные как недействительные, не рассматриваются для оценки.
3.2 Сравнение дескрипторов
В этом наборе экспериментов оценивается распознающая часть нашей модели. Как описано в разделе 2, каждый пиксель ассоциируется с вероятностью принадлежности к каждому из классов. Мы производим семантическую сегментацию, присваивая пикселям их наиболее вероятную метку, . Это эквивалентно нашей полной модели, использующей . Другими словами, здесь рассматривается только унарный термин.
Сначала мы сравним различные признаки и . извлекает статистику по каналам RGB, поэтому мы называем его . Стандартный , вычисляемый по каналу яркости (видимое изображение), называется . Цветовой дескриптор может быть расширен до 4-канальных изображений (RGB + NIR), определяя . Мы также рассматриваем альтернативное 4-D цветовое пространство, предложенное в [9], и вводим , которое объединяет признаки , вычисленные на каждом из 4 альтернативных каналов , , и полученных в результате PCA, примененного к RGBN. Мы предлагаем рассмотреть , дескриптор , вычисленный на NIR-изображении. Также рассматривается дескриптор , вычисляемый только на первом канале () альтернативного цветового пространства.
Поскольку цвет и текстура дополняют друг друга, мы рассматриваем различные способы их объединения. Первый из них, предложенный первоначально для видимых изображений в [23], представляет собой многоспектральный , , который объединяет дескрипторы , вычисленные на каналах R, G и B. Этот способ может быть расширен до 4-мерных изображений, определяя и соответственно. Это можно легко распространить на 4-мерные изображения, определив и соответственно. Чтобы объединить цвет и текстуру, мы также рассматриваем комбинации дескрипторов и , усредняя соответствующие карты вероятностей. Результаты представлены для , который содержит только видимую информацию, и для и , которые также включают NIR.
В таблице 1 (слева) сравнивается точность сегментации, полученная с помощью этих дескрипторов и их комбинации. Для того чтобы понять, существенно ли отличаются результаты, мы рассчитали статистическую значимость с помощью парного -теста общих результатов на изображение для наиболее интересных пар дескрипторов. Результаты представлены в таблице 1 (справа). -значение меньше 0,05 означает, что дескрипторы статистически отличаются друг от друга при 5% доверительном уровне.
Из таблицы 1 мы можем сделать следующие выводы. Во-первых, дескрипторы , использующие информацию NIR, превосходят только видимое . Оригинальное четырехмерное цветовое пространство () работает лучше, чем де-коррелированное пространство (). Для дескриптора , работает немного лучше, чем , как мы и ожидали из-за материальной зависимости отклика NIR, но разница не является значительной на этом наборе данных, на 5% доверительном уровне. То же самое касается сравнения и .
Лучшим отдельным дескриптором является , как уже было показано для классификации изображений в [9]. Этот дескриптор кодирует текстуру для различных цветовых каналов, видимого и NIR. Тем не менее, этот лучший дескриптор превосходит поздний синтез и одноканальных дескрипторов.
В качестве основных выводов можно сказать, что лучшим подходом для распознавания только по видимости является . В дальнейшем мы будем использовать этот дескриптор в качестве базового для распознавания только по видимости. Согласно нашему исследованию, наилучшим способом включения информации NIR для локального распознавания является . Он превосходит лучший видимый метод () почти на 2% (общая точность +1,71).
3.3 Графическая модель
В предыдущем разделе мы изучили распознающую часть нашей модели и признали выигрыш, полученный при использовании NIR вместе с 3 видимыми каналами для построения локальных дескрипторов. Для регуляризации мы используем полученные ранее карты вероятностей для каждого класса и применяем их в полной модели, описанной в разделе 2. Полученная энергетическая функция оптимизируется с помощью библиотеки из [21,22]. для всех экспериментов фиксирована на 5.
Мы сосредоточились на наиболее перспективных комбинациях дескрипторов из части распознавания: , и . Мы сравниваем их с нашим базовым вариантом . Для парного потенциала модель Поттса извлекается на видимом изображении (VIS), NIR-изображении (NIR) и полном 4-канальном изображении (VIS + NIR). Это означает, что разница интенсивности пикселей вычисляется для пиксельных значений размерности 3, 1 и 4 соответственно. Результаты представлены в таблице 2.
Во-первых, отметим, что регуляризация всегда улучшает точность сегментации (сравнение таблиц 1 и 2), но это улучшение скромное (от 1% до 1,7%).
Во-вторых, мы наблюдаем, что видимая только пиксельная информация (VIS) для парного потенциала сравнима с моделью Поттса (ни одно из различий не является статистически значимым). Тем не менее, комбинация обоих () всегда немного лучше, чем любая из отдельных парных моделей, и это статистически отличается на 5% уровне доверия.
Чтобы лучше понять роль регуляризации, мы также рассмотрели третью меру оценки, точность тримапа [24], которая учитывает общую точность классификации для пикселей в узкой полосе вокруг границ между двумя регионами в исходной информации. Результаты для дескрипторов и различных парных потенциалов показаны на рисунке 2. Эти результаты подтверждают наше предыдущее утверждение о том, что 4D представление пикселей приводит к лучшим результатам.
Наилучшие результаты при использовании только видимой информации были получены с помощью полной модели, с в качестве дескрипторов для распознавания и регуляризацией с использованием RGB-изображения. Это наш базовый уровень видимой информации, обозначаемый как VB. Лучшие результаты для изображений RGB + NIR были получены при использовании и для регуляризации. В дальнейшем наша лучшая стратегия будет называться BS.
4. Анализ и обсуждение результатов
В этом разделе мы анализируем и сравниваем результаты сегментации, полученные с помощью двух стратегий VB и BS, на основе матриц путаницы, представленных в таблице 3, и образцов изображений на рисунке 3.
Из таблицы 3 мы видим, что почти 2% общая разница между BS и VB относится к улучшению для 7 классов из 10. Наибольшее улучшение наблюдается для классов Вода (+9,8%), Небо (+5,1%), Почва (+4,1%). Дерево, Облако и Трава улучшены на 2,5%, 0,6% и 0,4% соответственно. С другой стороны, производительность по классам Застройка, Скала и Снег была немного ниже (менее 2%, за исключением класса Снег).
Эффект дымки. Во-первых, мы наблюдаем преимущество NIR в присутствии дымки. Как гласит закон Рэлея, свет, рассеянный от мелких частиц (), обратно пропорционален длине волны () [6]. Частицы в воздухе (дымка) удовлетворяют этому условию и рассеиваются больше в коротковолновом диапазоне спектра. Таким образом, при съемке изображений в NIR-диапазоне атмосферная дымка менее заметна, а небо становится темнее (см. изображение 5 на рисунке 3). «Прозрачность дымки», характерная для NIR, приводит к получению более четких изображений удаленных объектов (см. изображения 3 или 5). В частности, растительность и горы на расстоянии на видимом изображении сглаживаются и приобретают голубоватый оттенок, что может повлиять на результаты классификации. Более четкий и свободный от дымки вид в NIR помогает классификации и приводит к лучшей сегментации, как, например, для скалы класса на изображении 2.
Точность определения границ. Для некоторых изображений мы заметили, что границы определяются более точно при включении NIR в парный потенциал. Это можно объяснить материальной зависимостью откликов NIR, которая может уменьшить количество ошибочных границ из-за беспорядка или привести к более контрастным границам между классами. Эта информация, используемая в регуляризационной части нашей модели, помогает выравнивать границы между областями с изменением материала (см. изображения 3, 4, 5 и 6).
Вода. Класс воды демонстрирует наибольшее улучшение. Поскольку вода поглощает излучение в инфракрасном диапазоне, этот класс выглядит очень темным и становится очень отличительным. Даже если на видимых изображениях синий цвет можно спутать с другими классами (Небо, Скала), он имеет уникальный 4-D вид, что привело к 10% улучшению по сравнению с видимым базовым уровнем. Ошибки, связанные с отражением, также уменьшаются, например, на изображении 6 на рисунке 3.
Облака и небо. Классы Облако и Небо лучше сегментированы в сценарии BS и, что более важно, меньше путаются. Небо темное в NIR, из-за рассеяния Рэлея, упомянутого выше, в то время как облака остаются белыми. Поскольку облака формируются из частиц размером более , применяется рассеяние Ми [6], которое не зависит от длины волны. Таким образом, контраст между этими двумя классами выше на изображениях NIR, что позволяет проводить более точную сегментацию (см. изображения 2, 5 на рисунке 3).
Деревья и трава. Растительность лучше предсказывается при наличии информации NIR благодаря уникальному значению хлорофилла в NIR. Точность как для деревьев, так и для травы повышается. Однако, поскольку оба содержат хлорофилл, классы Дерево и Трава имеют схожие реакции в NIR, и при наличии NIR они становятся более запутанными.
Застройка. Точность определения класса Застройка остается примерно одинаковой для VB и BS. Этот класс не состоит из однородного материала, поэтому информация, основанная на материале, не дает никаких преимуществ.
Выводы. В этой работе мы представили схему семантической сегментации изображений с использованием RGB и NIR информации, полученной с помощью любой обычной цифровой камеры. Сегментация была сформулирована с помощью CRF-модели, и мы изучили, как включить NIR подсказку либо в распознавание, либо в регуляризацию нашей модели, и показали, что интеграция NIR наряду с обычными RGB изображениями улучшает результаты сегментации. В частности, мы заметили, что общее улучшение связано со значительным улучшением для некоторых классов, чей отклик в NIR-области является особенно дискриминантным, например, Вода, Небо или Облако. Использование этой потенциально бесплатной дополнительной информации является перспективным направлением для улучшения семантической сегментации, которое мы планируем проверить на более широком спектре классов.
Благодарность. Эта работа была поддержана Швейцарским национальным научным фондом под номером гранта 200021-124796/1 и фондом Xerox.
Источники
Источники смотрите в оригинальной статье (здесь).