С вами снова Егор Ершов, руководитель группы «Цветовая вычислительная фотография» в AIRI и заведующий сектором репродукции и синтеза цвета ИППИ РАН. Я продолжаю свой цикл статей по мотивам лекций по вычислительной фотографии, и в прошлый раз мы приступили к разбору типичных конвейеров формирования изображения, заложенных в наши профессиональные камеры и мобильные телефоны.
Типичный пайплайн — от нажатия кнопки затвора до сохранения файла — довольно внушителен по количеству шагов, грубо его можно разделить на подготовку сырого RAW‑изображения и последующую обработку программными средствами. В предыдущей статье мы успели рассмотреть лишь первые два шага — регистрация света и дебайеринг, на этот раз поговорим про баланс белого и переход в пространство стандартного наблюдателя.
Приятного чтения!

Баланс белого
Итак, в прошлый мы остановились на том, что благодаря интерполяции и другим методам дебайеринга мы для каждого пикселя теперь имеем три числа, соответствующие каждому из цветовых каналов. Но до того, как использовать их для кодирования цвета, нам нужно выполнить ещё несколько операций, включая выставление баланса белого.
Баланс белого — это настройка, которая говорит камере или программе обработки, какой цвет в сцене должен считаться нейтральным белым. Зачем его делать? На этот вопрос, вообще говоря, есть два ответа.
Основной мотивацией, которую вы можете встретить в научных публикациях, обычно называют имитацию механизмов зрительной системы человека. Как мы это обсуждали в одной из прошлых статей, существует механизм цветовой константности зрительной системы, который позволяет воспринимать нами цвета объектов независимо от освещения. Эта система позволяет нам понимать, что белый лист — белый, независимо от того, в каких условиях (в некоторых разумных пределах, разумеется) мы его наблюдаем.
Менее известной причиной, по которой нужно и важно правильно делать баланс белого, является последующий за ним переход в пространство стандартного наблюдателя (о нём чуть ниже). Как показывает практика, чем к более правильному виду нормализованы цвета, тем лучше и точнее будет такое преобразование.
Не стоит забывать и про эстетическую составляющую. Баланс белого влияет на теплоту в сцене, его выставляют вручную в зависимости от тех предпочтений, которые в настоящий момент есть у пользователя, или тех задач, которые решает оператор, что, однако, требует некоторого опыта. В большинстве же случаев баланс белого выставляется автоматически.

Чтобы выставить баланса белого, нужно выполнить два этапа: определение точки белого и непосредственно коррекцию. Первое проще всего задать с помощью цветовой температуры. Предполагается, что в большинстве случаев мы имеем дело с планковскими (тепловыми) источниками, чей спектр однозначно задаётся в кельвинах (например, лампа накаливания — это около 2500 кельвин). Следовательно, если мы знаем температуру, мы можем предсказать, как будет выглядеть «эталонный» белый при таком освещении.
Для данной цветовой температуры, заданной вручную, производители камер заранее готовят способы поканальной коррекции (фон Криса) и прописывают в настройках. Эти настройки можно найти в спецификациях устройства, но не всегда. Некоторые изготовители объявляют свои настройки коммерческой тайной, и тогда приходится проводить реверс‑инжиниринга этих решений.

При автоматическом балансе белого, как нетрудно догадаться, никто ничего руками не выставляет. Пользователю предлагается автоматический способ, который:
определяет текущие параметры освещения;
определяет целевую коррекцию, то есть, в какой вид с учетом данного освещения стоит преобразовать в изображение;
собственно, корректирует.
Важно понимать, что и оценка освещения, и выполнение коррекции, являются, вообще говоря, некорректными задачами. Нередко нам нужно определить цвет некоторого белого объекта в сцене (чтобы его сбалансировать) без какого‑либо белого объекта в сцене вообще — алгоритму нужно догадаться.
Сложности добавляет тот факт, что все решения предполагают единственный источник освещения (в этом случае говорят об одной доминантной точке). Но так бывает не всегда. На видео ниже вы можете увидеть ситуацию, когда при изменении угла и ориентации ахроматической поверхности белого листа меняется сильно её цвет.

Так происходит, потому что источников освещения больше одного — и точки белого для них различны для разных углов поворота поверхности. Казалось бы, такая понятная и очевидная вещь, но в настоящий момент она почти не учитывается в автоматических алгоритмах балансировки реального времени. Впрочем, это не значит, что на международных соревнованиях или в современных программных решениях никто не пытается этого сделать. Наиболее актуальные постановки задач сейчас состоят в оценке освещения в каждом пикселе или ещё более общо — оценке поля освещенности (radiance field).
В классическом случае, задача, фактически, сводится к тому, чтобы предсказать по фотографии сцены RGB‑вектор источника освещения, который её освещает — буквально, как если бы мы навели камеру прямо на этот источник. Правда, мы должны уметь решать эту задачу даже в случае, если этого источника освещения или белого объекта, который бы окрасился в соответствующий цвет, нет.

Одним из самых простых алгоритмов решения этой задачи является алгоритм серого мира (grey world). Он отталкивается от предположения, что средний цвет сцены в целом должен быть нейтрально‑серым. Это можно проверить, вычисляя для каждого канала арифметическое среднее по всем пикселям изображения.

Если мы проделаем эту операцию и получим вектор, отличный от некоторого серого (например, [50, 50, 50] или [100, 100, 100]), то в этом «виновато» освещение. Тогда можно выполнить баланс белого, скорректировав его влияние:

Этот алгоритм является общепринятым и простым и до сих пор используется в множестве устройств, однако он не идеален. Например, можно представить себе случай, когда мы случайно загораживаем сцену сильно насыщенным объектом (например, красной папкой). И тогда исходное предположение, очевидно, неверно, а значит и неверной окажется и итоговая коррекция (остальная часть сцены предстанет в оттенках голубого).
Мировое научное сообщество о такого рода проблемах знает. Существует великое множество подходов по решению этой задачи, начиная от классических методов вычисления баланса белого и заканчивая нейросетевыми алгоритмами, включая трансформерные и многодоменные решения. Это та область в вычислительной фотографии, которая сейчас особенно активно развивается с точки зрения публикаций в передовых научных журналах и конференциях. На настоящий момент более тысячи статей посвящены вопросу правильной оценки точки белого.

Переход в CIE XYZ
Как я уже упоминал ранее, если мы хотим сохранить контроль и воспроизводимость цветопередачи при показе некоторого изображения человеку, нам требуется перейти в цветовое пространство, с связанное человеком, и представить цветовую информацию в тех единицах измерения, в которых работает человек. Речь идёт о пространстве стандартного наблюдателя CIE XYZ, про которое я рассказывал в одной из прошлых статей. Переход в CIE XYZ — это следующий шаг конвейера формирования изображений, давайте остановимся на нём поподробнее.
Мы стартуем с того, что есть у нас есть спектральные чувствительности некоторой камеры, которые, вообще говоря, отличны от спектральных чувствительностей стандартного наблюдателя. Чтобы их связать, мы должны, уже скорректировав цвет в пространстве цветов камеры, предсказать то, каким был бы цвет (тристимул) у стандартного наблюдателя. С точки зрения математики речь идёт о построении матрицы 3×3, которая линейно преобразует цветовые векторы.

Эта задача заведомо некорректна для большинства камер, поскольку спектральные чувствительности, которые получаются в результате производства современных сенсоров, не могут быть линейно выражены через спектральную чувствительность стандартного наблюдателя. В таком случае ещё говорят, что система не удовлетворяет критерию Максвелла — Лютера — Айвса.
Давайте наглядно поймем последствия невыполнения этого критерия. Формально всё очевидно: если сенсоры линейно не связаны, то не существует и линейного преобразования между их координатами. На практике это означает, что множества метамеров этих сенсоров не совпадают. Метамеры, напомню, — это различные по форме спектры, вызывающие одинаковый отклик у сенсора. Если сенсор поменять на другой, то теперь это множество спектров будет формировать не один цвет, а несколько! В результате на пути к преобразованию координат перед нами встаёт нетривиальная задача: как преобразовывать один и тот же цвет в разные — вот это реальная проблема.
Впрочем, некорректность некорректностью, а задачу решать надо, и уже люди успели придумать массу методов для этого. Например, совершенно естественным кажется взять стандартный набор цветов, «показать» их виртуальному стандартному наблюдателю и нашей камере и установить между ними соответствие. Для всех же остальных цветов мы может решать задачу предсказания, в том числе и методами машинного обучения, используя полученные пары в роли тренировочных датасетов.
Есть много классических подходов, которые позволяют это решение делать чуть менее параметрическим. Например, матрицы 3×3 можно выбрать переменными, как это предлагают делать Хакки Караймер и Майкл Браун из Йоркского университета. Коллеги предлагают получать множество таких матриц для разных цветовых температур.

Суть их метода заключается в том, чтобы заранее просчитать для конкретного сенсора правильные матрицы линейного преобразования в определённых точках белого на планковском локусе, а все остальные интерполировать. Последнее делается складыванием их с некоторыми весами в зависимости от близости текущей точки планковской температуры для текущего снимка по отношению к уже откалиброванным точкам.

Это решение работает лучше, чем преобразование с помощью постоянной матрицы, хотя, как нетрудно догадаться, метод хуже справляется с источниками света, чья цветность уходит с локуса (искусственные источники освещения). Существует множество других подходов, и об этом детальнее лучше говорить в отдельной статье.
Добавлю лишь, что задача о преобразовании цветовых координат всё ещё является довольно интересной научной задачей, потому что хороший нейросетевых решений здесь ещё не предложено.
Кроме того, до сих пор остаётся немало фундаментальных вопросов. Как описать такое преобразование? Как бороться с метамерией сенсоров? Какова достижимая точность такого преобразования? Всех исследователей, кому интересны подобные вопросы, я приглашаю к сотрудничеству и поиску идей, как преодолеть этот фундаментальный барьер.
На этом мы закончим обзор шагов, которые отвечают за подготовку сырого RAW‑изображения в конвейере формирования изображений. У нас остался блок про последующую программную постобработку, и ему уже будет посвящена следующая статья.