Сравнение настоящих фотографий (вверху), сгенерированных изображений с семантической регуляризацией (средний ряд) и без неё

Группа исследователей из Тель-Авивского университета разработала нейронную сеть, способную генерировать изображения блюд по их текстовым рецептам. Таким образом, домохозяйка может заранее посмотреть, что получится в итоге, если изменить тот или иной пункт рецепта: добавить новый ингридиент или убрать какой-то из существующих. В принципе, эта научная работа — хорошая идея для коммерческого приложения, тем более что исходный код программы опубликован в открытом доступе.

Нейросеть представляет собой модифицированную версию генеративно-состязательной сети (GAN) под названием StackGAN V2. Обучение проходило на большой базе из 52 тыс. пар изображений/рецептов из набора данных recipe1M.

В принципе, нейросеть может взять практически любой список ингредиентов и инструкций — даже фантастические сочетания — и выяснить, как выглядит готовый продукт.

«Всё началось с того, что я попросил у бабушки рецепт её легендарных рыбных котлет с томатным соусом, — рассказывает Ори Бар Эль (Ori Bar El), ведущий автор научной работы. — Из-за своего преклонного возраста она не помнила точный рецепт. Но мне было интересно, можно ли построить систему, которая по изображению пищи выведет рецепт. Поразмыслив над этой задачей, я пришёл к выводу, что системе слишком сложно получить точный рецепт с реальными и «скрытыми» ингредиентами, такими как соль, перец, масло, мука и т. д. Затем я подумал, можно ли сделать наоборот. А именно, генерировать изображения продуктов на основе рецептов. Мы считаем, что эта задача очень сложна для людей, тем более для компьютеров. Поскольку большинство современных систем искусственного интеллекта пытаются заменить экспертов в простых для человека задачах, мы подумали, что было бы интересно решить задачу, которая даже выходит за рамки человеческих возможностей. Как видите, это можно сделать с определённым успехом».

Генерация изображений из текста — сложная задача, у которой много приложений в области компьютерного зрения. Недавние работы показали, что генеративно-состязательные сети (GAN) весьма эффективны в синтезе высококачественных реалистичных изображений из наборов данных с низкой вариабельностью и низким разрешением.

Также известно, что сети типа cGAN генерируют убедительные изображения непосредственно по текстовому описанию. Недавно в рамках одного из научных исследований был опубликован набор данных recipe1M, содержащий 800 тыс. пар рецептов и соответствующие им изображения (см. A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, and A. Torralba. Learning cross-modal embeddings for cooking recipes and food images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017). У этого набора высокая вариабельность из-за разнообразия категорий продуктов питания по категориям. Кроме того, к изображениям привязан сложный текст из двух разделов (ингредиенты и инструкции). В общей сложности текстовая часть может содержать десятки строк.

Имея такой отличный набор данных, учёным из Тель-Авивского университета оставалось лишь обучить нейросеть. Они объединили накопленные знания в области генеративн-состязательных сетей и опубликованный набор данных.

Исследователи признают, что система ещё не совершенна. Проблема в том, что исходный набор данных представлен изображениями относительно небольшого разрешения 256?256 пикселей, а зачастую низкого качества, там много изображений с плохими условиями освещения, кашеобразных изображений и изображения неквадратной формы (что затрудняет обучение моделей). Этот факт объясняет, почему обе разработанные модели cGAN преуспели в создании «кашеобразных» продуктов питания (например, макарон, риса, супов, салатов), но им очень трудно сгенерировать изображения продуктов характерной чёткой формы (например, гамбургер или курица).

В будущем авторы намерены продолжить работу, обучив систему остальным рецептам (в наборе подходящих данных осталось ещё около 350 тыс. изображений). Впрочем, это не отменяет факта, что имеющиеся фотографии низкого качества. Поэтому они допускают возможность создания собственного набора на основе текста детских книг и соответствующих изображений.

Научная статья опубликована 8 января 2019 года на сайте препринтов arXiv.org (arXiv:1901.02404).

Комментарии (2)


  1. Tenebrius
    14.01.2019 11:38

    "— Поттер! — Что получится, если я смешаю измельченный корень асфоделя с настойкой полыни?"
    Вот бы и пригодилась сеточка =)


  1. Murmurianez
    14.01.2019 13:28

    Вот почему повара на IBM Watson прикрыли? Такая штука крутая была. Совместить бы его с этой фигнёй…