Наконец-то можно покупать камеру без объектива, не выставлять адекватное ISO, выдержку и просто наблюдать за результатами.  

Сегодня рынок AI-продуктов переполнен самыми разнообразными копиями генеративных нейронок, а умельцы телеграм-рынка пилят тысячи, если не десятки тысяч ботов, с подключенными GPT. Но, из самых “ленивых” разработок, этот выделился своей идеей…  Если загуглить название самого устройства – можно найти список из двух страниц поисковых выдач с новостью о новом фотоаппарате, который “генерирует реальность”. 

Камера Paragraphica – устройство 2023 года от Нидерландского умельца, которое через алгоритмы искусственного интеллекта и данных о местоположении генерит “фотографии”... 

Но в чем подвох?

Фотоаппарат с супер-промтом и супер NLP-алгоритмом

Когда фотограф направляет камеру на объект или в определённое место, она сначала считывает данные о точном местоположении (широта, долгота), а затем сопоставляет их с различными источниками информации. Например, камера может использовать информацию о погодных условиях, времени суток, достопримечательностях, окружающей среде и даже исторических или культурных данных, связанных с данным местом. 

Эти данные затем обрабатываются с помощью алгоритмов машинного обучения, которые интерпретируют их и преобразуют в текстовое описание сцены. Особенность камеры — она не захватывает изображения в традиционном смысле, как это делают обычные камеры с оптическими сенсорами. Да, Lidar (лучей) тут нет… 

Вместо этого, она «считывает» окружающий мир через призму данных и преобразует эти данные в текстовые описания, которые представляют собой интерпретацию того, что могло бы быть запечатлено на фотографии, это описание используется как промт для Stable Diffusion. 

Мы получаем метафорический взгляд на фотографию как на процесс не запечатления визуального образа, а на создание нарратива, основанного на объективных и субъективных данных о мире. Но это ладно, мы немного увлеклись философскими рассуждениями... 

(рис. 1)
(рис. 1)

Камера юзает API-интерфейс для подключения к базам данных: метеорологические сервисы, картографические приложения или социальные сети — она работает в real-time. Увидеть его можно выше. А вообще, исследователь опубликовал схему Noodle из со своего личного сайта

Диаграмма демонстрирует процесс получения и обработки данных, их взаимодействие между различными скриптами и модулями.

(рис. 2)
(рис. 2)

Get user location: Первоначальный модуль отвечает за получение данных о местоположении пользователя (широта и долгота). Это ключевые входные параметры, которые затем передаются в другие модули для обработки.

API's: Здесь мы видим несколько API, которые взаимодействуют с системой:

Open Weather Map. Запрашивает информацию о погоде на основе широты и долготы, возвращает данные о погодных условиях и температуре.

Mapbox API. Обеспечивает получение информации о точном адресе и близлежащих объектах на основе геолокации.

Get date. Этот модуль отвечает за получение текущей даты и времени суток.

String Format. Этот блок занимается форматированием данных, таких как время суток, адрес, погода, температура, дата и близлежащие места. Эти данные структурируются в виде текстового формата для дальнейшего использования.

DOM Body. Секция пользовательского интерфейса, которая реагирует на событие "Click" и обновляет отображаемую информацию. Она состоит из текстовых блоков и графических элементов (например, изображений), которые обновляются на основе полученных данных.

Dials. Диалс — счётчики, которые можно увеличить или уменьшить, изменяя определённые параметры. Например, пользователь может влиять на параметры сцены, управляя режимами камеры или другими аспектами.

Mode Handler. Этот модуль отвечает за управление состояниями интерфейса, например, переход между режимами (включение камеры, ожидание, загрузка). Он также управляет видимостью элементов на экране и выполняет переходы между различными состояниями системы.

IO Inputs: Здесь представлено управление вводом с клавиатуры. Это действия, которые пользователь может выполнять с помощью клавиш, например, запуск системы (клавиша Run) или использование других команд через клавиши, такие как D, T, G, и другие.

Для создания текстового описания на основе данных, полученных через Open Weather Map, Mapbox API и модуля получения текущей даты, модель машинного обучения использует несколько ключевых этапов, которые связаны с обработкой и интерпретацией данных. 

При этом Raspberry Pi играет роль вычислительной платформы, обеспечивающей выполнение этих операций.

Сначала Raspberry Pi (автор использует четвертую версию) принимает данные, запрашиваемые через внешние API. Когда устройство получает координаты местоположения, эти данные передаются в API Open Weather Map и Mapbox. 

Open Weather Map возвращает информацию о текущих погодных условиях: температура, влажность, облачность и ветер. 

Mapbox, используя геолокацию, предоставляет точный адрес и информацию о ближайших достопримечательностях, объектах инфраструктуры или других интересных местах, например, парках или памятниках. 

Модуль получения даты обеспечивает систему сведениями о текущем времени суток, включая временные метки (день, вечер или ночь) и конкретную дату.

Получив эти данные, Raspberry Pi передаёт их в алгоритм, который быстренько форматирует нужный промт и отправляет данные в Stable Diffusion. 

Например, погодные данные могут быть преобразованы в описание типа "Сегодня ясный солнечный день с температурой 25°C", а информация от Mapbox API может дополнить это описание с деталями о локации: "Вы находитесь вблизи Центрального парка". 

Данные о времени суток, поступившие от модуля даты, могут использоваться для создания фраз вроде "утренний свет мягко освещает окрестности". Но на самом деле… тут нет никакого секретного дообученного GPT… 

Почему этот проект так хайпанул, но не нашел инвест-ангелов?

В основе простой алгоритм, запрашивающий данные из разных источников и просто вкидывающий их в Stable Diffusion. Ну а как же? В основании должна быть нейросеть, которая превращает данные через NLP в супер промт, который создает супер фотографии, невероятно приближенные к реальности?

Все же на рисунке 1 мы видим, что промты шаблонированные, а значит никаких NLP нейронок здесь нет. Грубо говоря, данные просто подставляются под форму, которая отправляется в SD. Но почему фотографии получаются такими приближенными к реальности? – это иллюзия. 

На самом деле, любой промт в духе: “Вы находитесь вблизи центрального парка Нидерланд на Авеню Стрит 35 утром” сводит не к конкретном месту для ИИ, а служит крючком, которое направляет ИИ к определенным типам улиц/архитектурных сооружений/погоде/времени – они остаются самыми общими параметрами.

В каком-то смысле маленькая гениальность разработчика в составлении минимального промта, который гарантирует максимально приближенный результат даже в условиях самых обобщенных параметров. 

Здесь можно отдать дань и разработчикам, а именно гигантскому датасету, который, вероятно, содержит достаточно изображений всех представителей фауны и флоры, а также достопримечательностей (и не только Венеции, но и немецкого Целе). 

Здесь еще и сыграл маркетинговый ход, так как проект буквально обещает фотографии, снятые с неприступной реальности – в жизни просто набор связанных единой геолокацией данных, которые лишь в общем виде приближают нас к конкретному месту. 

Вероятно, проект провалился не из-за такого подхода, сколько артефактов и неточностей, которые появляются при первом краш-тесте: попробуйте мне сгенерировать памятник Челябинского Курчатова под углом 15 градусов с ЖизньМартом в соседнем доме… Иногда эта обобщенность действительно демонстрирует крайне схожие результаты с живой фотографией, а иногда отдает серьезной фальшью. 

Тем не менее автор действительно приблизился к источнику своего вдохновения, точнее к его картине мира – взгляду звездоносого крота, который из ограниченного набора тактильной информации собирает обобщенный мир.

Звездоносый крот, живущий и охотящийся под землей, считает свет бесполезным. Следовательно, он эволюционировал, чтобы воспринимать мир через свои пальцеобразные усики, что дает ему необычный и разумный способ «видения». Это удивительное животное стало идеальной метафорой и вдохновением для того, как сопереживание другим разумным существам и их восприятие мира может быть почти невозможным для человеческого восприятия.

По итогу, проект больше получился не выгодным технологически простым стартапом, сколько настоящим фотопроектом и постмодернистским высказыванием… 

Комментарии (5)


  1. DaemonGloom
    06.09.2024 08:55
    +5

    Статью писала тоже нейросеть? В этом моменте был потерян контекст и температура стала углом для оставшейся части статьи:

    Degrees (угол) определяет положение к генерируемому фото. 


    1. Cyborg707
      06.09.2024 08:55
      +1

      Degrees (градусы), могут быть мерой угла.


      1. Shiaju
        06.09.2024 08:55
        +1

        Могут быть, но в контексте процитированного промта не являются


        1. sspotanin
          06.09.2024 08:55

          Почему же нет? Телефон при съёмке может быть направлен под определенным углом к поверхности земли, и от этого фото должны зависеть (например земля по ногами или верхушки деревьев). А вот температуру модели обычно degrees не называют


  1. xxxNeutralxxx
    06.09.2024 08:55

    Камера лжи