
Здравствуйте! Меня зовут Богдан, я являюсь автором телеграм канала Друг Опенсурса, приятного прочтения.
Black Forest Labs официально выпустили FLUX.1 Kontext - целую линейку генеративных моделей, заточенных под генерацию и редактирование картинок. В отличие от обычных text-to-image моделей, эта модель может работать с контекстом - то есть берет на вход и текст, и изображения, а затем создает новые рендеры с сохранением всех визуальных концепций.
Три версии модели - на любой вкус
FLUX.1 Kontext [pro] - Быстрое итеративное редактирование Это пионерская модель для быстрого редактирования изображений. Объединяет локальное редактирование, генеративную модификацию контекста и классическую генерацию text-to-image в одной модели, при этом сохраняя фирменное высокое качество FLUX.1. Модель принимает текст и референсные изображения, легко делает целевые правки в конкретных областях и сложные трансформации целых сцен.
FLUX.1 Kontext [max] - Максимальная производительность Экспериментальная модель, которая показывает серьезные улучшения в следовании промптам и генерации текста. Отлично справляется с консистентностью редактирования, при этом не жертвует скоростью.
FLUX.1 Kontext [dev] - Open Source версия для разработчиков Легковесная 12B диффузионная модель-трансформер, подходящая для кастомизации. Совместима с предыдущим inference кодом FLUX.1 [dev]. Пока что в приватной бета-версии, но исследователи могут подать заявку на доступ через kontext-dev@blackforestlabs.ai.
Основные технические фишки
Сохранение консистентности персонажей: Поддерживает консистентность уникальных элементов (персонажей или объектов) в изображениях через множество сцен и окружений. То, что раньше было практически невозможно с обычными инструментами редактирования.
Локализованное редактирование: Может делать целевые модификации конкретных элементов в изображениях, не затрагивая остальные части. Точные локальные корректировки - это вам не шутки.
Стилевые референсы: Генерирует новые сцены, сохраняя уникальный стиль референсных изображений, направляемый текстовыми промптами.
Интерактивная скорость: Экстремально низкая задержка как для генерации, так и для редактирования изображений. Поддерживает операции в реальном времени.
Итеративное редактирование: Пользователи могут продолжать добавлять инструкции на основе предыдущих правок, постепенно улучшая свое творение, сохраняя качество изображения и консистентность персонажей.
Результаты бенчмарков
Чтобы проверить производительность модели, Black Forest Labs провели обширную оценку и составили KontextBench - бенчмарк на основе краудсорсинговых реальных случаев использования. Результаты показывают:
FLUX.1 Kontext [pro] отлично справляется со всеми шестью задачами контекстной генерации изображений
Достигает наивысших баллов в редактировании текста и сохранении персонажей
По скорости инференса в 8 раз быстрее существующих продвинутых моделей (типа GPT-Image)
Показывает конкурентоспособность по множеству качественных параметров, включая эстетику, следование промптам, генерацию текста и реализм
Ограничения использования
У FLUX.1 Kontext есть некоторые ограничения в текущей реализации:
Ограничения мульти-редактирования: Чрезмерные сессии мульти-редактирования могут вносить визуальные артефакты и снижать качество изображения. По официальным демонстрациям, после более чем шести итеративных правок генерируемые изображения могут показывать визуальную деградацию и очевидные артефакты.
Точность следования инструкциям: Модель может иногда не следовать инструкциям точно, игнорируя специфические требования промпта в редких случаях.
Ограничения знаний о мире: Знания модели о мире остаются ограниченными, что влияет на ее способность генерировать контекстуально точный контент.
Влияние процесса дистилляции: Процесс дистилляции может вносить визуальные артефакты, влияющие на точность вывода.
BFL Playground - официальный запуск
Чтобы упростить пользователям тестирование и демонстрацию функций модели, Black Forest Labs одновременно запустили платформу FLUX Playground. Этот упрощенный интерфейс позволяет разработчикам и командам тестировать самые продвинутые FLUX модели без технической интеграции.
Playground предоставляет разработчикам возможность валидировать случаи использования, демонстрировать функции заинтересованным сторонам и экспериментировать с продвинутой генерацией изображений в реальном времени.
Модель уже можно потестить на Uma Ai.
Техническая значимость и влияние
Релиз FLUX.1 Kontext знаменует важный прорыв в технологии редактирования изображений. Эта линейка моделей объединяет функции мгновенного редактирования изображений на основе текста и генерации text-to-image, предоставляя пользователям беспрецедентную творческую гибкость.
Как мультимодальная flow модель, FLUX.1 Kontext сочетает продвинутые возможности сохранения консистентности персонажей, понимания контекста и локального редактирования с мощными функциями синтеза text-to-image, предоставляя мощные инструменты для профессиональных дизайнеров и креаторов.
FLUX.1 Kontext знаменует важный прорыв в технологии редактирования изображений. Эта линейка моделей объединяет функции мгновенного редактирования изображений на основе текста и генерации text-to-image, предоставляя пользователям беспрецедентную творческую гибкость.
Как мультимодальная flow модель, FLUX.1 Kontext сочетает продвинутые возможности сохранения консистентности персонажей, понимания контекста и локального редактирования с мощными функциями синтеза text-to-image, предоставляя мощные инструменты для профессиональных дизайнеров и креаторов.
DachnikGarik
Фраза "Здравствуйте, я Богдан" после первой картинки сначала удивила. Потом подумал, что сейчас времена такие, всякое бывает.
Qwertcoser Автор
ХАХАХАХА