Нейросетевые модели являются “слепком” информации из интернет из ответов которого разработчики убирают все нежелательное для работы в офисе и проверяющих органов. Цензура у разных моделей проявляется по разному: американские модели “боятся” обидеть пользователя и фильтруют ответы и вопросы на большое количество житейских тем, а китайские в основном на чувствительные для Китая политические темы, Алисы и Гигачаты не ответят вам на запрещенные в России запросы а в последнее время избегают и технических вопросов про сетевые настройки / доступ к информации в интернет. Но что интернационально объеденяет LLM, так это NotSafeForWork фильтр (как говорят на форумах - 99% порно и 1% насилия), отсекающий в ответах вопросы по исходной информации.

И все бы ничего, если в цели не входит обработка, поиск и структурирование любого визуального контента. А в обычной жизни и в интернет не так много единорогов поедающих радугу и производящих из нее бабочек. Облачные сервисы и их API вам с ответами на вопросы по такой информации не помогут, поэтому остается вариант с локальным запуском нейронок.

Для обычных пользователей без опыта в установках и настройках, чтобы запустить на своем компьютере нецензурируемую LLM проще всего использовать Ollama. LMStudio также достаточно простой способ в установке и использовании. Кто-то использует KoboldCpp скачивает и подкладывает ему модели самостоятельно. Более опытные люди используют llama.cpp или vllm запуская в коммандной строке.

Для массовой обработки визуальной информации вам не подойдут обычные abliterated версии мультимодальных моделей, так как нужно четкое следование инструкциям моделью, визуальный энкодер который работает штатно и структурированный вывод информации. А при таком методе снятия с модели цензуры страдает качество ответов, ломается структурированный вывод итп.

Очевидно, что для комфортной производительности (десятки секунд на ответ) при локальном запуске нейросетевых моделей потребуется современный GPU с достаточным для работы объемом видеопамяти. Запускать модель на CPU и ждать ответа десятки минут вам вряд ли захочется.

В этой публикации я рекомендую установить Ollama и скачать одну из моделей:

Установка docker с Ollama:

Загрузка модели:

Для пользовательского интерфейса чата с моделью рекомендую установить OpenWebUI и початиться с этими локальными моделями, загружая в чат произвольные изображения из интернет и прося описать картинку.

Мультимодальная qwen2.5vl:7b или qwen2.5vl:32b является наименее цензурированной из современных оригинальных моделей и не отказывающая в обработке любого NSFW контента, но текст будет очень обтекаемо описывать сцену без подробностей и нецензурных слов. Qwen3VL скромно умолчит и не будет находить на изображении лица попавших под NSFW фильтр, а Gemma4 скорее всего не выдаст вообще никакого ответа по запрошенной схеме.

JoyCaption в отличии от её конкурентов видела многое в своей обучающей выборке, но неплохо отвечает только на английском языке. Обычно ответ на русском у этой модели без смеха и слез не удается прочитать.

Для лучшего качества извлечения признаков и описания медиаконтента для меня работает сочетание цензурированной и нецензурированной модели. Когда ответы и той и этой модели сохраняются в базу данных и позволяют искать запросами по коллекции изображений.

Покажу на примерах как эти модели описывают фотоколлекции.

Основная модель Qwen3VL, nsfw модель JoyCaption

Основная модель Qwen3.5-Uncensored-HauhauCS-Aggressive:9b, nsfw модель JoyCaption

Для этой публикации старался подобрать максимально безобидный контент, не в пример тому что встречается на huggingface для обучения NSFW фильтров:

Если это нужно проиндексировать сотни тысяч изображений локально и организовать поиск или аналитику по такой коллекции, то вам не обойтись без подобных моделей “без тормозов”.

В итоге

Такой подход позволяет во первых извлекать из исходных данных и искать абсолютно любую информацию локально, что может быть полезно как data science специалистам для анализа данных без отправки их в облачные сервисы, так и обычным пользователям с разбором локальных файлов. А во вторых является подготовительным этапом для создания новой обучающей выборки для диффузионных моделей и LoRA Adapters.

Комментарии (0)