Ещё один поиск Вк по фото / forpes.ru

Главная
Ещё один поиск Вк по фото

Ещё один поиск Вк по фото +24

20.03.2021 12:02

AivanF 20 10600 Источник

Я люблю ввязываться в авантюры, и за последний месяц об одной из них я пару раз рассказывал друзьям, что вызывало восторг, поэтому решил поделиться с хабравчанами! Эта история про отважные пет-проекты, мощь опен-сорса и саморазвитие, а также основные технические детали. Надеюсь, вас это вдохновит.

1. Предыстория

В первой половине 2016-го в свет вышел нашумевший FindFace, позволяющий загрузить фото человеческого лица и находить соответствующий профиль Вк. Он вызвал большой общественный резонанс, привёл как к поиску девушек по скрытым фоткам на эскалаторах в метро и к обнародованию порноактрис с неприятными последствиями для их близких, так и к находкам потерянных близких, к нереально быстрому поиску преступников по случайным кадрам с камер, прям как в американских фильмах, только наяву.

В то время мне об этом сервисе говорили и ленты новостей, и друзья, я отвечал "ну да, прикольно", и только. Но спустя пару лет, в начале октябре 2018 на каком-то айтишном форуме я захотел связаться с одним пользователем по специфическому вопросу, вот только он туда уже давно не заходил. Зато там было его хорошее фото, и тут-то я вспомнил про крутой сервис! Побежал на их сайт и разочаровался – в сентябре 2018, буквально за месяц, они перестали предоставлять свои услуги физ.лицам, и бесплатно, и даже за деньги, перейдя в сегмент b2b и b2g. Оно и понятно, пиар уже сработал, а этических вопросов так возникает куда меньше. Но меня, законопослушного гражданина, это огорчило. И не только меня: фан-группы ФайндФейса пестрили сообщениями о том, что люди готовы заплатить в 10 раз больше, лишь бы им помогли найти нужного человека.

Я стал искать аналоги, но они все были либо точным поиском, но по крайне ограниченной выборке вроде нескольких сотен знаменитостей из Википедии, либо обширным, но почти бесполезным по точности поиском через Гугл/Яндекс.

Пару рабочих дней я размышлял, что же сложного в создании такого сервиса, который бы и точно искал людей, и по всему Вк? Решил, что ничего, ведь у меня тогда уже были базовые познания в data science, разработке и администрировании. Поэтому в пятницу, приехав с работы домой, я взялся за дело. За вечер я накидал скрипт, который парсит профили Вк, находит фото, индексирует по ним лица и сохраняет в БД. Потом просидел ещё пару суток почти без сна, заставил это дело безостановочно работать на своём сервере. Началась новая трудовая неделя, я был очень уставший, но ещё больше довольный и полный энтузиазма! Ведь мой скрипт медленно, но безостановочно бежал по всему Вк.

2. Техническое устройство

2.1. Индексирование

Как вы считаете, что происходит после того, как вы отправляете запрос в любую крупную поисковую систему? Не важно, поиск текста в Яндексе, Google или поиск лиц в FindFace или моём сервисе. Многие, особенно не-айтишники, с трудном представляют внутренние механики технических процессов, а они бывают нетривиальны даже казалось бы в простых задачах. В случае поисковых систем магия заключается в том, что при получении запроса они не начинают обегать все страницы в интернете, ища там ваш текст, или весь Вк, сравнивая вашу фотку со всеми подряд, – это бы занимало астрономические объёмы времени. Вместо этого, поисковые системы сперва индексируют нужные данные. В случае текста (и подобных тексту данных вроде ДНК) в ближайшем приближении могут использоваться хэш-таблицы или префиксные деревья. В случае фоток тоже нужны индексы, которые сильно сократят время поиска. Для этого я использовал библиотеку face_recognition, которая позволяет преобразовать фото лица, если правильно помню, в 128-мерный вектор признаков со значениями от -1 до 1 (далее буду называть его просто хэш). Для поиска человека по фото, нам нужно просто пробежаться по всем фото из коллекции, считая евклидово расстояние между векторами-хэшами из запроса и набора – подобный пример, реализованный на Питоне, доступен на сайте упомянутой библиотеки. Да, такая операция поиска тоже не дешёвая, но об этом позже.

В ближайшие недели я стал прикидывать темпы роста и понимать, что надо масштабироваться. API Вк работает на токенах доступа, и каждый токен имеет ограничения по числу запросов на единицу времени. Чтобы увеличить их число, я создал несколько приложений Вк с формами получения токенов и попросил пару десятков друзей выполнить там простой клик, что в итоге дало мне сотню токенов, которые я бережно сложил в файлик.

Конечно, не только лимиты АПИ повышать надо, но и объёмы CPU. Изначально я развернул скрипт на маленьком VPS, который создавался для простого личного сайта. В подмогу ему, я взял ещё один VPS, в несколько раз мощнее. Потом я решил, что и этого мало, взял ещё и целый выделенный сервер, который сильнее моего собственного рабочего компьютера :D Не энтерпрайз-левел, но производительность стала меня устраивать, хотя расходы и выросли до 15 тысяч руб/месяц, что для меня тогда было весьма ощутимой тратой.

2.2. Подобие архитектуры и DevOps'а

Если у вас есть опыт в бэкэнд разработке, то сразу встаёт вопрос, как я заставил несколько серверов работать в тандеме, а не независимо, дублируя одну и ту же работу? На самом деле, решение классическое: один микросервис брал на себя роль ведущего, мастера, хранил состояние всей системы, и выдавал задания объёмом в тысячу профилей Вк воркерам, которые быстрее или медленнее их индексировали, а результаты, в том числе промежуточные, возвращали мастеру; если же мастер за определённый промежуток времени не получал ответа от воркера, он давал это задание другому, с учётом промежуточного прогресса.

Кстати, воркеры работали в несколько потоков. Да, Питон, благодаря Global Interpreter Lock, не умеет в полный параллелизм, но много времени уходило на выгрузку фоток, а IO-операции хорошо параллелятся. Вдобавок, это позволило легко назначить каждому потоку свой токен доступа и гибко настраивать загруженность каждой машины.

Для автоматизации настройки окружения, токенов и т.п были написаны скрипты на Питоне, которые подключались к целевой машине по SSH и ставили всё что нужно. Позже я узнал, что у меня костыльный велосипед, есть качественные решения, но всё равно было интересно посмотреть подноготные детали. Из прикольного, пришлось также разобраться, что есть разные ВМ и средства виртуализации, что некоторое ПО не работает в определённых конфигурациях, благодаря чему виртуалки на Xen и OpenVZ с казалось бы одинаковыми ресурсами могут отличаться в цене на 40%.

2.3. Поиск

Помимо ролей мастера и воркера, есть роль поискового микросервиса. Проиндексированные фото Вк и айдишники их профилей сохраняются в БД, точнее, MySQL v5.7 – и алгоритм поиска я переписал с Python на SQL, что позволило сильно ускорить вычисления и выйти на больший масштаб. Но с ростом данных этого всё равно было очень мало, я думал над оптимизациями, старался переиспользовать свой опыт big data аналитики с работы, экспериментировал с разными структурами запросов и генерацией SQL-запросов Питоном, это позволило ускорить вычисления в несколько раз, что мило, но всё равно мало.

Потом я решил сделать поиск двух-этапным: преобразовывать хэши-дробные-векторы в небольшой массив байт, сохраняя каждый признак в два бита: v>0.1 и v<-0.1 (здесь), затем сравнивая число совпавших бит такого хэша у целевого лица и всех лиц в БД, а потом фильтруя записи в БД по какому-то трешхолду, отправляя на более точное и медленное сравнение только потенциальных кандидатов. Пришлось повозиться и переехать на MySQL v8, т.к в 5.7 бинарных операций нет. Но это позволило ускорить поиск ещё почти в 30 раз – а это уже клёво ^_^

Вообще, поиск можно было бы улучшать и дальше – возможно подобрав более эффективные коэффициенты в операции выше, или переделав этот хэш, ещё было бы круто добавить параллелизм, которого в MySQL из коробки нет, партицирование, шардирование, и искать многопоточно; для этого в планах был переезд на PostgreSQL.

2.4. Другие механики

Когда у меня накопился большой объём данных, и мой сервис научился находить некоторую долю людей по случайным фоткам за приемлемое время, я стал мечтать дальше и задумываться о развитии функционала.

Ускорять время поиска можно не только ускорением самого поискового алгоритма, но и снижением выборки, например, ища профили только среди участников каких-то групп Вк. Ясное дело, здесь встаёт вопрос ограничения размера этой выборки, т.к делать запрос с "ISIN (десятки тысяч айдишников)" такое себе, а вот на паре сотен и даже тысяч работает в разы быстрее, чем полный проход БД.

Помимо прочего, я немного помешан на математике, множествах графах, а соц.сети – это прекрасные данные и множеств, и графов! Я подумал, что можно двигаться в этом направлении, позволяя задавать сложные запросы с И-ИЛИ-деревьями. Притом, искать можно не только по фото, но и по ник-неймам или ссылкам на профили в других соц.сетях – к сожалению, поисковики интернета и Вк эту инфу не очень индексируют, и я попробовал делать это сам.

Если идти ещё дальше, то можно индексировать не только Вк, но и ВотсАп, Тг перебрав все русские номера, возможно частично FB, Twi, Ig. Но это уже совсем будущее, я решил двигаться в сторону скорейшей апробации и монетизации того, что есть уже.

3. Заключение

3.2. Happy ли end?

Перед разработкой ЛК, интеграции платежей и т.п декора, я решил больше разобраться в общественных настроениях, т.к некоторые мои знакомые выражали сомнения, что им было быы приятно пользоваться, а ещё серьёзнее – быть доступными в таком сервисе. Помимо этого, примерно тогда же Вк ввёл закрытые профили, чтобы переживающее о своей безопасности люди могли спокойно скрываться, и анализируя статистику своих воркеров я видел, что число таких профилей всё растёт.

Я написал в тех поддержку Вк (тогда они ещё отвечали, ахах), аккуратно представился студентом, что хочу проводить социологические исследования сканируя большие объёмы данных Вк, в т.ч фото, ФИО и описание. Что на самом деле было правдой, с учётом моего интереса к аналитике и психологии. Они ответили, что ради статистики и небольших выборок в целом не против, но точно против какой-либо идентификации. А ещё "порадовали" тем, что будут и палки в колёса АПИ вставлять таким сервисам, и участвовать в разработке/внедрению законов, регулирующих эту деятельность. А недавно, уже в наше время, вышел законопроект, запрещающий автоматизированную обработку данных с сайтов, что по сути полностью блокирует подобные сервисы с парсингом.

В связи с этим, я принял решение о закрытии проекта, хоть это и было печально: в феврале 2019 у меня уже было проиндексировано 25% всего Вк в гигабайтах БД, притом не за бесплатно. Но у меня уже тогда был опыт различных проектов, поэтому я не жил розовыми мечтами об успешном успехе, а старался извлечь другую пользу и просто фан (:

Кстати, только в процессе написания этой статьи я понял, что принявшись за эту работу, я совсем забыл про исходный мотив, про того человека с какого-то сайта и свой вопрос к нему xD

После завершения описанной истории, я решил опубликовать исходники, но т.к там в истории коммитов засветились токены, то перезалил в новый репозиторий. Но код действительно такой, что мне самому туда страшно заглядывать.

3.2. Польза

Здесь, как и в других своих пет-проектах и стартапах, я набрался много опыта:

Разобрался с многопоточностью в Питоне.
Покопался в специфических вопросах оптимизации MySQL запросов.
Научился строить организацию приложений, файлов и комментов на будущее, чтобы оно не превращалось в спагетти.
Освоил работу из кода с SSH для настройки окружения, понял, насколько чудесен Ansible.
Разработал микросервисную архитектуру из клея и палок, что затем позволило легко понять концепции Kubernetes.

И всё это мне очень пригодилось в последующих работах и проектах.

3.3. Мораль

Выводы каждый сделает свои, но главное – не бойтесь пробовать, учиться и искать себя! Надеюсь, вам было интересно.

Комментарии (20)

rsashka
20.03.2021 15:59
#22828884
Спасибо, было интересно, лишь бы теперь вас не посадили (сарказм).
1. AivanF Автор
  20.03.2021 16:04
  #22828908
  Благодарю :)
1. IAChernyshov
  21.03.2021 13:29
  #22831142
  За что, собственно, должны посадить?
  1. leventov
    21.03.2021 15:01
    #22831350
    del

Bonio
20.03.2021 16:18
#22828934
Как оптимизировать поиск картинок по базе перцептивных хешей в mysql? Там тоже идёт сравнение расстояния между хешами и делаются битовые операции между искомым хешем и всеми сохраненными в базе. Делается одим запросом, но при этом обходится вся база целиком.
1. lostmsu
  20.03.2021 23:34
  #22830122
  Вот да. Как индексирование по feature вектрам работает?
1. AmberSP
  21.03.2021 21:02
  #22832058
  nmslib, annoy

Celsius
20.03.2021 16:26
#22828948
+1
Потратить время и ресурсы, но не получить профита это печально.
Тогда ведь уже был faiss и всякие навороты для СУБД, позволяющие делать моментальный поиск векторов разными метриками, всяко шустрей самописных велосипедов.

У меня тоже были мечтания о таком сервисе, но масштабами побольше — захватить твиттер и фейсбук, можно даже собирать имена, номера телефонов, социальные связи.
Самое сложное это воркеры, как ни странно, но общедоступная информация не доступна, поэтому паукам надо имитировать пользователей, долго и нудно вытаскивать информацию. Даже если учесть, что новые пользователи появляются медленней чем происходит индексация, мощности нужны впечатляющие, арендовать ботнет эффективней и дешевле, чем законно арендовать мощности датацентров.

145% у некоторых государств есть такие сервисы для спецслужб, социальные сети это просто потрясающий кладезь информации, которую пользователи сами несут.

al_sh
20.03.2021 17:38
#22829128
Для поиска евклид/косинус пользуют что-то типа faiss/HNSW, иначе, довольно скоро станет больно любой СУБД

anonymous
20.03.2021 19:36
#22829482
Не совсем понял, а какой конкретно алгоритм распознавания лиц вы использовали? Фишка же файнфейса была именно в этом. В архитектуре нейросети
1. AivanF Автор
  20.03.2021 19:38
  #22829488
  Библиотека face_recognition, основанная на плюсовой DLib. Да, у них был такой момент, что они выиграли даже международное соревнование со своим алгоритмом, но с т.з пользователей это совсем не важно ведь, для них фича была именно в более-менее точном и быстром поиске профилей Вк по фото лица, а уж что там под капотом их мало интересует.

kova7ev
20.03.2021 21:27
#22829790
FindClone.
1. Destructive
  21.03.2021 07:51
  #22830566
  Это он и есть.

galqiwi
20.03.2021 21:39
#22829820
Помню, что, когда два года назад я запустил face_recognition, он одну фотографию обрабатывал за ~секунду, что много. А какая у вас получилась скорость обработки? Сколько/на скольки ядрах фотографий в секунду?

DmitryLTL
21.03.2021 07:05
#22830512
+2
Так найти партнера из другой юрисдикции и вперёд, им законы другой страны не указ.

Такие сервисы всё равно есть и будут. И нужны. А так получается что есть люди первого сорта у которых есть кнопка и второго — без. И разрыв в возможностях только растёт.

Так что зачем выбрасывать, если уже большая часть работы сделана.

С findface было реально удивительно как по фотке в 40 лет, можно найти себя на групповом фото (пикселов 50 на лицо) очень среднего качества (скан обычного фото), сделаного когда было 16.
1. nidalee
  21.03.2021 07:17
  #22830524
  +1
  А так получается что есть люди первого сорта у которых есть кнопка и второго — без. И разрыв в возможностях только растёт.
  Я думаю, что в скором времени такой сервис появится в дарквебе, как всегда бывает с данными для спецслужб. Если не уже. Причем скорее всего это тот же findface.
  Вопрос будет только в скорости доступа к этому счастью — Tor все-таки.

DmitryIQB
21.03.2021 18:52
#22831762
Отличная статья! Респект)
1. AivanF Автор
  21.03.2021 18:52
  #22831764
  Спасибо :)
  1. SerJ_82
    22.03.2021 15:02
    #22834446
    Так ведь Файндфейс до сих пор работает, только называется findclone))
    Сколько писал разрабам — вообще не отвечают… Интересовала возможность настройки поисковой выдачи.

alexeishch
22.03.2021 00:41
#22832476
Довольно интересно. Я пробовал dlib/facerecognition — но питон мне меньше нравится в итоге я питоновские байдинги переделал в extern C и импортировал в C#. Вышло довольно неплохо, но точность высокая только для хороших фотографий, когда лицо не повернуто. Иначе там получается много с дистанцией ~0.5 что уже ближе чем значение отсечки 0.6, но тем не менее степень похожести недостаточная.
Еще любопытный момент, у dlib на CUDA и на AVX2 отличаются результаты вычисления вектора для одного и того же лица. Я спросил у автора библиотеки про это — он ответил что это не баг, а фича.

В целом это интересная тема для разобраться — но в дальнейшем она никак не пригодится. В облаках есть свои АПИ для этого, а в России чуть ли ни несколько коммерческих продуктов которые это умеют делать лучше чем dlib.

В дальнейшем можно было бы самому научить нейросеть на основе выкачанных данных — но видеокарты нынче дорогие

Ещё один поиск Вк по фото +24

1. Предыстория

2. Техническое устройство

2.1. Индексирование

2.2. Подобие архитектуры и DevOps'а

2.3. Поиск

2.4. Другие механики

3. Заключение

3.2. Happy ли end?

3.2. Польза

3.3. Мораль

Комментарии (20)

AivanF Автор

AivanF Автор

AivanF Автор