Всем привет, меня зовут Александр Калыргин, сейчас я активно занимаюсь сферой получения и анализа данных. Захотелось показать, как можно без особых проблем получить базы организаций, зарегистрированных в нужном вам регионе.

В своей работе я использовал данные из открытых источников, а именно:

  • Данные ФНС (архивы ЕГРЮЛ от ИТСОФТ)

  • Портал Чекко

Большое спасибо ребятам из ИТСОФТ, они большие молодцы – данные должны быть открытыми. Однако, эти архивы ФНС РФ предоставляет за 300 000р. в год.

Давайте получим данные об организациях Свердловской области, ведущих свою деятельность в строительной сфере.

Итак, начнем.

1) Получаем входные данные

С сайта ЕГРЮЛ ИТСОФТ скачиваем данные ФНС:

  • Архив доходов и расходов за 2011-2020 года;

  • Архив кодов ОКВЭД;

  • Архивы промежуточных данных (для удобства обновления данных);

  • Архивы организаций и обновления к ним.

Из архива данных организаций получаем следующую таблицу:

Данные организаций ФНС
Данные организаций ФНС

Соединяем её с архивом доходов и расходов, выбрав при этом значения за 2020 год.

В архиве кодов ОКВЭД смотрим идентификаторы, которые соответствуют строительной сфере (3327 – 3286).

Фильтруем данные по следующим параметрам:

  • Соответствие ОКВЭД;

  • Регион – Свердловская область (66);

  • Дата окончания деятельности – должна быть нулевая (0000-00-00);

  • Доходы – выше 600 000 рублей за 2020 год.

После этих действий удаляем дублирующиеся записи и ненужные колонки в таблице.

Отфильтрованная база организаций
Отфильтрованная база организаций

Уже 2758 организаций!

2) Хорошо, теперь обогащаем данные

Парсим почту, сайт и телефоны с сайта Чекко. Это сделаем, подставляя ОГРН или ИНН в базовую ссылку поиска: «/search?query=». Советую поставить задержку между запросами в 0.5 секунды, чтобы получать корректные данные.

Парсинг данных с Чекко
Парсинг данных с Чекко

Собираем полученные данные воедино с основной таблицей. Вуаля! Вы получили актуальную базу данных строительных организаций Свердловской области!

На формирование данной базы у меня ушло около 1 часа, включая работу парсера. Всего получилось 1554 организации с контактной информацией.

Надеюсь, статья была интересная.

Комментарии (9)


  1. maeris
    08.01.2023 17:31

    С сайта ЕГРЮЛ ИТСОФТ скачиваем данные ФНС

    А это где?


    1. Volkodlak
      08.01.2023 17:42
      +2

      ну вы блин даете (с)

      egrul.itsoft.ru


  1. aborouhin
    08.01.2023 19:35
    +2

    Хм, а откуда Чекко берёт почту, сайт и телефоны?..


    1. sunsexsurf
      09.01.2023 08:46
      +2

      а это, вероятно, автор принимает как данность в духе «все, что мне нужно, уже собрано этими ребятами».


  1. AirLight
    09.01.2023 04:41
    -1

    А для чего потом использовать такую базу? Почему сами компании в базы не собираются типа желтых страниц, если им такое внимание может быть полезно?


  1. krabdb
    09.01.2023 05:33
    +1

    База Чекко не отличается полнотой. Сейчас сделал тестовые выборки из СПАРКа и из Чекко. По одной и той же выборке в СПАРКе есть контактные данные, а у Чекко - нет.

    Контактные данные ИП Чекко вообще не публикует в соответствии со 152-ФЗ (а в СПАРКе - есть).


  1. NotSlow
    09.01.2023 10:05
    +1

    Всегда! Нет. Никогда! Никогда не используйте актуальный email и телефон, даже в таких шаражках как налоговая. Иначе потом вот такое мудачье соберет вас в базу, а потом другое мудачье будет спамить спамить спамить... бесконечно.

    Пользуясь случаем, передаю привет альфа_дно_банку.

    Один основной скрытый email и на него делаем редиректы под каждую формочку, которая захочет от вас email. Как только пошел спам - ящик удален.

    Аналогично должна быть вторая симка, включать которую только когда надо. Все остальное время - в рельсу.


  1. PigData
    11.01.2023 14:22

    А для чего поле crc32 в первой таблице, из каких полей составлен хэш? И что за поля min_num, max_num в ней? Есть ли у ИТСОФТ данные по полным адресам ИП (включая улицу и дом), если да то в каких базах?


    1. meisoff Автор
      11.01.2023 14:33

      org2.crc32 — это уникальный ключ crc32(kpp, short_name, full_name, street, house, corpus, apartment). min_num, max_num, cdate_num, update_at_num — это сокращённая форма даты в виде двухбайтового целого.

      Можете подробнее прочитать на их ресурсе - https://egrul.itsoft.ru/