ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно
ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно

Налоговая отдаёт данные ЕГРЮЛ  по организации в виде PDF. Посредники за автоматический доступ по API хотят денег. На многих сайтах часть данных закрыто, часть функций недоступны бесплатно, и полно рекламы. 

Особенно интересно, что на некоторых сайтах предоставляющих данные по API имеется логотип Сколково. Это такой высокотехнологический бизнес, наверное, открытые данные продавать.

Налоговая просит 150 000 рублей в год за доступ к данным ЕГРЮЛ в виде сваленных в архивы XML-файлов. У ФНС классный бизнес. Вы проявляйте должную осмотрительность при выборе поставщиков, но доступ к данным за деньги. Если вы хотите получить доступ и к реестру индивидуальных предпринимателей (ЕГРИП), то платите ещё 150 000 рублей в год. Согласитесь 300 000 рублей в год приличная сумма.

Остальные реестры данных у налоговой доступны бесплатно. Однако, без базы ЕГРЮЛ их вряд ли можно использовать. Самая частая операция в бизнесе подставить реквизиты из ЕГРЮЛ по ИНН.

Сформировалась целая отрасль, можно сказать, торговцев воздухом открытыми данными, создающих ВВП из воздуха как бухгалтеры, работающие руками там, где должны работать программы. Сколько компаний платит налоговой по 300 000р. в год?! Сколько программистов занято написанием одинаковых по функциям парсеров, которые переводят данные из XML налоговой в SQL и JSON?! Сколько серверов заняты под одинаковые функции?! Где добавочная стоимость? Все вроде при деле, а за чей счёт банкет?

Ну, ладно, “скандалить, критиковать каждый может”(с) как говорил бессмертный товарищ Райкин. “А что ты предлагаешь?” — резонно вы меня спросите. А я вам отвечу.

Что я предлагаю в теории

Потребовать от ФНС бесплатно отдавать все открытые данные по API в XML и JSON, а все реестры выкладывать в виде таблиц в формате CSV.

Хорошо бы ещё ФНС и принимала данные. А то чек пробить —  нужно покупать кассу, а к кассе регулярно фискальный накопитель, платить посредникам из ОФД. Отправить бесплатно чек в налоговую по API нельзя. А на Украине можно! Чтобы заплатить налоги, надо ещё кучу денег потратить непонятно почему. Кто-то всё никак не нажрётся.

Бесплатно отправить декларацию в налоговую тоже надо нанимать посредников. Хотя налоговая вроде бы и говорит, что можно. 

Для этого у нас есть в теории депутаты. Например, у нас на Пресне это депутат МосГорДумы Сергей Митрохин и выбранный электронным голосованием Олег Леонов.

Оба они, правда, не очень к законодательным инициативам граждан расположены, всё больше частными проблемами заняты. Но я им пошлю ссылку и формулировку законодательной инициативы о бесплатном предоставлении открытых данных в указанных форматах органами государственной власти. 

Теория хорошо — переходи к практике

Ладно, погрустили, посмеялись, перехожу к делу. Понятно, что никто нам ничего не даст, поэтому рассчитывать можно только на себя. Заплатили мы 150 000 рублей. Спарсил я кучи этих архивов и открываю всем бесплатный доступ — https://egrul.itsoft.ru

Все организации, у которых есть ИНН, доступны по следующим ссылкам:

  1. https://egrul.itsoft.ru/7730588444.json

  2. https://egrul.itsoft.ru/7730588444.xml

  3. https://egrul.itsoft.ru/7730588444

Организации также доступны по ссылкам с ОГРН.

Всем же JSON нужен, а не PDF.

Вы, наверное, удивились на фразе про ИНН. Да, не у всех он есть. Первая организация в ЕГРЮЛ, у которой нет — какая-то религиозная община. Ну не с ИНН же и с онлайн-кассой заниматься продажей свечек и наваром в 15 концов.

Наконец-то дата-центр ITSOFT оправдал своё название. :)

Отличия egrul.itsoft.ru от других

  1. Данные в оригинальном виде. Вы видите, например, дату выписки.

  2. Все данные открыты.

  3. Без регистрации и бесплатно.

  4. Без рекламы.

  5. Супербыстро.

Как пользоваться

Первый вариант с расширением .gz и без отправки заголовка Accept-encoding: gzip, но с декомпрессией  на вашей стороне:

$content = gzdecode(file_get_contents('https://egrul.itsoft.ru/7730588444.json.gz'));
$json = json_decode($content,TRUE);
print_r($json);

Второй вариант с отправкой заголовка "Accept-encoding: gzip\r\n" и декомпрессией на вашей стороне:

$opts = [
    "http" => [
        "method" => "GET",
        "header" => "Accept-encoding: gzip\r\n"       
    ]
];

$context = stream_context_create($opts);
$content = gzdecode(file_get_contents('https://egrul.itsoft.ru/7730588444.xml', 
                    false, $context));
$xml = simplexml_load_string($content);
$xml = json_decode(json_encode($xml),TRUE);
print_r($xml);

$content = gzdecode(file_get_contents('https://egrul.itsoft.ru/7730588444.json', 
                    false, $context));
$json = json_decode($content,TRUE);
print_r($json);

Или так:

function readTextFile(file, callback) {
    var rawFile = new XMLHttpRequest();
    rawFile.overrideMimeType("application/json");
    rawFile.open("GET", file, true);
    rawFile.onreadystatechange = function() {

        if (rawFile.readyState === 4 && rawFile.status == "200") {
            callback(rawFile.responseText);
        }
    }
    rawFile.send(null);
}

readTextFile('https://egrul.itsoft.ru/' + folder_name + '.json', 
function(text){
    var data = JSON.parse(text);
    console.log(data);
});

Третий вариант менее предпочтительный без расширения .gz, без отправки заголовка Accept-encoding: gzip и без декомпрессии — тоже можно, но лучше так не делать, если нагрузка канала пойдёт к гигабиту, то всё же придётся данные сжимать, так как сжатие уменьшает их в 5 раз.

$content = file_get_contents('https://egrul.itsoft.ru/7730588444.xml');
$xml = simplexml_load_string($content);
print_r($xml);

$content = file_get_contents('https://egrul.itsoft.ru/7730588444.json');
$json = json_decode($content,TRUE);
print_r($json);

Что и как отдаётся с какими расширениями и заголовками всегда можете посмотреть на нашем проекте Проверка HTTP-заголовков веб-сервера.

Описание формата данных

См. Приказ ФНС России от 18.01.2021 N ЕД-7-14/17@

В налоговой говорят, что с апреля будет новый формат данных. Мне особой разницы между новым и старым форматом данных обнаружить не удалось. Пока заметил только, что НаимЮЛСокр из таблицы 4.5 был атрибутом, а стал составным элементом.

Желающие могут сравнить на примере следующих ИНН:

7734344833, 7734349976, 7734355673, 7734358610, 7734365664, 7734368263, 7734372510, 7734375172, 7734379177, 7734381881, 7734384385, 7734386745, 7734389947, 7734394369, 7734397610,

7734347440, 7734350026, 7734355747, 7734363924, 7734366763, 7734368961, 7734372615, 7734376240, 7734379353, 7734382300, 7734385149, 7734387192, 7734390170, 7734394390, 7734397627,

7734347922, 7734352545, 7734356959, 7734364759, 7734367492, 7734369644, 7734374669, 7734376458, 7734379850, 7734383134, 7734385501, 7734388380, 7734390318, 7734395309, 7734397634,

7734349510, 7734354694, 7734358280, 7734365424, 7734368030, 7734372020, 7734374771, 7734378769, 7734380140, 7734383857, 7734386216, 7734389094, 7734391569, 7734397440, 7734399470.

XML-файл текущего формата https://egrul.itsoft.ru/7734344833.xml XML-файл нового формата   https://egrul.itsoft.ru/n7734344833.xml

Поскольку текущий приказ описывает текущий формат, то и данные отдаём в этом формате. Когда выйдет новый приказ, будем отдавать данные в новом формате.

Не забывайте, что ИНН может начинаться с 0

Везде проверяйте длину ИНН, КПП и дополняйте их 0 слева при необходимости. В XML-формате значения ИНН как в оригинале у налоговой. А вот в JSON уже в виде чисел. Операции с числами быстрее, чем со строками и на парсинге десятков миллионов сущностей я старался оптимизировать типы данных. Некоторые парсеры работали сутками.

Как организованы у нас данные

У ФНС в каждом XML-файле порядка 1000 организаций. Собственно я разложил данные по каждой организации в отдельный файл. Ведь у всех посредников, что я пробовал, данные представлены уже переработанные, а тут оригинальные  в том виде как их налоговая отдаёт.

Плюс добавил данные туда из других реестров. Там есть блок с доходами и расходами, налогами, среднесписочном количестве сотрудников, применяемых налоговых системах, размером организации и получаемой господдержкой. 

  • Всё в одном файле.

  • Без регистрации.

  • Не надо отправлять кучи запросов и платить за каждый.

Сопроводительные справочники

Не поверите, но в интернете проблема была найти в CSV справочники регионов и ОКВЭД. На сайте налоговой справочник регионов в формате архива ARJ нашёлся. Оба справочника потребовали небольшой доработки напильником. Ну бесит меня это г. Москва и г. Санкт-Петербург. Мы, конечно, знаем про то что в Питере пока так, но в справочнике регионов об этом можно и умолчать.

Справочник субъектов Российской Федерации в csv и в json (кодировка UTF-8).

Справочник налогов в csv.

Справочник форм поддержки в csv и видов поддержки в csv

Массив единиц поддержки: 

['', 'руб.', 'кв. м.', 'час', '%', 'ед.'];

Массив категорий предприятий:

['', 'микропредприятие', 'малое предприятие', 'среднее предприятие'];

Только этого мало — даёшь всё в CSV и SQL

Даём! Если вы хотите больше, то пишите, готовы раздавать в CSV или в виде архива базы данных MySQL и если надо выложить архивы налоговой.

Мы не выкладываем в открытый доступ, чтобы не словить Хабраэффект. Да и хотим познакомиться, пообщаться с коллегами, понять, в чём мы можем посотрудничать.

Особенно интересно было бы посотрудничать с теми, кто занимается анализом данных. StatSoft Russia, Fast Reports, вы ещё живы?

Как помочь проекту информационно

Вы можете помочь как нам, так и кому-то, кому нужны эти данные.

  1. Отправить ссылку знакомым бухгалтерам, предпринимателям или просто в соцсети.

  2. Отправить ссылку разработчикам ПО, которые пользуются платными сервисами.

  3. Написать плагин под всякие 1С, Битриксы и пр.

  4. Предложить идею по развитию, обработке новых реестров данных.

  5. Помочь нам найти архивы ЕГРЮЛ до 2018 года. ФНС говорит, что они должны быть у нас в выгрузке, но их нет. А со временем, хотелось бы исторические данные тоже открыть.

  6. Найти своих депутатов и написать им, что надо бы законодательную инициативу проявить.

  7. Подпишитесь на наш блог на Хабре и будьте в курсе новых статей на тему данных.

Помочь участием и сотрудничеством

Давайте объединять усилия. Если вы платили ФНС по 300 000р. год, содержали программистов и серверы, то теперь вы можете сэкономить.

Помочь деньгами и заказом услуг

Если вам интересно стать спонсором проекта egrul.itsoft.ru — пишите, обсудим условия или просто пожертвуйте сколько не жалко на карту 5536 9141 0700 1889. Благодаря вам мы сможем заплатить ФНС 150 000р. и запустить реестр индивидуальных предпринимателей и другие реестры. Подать в суд на ФНС и получить данные за все прошлые годы. Ещё нам бы второй сервер добавить в проект и быстрые диски.

Если вам нужен выделенный сервер с постоянно обновляемыми данными, или у вас есть задача по обработке данных, то мы готовы помочь с реализацией.

Комментарии (105)


  1. excentro
    08.02.2022 08:39
    +7

    Спасибо, полезно. Сам не так давно писал парсинг данных ЕГРЮЛ :)


  1. mouze1976
    08.02.2022 08:40
    +12

    Молодцы! Правильные цели, я надеюсь все гос органы реализуют данный подход.


  1. cry_san
    08.02.2022 09:31
    +4

    Где вы были раньше?!!


    1. cry_san
      08.02.2022 09:33

      И можно сделать получение данных и по ОГРН?


      1. itsoft Автор
        08.02.2022 09:44
        +1

        Можно многое сделать, только надо понимать зачем.

        Откуда ОГРН у вас? ИНН везде. В платёжках, в реквизитах договоров, счетов, актах, счёт-фактурах, накладных. А ОГРН нигде нет. Поэтому нет и смысла в нём.

        Интересно бы узнать как живут организации без ИНН. Счёт в банке они могут открыть? А платёж получить?

        Если необходимость будет, то можно будет добавить. Но если её нет, то и добавлять не нужно.


        1. cry_san
          08.02.2022 09:46

          Я занимаюсь аналитикой маркетплейсов. Если, например взять WB, то у огранизаций прописан именно ОГРН, а у ИП - ИНН.

          Конечно, можно сделать предварительную работу - по ОГРН найти ИНН. Но если бы Ваш сервис предоставлял делать это напрямую, было бы легче жить )


          1. itsoft Автор
            08.02.2022 09:51
            +2

            Ок, раз WB такой кривой, то сейчас сделаю. Благо они хоть все разной длины 10, 12, 13 и 15 символов.


            1. cry_san
              08.02.2022 09:51

              Сердечно благодарю Вас!


              1. itsoft Автор
                08.02.2022 10:39
                +5

                1. cry_san
                  08.02.2022 10:48
                  +1

                  Да, заработало!

                  Спасибо за оперативность!


        1. sshmakov
          08.02.2022 17:12
          -1

          У организации может быть один ОГРН, но несколько ИНН, т.е. ИНН присваивается налоговой по месту уплаты налогов, а не по нахождению юрлица.


          1. itsoft Автор
            08.02.2022 17:40
            +2

            Я видел обратную ситуацию. Все остальные поля там совпадали.
            Если у организации несколько инн, то у нас она будет отдаваться под каждым из этих ИНН.


            1. sshmakov
              08.02.2022 18:24

              Косяки в государственных базах есть всегда.


          1. fn986
            08.02.2022 18:43
            +2

            Вроде бы для разных мест уплаты налогов ФНС присваивает разные КПП, а ИНН у организации всегда единый


            1. sshmakov
              08.02.2022 18:50

              Они парами присваиваются. Поэтому в другом регионе компания может получить другой ИНН с другим КПП. По КПП можно понять, какой из ИНН основной.


              1. fn986
                08.02.2022 18:53

                Если только в качестве ошибки


              1. itsoft Автор
                08.02.2022 20:17
                +1

                Не может. Можете предоставить что-то в подтверждение ваших слов?


                1. sshmakov
                  08.02.2022 21:04
                  +1

                  Хм. Не могу. Перерыл Интернет, нашел только, что филиалу назначается тот же ИНН с другим КПП. Каких-то примеров, что это не так, не нашел. Так что@fn986, видимо, прав.

                  Наверное мое понимание несколько устарело.


          1. OPet
            10.02.2022 23:42

            Вы не путаете ли ИНН с КПП?


    1. itsoft Автор
      08.02.2022 09:39
      +12

      Зарабатывали 150 000р, чтобы купить данные. :)


  1. negodnik
    08.02.2022 10:58
    +1

    Было бы ещё неплохо получить список всех ИНН.


    1. itsoft Автор
      08.02.2022 11:31

      Можно, но для чего?


      1. cjbars
        08.02.2022 13:24
        +5

        Чтобы зарегистрировать красивый ИНН ????


        1. yarkov
          08.02.2022 15:05
          +5

          Шестизначный


    1. aborouhin
      08.02.2022 17:26

      Ну если прошлогодний устроит - то вот у Росстата имеется.


      1. itsoft Автор
        08.02.2022 17:34
        +3

        Выложим мы тоже чуть позже. Даже думаю в формате ogrn,inn,lastmodified.


  1. impaler
    08.02.2022 11:22
    +2

    Несколько замечаний:
    1. Как часто обновляются данные? Учитывая что ежедневно обновляются данные по десяткам тысяч фирм, разово скачанный массив за пару месяцев превратится в тыкву.
    2. У ЕГРЮЛ сейчас есть две версии - 4.05 и 4.06. Основное отличие в том, что в версии 4.06 появился элемент "Сведения об адресе юридического лица (в структуре ФИАС) <СвАдрЮЛФИАСС> "   ("Может отсутствовать, если сведения внесены в ЕГРЮЛ до вступления в действие новых форм по регистрации ЮЛ, в которых адрес указывается в структуре ФИАС и ранее внесенный адрес в структуре КЛАДР не был сконвертирован"). В приведенном примере двух версий XML-файлов этот элемент отсутствует в новой версии.
    3. Действующая версия 4.06 будет действовать неопределенно долгое время, до появления следующего приказа об изменении формата. С первого апреля прекращается выгрузка данных в формате 4.05.
    4. По обработке новых реестров данных - предлагаю для начала предоставить бухгалтерскую отчетность юрлиц из ГИР БО (https://bo.nalog.ru/) - доступ платный - 200000 р. в год. Данные отдаются по API (https://bo.nalog.ru/REST_API.7z).
    Бухгалтерская отчетность до 2018 года включительно доступна для скачивания на сайте росстата бесплатно: https://rosstat.gov.ru/opendata?division=&tag=13&updated_from=&updated_to=&search=&search_by_name=on&sort=&per_page=10 в формате csv.


    1. itsoft Автор
      08.02.2022 11:30
      +5

      1. Ежедневно. Могу и 2-4 раза в день прописать в crontab.

      2. 4.05. Значит он отсутствует в архиве из папки EGRUL_406/

      3. Ну вот тут может есть некоторая путаница. Но они не сильно отличаются. В общем не проблема спарсить EGRUL_406/

      4. А какой в ней смысл? Обороты, налоги доступны у нас. А детальный бухбаланс зачем? Если кому надо, то ручками его сможет там получить. Но если надо, и если будут деньги, то сможем прикрутить. У Росстата скудные данные. Данные по доходам и расходам я оттуда загрузил.


      1. impaler
        08.02.2022 12:03

        По ссылке на росстат лежат файлы csv с полными балансами и отчетами о прибылях и убытках по всем предприятиям, включая формы 1,2,3,4 и 6.
        Данные с доходами и расходами полагаю были взяты из раздела открытых данных ФНС https://www.nalog.gov.ru/opendata/ в разделе 76 (там же лежат и данные по налогам и количеству сотрудников).
        Полный баланс может и не обязателен, а вот суммы выручки и чистой прибыли/убытка из отчета о прибылях и убытках могут быть интересны.


        1. itsoft Автор
          08.02.2022 12:18

          Данные по доходам и расходам у нас с 2011 года. И как раз из Росстата.

          Лежат, но там нет расшифровки по всем полям. Надо понимать зачем эти данные. Просто добавить их мусоров в наши файлы по-моему не стоит. Они 99% пользователей не нужны. Из этих данных нужна какая-то выжимка. От задач нужно идти. А просто дублировать зачем?


          1. impaler
            08.02.2022 13:05
            +1

            Скачал обновленные версии файлов - они действительно убрали заголовки полей
            Рядом с файлами лежат файлы с описанием структуры данных вида

            "Структура"

            "structure-20181231.csv" - из него для строки вычисляется номер поля.

            Расшифровка там предельно простая - первая цифра номер формы - "1" - баланс, 2-"отчет о прибылях и убытках" и т.д. Дальше номер строки баланса. Последняя цифра - 3 - значение за текущий отчетный период, 4 - за предыдущий очтетный период.
            Полезная выжимка - это значения 21103 - выручка и 24003 - чистая прибыль


            1. itsoft Автор
              08.02.2022 13:15

              Спасибо. Потенциально буду иметь в виду.


          1. aborouhin
            08.02.2022 17:22

            Надо понимать зачем эти данные. Просто добавить их мусоров в наши файлы по-моему не стоит. Они 99% пользователей не нужны.

            Если говорить про задачу оценки добросовестности контрагента - то все методики финанализа как раз на соотношении и динамике изменения показателей бух. отчётности и строятся. Что позволяет потом показывать рейтинг финансовой надёжности контрагента в каких-нибудь условных попугаях.


            1. itsoft Автор
              08.02.2022 17:31

              Это в теории. На практике мы видим как у банкротов рейтинг зелёный и надёжный. То есть не решена эта задача у тех, кто уже много лет торгует API ЕГРЮЛ.

              Мы тут открыты к сотрудничеству. Если вы готовы предложить формулу, то давайте обсудим, добавим в парсер расчёт показателей. Но только если это будут показатели. В бухбалансах много дутых данных. Бугхалтерию можно и так и сяк, и в убыток и в прибыль сверстать в зависимости от желания.


              1. aborouhin
                08.02.2022 17:37

                Это в теории. На практике мы видим как у банкротов рейтинг зелёный и надёжный.

                А тут разные задачи. Есть задача "прикрыть задницу" - она этими попугаями решается. Т.е. если налоговая при очередной проверке пытается квалифицировать твоего контрагента как одноневку/техничку и исключить из расходов платежи в его адрес - ты вытаскиваешь отчёт с этими попугаями и говоришь "вот, смотрите, ничто не предвещало, я добросовестно проверял". И это в общем работает.

                А если задача проверить по существу (аванс выдаём или там покупать вообще эту контору собрались) - она анализом отчётности по РСБУ не решается в принципе, ибо отчётность эта лукава.

                Есть ещё более узкие случаи - скажем, при банкротстве проводится анализ признаков фиктивности или преднамеренности оного, в котором эти данные тоже участвуют (и по сути тоже бред получается, но методика нормативно закреплена и делать надо именно по ней, а не иначе).

                Если вы готовы предложить формулу, то давайте обсудим, добавим в парсер расчёт показателей.

                Я думаю, эта задача должна решаться не Вашим сервисом, а его пользователями. Каждый для своих задач решит, как ему и что считать. У меня, скажем, привязка будет ещё и к внешним данным. Я это всё только про то, что данные ГИР БО нужны и полезны отнюдь не одному проценту.


                1. itsoft Автор
                  08.02.2022 17:45

                  А есть реестры этих данных после 2018 года бесплатно?


                  1. aborouhin
                    08.02.2022 17:49

                    Увы, нет, как раз из-за появления ГИР БО, о чём и речь.

                    А у ГИР БО ещё более странная ценовая политика, чем у ЕГРЮЛ/ЕГРИП. Данные по отношению к самим реестрам вторичные, но стóят ещё дороже.


            1. impaler
              08.02.2022 20:08

              Если говорить про задачу оценки добросовестности контрагента - то все методики финанализа как раз на соотношении и динамике изменения показателей бух. отчётности и строятся.

              Задачу оценки контрагента логичнее начинать например с банка решений арбитражных судов - kad.arbitr.ru (кстати эти базы тоже продаются). А оценивать его надежность по данным балансов, которые публикуются со значительной задержкой, и отдельные показатели которых можно специально подогнать под момент сдачи отчета, очень спорное решение.


              1. aborouhin
                08.02.2022 20:24

                См. мой комментарий чуть выше по ветке. Зависит от того, какая ставится задача. Для "прикрытия задницы" вполне источник, наряду с прочими. Для временного управляющего, который пришёл в наблюдение по делу о банкротстве, так просто вариантов нет - даже если понимаешь, что в балансе бред, изволь оценивать по балансу :)

                Вообще, действительно качественные выводы можно сделать по анализу банковских выписок за последние года три, но кто ж их в большинстве случаев даст :) Поэтому и приходится собирать по кусочкам. КАД и ГАС Правосудие - источники хорошие и нужные, но (а) гораздо более труднодоступные для автоматизированного анализа (да и для ручного зачастую) и (б) подавляющее большинство юр. лиц за всю свою историю в сколько бы то ни было значимых судебных процессах не участвуют вообще, однако ж это тоже не признак их благонадёжности. Так что смотрим и их, и бухотчётность, и ещё БД исп. производств ФССП, ЕФРСДЮЛ и ЕФРСБ Интерфакса, реестры проверок прокуратуры, реестры массовых, дисквалифицированных, недоимок и нарушений ФНС, закупки и т.п. Короче, до чего дотянемся.

                Весь бизнес агрегаторов этой информации: Спарк, Коммерсантъ.Картотека, Контур.Фокус, Руспрофиль, ЗаЧестныйБизнес и иже с ними - на этом и построен. Ну и каждый из них пытается какую-то формулу благонадёжности вывести, учитывающую разные факторы. Анонсированный тут проект от ITSoft, наверное, сможет со временем вырасти в такой же агрегатор. Но не этим он интересен, а тем, что может стать источником исходных данных для других. У агрегаторов по понятным причинам API сильно ограничен по кол-ву запросов и кусается по цене.

                P.S. А про доступ к КАД отдельная история, и про неё я могу рассказать гораздо больше, чем про ЕГРЮЛ. Если бы он хотя бы продавался официально...


                1. impaler
                  08.02.2022 21:14

                  P.S. А про доступ к КАД отдельная история, и про неё я могу рассказать гораздо больше, чем про ЕГРЮЛ. Если бы он хотя бы продавался официально...

                  Так расскажите.
                  А право.ру базами КАД неофициально торгует?


                  1. aborouhin
                    08.02.2022 21:32
                    +5

                    Ну тут это уже оффтопик, но если тезисно:

                    1. Право.ру официально не продаёт выгрузки, но продаёт API.

                    2. API это с такими зверскими тарифами и лимитами, что я 2 года назад считал - по их тарифу выгрузить весь КАД (если вообще скорость работы с API позволит это сделать) стóило бы 62 млн.₽. Т.к. база с тех пор изрядно подросла - сейчас ещё выше.

                    3. Даже по этим тарифам они продают API только конечным пользователям - корпоративным заказчикам. Для разработчиков рыночных продуктов (а особенно конкурирующих с продуктами Право.ру) они API не продают вообще.

                    4. Ввиду п.п. 2-3 те, кому КАД нужен в оптовых количествах (те же Интерфакс, Коммерсант, Руспрофиль) или заранее скачанный (например, для какой-то аналитики) договариваются с ними на непубличных условиях. У кого-то есть политический вес, у кого-то - другая информация "в обмен", у кого-то много денег, наверное - не знаю, свечку не держал.

                    5. При этом с парсингом КАД борются жёстко, там не просто капча, там всё по-взрослому :)

                    6. Несмотря на п. 5, есть ребята, которые поддерживают "альтернативное" API, основанное на парсинге в обход ограничений и даже официально его продают. Право.ру вынуждено с этим мириться, т.к. заказчиками этого API является несколько весьма крупных компаний, а обострять ситуацию им не хочется, ибо см. следующий пункт.

                    7. Самое интересное в этом всём то, уже несколько лет нет никаких оснований, по которым коммерческая организация Право.ру являлась бы оператором государственной информационной системы КАД. Действовавший договор закончился, новый не заключён. Но поскольку бюджета на то, чтобы эту ситуацию изменить, у Суд. Департамента нет (да и желания что-то менять - тоже), то такой вот статус кво сохраняется.

                    Если интересны дальнейшие подробности - то уже в личку, сорри :)


      1. Barsik68
        08.02.2022 20:43

        отличаются существенно. По крайней мере версии для ФОИВов. +Там вместо КЛАДР используется ФИАС. И много новых расширенных сведений.

        Также Ваш реестр из ФНС не учитывает ТОПы, которые ведутся только в Росстате.

        ИНН и ОГРН по отдельности не являются уникальными идентификаторами. Уникальным идентификатором объекта учета является ОКПО.


  1. la0
    08.02.2022 11:28

    Я бы с радостью оплачивал за 300-500 рублей в год доступ к простому сервису с 2 функциями: поиск связей (достаточно по учредителю и гендиру) с каким-либо ограниченем типа 100-500 запросов в месяц.

    То что есть на рынке при всей своей простоте или комбаин за овердофига денег или "работаем только с юридическими лицами"


    1. itsoft Автор
      08.02.2022 12:20

      По руководителю и учредителю физлицам связи у нас есть. По юридическим лицам в планах.


      1. Barsik68
        08.02.2022 20:52

        это сведения по данным ФНС. Они не обновляются. И реального владельца, особенно акционерного общества, знают только держатели реестров. Т.е. эта информация особо Вам ничего не даст.


  1. vis_inet
    08.02.2022 12:21

    Я правильно вас понял, что загружены все ИНН по всем регионам?

    Не нашёл свой ИНН...


    1. itsoft Автор
      08.02.2022 12:24

      Должно быть всё загружено. Дайте ваш ИНН, можете в личку прислать.


    1. itsoft Автор
      08.02.2022 12:44
      +3

      Это ИНН ИП. Тут ЕГРЮЛ. На данные ЕГРИП надо 150 000р. Надеюсь задонатят, спонсоры придут или кто-то что-то закажет на коммерческой основе, тогда сможем купить эти данные.


    1. itsoft Автор
      08.02.2022 12:46
      +1

      И в ЕГРИП ничего кроме ФИО нет. Толку от него мало. :(


      1. 1001
        09.02.2022 11:58

        Ну почему же, там есть данные об открытии, закрытии ИП. Это тоже нужно.

        И как раз хотел об этом спросить, т.к. заметил, что по ИП данных нет, а они нужны. Не знал, что налоговая два реестра продаёт. На их сайте и ЮЛ и ИП в одном разделе ищутся.


        1. itsoft Автор
          09.02.2022 12:40

          Процедура покупки данных ИП у налоговой запущена.


  1. servermen
    08.02.2022 12:26
    +1

    Если вам интересно стать спонсором проекта egrul.itsoft.ru — пишите, обсудим условия или просто пожертвуйте сколько не жалко на карту 5536 9141 0700 1889.

    @itsoftСборы пожертвований в первую очередь и пострадает от недавно обещанных нововведений: https://habr.com/ru/news/t/650103/


    1. itsoft Автор
      08.02.2022 12:42

      Почему? Делать пожертвования никому не запрещают. То что налоговая может спросить у получателя что за деньги -- ну может, пусть спрашивает.


      1. Nickrus
        08.02.2022 20:35
        +1

        Я не спец по налогам, но могут заподозрить, что пожертвования притворные, прикрывают оплату доступа к данным. Конечно, в нормальной стране это ещё придётся доказать, но у российского суда нет повода не верить налоговой.

        А хабраэффекта при раздаче полных архивов можно легко избежать, разместив их через торренты. Там вся сеть поможет раздавать их, нагрузка на сида будет минимальная.


        1. itsoft Автор
          09.02.2022 08:19

          Не могут заподозрить. Доступ к намм бесплатеый, а пожертвования на совести, желании и возможностях людей. Бывает жертвуют те, кто не польщуется, просто в поддержку перемен.


  1. navferty
    08.02.2022 13:28
    +1

    Очень полезная инициатива! Конечно было бы совсем здорово, если бы это было официальное API от ФНС, может быть когда-нибудь так и будет.

    Особенно радует, что нет необходимости регистрироваться и получать api-токен. Думаю прикрутить к своей open-source надстройке для Excel запрос информации через Ваш API, думаю может быть полезным пользователям (необходимость авторизации закроет такой вариант, так как запросы идут с компа пользователя).

    P.S. любопытно, что все примеры ИНН в статье - принадлежат 34-й инспекции по Москве, где я проработал 3 года инспектором-камералом))


    1. itsoft Автор
      08.02.2022 13:36

      Да это просто результат копирования мышкой. Там их сильно больше. Но для сравнения форматов нужно было сколько-то дать, ну вот мышкой скопировал. :)


      1. navferty
        08.02.2022 13:44
        +3

        Поясню тем кто не в курсе. Первые 4 цифры ИНН (за некоторыми исключениями) соответствуют коду налоговой инспеции, где лицо было зарегистрировано впервые (из-за смены адреса лица этот код может не соответствовать инспекции, в которой лицо состоит на налоговом учете в текущий момент, но это можно узнать из КПП). Причем первые две цифры этого кода - соответствуют коду региона - по всем знакомому справочнику автомобильных регионов. Например, в ИНН 7734344833 код инспекции - 7734, где 77 - это г. Москва, 34 - номер инспекции.

        Также в ИНН есть проверочные цифры, для ЮЛ это одна последняя цифра в 10-значном номере, для ФЛ - две последние цифры 12-значного номера.


  1. Adgh
    08.02.2022 13:55

    Ещё бы это богатство в модном Apache Parquet с фильтром по региону забирать [мечтательно...)))] вместо запросов по отдельным ИНН! Огромный респект за проделанную работу!


    1. itsoft Автор
      08.02.2022 14:36
      +1

      Фильтр по региону мы можем сделать. Только поясните почему вам данные только в рамках региона нужны? Какую задачу вы решаете? Регион есть в составе ОГРН, косвенно ИНН и в адресе. И адрес по региону не совпадает с кодом региона в ОГРН, если юрлицо переехало в другой регион.

      А вот Apache Parquet  -- это вы уже сами подключайтесь.


  1. Greenback
    08.02.2022 14:39
    +12

    Господи, какой вы молодец! Прометей! Робин Гуд! Чак Фини!

    Как приятно когда наконец появляется причина написать искренние комплименты, а не сарказм или возмущение.


    1. itsoft Автор
      08.02.2022 14:42
      +4

      Спасибо. :)


  1. idelgujin
    08.02.2022 15:43
    +1

    Совет вам по заработку. Можете генерить все ИНН, например по ОКВЭД, по запросу за небольшие деньги по подписке. Например чтобы коммерсы могли иметь картину по конкурентам.


    1. salnicoff
      08.02.2022 15:47

      Наверное, у 90% ОКВЭД из регистрационных документов не соответствует факту. Или там написаны десятки ОКВЭДов, по которым деятельность не ведется. А еще есть дублирование ОКВЭДов... В общем, идея пригодна только для узкого круга видов деятельности, например, для тех, которые обязательно лицензируются.


      1. Barsik68
        08.02.2022 20:56

        за основным ОКВЭД надо идти в Росстат.


        1. itsoft Автор
          08.02.2022 23:35

          В егрюл есть основной и дополнительный.


          1. Barsik68
            09.02.2022 09:25

            Да. Но кодов ОКВЭД ведется несколько, например:

            ОКВЭД осн.рег - это основной код из выписки ФНС, заявленный ЮЛ

            ОКВЭД доп.рег - это дополнительные коды из выписки ФНС, заявленные ЮЛ

            ОКВЭД осн.факт. - это основной код, присваемый Росстатом и актуализи руемый раз в год на основе отчетности ЮЛ

            ОКВЭД доп.факт. - это дополнительные коды, присваемые Росстатом и актуализи руемые также раз в год на основе отчетности ЮЛ

            Есть еще расчетный ОКВЭД, который используется для внутренних нужд Росстата.


  1. aborouhin
    08.02.2022 17:15

    Спасибо! Категорически нужная штука. Не боитесь, что желающие сэкономить денежку на API Спарка/Картотеки/Фокуса/Дадаты Вам сервер положат очень быстро? ;)

    Насчёт истории ЕГРЮЛ - там мутная тема. По приказу самой ФНС о порядке предоставления этих данных, они должны предоставляться с начала ведения реестра, то бишь с 2002 года. По факту данные неоднократно "обрезались" и если пару лет назад доступ был к данным с 2015 года то теперь, получается, уже с 2018. Соответственно старые данные есть у тех, кто начал их покупать давно и прилежно сохранял. Когда я интересовался - мне поступило пара предложений продать историю ЕГРЮЛ за деньги, несопоставимые с официальным прайсом (в сторону роста цены, само собой). Было бы прекрасно, если бы Вы нашли кого-то, кто готов поделиться нажитым за все эти годы с коммьюнити. Если есть желание формально юридически поругаться с ФНС - основания есть, пишите в личку, помогу, я так-то юрист :)

    Ну а если про свои хотелки - API для разовых запросов хорошо, а полная выгрузка лучше. Потому что есть задачи, для которых нужен заранее построенный граф по всему реестру (анализ аффилированности прежде всего). Если бы Вы предложили возможность выгрузки полных данных и ежедневных дельта-обновлений, пусть не бесплатно, но дешевле тех самых 150 т.р., с удовольствием бы воспользовался.


    1. itsoft Автор
      08.02.2022 17:25
      +2

      Они уже убрали 2018-2020 годы, но ТП мне сказала, что у них данные с 2002 года, и она видит их в архиве. Запись разговора есть. Так что если данные не дадут, мы пойдём в суд как с ВТБ.

      Мы готовы предложить. Сейчас продумываю как это сделать.


      1. aborouhin
        08.02.2022 17:31

        В составлении официальной претензии / заявления в суд и сопровождении процесса готов поддержать, пишите в личку, если интересно. Собирался этим заняться сам в ближайшее время, но раз Вы уже начали - то лучше на Вашем случае и делать прецедент. Я работаю с очень хорошими и дорогими юр. фирмами, так что за качество с этой стороны ручаюсь.


        1. itsoft Автор
          08.02.2022 17:57

          Вы бесплатно готовы помочь или сколько нужно денег? Денег у нас, как понимаете, нет.


          1. aborouhin
            08.02.2022 18:03
            +2

            Бесплатно. А денег я Вам там уже даже подкинул немного :) Посмотрите личку.


            1. itsoft Автор
              08.02.2022 18:44
              +1

              Супер. Тогда можно начинать. Я завтра сделаю ещё звонок в ТП, если они данные не дадут, то пишем официальную претензию и подаём в суд.

              Спасибо огромное!


      1. klerik
        09.02.2022 16:25

        Как там ВТБ, чем всё закончилось?


        1. itsoft Автор
          09.02.2022 16:56

          Думаю решение в силу вступило. https://habr.com/ru/company/itsoft/blog/589037/
          Надо исполнительный лист получать и списывать.

          Мы ещё паровозом 50к на юриста отсудили. Конечно, суд занизил в два с лишним раза наши расходы.

          Ну и по-моему там ещё дополнительно на ВТБ подали за комиссии 127к.

          Так что двигаемся.


  1. efir
    08.02.2022 17:59

    Спасибо, огромное за работу, как можно Mysql дапм скачать :-)


    1. itsoft Автор
      08.02.2022 18:36

      С 2018 года можем сделать. Архивы есть. Через пару недель расскажу. В БД всё не спарсить, там очень много данных в иерархии. Основное выложим в CSV, а остальное утянете сами из xml, json.


      1. Kwisatz
        08.02.2022 18:53

        много данных тесмтами

        Каких? И какой объем сейчас всей этой пакости? Может поразвлекаюсь когда время появится с заталкиванием в PostgreSQL, единственное над форматом надо будет серьезно подумать, чтобы обновлять быстро. Хотя, это все таки OLAP, можно взять колоночные хранилища.


        1. itsoft Автор
          08.02.2022 20:21
          +1

          Там в иерархию уходят разные данные. Запихтвать их топорно ключ, значение в бд смысла мало.

          11401720 уникальных ОГРН.

          Относительно скоро выложим данные, так что через пару недель сможете.


        1. aborouhin
          08.02.2022 20:33

          Куда это запихивать - зависит от задач. Для моих, скажем, прежде всего в Neo4j :)


  1. DX28
    08.02.2022 19:51

    По закону об открытых данных ФНС конечно должна все бесплатно выкладывать. Оно кстати есть бесплатно, но по одному ИНН.

    https://bo.nalog.ru/

    Все что более одного за час вылазит капча.


    1. itsoft Автор
      08.02.2022 20:06

      А можете дать ссылку на закон, где такое написано? Я только это нагуглил http://www.consultant.ru/document/cons_doc_LAW_61798/7b95a91feb271e5c605456ef9a8afef42d36ae2d/


      1. aborouhin
        08.02.2022 20:31

        Почитайте Постановление Правительства РФ от 10.07.2013 N 583 (ну и базовый Федеральный закон от 09.02.2009 N 8-ФЗ) на тему, как это должно выглядеть. Но там всё заточено на существование Открытого правительства, которое и должно было этим заниматься (и на каком-то этапе занималось-таки). Но поскольку проект этот сошёл на нет, руководитель его в местах не столь отдалённых - то тема практически заглохла и если где-то и движется - то исключительно по инерции.


    1. aborouhin
      08.02.2022 20:28

      С законодательством об открытых данных у нас всё грустно. bo.nalog.ru и egrul.nalog.ru - это тоже не открытые данные. А вот отчётность 2012-2018 г.г., которую выкладывал Росстат- открытые.


  1. vanxant
    08.02.2022 19:53
    +1

    А почему json отдаётся с Content-Type: text/json, если mime-тип у него application/json?


    1. itsoft Автор
      08.02.2022 20:15

      Косяк. Исправил.


  1. click0
    08.02.2022 22:19

    В случае возможных блокировок милости просим хоститься в Yggdrasil и i2p :)


    1. itsoft Автор
      08.02.2022 23:28

      А с чего нас должны заблокировать? Хотя в России да и в мире был бы человек - раз и фашистом-террористом назовут.


  1. kasthack_phoenix
    08.02.2022 23:48
    +1

    Вы крутые! Спасибо!


  1. TimsTims
    09.02.2022 01:04

    Банки (да и не только) очень любят анализировать группы компаний. Если сможете проделать аналитику по собственникам, найти общих собственников с долями >=25% , или >=50% , то эту информацию банки готовы будут покупать)

    Добавьте туда ещё данные по выручке, численности компании, итд (это ещё + сколько-то денег в ФНС занести надо), и вы станете конкурентом Спарк-Интерфакс и HumanFactor (dadata.ru) :) А может и уже стали...


  1. Vinchi
    09.02.2022 01:55

    Спасибо вам огромное!


  1. Vinchi
    09.02.2022 02:01

    Выложите сами архивы или карту сайта, чтобы получить список всех доступных инн.


    1. itsoft Автор
      09.02.2022 08:23

      Скоро выложим. Но для этого надо подготовить и выложить на раздачу первый архив всех данных, чтобы нам сервер не положили качая по одной организации 11 миллионов организаций. Всё будет.


      1. Vinchi
        10.02.2022 02:03

        Может в вики положить или поговорить с https://t.me/begtin чтобы на своих ресурсах выложил ?


        1. itsoft Автор
          10.02.2022 14:55

          Бегтин считает, что нет реальной пользы: "На Вас уже ссылались коллеги в чате. Запрос - это хорошая инициатива, а в остальном больше похоже на Ваш маркетинг чем на реальную пользу." https://t.me/begtinchat/26605


      1. Vinchi
        10.02.2022 02:07

        Кстати да, я бы тоже забирал архивами, так как давно есть их парсер с переводом в postgres формат.


        1. itsoft Автор
          10.02.2022 13:55

          Хорошо.


  1. Vinchi
    09.02.2022 02:02

    Кстати да у меня тоже с архивами до 2018 вопрос был - а где они?


    1. itsoft Автор
      09.02.2022 08:24

      В налоговой, но недоступны. Уже там нет и 2018-2020 годов. Будем судиться с ФНС России.


  1. FrolVII
    09.02.2022 08:24

    По поводу депутатов и законодательных инициатив. Есть уже, наверное, целый список всевозможных указов/поручений/призывов президента о необходимости повышения производительности труда (в т.ч. "на основе передовых технологий"). Правительство разные там планы мероприятий и прочие бумажки в этой связи, вроде как, разрабатывало. Но видимо, по какому-то странному стечению обстоятельств ни кому из чиновников пока и в голову не пришло, что простое сокращение затрат бизнеса (будь то затраты человеко-часов или прямые финансовые затраты) на получение различных данных от госорганов способно повысить производительность труда того самого бизнеса.

    К чему я. Наверное, стоит просьбы о подобных инициативах осуществлять в контексте тех самых указов/поручений президента о повышении производительности труда. Вроде: «во исполнение указа такого-то … просим, значит, раздавать то-то и то-то впредь даром, в удобном виде и всем желающим …».

    Не питаю каких-либо иллюзий на данный счет, но лишний раз вопрос поднять полезно…


    1. itsoft Автор
      09.02.2022 08:26
      +1

      Хорошая идея. Добавлю во исполнение поручений президента рф... :) это может на некоторых подействовать как удав на кроликов. Надо будет у Рамзана Кадырова ещё поручения поискать, тогда вообще пердаки загорятся...


  1. aberez
    09.02.2022 15:23

    Очень крутая вещь, спасибо большое. По работе и учёбе регулярно нужно находить подобные данные, но даже за деньги (небольшие) очень тяжело найти. Закинул небольшой донат и расшарил по всем знакомым, которые тоже сталкивались с такими задачами)

    Есть небольшой прикладной вопрос

    А можно ли попросить выгрузить информацию по организациям с определённым кодом ОТКМО? Гипотетически, можем спарсить сами, но, чтобы не нагружать лишний раз сайт, может так проще будет)


    1. itsoft Автор
      09.02.2022 15:28

      В ЕГРЮЛ нет ОКТМО https://rosstat.gov.ru/opendata/7708234640-oktmo

      Есть привязка с территории через КПП и адрес.

      Но такие специфические задачи вы уже сами пишите или за дополнительную плату. Данные выложим через пару недель.


      1. aberez
        09.02.2022 15:50

        Понятно, спасибо!


  1. rashid-m
    11.02.2022 01:31

    Доброе дело.

    В этом смысле ФНС стоит равняться на коллег из национальной системы аккредитации, реестры которой одно время были открыты, затем закрыты, но теперь снова доступны в виде csv выгрузок

    https://fsa.gov.ru/opendata/