Налоговая отдаёт данные ЕГРЮЛ по организации в виде PDF. Посредники за автоматический доступ по API хотят денег. На многих сайтах часть данных закрыто, часть функций недоступны бесплатно, и полно рекламы.
Особенно интересно, что на некоторых сайтах предоставляющих данные по API имеется логотип Сколково. Это такой высокотехнологический бизнес, наверное, открытые данные продавать.
Налоговая просит 150 000 рублей в год за доступ к данным ЕГРЮЛ в виде сваленных в архивы XML-файлов. У ФНС классный бизнес. Вы проявляйте должную осмотрительность при выборе поставщиков, но доступ к данным за деньги. Если вы хотите получить доступ и к реестру индивидуальных предпринимателей (ЕГРИП), то платите ещё 150 000 рублей в год. Согласитесь 300 000 рублей в год приличная сумма.
Остальные реестры данных у налоговой доступны бесплатно. Однако, без базы ЕГРЮЛ их вряд ли можно использовать. Самая частая операция в бизнесе подставить реквизиты из ЕГРЮЛ по ИНН.
Сформировалась целая отрасль, можно сказать, торговцев воздухом открытыми данными, создающих ВВП из воздуха как бухгалтеры, работающие руками там, где должны работать программы. Сколько компаний платит налоговой по 300 000р. в год?! Сколько программистов занято написанием одинаковых по функциям парсеров, которые переводят данные из XML налоговой в SQL и JSON?! Сколько серверов заняты под одинаковые функции?! Где добавочная стоимость? Все вроде при деле, а за чей счёт банкет?
Ну, ладно, “скандалить, критиковать каждый может”(с) как говорил бессмертный товарищ Райкин. “А что ты предлагаешь?” — резонно вы меня спросите. А я вам отвечу.
Что я предлагаю в теории
Потребовать от ФНС бесплатно отдавать все открытые данные по API в XML и JSON, а все реестры выкладывать в виде таблиц в формате CSV.
Хорошо бы ещё ФНС и принимала данные. А то чек пробить — нужно покупать кассу, а к кассе регулярно фискальный накопитель, платить посредникам из ОФД. Отправить бесплатно чек в налоговую по API нельзя. А на Украине можно! Чтобы заплатить налоги, надо ещё кучу денег потратить непонятно почему. Кто-то всё никак не нажрётся.
Бесплатно отправить декларацию в налоговую тоже надо нанимать посредников. Хотя налоговая вроде бы и говорит, что можно.
Для этого у нас есть в теории депутаты. Например, у нас на Пресне это депутат МосГорДумы Сергей Митрохин и выбранный электронным голосованием Олег Леонов.
Оба они, правда, не очень к законодательным инициативам граждан расположены, всё больше частными проблемами заняты. Но я им пошлю ссылку и формулировку законодательной инициативы о бесплатном предоставлении открытых данных в указанных форматах органами государственной власти.
Теория хорошо — переходи к практике
Ладно, погрустили, посмеялись, перехожу к делу. Понятно, что никто нам ничего не даст, поэтому рассчитывать можно только на себя. Заплатили мы 150 000 рублей. Спарсил я кучи этих архивов и открываю всем бесплатный доступ — https://egrul.itsoft.ru
Все организации, у которых есть ИНН, доступны по следующим ссылкам:
Организации также доступны по ссылкам с ОГРН.
Всем же JSON нужен, а не PDF.
Вы, наверное, удивились на фразе про ИНН. Да, не у всех он есть. Первая организация в ЕГРЮЛ, у которой нет — какая-то религиозная община. Ну не с ИНН же и с онлайн-кассой заниматься продажей свечек и наваром в 15 концов.
Наконец-то дата-центр ITSOFT оправдал своё название. :)
Отличия egrul.itsoft.ru от других
Данные в оригинальном виде. Вы видите, например, дату выписки.
Все данные открыты.
Без регистрации и бесплатно.
Без рекламы.
Супербыстро.
Как пользоваться
Первый вариант с расширением .gz и без отправки заголовка Accept-encoding: gzip, но с декомпрессией на вашей стороне:
$content = gzdecode(file_get_contents('https://egrul.itsoft.ru/7730588444.json.gz'));
$json = json_decode($content,TRUE);
print_r($json);
Второй вариант с отправкой заголовка "Accept-encoding: gzip\r\n" и декомпрессией на вашей стороне:
$opts = [
"http" => [
"method" => "GET",
"header" => "Accept-encoding: gzip\r\n"
]
];
$context = stream_context_create($opts);
$content = gzdecode(file_get_contents('https://egrul.itsoft.ru/7730588444.xml',
false, $context));
$xml = simplexml_load_string($content);
$xml = json_decode(json_encode($xml),TRUE);
print_r($xml);
$content = gzdecode(file_get_contents('https://egrul.itsoft.ru/7730588444.json',
false, $context));
$json = json_decode($content,TRUE);
print_r($json);
Или так:
function readTextFile(file, callback) {
var rawFile = new XMLHttpRequest();
rawFile.overrideMimeType("application/json");
rawFile.open("GET", file, true);
rawFile.onreadystatechange = function() {
if (rawFile.readyState === 4 && rawFile.status == "200") {
callback(rawFile.responseText);
}
}
rawFile.send(null);
}
readTextFile('https://egrul.itsoft.ru/' + folder_name + '.json',
function(text){
var data = JSON.parse(text);
console.log(data);
});
Третий вариант менее предпочтительный без расширения .gz, без отправки заголовка Accept-encoding: gzip и без декомпрессии — тоже можно, но лучше так не делать, если нагрузка канала пойдёт к гигабиту, то всё же придётся данные сжимать, так как сжатие уменьшает их в 5 раз.
$content = file_get_contents('https://egrul.itsoft.ru/7730588444.xml');
$xml = simplexml_load_string($content);
print_r($xml);
$content = file_get_contents('https://egrul.itsoft.ru/7730588444.json');
$json = json_decode($content,TRUE);
print_r($json);
Что и как отдаётся с какими расширениями и заголовками всегда можете посмотреть на нашем проекте Проверка HTTP-заголовков веб-сервера.
Описание формата данных
См. Приказ ФНС России от 18.01.2021 N ЕД-7-14/17@
В налоговой говорят, что с апреля будет новый формат данных. Мне особой разницы между новым и старым форматом данных обнаружить не удалось. Пока заметил только, что НаимЮЛСокр из таблицы 4.5 был атрибутом, а стал составным элементом.
Желающие могут сравнить на примере следующих ИНН:
7734344833, 7734349976, 7734355673, 7734358610, 7734365664, 7734368263, 7734372510, 7734375172, 7734379177, 7734381881, 7734384385, 7734386745, 7734389947, 7734394369, 7734397610,
7734347440, 7734350026, 7734355747, 7734363924, 7734366763, 7734368961, 7734372615, 7734376240, 7734379353, 7734382300, 7734385149, 7734387192, 7734390170, 7734394390, 7734397627,
7734347922, 7734352545, 7734356959, 7734364759, 7734367492, 7734369644, 7734374669, 7734376458, 7734379850, 7734383134, 7734385501, 7734388380, 7734390318, 7734395309, 7734397634,
7734349510, 7734354694, 7734358280, 7734365424, 7734368030, 7734372020, 7734374771, 7734378769, 7734380140, 7734383857, 7734386216, 7734389094, 7734391569, 7734397440, 7734399470.
XML-файл текущего формата https://egrul.itsoft.ru/7734344833.xml XML-файл нового формата https://egrul.itsoft.ru/n7734344833.xml
Поскольку текущий приказ описывает текущий формат, то и данные отдаём в этом формате. Когда выйдет новый приказ, будем отдавать данные в новом формате.
Не забывайте, что ИНН может начинаться с 0
Везде проверяйте длину ИНН, КПП и дополняйте их 0 слева при необходимости. В XML-формате значения ИНН как в оригинале у налоговой. А вот в JSON уже в виде чисел. Операции с числами быстрее, чем со строками и на парсинге десятков миллионов сущностей я старался оптимизировать типы данных. Некоторые парсеры работали сутками.
Как организованы у нас данные
У ФНС в каждом XML-файле порядка 1000 организаций. Собственно я разложил данные по каждой организации в отдельный файл. Ведь у всех посредников, что я пробовал, данные представлены уже переработанные, а тут оригинальные в том виде как их налоговая отдаёт.
Плюс добавил данные туда из других реестров. Там есть блок с доходами и расходами, налогами, среднесписочном количестве сотрудников, применяемых налоговых системах, размером организации и получаемой господдержкой.
Всё в одном файле.
Без регистрации.
Не надо отправлять кучи запросов и платить за каждый.
Сопроводительные справочники
Не поверите, но в интернете проблема была найти в CSV справочники регионов и ОКВЭД. На сайте налоговой справочник регионов в формате архива ARJ нашёлся. Оба справочника потребовали небольшой доработки напильником. Ну бесит меня это г. Москва и г. Санкт-Петербург. Мы, конечно, знаем про то что в Питере пока так, но в справочнике регионов об этом можно и умолчать.
Справочник субъектов Российской Федерации в csv и в json (кодировка UTF-8).
Справочник налогов в csv.
Справочник форм поддержки в csv и видов поддержки в csv.
Массив единиц поддержки:
['', 'руб.', 'кв. м.', 'час', '%', 'ед.'];
Массив категорий предприятий:
['', 'микропредприятие', 'малое предприятие', 'среднее предприятие'];
Только этого мало — даёшь всё в CSV и SQL
Даём! Если вы хотите больше, то пишите, готовы раздавать в CSV или в виде архива базы данных MySQL и если надо выложить архивы налоговой.
Мы не выкладываем в открытый доступ, чтобы не словить Хабраэффект. Да и хотим познакомиться, пообщаться с коллегами, понять, в чём мы можем посотрудничать.
Особенно интересно было бы посотрудничать с теми, кто занимается анализом данных. StatSoft Russia, Fast Reports, вы ещё живы?
Как помочь проекту информационно
Вы можете помочь как нам, так и кому-то, кому нужны эти данные.
Отправить ссылку знакомым бухгалтерам, предпринимателям или просто в соцсети.
Отправить ссылку разработчикам ПО, которые пользуются платными сервисами.
Написать плагин под всякие 1С, Битриксы и пр.
Предложить идею по развитию, обработке новых реестров данных.
Помочь нам найти архивы ЕГРЮЛ до 2018 года. ФНС говорит, что они должны быть у нас в выгрузке, но их нет. А со временем, хотелось бы исторические данные тоже открыть.
Найти своих депутатов и написать им, что надо бы законодательную инициативу проявить.
Подпишитесь на наш блог на Хабре и будьте в курсе новых статей на тему данных.
Помочь участием и сотрудничеством
Давайте объединять усилия. Если вы платили ФНС по 300 000р. год, содержали программистов и серверы, то теперь вы можете сэкономить.
Помочь деньгами и заказом услуг
Если вам интересно стать спонсором проекта egrul.itsoft.ru — пишите, обсудим условия или просто пожертвуйте сколько не жалко на карту 5536 9141 0700 1889. Благодаря вам мы сможем заплатить ФНС 150 000р. и запустить реестр индивидуальных предпринимателей и другие реестры. Подать в суд на ФНС и получить данные за все прошлые годы. Ещё нам бы второй сервер добавить в проект и быстрые диски.
Если вам нужен выделенный сервер с постоянно обновляемыми данными, или у вас есть задача по обработке данных, то мы готовы помочь с реализацией.
Комментарии (105)
mouze1976
08.02.2022 08:40+12Молодцы! Правильные цели, я надеюсь все гос органы реализуют данный подход.
cry_san
08.02.2022 09:31+4Где вы были раньше?!!
cry_san
08.02.2022 09:33И можно сделать получение данных и по ОГРН?
itsoft Автор
08.02.2022 09:44+1Можно многое сделать, только надо понимать зачем.
Откуда ОГРН у вас? ИНН везде. В платёжках, в реквизитах договоров, счетов, актах, счёт-фактурах, накладных. А ОГРН нигде нет. Поэтому нет и смысла в нём.
Интересно бы узнать как живут организации без ИНН. Счёт в банке они могут открыть? А платёж получить?
Если необходимость будет, то можно будет добавить. Но если её нет, то и добавлять не нужно.cry_san
08.02.2022 09:46Я занимаюсь аналитикой маркетплейсов. Если, например взять WB, то у огранизаций прописан именно ОГРН, а у ИП - ИНН.
Конечно, можно сделать предварительную работу - по ОГРН найти ИНН. Но если бы Ваш сервис предоставлял делать это напрямую, было бы легче жить )
itsoft Автор
08.02.2022 09:51+2Ок, раз WB такой кривой, то сейчас сделаю. Благо они хоть все разной длины 10, 12, 13 и 15 символов.
cry_san
08.02.2022 09:51Сердечно благодарю Вас!
itsoft Автор
08.02.2022 10:39+5Сделал. Проверяйте.
https://egrul.itsoft.ru/1027709005961.json
https://egrul.itsoft.ru/1027709005961.xml
impaler
08.02.2022 11:22+2Несколько замечаний:
1. Как часто обновляются данные? Учитывая что ежедневно обновляются данные по десяткам тысяч фирм, разово скачанный массив за пару месяцев превратится в тыкву.
2. У ЕГРЮЛ сейчас есть две версии - 4.05 и 4.06. Основное отличие в том, что в версии 4.06 появился элемент "Сведения об адресе юридического лица (в структуре ФИАС) <СвАдрЮЛФИАСС> " ("Может отсутствовать, если сведения внесены в ЕГРЮЛ до вступления в действие новых форм по регистрации ЮЛ, в которых адрес указывается в структуре ФИАС и ранее внесенный адрес в структуре КЛАДР не был сконвертирован"). В приведенном примере двух версий XML-файлов этот элемент отсутствует в новой версии.
3. Действующая версия 4.06 будет действовать неопределенно долгое время, до появления следующего приказа об изменении формата. С первого апреля прекращается выгрузка данных в формате 4.05.
4. По обработке новых реестров данных - предлагаю для начала предоставить бухгалтерскую отчетность юрлиц из ГИР БО (https://bo.nalog.ru/) - доступ платный - 200000 р. в год. Данные отдаются по API (https://bo.nalog.ru/REST_API.7z).
Бухгалтерская отчетность до 2018 года включительно доступна для скачивания на сайте росстата бесплатно: https://rosstat.gov.ru/opendata?division=&tag=13&updated_from=&updated_to=&search=&search_by_name=on&sort=&per_page=10 в формате csv.itsoft Автор
08.02.2022 11:30+5Ежедневно. Могу и 2-4 раза в день прописать в crontab.
4.05. Значит он отсутствует в архиве из папки EGRUL_406/
Ну вот тут может есть некоторая путаница. Но они не сильно отличаются. В общем не проблема спарсить EGRUL_406/
А какой в ней смысл? Обороты, налоги доступны у нас. А детальный бухбаланс зачем? Если кому надо, то ручками его сможет там получить. Но если надо, и если будут деньги, то сможем прикрутить. У Росстата скудные данные. Данные по доходам и расходам я оттуда загрузил.
impaler
08.02.2022 12:03По ссылке на росстат лежат файлы csv с полными балансами и отчетами о прибылях и убытках по всем предприятиям, включая формы 1,2,3,4 и 6.
Данные с доходами и расходами полагаю были взяты из раздела открытых данных ФНС https://www.nalog.gov.ru/opendata/ в разделе 76 (там же лежат и данные по налогам и количеству сотрудников).
Полный баланс может и не обязателен, а вот суммы выручки и чистой прибыли/убытка из отчета о прибылях и убытках могут быть интересны.itsoft Автор
08.02.2022 12:18Данные по доходам и расходам у нас с 2011 года. И как раз из Росстата.
Лежат, но там нет расшифровки по всем полям. Надо понимать зачем эти данные. Просто добавить их мусоров в наши файлы по-моему не стоит. Они 99% пользователей не нужны. Из этих данных нужна какая-то выжимка. От задач нужно идти. А просто дублировать зачем?impaler
08.02.2022 13:05+1Скачал обновленные версии файлов - они действительно убрали заголовки полей
Рядом с файлами лежат файлы с описанием структуры данных вида"Структура"
"structure-20181231.csv" - из него для строки вычисляется номер поля.
Расшифровка там предельно простая - первая цифра номер формы - "1" - баланс, 2-"отчет о прибылях и убытках" и т.д. Дальше номер строки баланса. Последняя цифра - 3 - значение за текущий отчетный период, 4 - за предыдущий очтетный период.
Полезная выжимка - это значения 21103 - выручка и 24003 - чистая прибыль
aborouhin
08.02.2022 17:22Надо понимать зачем эти данные. Просто добавить их мусоров в наши файлы по-моему не стоит. Они 99% пользователей не нужны.
Если говорить про задачу оценки добросовестности контрагента - то все методики финанализа как раз на соотношении и динамике изменения показателей бух. отчётности и строятся. Что позволяет потом показывать рейтинг финансовой надёжности контрагента в каких-нибудь условных попугаях.
itsoft Автор
08.02.2022 17:31Это в теории. На практике мы видим как у банкротов рейтинг зелёный и надёжный. То есть не решена эта задача у тех, кто уже много лет торгует API ЕГРЮЛ.
Мы тут открыты к сотрудничеству. Если вы готовы предложить формулу, то давайте обсудим, добавим в парсер расчёт показателей. Но только если это будут показатели. В бухбалансах много дутых данных. Бугхалтерию можно и так и сяк, и в убыток и в прибыль сверстать в зависимости от желания.aborouhin
08.02.2022 17:37Это в теории. На практике мы видим как у банкротов рейтинг зелёный и надёжный.
А тут разные задачи. Есть задача "прикрыть задницу" - она этими попугаями решается. Т.е. если налоговая при очередной проверке пытается квалифицировать твоего контрагента как одноневку/техничку и исключить из расходов платежи в его адрес - ты вытаскиваешь отчёт с этими попугаями и говоришь "вот, смотрите, ничто не предвещало, я добросовестно проверял". И это в общем работает.
А если задача проверить по существу (аванс выдаём или там покупать вообще эту контору собрались) - она анализом отчётности по РСБУ не решается в принципе, ибо отчётность эта лукава.
Есть ещё более узкие случаи - скажем, при банкротстве проводится анализ признаков фиктивности или преднамеренности оного, в котором эти данные тоже участвуют (и по сути тоже бред получается, но методика нормативно закреплена и делать надо именно по ней, а не иначе).
Если вы готовы предложить формулу, то давайте обсудим, добавим в парсер расчёт показателей.
Я думаю, эта задача должна решаться не Вашим сервисом, а его пользователями. Каждый для своих задач решит, как ему и что считать. У меня, скажем, привязка будет ещё и к внешним данным. Я это всё только про то, что данные ГИР БО нужны и полезны отнюдь не одному проценту.
impaler
08.02.2022 20:08Если говорить про задачу оценки добросовестности контрагента - то все методики финанализа как раз на соотношении и динамике изменения показателей бух. отчётности и строятся.
Задачу оценки контрагента логичнее начинать например с банка решений арбитражных судов - kad.arbitr.ru (кстати эти базы тоже продаются). А оценивать его надежность по данным балансов, которые публикуются со значительной задержкой, и отдельные показатели которых можно специально подогнать под момент сдачи отчета, очень спорное решение.
aborouhin
08.02.2022 20:24См. мой комментарий чуть выше по ветке. Зависит от того, какая ставится задача. Для "прикрытия задницы" вполне источник, наряду с прочими. Для временного управляющего, который пришёл в наблюдение по делу о банкротстве, так просто вариантов нет - даже если понимаешь, что в балансе бред, изволь оценивать по балансу :)
Вообще, действительно качественные выводы можно сделать по анализу банковских выписок за последние года три, но кто ж их в большинстве случаев даст :) Поэтому и приходится собирать по кусочкам. КАД и ГАС Правосудие - источники хорошие и нужные, но (а) гораздо более труднодоступные для автоматизированного анализа (да и для ручного зачастую) и (б) подавляющее большинство юр. лиц за всю свою историю в сколько бы то ни было значимых судебных процессах не участвуют вообще, однако ж это тоже не признак их благонадёжности. Так что смотрим и их, и бухотчётность, и ещё БД исп. производств ФССП, ЕФРСДЮЛ и ЕФРСБ Интерфакса, реестры проверок прокуратуры, реестры массовых, дисквалифицированных, недоимок и нарушений ФНС, закупки и т.п. Короче, до чего дотянемся.
Весь бизнес агрегаторов этой информации: Спарк, Коммерсантъ.Картотека, Контур.Фокус, Руспрофиль, ЗаЧестныйБизнес и иже с ними - на этом и построен. Ну и каждый из них пытается какую-то формулу благонадёжности вывести, учитывающую разные факторы. Анонсированный тут проект от ITSoft, наверное, сможет со временем вырасти в такой же агрегатор. Но не этим он интересен, а тем, что может стать источником исходных данных для других. У агрегаторов по понятным причинам API сильно ограничен по кол-ву запросов и кусается по цене.
P.S. А про доступ к КАД отдельная история, и про неё я могу рассказать гораздо больше, чем про ЕГРЮЛ. Если бы он хотя бы продавался официально...
impaler
08.02.2022 21:14P.S. А про доступ к КАД отдельная история, и про неё я могу рассказать гораздо больше, чем про ЕГРЮЛ. Если бы он хотя бы продавался официально...
Так расскажите.
А право.ру базами КАД неофициально торгует?aborouhin
08.02.2022 21:32+5Ну тут это уже оффтопик, но если тезисно:
Право.ру официально не продаёт выгрузки, но продаёт API.
API это с такими зверскими тарифами и лимитами, что я 2 года назад считал - по их тарифу выгрузить весь КАД (если вообще скорость работы с API позволит это сделать) стóило бы 62 млн.₽. Т.к. база с тех пор изрядно подросла - сейчас ещё выше.
Даже по этим тарифам они продают API только конечным пользователям - корпоративным заказчикам. Для разработчиков рыночных продуктов (а особенно конкурирующих с продуктами Право.ру) они API не продают вообще.
Ввиду п.п. 2-3 те, кому КАД нужен в оптовых количествах (те же Интерфакс, Коммерсант, Руспрофиль) или заранее скачанный (например, для какой-то аналитики) договариваются с ними на непубличных условиях. У кого-то есть политический вес, у кого-то - другая информация "в обмен", у кого-то много денег, наверное - не знаю, свечку не держал.
При этом с парсингом КАД борются жёстко, там не просто капча, там всё по-взрослому :)
Несмотря на п. 5, есть ребята, которые поддерживают "альтернативное" API, основанное на парсинге в обход ограничений и даже официально его продают. Право.ру вынуждено с этим мириться, т.к. заказчиками этого API является несколько весьма крупных компаний, а обострять ситуацию им не хочется, ибо см. следующий пункт.
Самое интересное в этом всём то, уже несколько лет нет никаких оснований, по которым коммерческая организация Право.ру являлась бы оператором государственной информационной системы КАД. Действовавший договор закончился, новый не заключён. Но поскольку бюджета на то, чтобы эту ситуацию изменить, у Суд. Департамента нет (да и желания что-то менять - тоже), то такой вот статус кво сохраняется.
Если интересны дальнейшие подробности - то уже в личку, сорри :)
Barsik68
08.02.2022 20:43отличаются существенно. По крайней мере версии для ФОИВов. +Там вместо КЛАДР используется ФИАС. И много новых расширенных сведений.
Также Ваш реестр из ФНС не учитывает ТОПы, которые ведутся только в Росстате.
ИНН и ОГРН по отдельности не являются уникальными идентификаторами. Уникальным идентификатором объекта учета является ОКПО.
la0
08.02.2022 11:28Я бы с радостью оплачивал за 300-500 рублей в год доступ к простому сервису с 2 функциями: поиск связей (достаточно по учредителю и гендиру) с каким-либо ограниченем типа 100-500 запросов в месяц.
То что есть на рынке при всей своей простоте или комбаин за овердофига денег или "работаем только с юридическими лицами"
itsoft Автор
08.02.2022 12:20По руководителю и учредителю физлицам связи у нас есть. По юридическим лицам в планах.
Barsik68
08.02.2022 20:52это сведения по данным ФНС. Они не обновляются. И реального владельца, особенно акционерного общества, знают только держатели реестров. Т.е. эта информация особо Вам ничего не даст.
vis_inet
08.02.2022 12:21Я правильно вас понял, что загружены все ИНН по всем регионам?
Не нашёл свой ИНН...
itsoft Автор
08.02.2022 12:44+3Это ИНН ИП. Тут ЕГРЮЛ. На данные ЕГРИП надо 150 000р. Надеюсь задонатят, спонсоры придут или кто-то что-то закажет на коммерческой основе, тогда сможем купить эти данные.
itsoft Автор
08.02.2022 12:46+1И в ЕГРИП ничего кроме ФИО нет. Толку от него мало. :(
1001
09.02.2022 11:58Ну почему же, там есть данные об открытии, закрытии ИП. Это тоже нужно.
И как раз хотел об этом спросить, т.к. заметил, что по ИП данных нет, а они нужны. Не знал, что налоговая два реестра продаёт. На их сайте и ЮЛ и ИП в одном разделе ищутся.
servermen
08.02.2022 12:26+1Если вам интересно стать спонсором проекта egrul.itsoft.ru — пишите, обсудим условия или просто пожертвуйте сколько не жалко на карту 5536 9141 0700 1889.
@itsoftСборы пожертвований в первую очередь и пострадает от недавно обещанных нововведений: https://habr.com/ru/news/t/650103/
itsoft Автор
08.02.2022 12:42Почему? Делать пожертвования никому не запрещают. То что налоговая может спросить у получателя что за деньги -- ну может, пусть спрашивает.
Nickrus
08.02.2022 20:35+1Я не спец по налогам, но могут заподозрить, что пожертвования притворные, прикрывают оплату доступа к данным. Конечно, в нормальной стране это ещё придётся доказать, но у российского суда нет повода не верить налоговой.
А хабраэффекта при раздаче полных архивов можно легко избежать, разместив их через торренты. Там вся сеть поможет раздавать их, нагрузка на сида будет минимальная.
itsoft Автор
09.02.2022 08:19Не могут заподозрить. Доступ к намм бесплатеый, а пожертвования на совести, желании и возможностях людей. Бывает жертвуют те, кто не польщуется, просто в поддержку перемен.
navferty
08.02.2022 13:28+1Очень полезная инициатива! Конечно было бы совсем здорово, если бы это было официальное API от ФНС, может быть когда-нибудь так и будет.
Особенно радует, что нет необходимости регистрироваться и получать api-токен. Думаю прикрутить к своей open-source надстройке для Excel запрос информации через Ваш API, думаю может быть полезным пользователям (необходимость авторизации закроет такой вариант, так как запросы идут с компа пользователя).
P.S. любопытно, что все примеры ИНН в статье - принадлежат 34-й инспекции по Москве, где я проработал 3 года инспектором-камералом))
itsoft Автор
08.02.2022 13:36Да это просто результат копирования мышкой. Там их сильно больше. Но для сравнения форматов нужно было сколько-то дать, ну вот мышкой скопировал. :)
navferty
08.02.2022 13:44+3Поясню тем кто не в курсе. Первые 4 цифры ИНН (за некоторыми исключениями) соответствуют коду налоговой инспеции, где лицо было зарегистрировано впервые (из-за смены адреса лица этот код может не соответствовать инспекции, в которой лицо состоит на налоговом учете в текущий момент, но это можно узнать из КПП). Причем первые две цифры этого кода - соответствуют коду региона - по всем знакомому справочнику автомобильных регионов. Например, в ИНН 7734344833 код инспекции - 7734, где 77 - это г. Москва, 34 - номер инспекции.
Также в ИНН есть проверочные цифры, для ЮЛ это одна последняя цифра в 10-значном номере, для ФЛ - две последние цифры 12-значного номера.
Adgh
08.02.2022 13:55Ещё бы это богатство в модном Apache Parquet с фильтром по региону забирать [мечтательно...)))] вместо запросов по отдельным ИНН! Огромный респект за проделанную работу!
itsoft Автор
08.02.2022 14:36+1Фильтр по региону мы можем сделать. Только поясните почему вам данные только в рамках региона нужны? Какую задачу вы решаете? Регион есть в составе ОГРН, косвенно ИНН и в адресе. И адрес по региону не совпадает с кодом региона в ОГРН, если юрлицо переехало в другой регион.
А вот Apache Parquet -- это вы уже сами подключайтесь.
idelgujin
08.02.2022 15:43+1Совет вам по заработку. Можете генерить все ИНН, например по ОКВЭД, по запросу за небольшие деньги по подписке. Например чтобы коммерсы могли иметь картину по конкурентам.
salnicoff
08.02.2022 15:47Наверное, у 90% ОКВЭД из регистрационных документов не соответствует факту. Или там написаны десятки ОКВЭДов, по которым деятельность не ведется. А еще есть дублирование ОКВЭДов... В общем, идея пригодна только для узкого круга видов деятельности, например, для тех, которые обязательно лицензируются.
Barsik68
08.02.2022 20:56за основным ОКВЭД надо идти в Росстат.
itsoft Автор
08.02.2022 23:35В егрюл есть основной и дополнительный.
Barsik68
09.02.2022 09:25Да. Но кодов ОКВЭД ведется несколько, например:
ОКВЭД осн.рег - это основной код из выписки ФНС, заявленный ЮЛ
ОКВЭД доп.рег - это дополнительные коды из выписки ФНС, заявленные ЮЛ
ОКВЭД осн.факт. - это основной код, присваемый Росстатом и актуализи руемый раз в год на основе отчетности ЮЛ
ОКВЭД доп.факт. - это дополнительные коды, присваемые Росстатом и актуализи руемые также раз в год на основе отчетности ЮЛ
Есть еще расчетный ОКВЭД, который используется для внутренних нужд Росстата.
aborouhin
08.02.2022 17:15Спасибо! Категорически нужная штука. Не боитесь, что желающие сэкономить денежку на API Спарка/Картотеки/Фокуса/Дадаты Вам сервер положат очень быстро? ;)
Насчёт истории ЕГРЮЛ - там мутная тема. По приказу самой ФНС о порядке предоставления этих данных, они должны предоставляться с начала ведения реестра, то бишь с 2002 года. По факту данные неоднократно "обрезались" и если пару лет назад доступ был к данным с 2015 года то теперь, получается, уже с 2018. Соответственно старые данные есть у тех, кто начал их покупать давно и прилежно сохранял. Когда я интересовался - мне поступило пара предложений продать историю ЕГРЮЛ за деньги, несопоставимые с официальным прайсом (в сторону роста цены, само собой). Было бы прекрасно, если бы Вы нашли кого-то, кто готов поделиться нажитым за все эти годы с коммьюнити. Если есть желание формально юридически поругаться с ФНС - основания есть, пишите в личку, помогу, я так-то юрист :)
Ну а если про свои хотелки - API для разовых запросов хорошо, а полная выгрузка лучше. Потому что есть задачи, для которых нужен заранее построенный граф по всему реестру (анализ аффилированности прежде всего). Если бы Вы предложили возможность выгрузки полных данных и ежедневных дельта-обновлений, пусть не бесплатно, но дешевле тех самых 150 т.р., с удовольствием бы воспользовался.
itsoft Автор
08.02.2022 17:25+2Они уже убрали 2018-2020 годы, но ТП мне сказала, что у них данные с 2002 года, и она видит их в архиве. Запись разговора есть. Так что если данные не дадут, мы пойдём в суд как с ВТБ.
Мы готовы предложить. Сейчас продумываю как это сделать.aborouhin
08.02.2022 17:31В составлении официальной претензии / заявления в суд и сопровождении процесса готов поддержать, пишите в личку, если интересно. Собирался этим заняться сам в ближайшее время, но раз Вы уже начали - то лучше на Вашем случае и делать прецедент. Я работаю с очень хорошими и дорогими юр. фирмами, так что за качество с этой стороны ручаюсь.
itsoft Автор
08.02.2022 17:57Вы бесплатно готовы помочь или сколько нужно денег? Денег у нас, как понимаете, нет.
klerik
09.02.2022 16:25Как там ВТБ, чем всё закончилось?
itsoft Автор
09.02.2022 16:56Думаю решение в силу вступило. https://habr.com/ru/company/itsoft/blog/589037/
Надо исполнительный лист получать и списывать.
Мы ещё паровозом 50к на юриста отсудили. Конечно, суд занизил в два с лишним раза наши расходы.
Ну и по-моему там ещё дополнительно на ВТБ подали за комиссии 127к.
Так что двигаемся.
efir
08.02.2022 17:59Спасибо, огромное за работу, как можно Mysql дапм скачать :-)
itsoft Автор
08.02.2022 18:36С 2018 года можем сделать. Архивы есть. Через пару недель расскажу. В БД всё не спарсить, там очень много данных в иерархии. Основное выложим в CSV, а остальное утянете сами из xml, json.
Kwisatz
08.02.2022 18:53много данных тесмтами
Каких? И какой объем сейчас всей этой пакости? Может поразвлекаюсь когда время появится с заталкиванием в PostgreSQL, единственное над форматом надо будет серьезно подумать, чтобы обновлять быстро. Хотя, это все таки OLAP, можно взять колоночные хранилища.itsoft Автор
08.02.2022 20:21+1Там в иерархию уходят разные данные. Запихтвать их топорно ключ, значение в бд смысла мало.
11401720 уникальных ОГРН.
Относительно скоро выложим данные, так что через пару недель сможете.
aborouhin
08.02.2022 20:33Куда это запихивать - зависит от задач. Для моих, скажем, прежде всего в Neo4j :)
DX28
08.02.2022 19:51По закону об открытых данных ФНС конечно должна все бесплатно выкладывать. Оно кстати есть бесплатно, но по одному ИНН.
https://bo.nalog.ru/
Все что более одного за час вылазит капча.
itsoft Автор
08.02.2022 20:06А можете дать ссылку на закон, где такое написано? Я только это нагуглил http://www.consultant.ru/document/cons_doc_LAW_61798/7b95a91feb271e5c605456ef9a8afef42d36ae2d/
aborouhin
08.02.2022 20:31Почитайте Постановление Правительства РФ от 10.07.2013 N 583 (ну и базовый Федеральный закон от 09.02.2009 N 8-ФЗ) на тему, как это должно выглядеть. Но там всё заточено на существование Открытого правительства, которое и должно было этим заниматься (и на каком-то этапе занималось-таки). Но поскольку проект этот сошёл на нет, руководитель его в местах не столь отдалённых - то тема практически заглохла и если где-то и движется - то исключительно по инерции.
aborouhin
08.02.2022 20:28С законодательством об открытых данных у нас всё грустно. bo.nalog.ru и egrul.nalog.ru - это тоже не открытые данные. А вот отчётность 2012-2018 г.г., которую выкладывал Росстат- открытые.
TimsTims
09.02.2022 01:04Банки (да и не только) очень любят анализировать группы компаний. Если сможете проделать аналитику по собственникам, найти общих собственников с долями >=25% , или >=50% , то эту информацию банки готовы будут покупать)
Добавьте туда ещё данные по выручке, численности компании, итд (это ещё + сколько-то денег в ФНС занести надо), и вы станете конкурентом Спарк-Интерфакс и HumanFactor (dadata.ru) :) А может и уже стали...
Vinchi
09.02.2022 02:01Выложите сами архивы или карту сайта, чтобы получить список всех доступных инн.
itsoft Автор
09.02.2022 08:23Скоро выложим. Но для этого надо подготовить и выложить на раздачу первый архив всех данных, чтобы нам сервер не положили качая по одной организации 11 миллионов организаций. Всё будет.
Vinchi
10.02.2022 02:03Может в вики положить или поговорить с https://t.me/begtin чтобы на своих ресурсах выложил ?
itsoft Автор
10.02.2022 14:55Бегтин считает, что нет реальной пользы: "На Вас уже ссылались коллеги в чате. Запрос - это хорошая инициатива, а в остальном больше похоже на Ваш маркетинг чем на реальную пользу." https://t.me/begtinchat/26605
FrolVII
09.02.2022 08:24По поводу депутатов и законодательных инициатив. Есть уже, наверное, целый список всевозможных указов/поручений/призывов президента о необходимости повышения производительности труда (в т.ч. "на основе передовых технологий"). Правительство разные там планы мероприятий и прочие бумажки в этой связи, вроде как, разрабатывало. Но видимо, по какому-то странному стечению обстоятельств ни кому из чиновников пока и в голову не пришло, что простое сокращение затрат бизнеса (будь то затраты человеко-часов или прямые финансовые затраты) на получение различных данных от госорганов способно повысить производительность труда того самого бизнеса.
К чему я. Наверное, стоит просьбы о подобных инициативах осуществлять в контексте тех самых указов/поручений президента о повышении производительности труда. Вроде: «во исполнение указа такого-то … просим, значит, раздавать то-то и то-то впредь даром, в удобном виде и всем желающим …».
Не питаю каких-либо иллюзий на данный счет, но лишний раз вопрос поднять полезно…
itsoft Автор
09.02.2022 08:26+1Хорошая идея. Добавлю во исполнение поручений президента рф... :) это может на некоторых подействовать как удав на кроликов. Надо будет у Рамзана Кадырова ещё поручения поискать, тогда вообще пердаки загорятся...
aberez
09.02.2022 15:23Очень крутая вещь, спасибо большое. По работе и учёбе регулярно нужно находить подобные данные, но даже за деньги (небольшие) очень тяжело найти. Закинул небольшой донат и расшарил по всем знакомым, которые тоже сталкивались с такими задачами)
Есть небольшой прикладной вопрос
А можно ли попросить выгрузить информацию по организациям с определённым кодом ОТКМО? Гипотетически, можем спарсить сами, но, чтобы не нагружать лишний раз сайт, может так проще будет)
itsoft Автор
09.02.2022 15:28В ЕГРЮЛ нет ОКТМО https://rosstat.gov.ru/opendata/7708234640-oktmo
Есть привязка с территории через КПП и адрес.
Но такие специфические задачи вы уже сами пишите или за дополнительную плату. Данные выложим через пару недель.
rashid-m
11.02.2022 01:31Доброе дело.
В этом смысле ФНС стоит равняться на коллег из национальной системы аккредитации, реестры которой одно время были открыты, затем закрыты, но теперь снова доступны в виде csv выгрузок
excentro
Спасибо, полезно. Сам не так давно писал парсинг данных ЕГРЮЛ :)