Необходимое предисловие в эти чёрные дни
С началом войны РФ с Украиной мои статьи потеряли смысл на фоне этого ада. Продуктивно работать почти невозможно. Кто-то потерял дом, кто-то детей. Миллионы беженцев.
Два из трёх этажей своего дома я отдал под размещение двух семей беженцев с детьми. Если у вас есть возможности, помогайте нуждающимся.
Деньги на ЕГРИП были собраны донатами до войны. С опозданием, но я должен выполнить обещанное.
Доступ к данным ЕГРИП в XML и JSON
Если вы не прочитали статью “ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно”, то начните с неё, там описано как получить данные в XML или JSON по ИНН или ОГРН. Там же есть примеры кода и ссылки на описание форматов данных.
Для индивидуальных предпринимателей точно также данные получаются по ИНН или ОГРНИП.
Все индивидуальные предприниматели, доступны по следующим ссылкам с ИНН физических лиц:
Индивидуальные предприниматели также доступны по ссылкам с ОГРНИП.
Оригинальные архивы ЕГРЮЛ, ЕГРИП
Эти архивы ФНС РФ предоставляет за 300 000р. в год:
-
новый формат ЕГРЮЛ (архивы с 2021 года);
-
старый формат ЕГРЮЛ (архивы с 2018 года);
-
новый формат ЕГРИП (архивы с 2021 года).
Мы написали претензию ФНС с требованием выложить все архивы с 2002 года и получили отписку. Сейчас в данных обстоятельствах нет моральных сил с ними судиться и биться за развитие российской экономики. Пока взяли паузу. Может война закончится, а может экономика. И тогда вопрос отпадёт сам собой.
В папках _FULL все данные на начало года. Далее — изменения.
Обработанные данные в форматах csv
Архивы ЕГРЮЛ, ЕГРИП и обновления к ним в формате csv.
-
org: ОГРН, ИНН, max_num;
-
org2: организации;
-
person: физические лица и индивидуальные предприниматели;
-
org_chief: руководители организаций;
-
founder: учредители;
-
mng: управляющие организации;
-
income_outcome: доходы и расходы;
-
taxes: налоги;
-
tax_systems: налоговые системы;
-
ssch: среднесписочная численность;
-
msp: микропредприятия, малые, средние;
-
support: господдержка;
-
okved_ref: оквэд;
-
opf: организационно-правовая форма;
-
org_status_ref: справочник статусов организаций;
-
org_status: статусы организаций;
-
predecessor: предшественники;
-
country: страны.
min_num, max_num, cdate_num, update_at_num
— это сокращённая форма даты в виде двухбайтового целого. Дата в номер и обратно преобразуется по следующим правилам:
$d = date('Y-m-d');
$d_num = (intval($d[2] . $d[3])<<9) + (intval($d[5] . $d[6])<<5) + intval($d[8] . $d[9]);
$d2 = '20' . sprintf("%'.02d", $d_num>>9) . '-' . sprintf("%'.02d", ($d_num>>5)&15) . '-' . sprintf("%'.02d", $d_num&31);
Эти поля нужны для реализации Медленно меняющихся измерений (от англ. Slowly Changing Dimensions, SCD) типа 2. min_num или cdate_num хранят дату начала действия этой строки, например, для руководителя — это дата когда человек стал руководителем организации. max_num, updated_at_num — дата последней выписки где данный факт был обнаружен. Если дата org_chief.max_num меньше org.max_num, то org_chief.max_num дата, когда человек пропал из руководителей в ЕГРЮЛ. Реально он мог перестать быть руководителем чуть раньше.
Актуальные данные надо соединять по ogrn и org.max_num. Записи в соединённых таблицах с max_num < org.max_num хранят историю по организации.
org2.crc32 — это уникальный ключ crc32(kpp, short_name, full_name, street, house, corpus, apartment). В org2 храниться история изменения юридического адреса и наименования организации.
По остальным таблицам полагаю должно быть всё понятно из названия полей и документации к данным (см. Приказ ФНС России от 18.01.2021 N ЕД-7-14/17@).
Уставной капитал
Уставной капитал отсутствует в некоторых ООО. Но его можно вычислить по сумме уставных капиталов учредителей.
Отчёты и анализ данных ЕГРЮЛ, ЕГРИП
-
Топ управляющих организаций по количеству организаций, которыми они управляют.
-
Топ руководителей организаций по количеству организаций, которыми они руководят.
-
Топ предпринимателей по количеству организаций, которые они учредили.
-
Топ организаций по количеству организаций, которые они учредили.
В отчёте “Организации с оборотом от миллиарда рублей за 2020 год” вы можете видеть, что налогов ряд крупных организации платят около нуля, сотрудников в некоторых тоже крайне мало в пересчёте на приход. Если сравнить с малым бизнесом, где налоговая нагрузка порядка 3-7%, то крупные компании явно недоплачивают и работают там какие-то многорукие и многоголовые, что на одного сотрудника бывает миллиарды прихода.
Невероятное
Леденев Владимир Владимирович руководитель в 2874 организациях с большим отрывом опережает всех остальных. Правда там за ним следуют 8 руководителей в 1000 организаций. Эх, нам бы базу с 2002 года, вот это бы данные были.
Такие люди заслуживают статьи в Википедии.
Присылайте ссылки на ваши проекты
Ссылки на полезные и бесплатные проекты мы опубликуем на нашем сайте.
Если вы сделаете анализ выложенных данных
У нас запланирована следующая статья с рядом очень интересных отчётов. Количество отчётов, которые только можно придумать огромное. Поэтому мы рады будем всем любителям анализировать данные.
Мы ждём ваших статей на Хабре и в нашем блоге особенно. У нас действует программа поддержки авторов, так что вы сможете немного заработать.
Донаты
На следующий год проекту нужно 300 000р на покупку данных у ФНС РФ. Нужен второй сервер. Не помешают деньги на дальнейшее развитие и добавление других данных. Кто-то обещал задонатить после публикации ЕГРИП и архивов. Пожалуйста, закиньте денег сколько можете. Это реально важно.
Автор: Игорь Тарасов