ЕГРЮЛ — это государственный реестр юридических лиц, в котором хранятся данные 10 миллионов российских компаний. Управляет справочником ФНС.
Из ЕГРЮЛ мы берем данные организаций для «Подсказок», «Единого клиента» и «Фактора». В статье расскажем, как мы жили до справочника, как получаем к нему доступ и как с ним работаем.
Жизнь до ЕГРЮЛ
Еще пару лет назад ФНС скрывал ЕГРЮЛ в своих недрах, и данные о компаниях мы собирали где придется.
Для начала купили базу у multistat.ru — это легальный реселлер, который продавал данные ФНС. Проблема в том, что свою базу «Мультистат» отдавал задорого и без обновлений.
Поэтому мы поддерживали актуальность данных с помощью сайтов kartoteka.ru и fedresurs.ru. Выгружать информацию скопом они, конечно же, не давали: в ответ на введенный ИНН или ОГРН показывали только одну карточку компании.
Тогда мы написали скрипт, который генерировал ИННы и запрашивал по ним данные на сайтах-справочниках. Если скрипт находил новое юрлицо или изменение в старом, он забирал обновление.
А в 2015 году ФНС открыл ЕГРЮЛ с обновлениями всем, кто готов платить. Этим налоговая служба убила рынок продажи справочника: раньше база стоила миллионы, а теперь символические, в общем-то, 150 000 ₽. (Есть подозрение, что вырученные деньги только-только окупают инфраструктуру и поддержку.)
Тогда мы подумали: «Ну, теперь заживем!».
Доступ к ЕГРЮЛ
Годовой доступ к ЕГРЮЛ стоит 150 000 ₽. (Столько же стоит ЕГРИП — госреестр индивидуальных предпринимателей.)
Вот что нужно было сделать в начале 2018 года, чтобы получить доступ к данным.
Заплатить 150 000 ₽ за один справочник или 300 000 ₽ за два. Инструкция по заполнению платежки — на сайте ФНС.
Отправить курьерской службой в ФНС два документа:
- оригинал платежки со штампом банка «Оплачено», «Проведено» или «Принято»;
- запрос о предоставлении сведений, содержащихся в ЕГРЮЛ. Бланк запроса — в приложении № 1 к административному регламенту (.docx). Ищите форму ближе к концу документа.
В запросе можно выбрать способ доставки доступов — почта или емейл. Мы всегда выбираем емейл, но бывают неожиданности: в 2016 году на адреса домена @hflabs.ru письма ФНС не приходили. В 2017-м проблему исправили, но осадочек остался.
Документы принимают по адресу: 125373, г. Москва, Походный проезд, двлд 3, второй этаж. Налоговая инспекция «МИ ФНС России по ЦОД». В отличие от обычной инспекции, у этой нет номера. В январе мы продлевали доступ к ЕГРЮЛ, и курьер по ошибке отдал документы в соседнюю инспекцию. Пакет чудом дошел куда нужно, но ждать пришлось дольше. Поэтому есть смысл подчеркнуть для курьера, что в адресе номера нет.
Дождаться решения. В течение трех рабочих дней, включая день доставки документов, в ФНС регистрируют входящие письма. В течение пяти рабочих дней рассматривают запрос.
Статус заявки узнаю́т по номеру (495) 913-07-60. У вас спросят:
- ИНН;
- дату, когда ФНС приняла документы;
- ФИО сотрудника, принявшего документы.
Получить доступы. Если все в порядке, вы получите по почте или на емейл доступы к ЕГРЮЛ. В аттаче емейла — архив с файлами: PDF c уведомлением на официальном бланке, PDF с логином и паролем, сертификат в файле формата .p12.
Даже если заказываешь доступы по емейл, их все равно продублируют по обычной почте. Именно к физическому письму относится строчка про CD
Итак, доступы в кармане — пора утолять жажду к знаниям.
Структура справочника
ЕГРЮЛ представляет собой длиннющую портянку с папками-датами.
Данные из ЕГРЮЛ скачивают с FTP-сервера
В каждой директории лежит zip-архив.
Архивов в директории может быть и несколько
В инструкции по интеграции ФНС пишет, что в каждом архиве хранится до 100 xml-файлов. Мы пересчитывали, цифры верные :)
В каждом xml — до 1000 записей
Каждая запись включает в себя основные атрибуты юрлица:
- ОГРН — идентификатор юрлица для ФНС;
- адрес;
- краткое и полное наименование;
- ИНН;
- КПП;
- уставной капитал;
- статус;
- куча документов: свидетельство о регистрации, всевозможные лицензии и т. д.;
- основной и дополнительный ОКВЭДы.
Из перечисленных атрибутов только ОГРН заполнен у всех, он всегда уникален. С остальными параметрами бывают вариации, даже КПП есть не у всех юрлиц.
Помимо основной информации о юрлице в каждой записи лежит еще кое-что интересное:
- данные о физике-учредителе;
- данные о юрике-учредителе;
- управляющий-физик;
- управляющий-юрик;
- подробности реорганизации. Это когда одна компания вливается или поглощает другую;
- правопреемники и правопредшественники;
- филиалы и представительства, причем сколько угодно много.
Да, филиалы в ЕГРЮЛ — не отдельные записи, а лишь атрибуты.
Обновления
В первый день каждого года ФНС выкладывает на сервер все, что у нее есть, полную базу юрлиц на текущий момент. Название папок с выгрузками: 01.01.2015_FULL, 01.01.2016_FULL и так далее.
Дальше обновления выходят ежедневно, ФНС складывает их в папки по датам: 02.01.2018, 03.01.2018 и т. д. Если обновление не пришло, ничего страшного: ФНС может пропустить пару деньков, а потом вывалить сразу несколько.
В каждом обновлении — только измененные записи. Если 4 мая ФНС узнала об изменениях в данных юрлица, в течение 1–3 дней они появятся в папке 05.05.2018, 06.05.2018 или 07.05.2018 соответственно. Поэтому актуальные данные о компании всегда лежат в папке с названием, ближайшим к сегодняшнему дню.
Сколько будет архивов в обновлении, заранее неизвестно. Может быть и один. Если очень усредненно, обычно меняют данные где-то 50 000 юрлиц. Однажды, в феврале 2017 года, в обновлении пришла вообще вся база. Насколько можно судить, в ЕГРЮЛ тогда глобально изменились внутренние идентификаторы и элементы структуры, к бизнес-задачам не имеющие отношения.
Казалось бы, получить из ЕГРЮЛ актуальные данные о юрлицах элементарно: берешь полную базу на начало года и применяешь все последующие апдейты. После этого остается каждый день скачивать и накатывать изменения на базу.
Не тут-то было! ФНС строго следит, чтобы разработчики не скучали. Ошибки и костыли в ЕГРЮЛ — отдельная, интересная и богатая тема, достойная целой статьи. Раскроем ее на следующей неделе.
Если нравится парсить сложные справочники, структурировать данные и приводить их к человеческому виду, приходите к нам работать. Сейчас ищем джависта для продукта «Фактор». Зарплата — от 175 000 до 275 000 ₽, подробности — на hh.ru.
Автор: DEADStop