Мы в HFLabs перелопачиваем колоссальное количество данных: адреса, ФИО, реквизиты компаний, документы. Весь год писали о сложных и полезных штуках, но пора и честь знать. Перед праздниками — подборка смешных данных, что нам принес 2018-й.
Читать полностью »
Рубрика «Блог компании HFLabs» - 2
Данные бывают смешными (и вот примеры)
2018-12-28 в 11:17, admin, рубрики: адреса, Блог компании HFLabs, данные, данные юрлиц, ЕГРЮЛ, открытые данные, топонимы, ФИАС, Читальный зал, юмор, юмор на хабре, юрлицаРедактируем CSV-файлы, чтобы не сломать данные
2018-12-13 в 12:00, admin, рубрики: csv, csv файлы, Excel, IT-стандарты, libreoffice, open office, Блог компании HFLabs, данные, информационная безопасность, редактирование csv, Софт, хранение данныхПродукты HFLabs в промышленных объемах обрабатывают данные: адреса, ФИО, реквизиты компаний и еще вагон всего. Естественно, тестировщики ежедневно с этими данными имеют дело: обновляют тест-кейсы, изучают результаты очистки. Часто заказчики дают «живую» базу, чтобы тестировщик настроил сервис под нее.
Первое, чему мы учим новых QA — сохранять данные в первозданном виде. Все по заветам: «Не навреди». В статье я расскажу, как аккуратно работать с CSV-файлами в Excel и Open Office. Советы помогут ничего не испортить, сохранить информацию после редактирования и в целом чувствовать себя увереннее.
Материал базовый, профессионалы совершенно точно заскучают.
Читать полностью »
Миграция данных в кровавом энтерпрайзе: что анализировать, чтобы не завалить проект
2018-11-30 в 11:01, admin, рубрики: big data, cdi, data mining, sql, анализ данных, Анализ и проектирование систем, архитектура системы, Блог компании HFLabs, миграция данных, системная интеграцияТипичный проект системной интеграции для нас выглядит так: у заказчика вагон систем для учета клиентов, задача — собрать клиентские карточки в единую базу. И не только собрать, а еще очистить от дублей и мусора. Чтобы на выходе получились чистые, структурированные, полные карточки клиентов.
Для начинающих поясню, что миграция идет по такой схеме: источники → преобразование данных (отвечает ETL или шина) → приемник.
На одном проекте мы потеряли три месяца просто потому, что сторонняя команда интеграторов не изучала данные в системах-источниках. Самое обидное, что этого можно было избежать.
Читать полностью »
Помогаем выплыть: как ввести новичков в сложный проект
2018-08-23 в 12:01, admin, рубрики: hr-процесс, Блог компании HFLabs, квест, онбординг, персонал, управление персоналом, управление проектами, управление проектами и командой, управление разработкойВсем привет! Меня зовут Михаил Берёзин, я — тимлид в HFLabs. Мы делаем очень сложный enterprise-софт для банков, сотовых операторов, страховых компаний, ритейлеров.
Полгода назад мы совершили большую ошибку: набрали в команду сразу 8 человек, штат вырос в 2 раза. Раньше никогда не брали так много людей скопом, поэтому забуксовали с онбордингом новичков. Расскажу, как справились с проблемой.
Читать полностью »
Подсказки «Дадаты» помогают заполнить любые формы ввода. Теперь заживем
2018-07-31 в 12:06, admin, рубрики: dadata, usability, автозаполнение, автозаполнитель форм, Блог компании HFLabs, интерфейсы, подсказки по банкам, подсказки при вводе, Разработка веб-сайтов, Разработка под e-commerce, юзабилити сайтов«Подсказки» помогают быстро и без ошибок заполнить поля ввода на сайтах и в CRM.
Данные для подсказок мы берем из разных справочников, раньше их было всего пять: ФИО, емейлы, почтовые адреса, реквизиты компаний и банков. С самого первого релиза нас просили добавить в «Подсказки» то один справочник, то другой. Мы бы и рады были, да не могли. Зато теперь можем!
С июля «Подсказки» понимают любые датасеты в формате CSV: марки автомобилей, валюты, торговые точки, хоть имена близких.
Теперь пользователи быстро и без ошибок вводят что угодно.
Читать полностью »
Как интернет-магазины теряют деньги из-за а́дреса в форме заказа
2018-07-17 в 11:05, admin, рубрики: usability, адреса, Блог компании HFLabs, веб-дизайн, доставка, интернет-магазины, интерфейсы, Разработка веб-сайтов, форма заказа, форма регистрации, чекаутДавненько мы не разбирали формы заказа. В этом выпуске — две ошибки, из-за которых интернет-магазины и службы доставки постоянно теряют деньги. А клиенты при этом вообще раскаляются.
Читать полностью »
Боремся с ошибками и «костылями» в ЕГРЮЛ — госреестре юридических лиц
2018-06-22 в 11:03, admin, рубрики: Анализ и проектирование систем, Блог компании HFLabs, ЕГРЮЛ, открытые данные, Разработка под e-commerce, реквизиты, реквизиты юрлиц, юридическое лицоНа прошлой неделе мы выпустили статью про устройство ЕГРЮЛ — госреестра с данными 10 миллионов компаний. Тот материал рассказывает о базовых вещах, поэтому начать лучше с него.
Здесь же мы раскроем богатую и благодатную тему — проблемы ЕГРЮЛа, которые не дают нашим разработчикам заскучать.
Читать полностью »
Как устроен ЕГРЮЛ — единый госреестр юридических лиц
2018-06-15 в 13:27, admin, рубрики: Анализ и проектирование систем, Блог компании HFLabs, егрип, ЕГРЮЛ, открытые данные, Разработка под e-commerce, реквизиты, реквизиты юрлиц, юридическое лицоЕГРЮЛ — это государственный реестр юридических лиц, в котором хранятся данные 10 миллионов российских компаний. Управляет справочником ФНС.
Из ЕГРЮЛ мы берем данные организаций для «Подсказок», «Единого клиента» и «Фактора». В статье расскажем, как мы жили до справочника, как получаем к нему доступ и как с ним работаем.
Читать полностью »
Задача со звездочкой: как мы перекодировали ФИАС в КЛАДР
2017-12-20 в 9:27, admin, рубрики: адреса, Анализ и проектирование систем, базы данных, Блог компании HFLabs, Геоинформационные сервисы, КЛАДР, Конвертеры, открытые данные, реверс-инжиниринг, ФИАСС 1 января ФНС перестанет обновлять адресный справочник КЛАДР. Он официально устареет, останется один ФИАС. Но многие промышленные системы до сих пор работают с КЛАДР. Поставщики не собираются их обновлять, а переделывать своими руками бизнесу выходит долго и дорого.
Мы послушали клиентов и придумали решение: взять ФИАС, который живее всех живых, и написать перекодировщик в КЛАДР.
Со стороны задача кажется легкой. Нам так и говорили: «То есть вы просто берете ФИАС и переделываете в КЛАДР?». На деле никакого «просто» нет. У справочников совсем разные структуры и непонятно, как из подкачанного ФИАС раскидать данные в неказистый КЛАДР. При этом общей документации для справочников нет.
Это было веселье, которым мы сейчас щедро поделимся.
Читать полностью »
Как «Дадата» ищет дубли в списках торговых точек. Разбираем алгоритм
2017-11-28 в 13:30, admin, рубрики: fmcg, Алгоритмы, Блог компании HFLabs, дедубликация, дедупликация, поисковые технологии, торговые представители, юр. лицоНаши клиенты хранят списки из тысяч компаний, и обычно там первозданный хаос.
Возьмем список торговых точек, через которые сельхозпроизводитель продает товары по всей стране. Названия магазинов пишут как хотят, поэтому типичный список выглядит так:
- Евразия.
- «САКУРА» Японская кухня.
- Доминант.
- Магазин-бутик «Евразия».
- Милениум, ООО, продуктовый магазин.
- Киви/ООО/Челябинск.
- Супермаркет эко-продуктов «Доминант».
Точки № 1 и № 4 — дубли, № 3 и № 7 — тоже, но поди разберись.
А разобраться надо: когда в списке из 1000 торговых точек 300 дублей, у производителя начинаются проблемы.
Читать полностью »