Привет! Сегодня мы расскажем о том, как нашей команде из Smart Engines удалось победить на международном конкурсе по бинаризации документов DIBCO17, проводимом в рамках конференции ICDAR. Данный конкурс проводится регулярно и уже имеет солидную историю (он проводится 9 лет), за время которой было предложено множество невероятно интересных и безумных (в хорошем смысле) алгоритмов бинаризации. Несмотря на то, что в своих проектах по распознаванию документов при помощи мобильных устройств мы по возможности не используем подобные алгоритмы, команде показалось, что нам есть что предложить мировому сообществу, и в этом году мы впервые приняли решение участвовать в конкурсе.
Рубрика «python» - 179
История победы на международном соревновании по распознаванию документов команды компании SmartEngines
2017-12-14 в 8:32, admin, рубрики: data mining, python, Алгоритмы, бинаризация, Блог компании Smart Engines, машинное обучение, нейронные сети, обработка изображений, соревнованияКорреляция IQ с нашей жизнью (Feature ranking)
2017-12-12 в 23:28, admin, рубрики: data mining, feature selection, python, Занимательные задачки, машинное обучение, психология
Пролог
Порой у каждого из нас возникает вопрос, который не даёт нам покоя. И как правило ответ на такой вопрос можно получить лишь проанализировав опыт большого количества людей. У меня возник такой вопрос: «Какие факторы влияют на IQ и является ли он хоть чуточку преимуществом?». Конечно, читатель может воскликнуть, что всем давно уже все известно и можно прочитать статьи на эту тему. В какой-то степени вы окажитесь правы, но увы, статьи на тему IQ оказались крайне противоречивыми и навязали мне еще большее количество вопросов. Поэтому я и решил провести своё скромное исследование на эту тему.
Приглашаем на итоги конкурса по анализу данных
2017-12-12 в 11:44, admin, рубрики: data mining, python, sas, анализ данных, Блог компании SAS, математика, машинное обучение, прогнозирование
В эту пятницу (15 декабря) мы приглашаем читателей Хабра присоединиться к онлайн трансляции награждения победителей конкурса по прогнозированию невозврата кредита. Состязание длилось 4 месяца, задача была предоставлена Банком Хоум Кредит (собственно, как и данные).
Мы наградим победителей и призеров, послушаем презентации их решений.
- 1 место и Академический приз — Анзор Березгов
- 2 место — Иван Тимошилов
- 3 место — Александр Дьяконов
- Приз SAS — Дарья Соболева
Airflow Workshop: сложные DAG’и без костылей
2017-12-11 в 14:52, admin, рубрики: airflow, big data, dag, mail.ru, open source, python, sql, Блог компании Mail.Ru Group
Привет! Меня зовут Дина, и я занимаюсь разработкой игрового хранилища данных для решения задач аналитики в Mail.Ru Group. Наша команда для разработки batch-процессов обработки данных использует Apache Airflow (далее Airflow), об этом yuryemeliyanov писал в недавней статье. Airflow — это opensource-библиотека для разработки ETL/ELT-процессов. Отдельные задачи объединяются в периодически выполняемые цепочки задач — даги (DAG — Directed Acyclic Graph).
Как правило, 80 % проекта на Airflow — это стандартные DAG’и. В моей статье речь пойдёт об оставшихся 20 %, которые требуют сложных ветвлений, коммуникации между задачами — словом, о DAG’ах, нуждающихся в нетривиальных алгоритмах.
Решение задачи оптимизации многоступенчатых ракет
2017-12-10 в 13:10, admin, рубрики: python, scipy. optimize, математика, многоступенчатая ракета. библиотека, оптимизация, разработка под windows, функция цели
Введение
Методы нелинейной оптимизации широко применяются при проектировании машин и механизмов. Указанные методы применяются и в ракетостроении, например, для оптимизации многоступенчатых ракет [1].
Многоступенчатая ракета — это аппарат, в котором части конструкции отделяются во время полета, придавая оставшейся части ракеты дополнительную скорость. Трёхступенчатая ракета схематически показана на рисунке.
По мере движения ракеты, ступени отделяются до тех пор, пока не останется главная часть ракеты, несущая полезную нагрузку. Задача оптимизации ракеты состоит в таком распределении веса по ступеням, при котором определенная целевая функция достигает максимального либо минимального значения.
Мы рассмотрим две задачи в предположении, что коэффициент и скорость реактивной струи Cn постоянны на каждой ступени, однако на разных ступенях могут принимать различные значения. В обеих задачах в качестве целевой функции принят коэффициент полезной нагрузки ракеты G, который необходимо минимизировать.
Характеристики многоступенчатой ракеты можно описать двумя уравнениями. Первое уравнение для коэффициента полезной нагрузки ракеты:
где: W1– полезный вес ракеты ;WN –начальный вес ракеты до отделения ступеней.
Читать полностью »
Отчет о старте Atos IT Challenge
2017-12-08 в 15:03, admin, рубрики: data mining, data-visualisation, gensim, matplotlib, NLTK, python, визуализация данных, машинное обучениеЕсть ли у вас та штука, что называется pet project или side project? Тот самый проект, который бы вы делали в свое удовольствие и для себя, для саморазвития или расширения портфолио. Лично у меня долгое время не было ничего, что можно было бы показать. Однако, в рамках стартовавшего этой осенью конкурса Atos IT Challenge 2018, у меня как раз появилась возможность начать такой проект.
Учим машину разбираться в генах человека
2017-12-08 в 8:52, admin, рубрики: Digital Transformation, microsoft, python, Tech Acceleration, Алгоритмы, анализ данных, Блог компании Microsoft, генетика, машинное обучение, Программирование, РНК, цифровая трансформацияВсегда приятно осознавать, что применение технологий сводится не только к финансовой выгоде, бывают ещё и идеи, делающие мир лучше. Об одном из проектов с такой идеей мы и расскажем в этот морозный пятничный день. Вы узнаете о решении, которое позволило увеличить точность экспресс-анализа крови, с помощью применения алгоритмов машинного обучения для выявления связей между микро-РНК и генами. Также, стоит отметить, что методы, описанные ниже можно использовать не только в биологии.
Обзор литературы по языку Python для начинающих
2017-12-08 в 1:40, admin, рубрики: django, python, книги по программированию, Учебный процесс в ITОчень часто можно увидеть вопросы на том же тостере: «А какую книгу взять книгу, чтобы выучить технологи Х», и естественно в комментариях идет большое число мнений и большое число различных книг. В данной теме, я сделаю обзор самых популярных книг по Python для начинающих программистов, и дам четкое мнение – нужно ли их читать или нет (субъективно).
Нужно ли читать книги. Изучая новые технологии, я люблю читать книги по данной технологии, так как я получаю не только сухую информацию, но и субъективное мнение автора по пригодности данных технологий. И в отличие от видео-курсов, мне не приходится ждать, пока автор из себя выдавливает мысль. Да и читаю, я быстро.Читать полностью »
Сверточная сеть на python. Часть 1. Определение основных параметров модели
2017-12-07 в 18:12, admin, рубрики: python, Алгоритмы, математика, математика на пальцах, машинное обучение, обработка изображений, Программирование, сверточные нейронные сети
Несмотря на то, что можно найти не одну статью, объясняющую принцип метода обратного распространения ошибки в сверточных сетях (раз, два, три, четыре, пять и даже дающих “интуитивное” понимание — шесть), мне, тем не менее, никак не удавалось полностью понять эту тему. Кажется, что авторы недостаточно внимания уделяют обычным примерам либо же опускают какие-то хорошо понятные им, но не очевидные другим особенности, и весь материал по этой причине становится неподъемным. Мне хотелось разложить все по полочкам для самого себя и в итоге конспекты вылились в статью. Я постарался исключить все недостатки существующих объяснений и надеюсь, что эта статья ни у кого не вызовет вопросов или недопониманий. И, может, следующий новичок, который, также как и я, захочет во всем разобраться, потратит уже меньше времени.
Читать полностью »
Pygest #19. Релизы, статьи, интересные проекты, пакеты и библиотеки из мира Python [20 ноября 2017 — 5 декабря 2017]
2017-12-06 в 9:30, admin, рубрики: cpython, digest, django, django framework, machine learning, pandas, pycharm, pygame, python, события из мира python, Учебный процесс в IT, Читальный залВсем привет! Это уже девятнадцатый выпуск дайджеста на Хабрахабр о новостях из мира Python.
Присылайте свои интересные события из мира Python. Вместе мы сделаем Python еще лучше:)
Итак, поехали!