Обработка естественного языка сейчас не используются разве что в совсем консервативных отраслях. В большинстве технологических решений распознавание и обработка «человеческих» языков давно внедрена: именно поэтому обычный IVR с жестко заданными опциями ответов постепенно уходит в прошлое, чатботы начинают все адекватнее общаться без участия живого оператора, фильтры в почте работают на ура и т.д. Как же происходит распознавание записанной речи, то есть текста? А вернее будет спросить, что лежит в основе соврменных техник распознавания и обработки? На это хорошо отвечает наш сегодняшний адаптированный перевод – под катом вас ждет лонгрид, который закроет пробелы по основам NLP. Приятного чтения!
Рубрика «python» - 121
Основы Natural Language Processing для текста
2019-04-15 в 5:54, admin, рубрики: machine learning, nlp (natural language processing), python, Блог компании Voximplant, машинное обучение, обработка естественного языка, Программирование, распознавание текстаПишем простой NTP-клиент
2019-04-14 в 14:43, admin, рубрики: client, network, ntp, python, time, Сетевые технологииЗдравствуйте, читатели. Сегодня я хочу рассказать о том, как написать свой простенький NTP клиент. В основном, разговор зайдет о структуре пакета и способе обработки ответа с NTP сервера. Код будет написан на питоне, потому что, как мне кажется, лучшего языка для подобных вещей просто не найти. Знатоки обратят внимание на схожесть кода с кодом ntplib — я «вдохновлялся» именно им.
Читать полностью »
Подсчитываем энергобюджет радиолинии для спутника формата CubeSat
2019-04-12 в 8:05, admin, рубрики: python, python3, космонавтика, космосПредисловие
Думаю, нужно коротко пояснить, почему вдруг такая, казалось бы, тривиальная тема с подсчетом энергобюджета и почему именно спутники CubeSat? Ну, здесь всё достаточно просто: моя короткая педагогическая практика показала (мне), что тема эта хоть и базисная, но далеко не всеми с первого раза понимаемая, а более того имеющая несколько неочевидных в первом прочтении вопросов. Тем более, что, казалось бы, по таким базовым вещам до сих пор публикуют статьи в IEEE и делают это далеко не студенты. Почему именно CubeSat? Здесь всё ещё проще: формат спутника интересный (сам факт существования микро- и наноспутников, как выяснилось, повергает многих в состояние короткого шока), а потому как нельзя кстати подходящий для учебных целей.
Детектирование поваленного леса на основе аэрофотосъёмки
2019-04-10 в 15:46, admin, рубрики: machine learning, python, машинное обучениеАнализ / обзор
- Первостепенная задача – выявление местоположения и характера завалов для поисково-спасательных отрядов. Независимо от постановки задач, необходимо планировать и отслеживать маршруты движения отряда в лесу. Неправильно направленный отряд может потеряться в буреломе от нескольких часов, до нескольких недель, вплоть до летального исхода. Завалы могут образоваться в любое время года, по самым разным причинам. Их нельзя отмечать на топографических картах, которые чертят раз в несколько десятков лет, как раз из-за их непостоянности. Завалы – временное, и неожиданно наступающее явление.
- Читать полностью »
Расширение mypy с помощью плагинов
2019-04-10 в 12:10, admin, рубрики: mypy, python, Блог компании OTUS. Онлайн-образование, плагины, Программирование, Разработка веб-сайтовДобрый день, друзья. А мы продолжаем наращивать интенсивность запуска новых курсов и уже сейчас рады сообщить о том, что в конце апреля стартуют занятия по курсу «Web-разработчик на Python». В связи с этим традиционно делимся переводом полезного материала. Начнём.
Известно, что Python – язык с динамической типизацией. Очень просто писать DSL-подобные фреймворки, которые трудно разобрать инструментами статичной проверки типа. Несмотря на это, с помощью последних функциональных новшеств mypy, таких как protocols и literal types, а также с базовой поддержкой метаклассов и поддержкой дескриптора, мы можем чаще получать точные типы, однако по прежнему трудно избежать ложных срабатываний и других негативных факторов. Чтобы решить эту проблему и избежать необходимости кастомизировать систему типов для каждого фреймворка, mypy поддерживает систему плагинов. Плагины — это модули в Python, которые обеспечивают обратные вызовы (plugin hooks), которые mypy вызовет при проверке типов классов и функций, взаимодействующих с библиотекой или фреймворком. Таким образом можно точнее выделить тип возвращаемой функции, который в противном случае выразить крайне трудно, либо автоматически сгенерировать некоторые методы класса, чтобы отразить эффекты декоратора. Чтобы узнать больше об архитектуре системы плагинов и увидеть полный список возможностей, ознакомьтесь с документацией.
Управление Raspberry через websockets
2019-04-10 в 3:44, admin, рубрики: ddns, python, Raspberry Pi, websockets, Разработка на Raspberry PiRaspberry Pi снискали огромную популярность по всему миру. Однако многие из любителей-разработчиков сталкиваются с проблемой доступа к устройству из интернета. Как правило приходится необходимо колдовать с DDNS или докупать статический IP адрес. Оба варианта предполагают настройка роутера, что не для всех и не всегда доступно. Кроме того – откртытие прямого доступа к устройству из интрента несет в себе определнные риски безопасности.
Крайне распространенным способом решения этой проблемы является использование промежуточного сервера, через который сервер и клиент подключаются друг к другую.
Схема крайне широко используется в различных пакетах удаленного доступа: VNCViewer, AmmyyAdmin и т.д.
Вариант 1-DDNS
Вариант 2 – статический IP адрес
Вариант 3 – использование промежуточного сервера
Эту схему подключения можно реализовать через протокол MQTT over Websockets, но мне было инетесно реализовать что-то значительно более простое, JSON-ориентированое, расширяемое, без ограничений протокола на размер сообщения и с более очевидной моделью безопасности.
Читать полностью »
Прорабатываем навык использования группировки и визуализации данных в Python
2019-04-09 в 16:36, admin, рубрики: data mining, python, Блог компании Mail.Ru Group, визуализация данных, визуализация питон кода, данные, навыки программирования
Привет!
Сегодня будем прорабатывать навык использования средств группирования и визуализации данных в Python. В предоставленном датасете на Github проанализируем несколько характеристик и построим набор визуализаций.
По традиции, в начале, определим цели:
- Сгруппировать данные по полу и году и визуализировать общую динамику рождаемости обоих полов;
- Найти самые популярные имена за всю историю;
- Разбить весь временной промежуток в данных на 10 частей и для каждой найти самое популярное имя каждого пола. Для каждого найденного имени визуализировать его динамику за все время;
- Для каждого года рассчитать сколько имен покрывает 50% людей и визуализировать (мы увидим разнообразие имен за каждый год);
- Выбрать 4 года из всего промежутка и отобразить для каждого года распределение по первой букве в имени и по последней букве в имени;
- Составить список из нескольких известных людей (президенты, певцы, актеры, киногерои) и оценить их влияние на динамику имен. Построить наглядную визуализацию.
Меньше слов, больше кода!
И, поехали.
Читать полностью »
Подборка @pythonetc, март 2019
2019-04-09 в 15:20, admin, рубрики: python, pythonetc, Блог компании Mail.Ru Group, ПрограммированиеЭто десятая подборка советов про Python и программирование из моего авторского канала @pythonetc.
0_0
0_0
— полностью корректное выражение на Python.
Читать полностью »
Unittest и абстрактные тесты
2019-04-09 в 14:49, admin, рубрики: django, python, python3, unittest, Тестирование веб-сервисовВместо вступления
Unittest — наверное самый известный фреймворк для написания тестов в Python. Он очень прост в освоении и его легко начать использовать в вашем проекте. Но ничто не бывает идеальным. В этом посте я хочу рассказать об одной возможности, которой лично мне (думаю, не одному) не хватает в unittest.
Читать полностью »
Для чего и как мы скрываем госномера автомобилей в объявлениях Авито
2019-04-09 в 10:17, admin, рубрики: computer vision, development, machine learning, object detection, production, python, Алгоритмы, машинное обучение, ПрограммированиеПривет. В конце прошлого года мы стали автоматически скрывать номера автомобилей на фотографиях в карточках объявлений на Авито. О том, зачем мы это сделали, и какие есть способы решения таких задач, читайте в статье.