8-я Российская летняя школа по информационному поиску (RuSSIR 2014) пройдет в августе в Нижнем Новгороде. Традиционно сильная научная программа, веселые вечеринки, спортивные состязания и речные прогулки «после уроков», уникальное место встречи ученых с мировым именем, студентов и представителей интернет-индустрии. Дополнительная тема этого года – пользовательские интерфейсы и визуализация данных. Участие в школе бесплатное, заявки принимаются до конца июня.
Метка «natural language processing»
8-я Российская летняя школа по информационному поиску
2014-06-22 в 17:53, admin, рубрики: data mining, natural language processing, russir, russir 2014, информационный поиск, летняя школа, Поисковые машины и технологии, Учебный процесс в IT, метки: data mining, natural language processing, russir, russir 2014, информационный поиск, летняя школаИзвлечение объектов и фактов из текстов в Яндексе. Лекция для Малого ШАДа
2013-12-07 в 12:27, admin, рубрики: natural language processing, Алгоритмы, Блог компании Яндекс, искусственный интеллект, лингвистика, яндекс, метки: natural language processing, лингвистика, яндексВ докладе рассказывается о том, как мы извлекаем сущности (например, имена людей и географические названия) из текстов и запросов. А также об извлечении фактов, т.е. связей между объектами. Мы рассмотрим несколько подходов к решению этих задач: формулирование правил, составление словарей всевозможных объектов, машинное обучение.
Лекция рассчитана на старшеклассников — студентов Малого ШАДа, но и взрослые смогут с ее помощью восполнить некоторые пробелы.
Mathlingvo — блог о компьютерной лингвистике
2013-04-16 в 8:01, admin, рубрики: data mining, natural language processing, искусственный интеллект, Компьютерная лингвистика, обработка естественного языка, Поисковые машины и технологии, метки: natural language processing, Компьютерная лингвистика, обработка естественного языкаNatural Language Processing — область, которая становится все популярнее и популярнее в Росссии. Но отдельных ресурсов, посвященных этой теме, в рунете практически нет. Полгода назад на Хабре представляли NLPub, каталог ресурсов по компьютерной лингвистике. Но что делать, если хочешь читать новости? Можно попробовать начать с блога mathlingvo.ru
pymorphy2
2013-04-15 в 0:48, admin, рубрики: natural language processing, nlp, pymorphy2, python, trie, Алгоритмы, искусственный интеллект, метки: natural language processing, nlp, pymorphy2, trieВ далеком 2009 году на хабре уже была статья "Кузявые ли бутявки.." про pymorphy — морфологический анализатор для русского языка на Python (штуковину, которая умеет склонять слова, сообщать информацию о части речи, падеже и т.д.)
В 2012м я начал потихоньку делать pymorphy2 (github, bitbucket) — думаю, самое время представить эту библиотеку тут: pymorphy2 может работать в сотни раз быстрее, чем pymorphy (втч без использования C/C++ расширений) и при этом требовать меньше памяти; там лучше словари, лучше качество разбора, лучше поддержка буквы ё, проще установка и более «честный» API. Из негатива — не все возможности pymorphy сейчас реализованы в pymorphy2.
Эта статья о том, как pymorphy2 создавался (иногда с довольно скучными техническими подробностями), и сколько глупостей я при этом наделал; если хочется просто все попробовать, то можно почитать документацию.
«Он видел их семью своими глазами»
2012-10-22 в 8:19, admin, рубрики: natural language processing, open source, Компьютерная лингвистика, краудсорсинг, морфология, прокрастинация, русский язык, метки: natural language processing, Компьютерная лингвистика, краудсорсинг, морфология, прокрастинация, русский языкМожешь выбрать подходящую к заголовку поста картинку?
Тогда научи робота! Он тоже хочет.
Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.
Обработка естественного языка. Полезные инструменты
2012-08-17 в 9:25, admin, рубрики: data mining, natural language processing, python, Компьютерная лингвистика, Песочница, метки: natural language processing, python, Компьютерная лингвистика Последнее время на Хабре зачастили статьи про обработку естественного языка.
И так уж совпало, что последнее время я работаю в этой области.
Был очень хорошо освещен sentiment analysis, и теггер частей речи pymorphy.
Но мне хотелось бы рассказать, какие средства для NLP использовал я, и что я нашел нового, чего здесь еще не было
Читать полностью »
Обучаем компьютер чувствам (sentiment analysis по-русски)
2012-08-14 в 22:23, admin, рубрики: natural language processing, python, sentiment analysis, Алгоритмы, искусственный интеллект, Компьютерная лингвистика, метки: natural language processing, sentiment analysis, Компьютерная лингвистика
Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.
Читать полностью »
Парсим русский язык
2012-07-19 в 22:12, admin, рубрики: natural language processing, Алгоритмы, искусственный интеллект, Компьютерная лингвистика, синтаксический анализ, метки: natural language processing, Компьютерная лингвистика, синтаксический анализ
В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.
Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:
"Мама мыла раму":
(предложение
(именная гр. (сущ мама))
(глаг. гр. (глаг мыла)
(именная гр. (сущ раму)))
(. .)))
Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):
Читать полностью »
Опубликована программа конференции AINL
2012-05-17 в 11:41, admin, рубрики: artificial intelligence, machine translation, natural language processing, искусственный интеллект, Мероприятия, я пиарюсь, метки: artificial intelligence, machine translation, natural language processing26 мая в субботу в Санкт-Петербурге пройдет конференция AINL: Искуственный интеллект и естественный язык. На однодневной конференции будут представленны 25 докладов ведущих специалистов в области автоматической обработки естественного языка и искусственного интлеллекта.
Программа поделена на 7 секций:
— Искуственный Интеллект
— Речевые технологии
— Управление знаниями
— Text mining
— Лингвистические технологии
— Машинный перевод
— Интернет-технологии
Основной фокус конференции: онтологическое представление знаний, диалоговые системы, речевые технологии. Будет организована он-лайн трансляция и видеозапись докладов.
У желающих выступить с постером есть еще пять дней (до 22 мая), чтобы подать заявку на участие.
Зарегистрироваться в качестве слушателя можно на сайте конференции до 23-ого мая включительно.
Один день для искусственного интеллекта и естественного языка
2012-04-23 в 11:23, admin, рубрики: natural language processing, siri, watson, диалоговые системы, искусственный интеллект, Компьютерная лингвистика, конференция, обработка текстов, распознавание речи, синтез речи, метки: natural language processing, siri, watson, диалоговые системы, искусственный интеллект, Компьютерная лингвистика, конференция, обработка текстов, распознавание речи, синтез речи 26 мая 2012 в Санкт-Петербурге пройдет первая конференция AINL: Искусственный интеллект и естественный язык. Основные темы и направления: распознавание и синтез речи, искусственный интеллект и диалоговые системы, инженерия знаний и онтологии, извлечение данных и data mining.
Конференция будет длиться один день, официальный язык — русский.
Сейчас мы формируем программу и приглашаем докладчиков.