Рубрика «Компьютерная лингвистика» - 4

Mathlingvo — блог о компьютерной лингвистике

2013-04-16 в 8:01, admin, рубрики: data mining, natural language processing, искусственный интеллект, Компьютерная лингвистика, обработка естественного языка, Поисковые машины и технологии, метки: natural language processing, Компьютерная лингвистика, обработка естественного языка

Natural Language Processing — область, которая становится все популярнее и популярнее в Росссии. Но отдельных ресурсов, посвященных этой теме, в рунете практически нет. Полгода назад на Хабре представляли NLPub, каталог ресурсов по компьютерной лингвистике. Но что делать, если хочешь читать новости? Можно попробовать начать с блога mathlingvo.ru

Читать полностью »

Создание частотного словаря на основе анализа библиотеки художественной литературы

2012-12-12 в 9:42, admin, рубрики: Компьютерная лингвистика, оптимизация кода, Песочница, Семантическая Сеть, структуры данных, метки: Компьютерная лингвистика, оптимизация кода, структуры данных

Общий привет.

Недавно, для шлифовки морфологического словаря, способного (предположительно) генерировать все возможные формы слова из инфинитива — мне понадобился достаточно объемный частотный словарь русского языка. Частотный словарь — вещь очень простая, слова в нем упорядочены по частоте, с которой они встречаются в анализируемом тексте.
Читать полностью »

Новые подробности о шифре Copiale 18 века

2012-11-22 в 1:54, admin, рубрики: Компьютерная лингвистика, криптоанализ, криптография, масонство, машинный перевод, революция, шифр подстановки, метки: Компьютерная лингвистика, криптоанализ, масонство, машинный перевод, революция, шифр подстановки

Новые подробности о шифре Copiale 18 века

Журнал Wired опубликовал замечательную историю о том, как специалисты по машинному переводу текстов вместе с лингвистами сумели найти ключ к шифру масонского манускрипта 1760-1780-х годов, который никто не мог прочитать с момента его находки в 1970 году и который считался одним из самых трудных шифров в мире. О расшифровке рукописи сообщалось год назад — в октябре 2011 года, тогда были расшифрованы первые 16 страниц текста. С тех пор учёные значительно продвинулись в понимании этого уникального документа, составленного членами ордена Окулистов.

Оказалось, что кроме расшифрованного текста, отдельные символы расшифрованной рукописи означают цифры, которые составляют другую, отдельную шифрограмму, и её пока не удалось расшифровать.
Читать полностью »

«Он видел их семью своими глазами»

2012-10-22 в 8:19, admin, рубрики: natural language processing, open source, Компьютерная лингвистика, краудсорсинг, морфология, прокрастинация, русский язык, метки: natural language processing, Компьютерная лингвистика, краудсорсинг, морфология, прокрастинация, русский язык

Можешь выбрать подходящую к заголовку поста картинку?

«Он видел их семью своими глазами»

Тогда научи робота! Он тоже хочет.

Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать полностью »

NLPub — каталог лингвистических решений

2012-10-01 в 4:37, admin, рубрики: data mining, nlpub, искусственный интеллект, Компьютерная лингвистика, обработка естественного языка, образование, Поисковые машины и технологии, русский язык, сообщество, метки: nlpub, Компьютерная лингвистика, обработка естественного языка, образование, русский язык, сообщество

Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.

Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.

Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?
Читать полностью »

Обработка естественного языка. Полезные инструменты

2012-08-17 в 9:25, admin, рубрики: data mining, natural language processing, python, Компьютерная лингвистика, Песочница, метки: natural language processing, python, Компьютерная лингвистика

Последнее время на Хабре зачастили статьи про обработку естественного языка.
И так уж совпало, что последнее время я работаю в этой области.
Был очень хорошо освещен sentiment analysis, и теггер частей речи pymorphy.
Но мне хотелось бы рассказать, какие средства для NLP использовал я, и что я нашел нового, чего здесь еще не было
Читать полностью »

Обучаем компьютер чувствам (sentiment analysis по-русски)

2012-08-14 в 22:23, admin, рубрики: natural language processing, python, sentiment analysis, Алгоритмы, искусственный интеллект, Компьютерная лингвистика, метки: natural language processing, sentiment analysis, Компьютерная лингвистика

Обучаем компьютер чувствам (sentiment analysis по русски)

Sentiment analysis (по-русски, анализ тональности) — это область компьютерной лингвистики, которая занимается изучением мнений и эмоций в текстовых документах. Недавно на хабре появилась статья про использование машинного обучения для анализа тональности, однако, она была настолько плохо составлена, что я решил написать свою версию. Итак, в этой статье я постараюсь доступно объяснить, что такое анализ тональности, и как реализовать подобную систему для русского языка.
Читать полностью »

Парсим русский язык

2012-07-19 в 22:12, admin, рубрики: natural language processing, Алгоритмы, искусственный интеллект, Компьютерная лингвистика, синтаксический анализ, метки: natural language processing, Компьютерная лингвистика, синтаксический анализ

Парсим русский язык
В прошлый раз (почти год назад) мы определяли части речи в русском тексте, производили морфологический анализ слов. В этой статье мы пойдем на уровень выше, к синтаксическому анализу целых предложений.

Наша цель заключается в создании парсера русского языка, т.е. программы, которая на вход бы принимала произвольный текст, а на выходе выдавала бы его синтаксическую структуру. Например, так:

"Мама мыла раму":

(предложение
    (именная гр. (сущ мама))
    (глаг. гр. (глаг мыла)
        (именная гр. (сущ раму)))
    (. .)))

Это называется синтаксическим деревом предложения. В графическом виде его можно представить следующим образом (в упрощенном виде):
Парсим русский язык
Читать полностью »

«Диалог-2012»: соревнования по анализу тональности текстов и конкурс синтаксических анализаторов

2012-07-12 в 20:02, admin, рубрики: ABBYY, Блог компании ABBYY, диалог, искусственный интеллект, Компьютерная лингвистика, метки: ABBYY, диалог, Компьютерная лингвистика

«Диалог 2012»: соревнования по анализу тональности текстов и конкурс синтаксических анализаторов В прошлом году мы довольно подробно писали про международную конференцию по компьютерной лингвистике «Диалог», одним из основных организаторов которой является наша компания. Конференция нынешнего года была примечательна тем, что на ней были подведены итоги сразу двух соревнований между системами автоматического анализа текста. За подробностями добро пожаловать под кат.

Читать полностью »

ABBYY открывает две кафедры компьютерной лингвистики

2012-07-05 в 23:07, admin, рубрики: ABBYY, Блог компании ABBYY, Компьютерная лингвистика, МФТИ, РГГУ, Учебный процесс в IT, метки: ABBYY, Компьютерная лингвистика, МФТИ, РГГУ

Как знают наши постоянные читатели, ABBYY не только выпускает программные продукты, но и много лет занимается научными исследованиями в области компьютерной лингвистики, без которых эти продукты не могли бы появиться. Мы также ежегодно проводим международную конференцию «Диалог» (подробно о ней – здесь). А недавно наша компания открыла кафедры компьютерной лингвистики в двух московских вузах – в Институте лингвистики РГГУ (совместно с IBM) и на факультете инноваций и высоких технологий МФТИ.

У ABBYY уже есть позитивный опыт обучения студентов: на базе МФТИ шесть лет работает наша кафедра распознавания изображений и обработки текста, а многие из ее выпускников успели сделать неплохую карьеру в компании. Поэтому мы надеемся, что с подготовкой компьютерных лингвистов у нас тоже получится.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Компьютерная лингвистика» - 4

Mathlingvo — блог о компьютерной лингвистике

Создание частотного словаря на основе анализа библиотеки художественной литературы

Новые подробности о шифре Copiale 18 века

«Он видел их семью своими глазами»

Можешь выбрать подходящую к заголовку поста картинку?

Тогда научи робота! Он тоже хочет.

NLPub — каталог лингвистических решений

Обработка естественного языка. Полезные инструменты

Обучаем компьютер чувствам (sentiment analysis по-русски)

Парсим русский язык

«Диалог-2012»: соревнования по анализу тональности текстов и конкурс синтаксических анализаторов

ABBYY открывает две кафедры компьютерной лингвистики

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Компьютерная лингвистика» - 4

Можешь выбрать подходящую к заголовку поста картинку?

Тогда научи робота! Он тоже хочет.

Новости

Актуальные темы

Архив