Рубрика «pgen»

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

2019-12-11 в 12:53, admin, рубрики: ABBYY, diy или сделай сам, natural language processing, pgen, RNN, seq2seq, Блог компании ABBYY, генерация заголовков, искусственный интеллект, машинное обучение, нейросеть, Новости, саммаризация, токены

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов» - 1 Только не удивляйтесь, но второй заголовок к этому посту сгенерировала нейросеть, а точнее алгоритм саммаризации. А что такое саммаризация?

Это одна из ключевых и классических задач Natural Language Processing (NLP). Она заключается в создании алгоритма, который принимает на вход текст и на выходе выдаёт его сокращённую версию. Причем в ней сохраняется корректная структура (соответствующая нормам языка) и правильно передается основная мысль текста.

Такие алгоритмы широко используются в индустрии. Например, они полезны для поисковых движков: с помощью сокращения текста можно легко понять, коррелирует ли основная мысль сайта или документа с поисковым запросом. Их применяют для поиска релевантной информации в большом потоке медиаданных и для отсеивания информационного мусора. Сокращение текста помогает в финансовых исследованиях, при анализе юридических договоров, аннотировании научных работ и многом другом. Кстати, алгоритм саммаризации сгенерировал и все подзаголовки для этого поста.

К моему удивлению, на Хабре оказалось совсем немного статей о саммаризации, поэтому я решил поделиться своими исследованиями и результатами в этом направлении. В этом году я участвовал в соревновательной дорожке на конференции «Диалог» и ставил эксперименты над генераторами заголовков для новостных заметок и для стихов с помощью нейронных сетей. В этом посте я вначале вкратце пробегусь по теоретической части саммаризации, а затем приведу примеры с генерацией заголовков, расскажу, какие трудности возникают у моделей при сокращении текста и как можно эти модели улучшить, чтобы добиться выдачи более качественных заголовков.
Читать полностью »

Работа над PEG на Core Developer Sprint

2019-11-04 в 3:46, admin, рубрики: packrat parsers, peg, pgen, python, алгоритм, Алгоритмы, Программирование

В этой статье я не буду рассказывать о новых фичах генератора парсера — я достаточно описал его в предыдущих частях. Вместо этого хочу рассказать что я делал на Core Developer Sprint на прошлой неделе, прежде чем всё сотрётся из моей памяти. Хотя большая часть материала так или иначе всё равно касается PEG. Так что мне придётся показать некоторый код, который задаёт направление в реализации PEG-парсера для Python 3.9.

Содержание серии статей о PEG-парсере в Python

Каждый год в течение последних четырёх лет группа разработчиков ядра Python собирается на недельный спринт в экзотическом месте. Эти спринты спонсируются принимающей стороной и PSF. Первые два года мы были у Facebook в Mountain View, в прошлом году была очередь Microsoft в Bellevue, а на этот спринт выбрали офис Bloomberg в Лондоне. (Должен сказать, что он выглядит довольно круто.) Слава core-разработчику Pablo Galindo Salgado за организацию!

Читать полностью »

Реализация остальных возможностей PEG

2019-11-01 в 19:56, admin, рубрики: packrat parsers, peg, pgen, python, алгоритм, Алгоритмы, Программирование

После того, как я собрал все части генератора PEG-парсеров воедино в предыдущем посте, я готов показать как реализовать и некоторые другие интересные штуки.

Содержание серии статей о PEG-парсере в Python

Мы рассмотрим следующие фичи PEG:

Читать полностью »

Леворекурсивные PEG грамматики

2019-10-26 в 4:14, admin, рубрики: packrat parsers, peg, pgen, python, алгоритм, Алгоритмы, Программирование

Я упоминал о левой рекурсии как о камне преткновения несколько раз, и пришло время разобраться с этим. Основная проблема заключается в том, что парсер с лево-рекурсивным спуском мгновенно падает из-за переполнения стека.

Содержание серии статей о PEG-парсере в Python

PEG парсеры
Реализация PEG парсера
Генерация PEG парсера
Визуализация работы PEG парсера
Леворекурсивные PEG грамматики
Добавление экшенов в грамматику PEG
Реализация остальных возможностей PEG
PEG на Core Developer Sprint

Рассмотрим это гипотетическое правило грамматики:

expr: expr '+' term | term

Читать полностью »

Реализация PEG парсера

2019-10-19 в 19:08, admin, рубрики: packrat parsers, peg, pgen, python, алгоритм, Алгоритмы, Программирование

Вдохновленный лишь частичным пониманием PEG, я решил попробовать его реализовать. Результат может получиться и не самым лучшим среди парсеров PEG общего назначения — их уже много (например, TatSu написан на Python и генерирует код Python) — но это хороший способ разобраться в PEG. В дальнейшем я хочу заменить им текущую реализацию парсера в CPython.

Содержание серии статей о PEG-парсере в Python

PEG парсеры
Реализация PEG парсера
Генерация PEG парсера
Визуализация работы PEG парсера
Леворекурсивные PEG грамматики
Добавление экшенов в грамматику PEG
Реализация остальных возможностей PEG
PEG на Core Developer Sprint

В этом разделе я закладываю основы для понимания работы парсера, на примере простой самописной реализации игрушечной грамматики из прошлой статьи.

Читать полностью »

PEG парсеры

2019-10-17 в 6:36, admin, рубрики: packrat parsers, peg, pgen, python, алгоритм, Алгоритмы, Программирование

Несколько лет назад меня кто-то спросил имеет ли смысл превести Python на PEG-парсер (или на грамматику PEG; я не помню точно кто и когда это было). Тогда я немного посмотрел на него, но так и не пришёл к какому-либо выводу, а потому и отбросил эту тему. Недавно я узнал больше о PEG (Parsing Expression Grammars, грамматике по парсингу выражений), и теперь я думаю, что это интересная альтернатива самописному генератору парсеров, который был разработан 30 лет назад, когда только начинал работать над Python. Я назвал его «pgen», и это был, наверно, первым фрагментом кода, который я написал для Python.

Содержание серии статей о PEG-парсере в Python

PEG парсеры
Реализация PEG парсера
Генерация PEG парсера
Визуализация работы PEG парсера
Леворекурсивные PEG грамматики
Добавление экшенов в грамматику PEG
Реализация остальных возможностей PEG
PEG на Core Developer Sprint

Причина, по которой я сейчас заинтересован в парсере PEG, заключается в том, что меня несколько раздражают ограничения pgen. Он построен на собственной реализации LL(1), которая имеет ряд допущений. Например, мне не нравились грамматические правила, которые могли бы генерировать пустые строки, поэтому я запретил их. И тем самым упростил алгоритм для создания таблиц синтаксического анализа. Я также изобрёл свою собственную EBNF-подобную грамматическую нотацию, которая мне до сих пор очень нравится.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «pgen»

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

Работа над PEG на Core Developer Sprint

Реализация остальных возможностей PEG

Леворекурсивные PEG грамматики

Реализация PEG парсера

PEG парсеры

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «pgen»

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

Работа над PEG на Core Developer Sprint

Реализация остальных возможностей PEG

Леворекурсивные PEG грамматики

Реализация PEG парсера

PEG парсеры

Новости

Актуальные темы

Архив