Рубрика «русский язык» - 5

Разбор естественного языка: грамматическая нотация

2015-04-07 в 7:46, admin, рубрики: diy или сделай сам, Go, nlp, грамматика, ИИ, Компиляторы, русский язык, синтаксический анализ

Разбор естественного языка: грамматическая нотация - 1

Я уже довольно давно интересуюсь ИИ, особенно областью, связанной с пониманием машиной текстов, написанных на естественном языке. Как известно, классическая теория анализа текста разделяет этот процесс на три этапа:

Морфологический — анализ словоформ и их характеристик (число, падеж, и т.д.);
Синтаксический — выделение структуры предложения (отношения между словами);
Семантический — выделение смысла исходя из «модели мира»;

Первый этап в целом решён. Мы имеем подробные морфологические словари, покрывающие львиную долю слов, встречающихся в большинстве текстов. Кроме того, для распространённых языков существуют правила, позволяющие с достаточной точностью классифицировать неизвестные словоформы.

Ситуация с синтаксическим разбором куда более сложная. Существующие анализаторы не могут претендовать на правильность и точность разбора в сложных случаях. Большая часть качественных продуктов выпущены под проприетарной лицензией (в большей мере это касается русского языка; с английским проблема, кажется, не стоит столь остро). Поэтому для прогресса в понимании машиной текстов, написанных на естественном языке, мы нуждаемся в качественных и доступных синтаксических анализаторах.

Из-за отсутствия у меня глубоких знаний в области нейронных сетей я решил следовать более проторенной тропой, а именно разработать BNF-подобную грамматическую нотацию и реализовать анализатор, использующий грамматические правила, описанные с её помощью. С этой точки зрения при разработке практически полезного анализатора основная работа заключается именно в построении достаточной системы правил (что у меня далеко до завершения). В следующем посте я опишу устройство реализованного анализатора, а пока хочу сфокусироваться на разработанной грамматической нотации.
Читать полностью »

Gog.com теперь на русском языке

2015-04-03 в 5:53, admin, рубрики: gog.com, игры, русский язык, Социальные сети и сообщества, электронная коммерция

Известный ресурс Gog.com, продающий игры без DRM защиты, теперь стал ближе к русскоязычным пользователям.

Gog.com теперь на русском языке - 1

Cервис цифровой дистрибуции компьютерных игр и фильмов gog.com известен аудитории Habrahabr и Geektimes периодическими акциями по бесплатной раздаче некоторых старых игр. На память всплывают раздачи Читать полностью »

Поиск самых длинных цепочек слов в русском языке с помощью языка Wolfram Language (Mathematica)

2014-12-21 в 17:52, admin, рубрики: wolfram language, wolfram mathematica, word ladder, Алгоритмы, визуализация данных, графы, математика, Программирование, русский язык, цепочка слов

Скачать перевод в виде документа Mathematica, который содержит весь код использованный в статье, можно здесь (архив, ~5 МБ).

Введение

В русском языке, как и во многих других языках, существуют слова, которые имеют одинаковую длину, но при этом отличаются всего лишь одной буквой. Такого рода пары слов называются метаграммами.

Предположим, что у нас есть несколько последовательных метаграмм, скажем:

мнение-мление-тление-трение-прение-поение-роение-рдение-бдение-биение

они образуют цепь метаграмм, или цепочку слов.

Отсюда проистекает игра под названием цепь слов (word ladder), которую придумал в далеком 1879 году Льюис Кэрролл.

Ясно, что далеко не для каждого начального слова может быть составлена такого рода цепь, а некоторые слова, по-видимому, должны порождать довольно длинные цепи.

В этом посте мы постараемся проанализировать цепочки слов, которые могут быть построены в русском языке, а также найдем цепочки наибольшей длины.
Читать полностью »

Грамотность — не в упадке

2014-08-17 в 23:43, admin, рубрики: грамматика, орфография, русский язык

Никто не забыт, ничто не забыто

С момента прихода в нашу школу Интернета, грамотность детей становится хуже и хуже. На форумах они часто пишут с нарочитыми ошибками (чтобы было “прикольно”), однако в результате забывают правила русского языка. Ситуация на сегодняшний день катастрофическая.

(публикация НГС.Новости от 2006 года)

Подобные жалобы, наверное, появились не вчера, и их можно найти, наверное и в древних письмах. Но сегодня ситуация с языком сложилась совсем новая: грамотность на форумах низкая, ошибки «ться-тся», «с перва» не прекращаются. (Оставим даже за скобками заимствования — для которых нет строгих формальных правил.) Ведь, если подумать — кошмар, люди не в состоянии запомнить простые школьные правила или хотя бы ставить знаки препинания. Язык ждёт катастрофа! Неужели?

Заметное многим «засорение» языка — не катастрофа и даже не проблема, а симптом процессов, с которыми язык вполне справится.
Читать полностью »

Программисты, говорите правильно!

2014-07-24 в 12:43, admin, рубрики: кровь из ушей, произношение в IT, русский язык, Терминология IT, Учебный процесс в IT

Здравствуйте, господа!

Здесь, на хабрушке, уже было несколько постов-душеизлияний с мольбами правильно писать, да и под каждым четвертым постом кто-нибудь не сдерживается и пишет в комменты гневные замечания на тему очередного «мне нравитЬся» или «вообщем».

А я поведу речь о произношении в мире IT. Потому что сил больше нет. Кровь из ушей льется на работе каждый день. Здесь представлена моя десятка наиболее ужасных вариантов произношения терминов из нашей сферы.

Key ~ [kiː] = ~~«кей»~~ «киии»
Да, друзья, сейчас я многих удивлю, но это слово читается именно так. По-моему, это даже не исключение. Monkey, donkey, turkey, whiskey — можно ориентироваться по этим словам. Я работаю в области криптографии, так что весь день сношу бесконечные «приватные кеи», «кей контэйнеры», «кей протоколы» и тому подобное. К слову, keygen тоже должен читаться по-другому: как «кииджен», а не "~~кейген~~".
Читать полностью »

Проблемы винительного падежа у Google, или Гондурас — Швейцарию

2014-06-25 в 11:48, admin, рубрики: Google, русский язык, футбол, Чулан, метки: Google, русский язык, футбол

С начала Чемпионата Мира по футболу 2014 слежу за матчами, группами и результатами, используя Google. Мне показалось очень удобным, но вчерашним вечером это стало еще и забавным. Дело в том, что Google, по какой-то причине, начал показывать названия сборных в винительном падеже, что в некотором роде можно даже расценить как прогноз на игру. Впрочем вот:

Читать полностью »

Решаем проблему грамотности в интернете с помощью Яндекс.Спеллера

2014-06-11 в 9:08, admin, рубрики: javascript, браузеры, граммар наци, русский язык, чистый интернет, метки: граммар наци, русский язык, чистый интернет

Решаем проблему грамотности в интернете с помощью Яндекс.Спеллера

«Если человек умер, он об этом не знает, только другим тяжело. То же самое, когда он тупой...»

И то же самое, когда он безграмотный.

К сожалению, невозможно заставить всех людей выучить правила и начать писать без ошибок. Это факт, с которым нужно смириться — ошибки в интернете есть и будут.

А что, если подойти к этой проблеме с другой стороны? Как было бы здорово иметь такой браузер, который при открытии страницы проверял бы текст и исправлял все ошибки. Или хотя бы часть. Ведь, по правде говоря, ошибки воспринимаются по-разному: забытая запятая скорее всего останется незамеченной, в то время как какие-нибудь «извени» или «правельно» вызывают кратковременное бешенство.

Что будет, если перед чтением страницы пропустить ее через фильтр и исправить орфографию, наподобие того как adblock режет рекламу?
Читать полностью »

Emacs и Hunspell: нормальная проверка правописания

2014-03-07 в 18:15, admin, рубрики: emacs, hunspell, русский язык, метки: emacs, hunspell, русский язык

Hunspell является наиболее перспективным из имеющихся на сегодняшний свободных приложений для проверки правописания. Он встроен по умолчанию в такие программы как Firefox и OpenOffice. Словари к нему на сегодняшний день самые большие среди аналогов. Но с Emacs его так просто не подружить.
Читать полностью »

Пора завязывать склонять латиницу

2014-02-14 в 15:39, admin, рубрики: IT-стандарты, переводы, русский язык, метки: переводы, русский язык

Пост боли.

В последнее время эпидемия чудовищного отношения к грамматике родного языка принимает угрожающие обороты, поэтому молчать больше нельзя.

Никогда, вы слышите, никогда не склоняйте и не добавляйте суффиксы к названиям и терминам на латинице ни через пробел, ни через дефис, ни через уродливый апостроф. Глаз всегда запинается на таких формах. Вместо того, чтобы облегчить, вы затрудняете чтение. Представьте текст, в котором такие слова встречаются не по разу на абзац, а по три в каждом предложении. Легко ли будет его читать?

Ужас	Более-менее	Лучше всего
В JavaScript-е В javascript'e	В JavaScript В Яваскрипте	В JS
php-шник php ист ^{Кстати, так никто не говорит, но пишут.}	PHP-программист, PHP-кодер Похапешник ^{Естественно, не для любого текста.}	Избегать таких выражений. «В штате три программиста. Мы пишем на PHP.»

Читать полностью »

Морфана: приставки, корни, суффиксы…

2013-11-05 в 11:52, admin, рубрики: html, javascript, Веб-разработка, русский язык, метки: русский язык

Совсем недавно мы столкнулись с необходимостью HTML-верстки большого количества разнообразного учебного (школьная программа) материала.

К сожалению, в ряде случаев пришлось отдельно готовить изображения с текстовыми блоками, которые были снабжены хитрой версткой. Это усложняет процессы HTML-верстки и внесения правок. Благодаря замечательному MathJax, мы смогли оптимизировать верстку в части математики, физики и неорганической химии, однако органическая химия осталась непобежденной. Да, есть пакеты для верстки структурных формул в LaTex, но в MathJax их поддержки нет.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «русский язык» - 5

Разбор естественного языка: грамматическая нотация

Gog.com теперь на русском языке

Поиск самых длинных цепочек слов в русском языке с помощью языка Wolfram Language (Mathematica)

Введение

Грамотность — не в упадке

Программисты, говорите правильно!

Проблемы винительного падежа у Google, или Гондурас — Швейцарию

Решаем проблему грамотности в интернете с помощью Яндекс.Спеллера

Emacs и Hunspell: нормальная проверка правописания

Пора завязывать склонять латиницу

Морфана: приставки, корни, суффиксы…

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «русский язык» - 5

Введение

Новости

Актуальные темы

Архив