Рубрика «русский язык» - 5

Разбор естественного языка: грамматическая нотация - 1

Я уже довольно давно интересуюсь ИИ, особенно областью, связанной с пониманием машиной текстов, написанных на естественном языке. Как известно, классическая теория анализа текста разделяет этот процесс на три этапа:

  • Морфологический — анализ словоформ и их характеристик (число, падеж, и т.д.);
  • Синтаксический — выделение структуры предложения (отношения между словами);
  • Семантический — выделение смысла исходя из «модели мира»;

Первый этап в целом решён. Мы имеем подробные морфологические словари, покрывающие львиную долю слов, встречающихся в большинстве текстов. Кроме того, для распространённых языков существуют правила, позволяющие с достаточной точностью классифицировать неизвестные словоформы.

Ситуация с синтаксическим разбором куда более сложная. Существующие анализаторы не могут претендовать на правильность и точность разбора в сложных случаях. Большая часть качественных продуктов выпущены под проприетарной лицензией (в большей мере это касается русского языка; с английским проблема, кажется, не стоит столь остро). Поэтому для прогресса в понимании машиной текстов, написанных на естественном языке, мы нуждаемся в качественных и доступных синтаксических анализаторах.

Из-за отсутствия у меня глубоких знаний в области нейронных сетей я решил следовать более проторенной тропой, а именно разработать BNF-подобную грамматическую нотацию и реализовать анализатор, использующий грамматические правила, описанные с её помощью. С этой точки зрения при разработке практически полезного анализатора основная работа заключается именно в построении достаточной системы правил (что у меня далеко до завершения). В следующем посте я опишу устройство реализованного анализатора, а пока хочу сфокусироваться на разработанной грамматической нотации.
Читать полностью »

Известный ресурс Gog.com, продающий игры без DRM защиты, теперь стал ближе к русскоязычным пользователям.

Gog.com теперь на русском языке - 1

Cервис цифровой дистрибуции компьютерных игр и фильмов gog.com известен аудитории Habrahabr и Geektimes периодическими акциями по бесплатной раздаче некоторых старых игр. На память всплывают раздачи Читать полностью »

Поиск самых длинных цепочек слов в русском языке с помощью языка Wolfram Language (Mathematica) - 1

Скачать перевод в виде документа Mathematica, который содержит весь код использованный в статье, можно здесь (архив, ~5 МБ).

Введение

В русском языке, как и во многих других языках, существуют слова, которые имеют одинаковую длину, но при этом отличаются всего лишь одной буквой. Такого рода пары слов называются метаграммами.

Предположим, что у нас есть несколько последовательных метаграмм, скажем:

мнение-мление-тление-трение-прение-поение-роение-рдение-бдение-биение

они образуют цепь метаграмм, или цепочку слов.

Отсюда проистекает игра под названием цепь слов (word ladder), которую придумал в далеком 1879 году Льюис Кэрролл.

Ясно, что далеко не для каждого начального слова может быть составлена такого рода цепь, а некоторые слова, по-видимому, должны порождать довольно длинные цепи.

В этом посте мы постараемся проанализировать цепочки слов, которые могут быть построены в русском языке, а также найдем цепочки наибольшей длины.
Читать полностью »

Никто не забыт, ничто не забыто

С момента прихода в нашу школу Интернета, грамотность детей становится хуже и хуже. На форумах они часто пишут с нарочитыми ошибками (чтобы было “прикольно”), однако в результате забывают правила русского языка. Ситуация на сегодняшний день катастрофическая.

(публикация НГС.Новости от 2006 года)

Подобные жалобы, наверное, появились не вчера, и их можно найти, наверное и в древних письмах. Но сегодня ситуация с языком сложилась совсем новая: грамотность на форумах низкая, ошибки «ться-тся», «с перва» не прекращаются. (Оставим даже за скобками заимствования — для которых нет строгих формальных правил.) Ведь, если подумать — кошмар, люди не в состоянии запомнить простые школьные правила или хотя бы ставить знаки препинания. Язык ждёт катастрофа! Неужели?

Заметное многим «засорение» языка — не катастрофа и даже не проблема, а симптом процессов, с которыми язык вполне справится.
Читать полностью »

Здравствуйте, господа!

Здесь, на хабрушке, уже было несколько постов-душеизлияний с мольбами правильно писать, да и под каждым четвертым постом кто-нибудь не сдерживается и пишет в комменты гневные замечания на тему очередного «мне нравитЬся» или «вообщем».

А я поведу речь о произношении в мире IT. Потому что сил больше нет. Кровь из ушей льется на работе каждый день. Здесь представлена моя десятка наиболее ужасных вариантов произношения терминов из нашей сферы.

  1. Key ~ [kiː] = «кей» «киии»
    Да, друзья, сейчас я многих удивлю, но это слово читается именно так. По-моему, это даже не исключение. Monkey, donkey, turkey, whiskey — можно ориентироваться по этим словам. Я работаю в области криптографии, так что весь день сношу бесконечные «приватные кеи», «кей контэйнеры», «кей протоколы» и тому подобное. К слову, keygen тоже должен читаться по-другому: как «кииджен», а не "кейген".
    Читать полностью »

С начала Чемпионата Мира по футболу 2014 слежу за матчами, группами и результатами, используя Google. Мне показалось очень удобным, но вчерашним вечером это стало еще и забавным. Дело в том, что Google, по какой-то причине, начал показывать названия сборных в винительном падеже, что в некотором роде можно даже расценить как прогноз на игру. Впрочем вот:image

Читать полностью »

Решаем проблему грамотности в интернете с помощью Яндекс.Спеллера

«Если человек умер, он об этом не знает, только другим тяжело. То же самое, когда он тупой...»

И то же самое, когда он безграмотный.

К сожалению, невозможно заставить всех людей выучить правила и начать писать без ошибок. Это факт, с которым нужно смириться — ошибки в интернете есть и будут.

А что, если подойти к этой проблеме с другой стороны? Как было бы здорово иметь такой браузер, который при открытии страницы проверял бы текст и исправлял все ошибки. Или хотя бы часть. Ведь, по правде говоря, ошибки воспринимаются по-разному: забытая запятая скорее всего останется незамеченной, в то время как какие-нибудь «извени» или «правельно» вызывают кратковременное бешенство.

Что будет, если перед чтением страницы пропустить ее через фильтр и исправить орфографию, наподобие того как adblock режет рекламу?
Читать полностью »

     Hunspell является наиболее перспективным из имеющихся на сегодняшний свободных приложений для проверки правописания. Он встроен по умолчанию в такие программы как Firefox и OpenOffice. Словари к нему на сегодняшний день самые большие среди аналогов. Но с Emacs его так просто не подружить.
Читать полностью »

imageПост боли.

В последнее время эпидемия чудовищного отношения к грамматике родного языка принимает угрожающие обороты, поэтому молчать больше нельзя.

Никогда, вы слышите, никогда не склоняйте и не добавляйте суффиксы к названиям и терминам на латинице ни через пробел, ни через дефис, ни через уродливый апостроф. Глаз всегда запинается на таких формах. Вместо того, чтобы облегчить, вы затрудняете чтение. Представьте текст, в котором такие слова встречаются не по разу на абзац, а по три в каждом предложении. Легко ли будет его читать?

Ужас Более-менее Лучше всего
В JavaScript-е
В javascript'e
В JavaScript
В Яваскрипте
В JS
php-шник
php ист
Кстати, так никто не говорит, но пишут.
PHP-программист, PHP-кодер
Похапешник
Естественно, не для любого текста.
Избегать таких выражений.
«В штате три программиста.
Мы пишем на PHP.»

Читать полностью »

image
Совсем недавно мы столкнулись с необходимостью HTML-верстки большого количества разнообразного учебного (школьная программа) материала.

К сожалению, в ряде случаев пришлось отдельно готовить изображения с текстовыми блоками, которые были снабжены хитрой версткой. Это усложняет процессы HTML-верстки и внесения правок. Благодаря замечательному MathJax, мы смогли оптимизировать верстку в части математики, физики и неорганической химии, однако органическая химия осталась непобежденной. Да, есть пакеты для верстки структурных формул в LaTex, но в MathJax их поддержки нет.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js