Рубрика «русский язык» - 6

В работе на языке Python я частенько использую библиотеку Pytils для работы с русским текстом, и мне очень не хватало этой библиотеки при работе на PHP. Возможно, я искал плохо, но все, что я находил, не предоставляло подобных возможностей либо не слишком отвечало моим понятиям о чистом коде.

И вот, однажды я решил портировать библиотеку на PHP, и теперь хочу поделиться ею с народом и очень надеюсь на помощь в ее улучшении: буду рад советам, баг-репортам и особенно pull-реквестам. Библиотека находится на GitHub'е: github.com/Andre-487/php_rutils

Возможности библиотеки

PHP RUtils — порт Pytils на PHP. Это утилиты для работы с русским текстом. Утилиты разделены на следующие модули (классы):

  • Numeral — работа с числами: склонение существительных в зависимости от количества, числа прописью, суммы денег в рублях и копейках прописью.
  • Dt — работа с датами: расширение формата дат PHP русскими именами месяцев, дней недели; временные периоды (например, 24 976 дней назад).
  • Translit — транслитерация, подготовка строк для использования в URL'ях, именах файлов.
  • Typo — небольшой набор правил типографики простого текста.

Читать полностью »

Вам часто приходится иметь дело со склонением имён пользователей на русском языке? При рассылке писем, при отображении страниц и упоминаний, при генерации рекламных объявлений? Скорее всего, приходится изворачиваться и писать все сообщения в именительном падеже — Иванов Пётр Сергеевич.

Это не всегда удобно, не всегда красиво, не всегда уместно. Русский язык одарён богатой морфологией, которая несколько затрудняет его автоматическую обработку. Всем известно, что антропонимы, как полагается именам существительным, подчиняются всем правилам словообразования.

Для решения этой проблемы при использовании Ruby существует Petrovich — удобная легковесная библиотека для автомагического склонения русскоязычных имён, фамилий и отчеств.

Petrovich просклоняет русские имена
Читать полностью »

Около года назад здесь был представлен некоммерческий ресурс NLPub — каталог лингвистических решений для обработки русского языка.

Мы по-прежнему продолжаем придерживаться некоммерческих целей. За прошедшее время мне довелось слышать много тёплых слов, замечаний, пожеланий и благодарностей за работу над каталогом и экосистемой. Я искренне восхищён интересом к NLPub со стороны людей: нам удалось поймать тенденцию, сделать хороший продукт, и предоставить его соответствующей аудитории. Это само по себе является огромной ценностью.

Самая частая просьба, которую мне доводится слышать — просьба сделать на базе NLPub какой-нибудь специализированный сервис вопросов и ответов. Сервис, где люди могут спросить что-нибудь про обработку естественного языка, и получить ответ от компетентных специалистов, работающих в этой области.

Было бы некорректно игнорировать просьбы и пожелания людей, которые работают над тем, чтобы заставить вычислительную технику понимать наш язык и речь. Мы представляем NLPub Q&A — русскоязычный сервис вопросов и ответов о компьютерной лингвистике.
Читать полностью »

Почему вокруг так много матерятся? Одно дело, когда на ногу падает молоток, или когда надо срочно сообщить коллеге, что он не успевает сделать макет сайта. Но в Интернете-то у автора всегда должно быть достаточно времени, чтобы подобрать красивую фразу и показать себя грамотным интеллигентным человеком с большим словарным запасом. К сожалению, редок тот случай, когда обсценная лексика действительно уместна — навскидку, один на сотню.

Некоторые владельцы форумов, чатов и блогов борются с обилием мата организационными мерами (устанавливая правила) или техническими (используя парсеры), но самый большой недостаток существующих антимат-систем — это многочисленные ложные срабатывания, порождающие удивительные неологизмы вроде заштричлен, застрапенис и скигей (кто не догадался — в оригинале было слово «скигей»). Также скрипты (а зачастую — и сами авторы текстов) иногда заменяют буквы из середины бранных слов на звёздочки (***) или символы "#$%^", из-за чего у меня возникает подозрение, что у этих людей вместо половых органов чёрные квадратики.

Мы пойдём иным путём: пусть читатель сам решает, что он хочет видеть на экране: красочный русский мат или не менее красочный литературный русский язык. Мы разработаем расширение для браузера, заменяющее ненормативную лексику на синонимичные литературные выражения. Основным и решающим требованием к расширению является естественность и читабельность текста после замены. Мы не хотим обеднять язык, просто изымая из него мат — мы обогащаем его, предлагаем взамен нечто большее.

В нижеследующей статье я провожу поверхностное лингвистическое исследование русского мата, а также даю краткий курс регулярных выражений в JavaScript и руководство по созданию расширений для браузера Chrome.
Также заранее заявляю, что не обнаружил в правилах сайта ни слова об использовании мата в постах (если не прав — поправьте), так что, под хабракатом его будет много. Разумеется, исключительно в благородных исследовательских целях. Извините, если кого-то этим оскорбляю.
Читать полностью »

На Хабре не раз (и даже не два) делались шикарные обзоры спорт-трекеров и много говорилось о пользе пива спорта.

Все это неспроста. Культура вести активный и здоровый образ жизни на всем постсоветском пространстве и на самом Хабре растет семимильными шагами и, чем выше благосостояние, тем больше спорта. Это аксиома.

На западе эта тема не нова, и уже давно существует целая куча серьезных спорт-трекеров. Казалось бы, и количество и качество должны удовлетворять рынок. Собственно так и есть. Влезть туда уже сложно, но у нас нашлись причины попробовать.

Аэробия — первый национальный спорт трекер

Читать полностью »

Бытует мнение, что русская морфология у Яндекса реализована лучше чем у Google. В этой статье я покажу, что дело обстоит ровным счетом наоборот.
image
Читать полностью »

Все, конечно же, знают о платформе StackOverflow, которая не раз помогала нам в решении тех или иных задач. Но далеко не каждый интересовался остальными проектами сети StackExchange. Одним из таких проектов является Area 51, основная задача которого — предложение новых FAQ-сайтов для сети StackExhange. В последние дни начало набирать активность предложение пользователя diffycat по созданию русского аналога для StackOverflow.
Читать полностью »

Можешь выбрать подходящую к заголовку поста картинку?

«Он видел их семью своими глазами»

Тогда научи робота! Он тоже хочет.

Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать полностью »

Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.

Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.

Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js