Рубрика «русский язык» - 6

Около года назад здесь был представлен некоммерческий ресурс NLPub — каталог лингвистических решений для обработки русского языка.

Мы по-прежнему продолжаем придерживаться некоммерческих целей. За прошедшее время мне довелось слышать много тёплых слов, замечаний, пожеланий и благодарностей за работу над каталогом и экосистемой. Я искренне восхищён интересом к NLPub со стороны людей: нам удалось поймать тенденцию, сделать хороший продукт, и предоставить его соответствующей аудитории. Это само по себе является огромной ценностью.

Самая частая просьба, которую мне доводится слышать — просьба сделать на базе NLPub какой-нибудь специализированный сервис вопросов и ответов. Сервис, где люди могут спросить что-нибудь про обработку естественного языка, и получить ответ от компетентных специалистов, работающих в этой области.

Было бы некорректно игнорировать просьбы и пожелания людей, которые работают над тем, чтобы заставить вычислительную технику понимать наш язык и речь. Мы представляем NLPub Q&A — русскоязычный сервис вопросов и ответов о компьютерной лингвистике.
Читать полностью »

Почему вокруг так много матерятся? Одно дело, когда на ногу падает молоток, или когда надо срочно сообщить коллеге, что он не успевает сделать макет сайта. Но в Интернете-то у автора всегда должно быть достаточно времени, чтобы подобрать красивую фразу и показать себя грамотным интеллигентным человеком с большим словарным запасом. К сожалению, редок тот случай, когда обсценная лексика действительно уместна — навскидку, один на сотню.

Некоторые владельцы форумов, чатов и блогов борются с обилием мата организационными мерами (устанавливая правила) или техническими (используя парсеры), но самый большой недостаток существующих антимат-систем — это многочисленные ложные срабатывания, порождающие удивительные неологизмы вроде заштричлен, застрапенис и скигей (кто не догадался — в оригинале было слово «скигей»). Также скрипты (а зачастую — и сами авторы текстов) иногда заменяют буквы из середины бранных слов на звёздочки (***) или символы "#$%^", из-за чего у меня возникает подозрение, что у этих людей вместо половых органов чёрные квадратики.

Мы пойдём иным путём: пусть читатель сам решает, что он хочет видеть на экране: красочный русский мат или не менее красочный литературный русский язык. Мы разработаем расширение для браузера, заменяющее ненормативную лексику на синонимичные литературные выражения. Основным и решающим требованием к расширению является естественность и читабельность текста после замены. Мы не хотим обеднять язык, просто изымая из него мат — мы обогащаем его, предлагаем взамен нечто большее.

В нижеследующей статье я провожу поверхностное лингвистическое исследование русского мата, а также даю краткий курс регулярных выражений в JavaScript и руководство по созданию расширений для браузера Chrome.
Также заранее заявляю, что не обнаружил в правилах сайта ни слова об использовании мата в постах (если не прав — поправьте), так что, под хабракатом его будет много. Разумеется, исключительно в благородных исследовательских целях. Извините, если кого-то этим оскорбляю.
Читать полностью »

На Хабре не раз (и даже не два) делались шикарные обзоры спорт-трекеров и много говорилось о пользе пива спорта.

Все это неспроста. Культура вести активный и здоровый образ жизни на всем постсоветском пространстве и на самом Хабре растет семимильными шагами и, чем выше благосостояние, тем больше спорта. Это аксиома.

На западе эта тема не нова, и уже давно существует целая куча серьезных спорт-трекеров. Казалось бы, и количество и качество должны удовлетворять рынок. Собственно так и есть. Влезть туда уже сложно, но у нас нашлись причины попробовать.

Аэробия — первый национальный спорт трекер

Читать полностью »

Бытует мнение, что русская морфология у Яндекса реализована лучше чем у Google. В этой статье я покажу, что дело обстоит ровным счетом наоборот.
image
Читать полностью »

Все, конечно же, знают о платформе StackOverflow, которая не раз помогала нам в решении тех или иных задач. Но далеко не каждый интересовался остальными проектами сети StackExchange. Одним из таких проектов является Area 51, основная задача которого — предложение новых FAQ-сайтов для сети StackExhange. В последние дни начало набирать активность предложение пользователя diffycat по созданию русского аналога для StackOverflow.
Читать полностью »

Можешь выбрать подходящую к заголовку поста картинку?

«Он видел их семью своими глазами»

Тогда научи робота! Он тоже хочет.

Команда проекта Открытый корпус просит хабралюдей помочь разметить свободно доступный (CC-BY-SA) корпус текстов. Под катом мы расскажем о том, что такое корпус, зачем он нужен, как обстоят дела с корпусами в России и за рубежом, почему так плохо и какой у нас план.

Читать полностью »

Я хочу представить NLPub — небольшую базу знаний, посвящённую компьютерной лингвистике в России.

Сейчас никого не удивить устройствами и приложениями, способными понимать и говорить на человеческом языке. В основе таких приложений лежат методы обработки естественного языка, образующие общее направление на стыке лингвистики и искусственного интеллекта.

Почему подавляющее большинство устройств, приложений и сервисов не работает с русским языком?
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js