Рубрика «лингвистика» - 9

Лингвистическая загадка. Переводим с «мертвого» языка. [§2] Разбор полётов

2014-08-07 в 11:49, admin, рубрики: анализ текста, криптоанализ, криптография, лингвистика, манускрипт, статистический анализ

Это — продолжение, вернее ответ на задачу из статьи "Лингвистическая загадка. Переводим с мертвого языка".

Времени нет катастрофически, но как известно его никогда не бывает, а раз уж обещал, статью приходится писать. Засим еще раз извиняюсь за опоздание.

Ответ

Для нетерпеливых сразу ответ, который кстати на момент написания статьи, кроме единственного человека (не с хабра), полностью не разгадал никто. Но об этом ниже…
Упомянутая известная фраза про «Глокую куздру» (привет AndreyDmitriev), что есть цитата из книги Успенского «Слово о словах», была коварно помещена мной в середину текста. Остальное, как уже говорилось, добил другими из той же темы, причем немного даже в «старорусской» манере...Читать полностью »

Слова, которые мужчины знают лучше женщин, и наоборот

2014-06-26 в 17:08, admin, рубрики: лингвистика, словарный запас, Статистика в IT, Терминология IT, метки: лингвистика, словарный запас

Бельгийский Центр исследования чтения (Center for Reading Research) провёл уникальное, в своём роде, исследование словарного запаса населения. Более 500 000 человек согласились пройти простой словарный тест: на экране появляется слово, а пользователь указывает, известно ему это слово или нет.

Один из результатов исследования — разница словарного запаса мужчин и женщин. К примеру, вот список 12 слов с максимальной разницей между полами, с преимуществом в мужскую пользу. В скобках указан процент мужчин и женщин, которым знакомо слово.

кодек (88%, 48%)
соленоид (87%, 54%)
голем (89%, 56%)
мах/mach (93%, 63%) — в английском языке mach имеет единственное значение, в отличие от русского
хамви (88%, 58%)
клеймор (87%, 58%)
ятаган (86%, 58%)
кевлар (93%, 65%)
паладин (93%, 66%)
большевизм (85%, 60%)
бипед (86%, 61%)
дредноут (90%, 66%)

Читать полностью »

Лингвистическая загадка. Переводим с «мертвого» языка

2014-06-25 в 15:55, admin, рубрики: анализ текста, криптоанализ, криптография, лингвистика, манускрипт, статистический анализ, метки: анализ текста, криптоанализ, лингвистика, манускрипт, статистический анализ

Навеяло постом Продолжение дилетанта.

Хотя оригинал Манускрипт Войнича. Маньчжурский кандидат по своему шедеврален, с подходом с лингвистической стороны, изложеной makondo, я бы местами пожалуй не согласился. Но сам разбор полетов прочитал запоем. В отличии от «Продолжение дилетанта», имхо.

К слову, я никогда не понимал людей, пытающихся вот так — нахрапом брать подобные «лингвистические» задачи, и делать на основании (иногда даже огромной) проделаной работы, но базирующейся на сомнительных исходных выкладках, далекоидущие выводы.
А некоторые методы вообще доставляют, в криптографии их назвали бы — брутфорсом и серьезно к анализу «чего либо» так никто не подходит.

Но критиковать и холиварить здесь совсем не хочу, в качестве прикладного примера, накидал на коленке текст, написаной неизвесным «мертвым» языком, достаточно извесной цитаты (из книги, которую, имхо, каждый «лингвист» должен как минимум поверхносно прочитать).
Это в общем-то совсем не шифр, просто набор правил морфемики и немного семантики (в части словообразования).

Скажем так, тот язык за многие лета претерпел некоторые изменения :)

Собственно текст

მეაგ პგლოეზგასელ პაგდლრეოლმელეოგ გილრაგლახაგ მოლ კეუგლზდლიმეილ პეალკგლეგ სფაგიხაგ, ეპეალ ფაგსცლგიბიშჩულდგ პაგდლრეოლეუგლშჩეილ, დოლ ფაგშცელეოგეუგლტ პაგდლრეოლინეგილ. გილრაგელეო კეუგლზდლოლ სტიკეალ პაგდლრეოლმეუგლრეოლ პეალკგლეგ ელ კეუგლლდეოჩედგეგ პეალკლეამკეოლეგ. დოლ მეაგ პაგდლიტ უგ პეალკგლეგ კეუგლზდლეგ, ოლ უგ კეუგლზდლეგ პეალკგლეგ ბლგიდ რეცინოგ ნაენოგ, ეპეალ ეოგლ სცლგოშმაგ პაგდლრეოლმეუგლრ, ელ ნმაეუგლ ტოხგ პაგდლრეოლმეუგლგტაგ.

Задача — то же, но по-русски.

Все совпадения с действующими алфавитами случайны (и я ни в коем случае не хотел назвать какой-либо существующий язык — мертвым).
Читать полностью »

Манускрипт Войнича. Маньчжурский кандидат

2014-06-20 в 13:03, admin, рубрики: oracle sql, История ИТ, криптоанализ, криптография, лингвистика, манускрипт, статистический анализ, метки: oracle sql, криптоанализ, лингвистика, манускрипт, статистический анализ

Манускрипт Войнича (МВ или VMS) называют чашей Грааля криптографии. За несколько сотен лет тысячи человеко-дней были потрачены и продолжают тратиться в попытках разгадать его смысл и перевод. Причем пытались люди очень разные, в том числе выдающиеся мировые криптографы. Пока что получается не очень. Две с небольшим сотни пергаментных страниц, неизвестный алфавит, неизвестный язык, каллиграфический уверенный почерк, десятки рисунков неизвестных растений и обнаженных женщин, купающихся в странных каналах, зодиакальные астрологические диаграммы — множество зацепок, но пока ничего, что позволило бы дешифровать рукопись. Для любого, кто хоть чуть-чуть попробовал поразгадывать крючки, МВ представляется идеальной головоломкой — не имеющей пока известной разгадки.

Страница 16v

Видел несколько месяцев назад пост на Хабре про ацтекский язык и ботаников, опознавших несколько центрально-американских растений, но всё-таки достану из черновиков свои записи. Их цель — познакомить читателей с миром разгадывателей VMS и моим не очень глубоким анализом одной из относительно недавних гипотез — о маньчжурском языке манускрипта.

Читать полностью »

Загадочное объявление от IBM

2014-03-31 в 12:18, admin, рубрики: IBM, криптография, лингвистика, метки: IBM, лингвистика

Сегодня в пятницу на доске объявлений ~~ИМКН~~ матмеха УрФУ было обнаружено странное объявление с логотипом IBM.
Текст сразу бросился в глаза необычными словами; никто не смог узнать язык. Гугл-переводчик на разные предложения подсказывает разные языки: от эсперанто до каталонского. Под катом немного соображений о природе текста.

Читать полностью »

Словари: мифы и реальность. Лекция в Яндексе

2014-02-22 в 13:19, admin, рубрики: Блог компании Яндекс, лингвистика, Поисковые машины и технологии, Учебный процесс в IT, метки: лингвистика

Словари – одно из самых древних и самых известных достижений мировой лингвистики. Но насколько распространённые представления о словарях соответствуют реальности? Кто составляет словари? Как это делалось прежде и что изменилось в новую, компьютерную эпоху? Всё ли знают словари – а если нет, то кто знает лучше их? Всегда ли стоит доверять словарям, можно ли обойтись совсем без них и что ждет словари в будущем?

Читает лекцию кандидат филологических наук Борис Леонидович Иомдин, старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, доцент Института лингвистики РГГУ, доцент факультета филологии Высшей школы экономики.
Читать полностью »

То, что вы, возможно, не знали о словарях в лекции «Словари: мифы и реальность»

Знания о языке и Яндекс. Зачем нам падежи? Лекция малой школы анализа данных

2013-12-21 в 10:55, admin, рубрики: Блог компании Яндекс, лингвистика, Малый ШАД, Поисковые машины и технологии, Учебный процесс в IT, ШАД, метки: лингвистика, Малый ШАД, шад

По разным оценкам сейчас в мире существует от трех до семи тысяч языков. Между языками могут быть очень значительные различия в графематике, фонетике, грамматике, лексике. Но если посмотреть шире, станет ясно, что все языки очень похожи и подвержены описанию при помощи универсальных категорий.

В этой лекции Елена Грунтова раскрывает студентам Малого ШАДа понятие грамматической категории и подробно рассказывает падежах, их природе, типах, а также способах выражения.

Лекция рассчитана на старшеклассников, но выходит за рамки школьной программы, поэтому может быть интересна и взрослым.
Читать полностью »

API Яндекс Лингвистики для .NET

2013-12-14 в 12:26, admin, рубрики: .net, api, open source, Yandex, лингвистика, расстояние дамерау-левенштейна, Яндекс API, метки: api, Yandex, лингвистика, расстояние дамерау-левенштейна

После посещения Yet another Conference 2013 у меня возникла идея написать API для всех сервисов яндекс лингвистики под .NET. После недлительного гугления, таких библиотек ~~к счастью~~ не оказалось. Несмотря на то, что может она никому особо и не понадобится, я все же решил реализовать ее хотя бы для того, чтобы попрактиковаться с RestSharp, тестированием и различными функциями гитхаба (issuers, release, markdown и др.). Кроме того, в процессе реализации пришлось столкнуться с интересным алгоритмом сравнения строк, о котором я упомяну в топике.

Сразу кидаю ссылки на исходники и бинарики на GitHub: Code, Binary

Реализованные API

Яндекс.Предиктор. Данный сервис позволяет приложениям получать в виде подсказок наиболее вероятное продолжение слова или фразы. Предиктор также учитывает опечатки в исходном запросе. Это упрощает процесс ввода текста, особенно на мобильных устройствах.
Яндекс.Словарь. Данный сервис позволяет приложениям получать подробные словарные статьи из машинных словарей Яндекса. Статьи содержат сгруппированные переводы, информацию о частях речи, примеры, а также транскрипцию для английских слов.
Яндекс.Перевод. Перевод текста для более чем 30 языков.
Яндекс.Спеллер. Сервис проверки правописания, который помогает находить и исправлять орфографические ошибки. Работа сервиса основана на использовании орфографического словаря. В настоящее время Спеллер проверяет тексты на русском, украинском и английском языках.

Читать полностью »

Извлечение объектов и фактов из текстов в Яндексе. Лекция для Малого ШАДа

2013-12-07 в 12:27, admin, рубрики: natural language processing, Алгоритмы, Блог компании Яндекс, искусственный интеллект, лингвистика, яндекс, метки: natural language processing, лингвистика, яндекс

В докладе рассказывается о том, как мы извлекаем сущности (например, имена людей и географические названия) из текстов и запросов. А также об извлечении фактов, т.е. связей между объектами. Мы рассмотрим несколько подходов к решению этих задач: формулирование правил, составление словарей всевозможных объектов, машинное обучение.

Лекция рассчитана на старшеклассников — студентов Малого ШАДа, но и взрослые смогут с ее помощью восполнить некоторые пробелы.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «лингвистика» - 9

Лингвистическая загадка. Переводим с «мертвого» языка. [§2] Разбор полётов

Ответ

Слова, которые мужчины знают лучше женщин, и наоборот

Лингвистическая загадка. Переводим с «мертвого» языка

Собственно текст

Манускрипт Войнича. Маньчжурский кандидат

Страница 16v

Загадочное объявление от IBM

Словари: мифы и реальность. Лекция в Яндексе

То, что вы, возможно, не знали о словарях в лекции «Словари: мифы и реальность»

Знания о языке и Яндекс. Зачем нам падежи? Лекция малой школы анализа данных

API Яндекс Лингвистики для .NET

Реализованные API

Извлечение объектов и фактов из текстов в Яндексе. Лекция для Малого ШАДа

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «лингвистика» - 9

Ответ

Собственно текст

Страница 16v

Реализованные API

Новости

Актуальные темы

Архив