Рубрика «лингвистика» - 7

Математические обозначения: Прошлое и будущее - 1

Перевод поста Стивена Вольфрама (Stephen Wolfram) "Mathematical Notation: Past and Future (2000)".
Выражаю огромную благодарность Кириллу Гузенко KirillGuzenko за помощь в переводе и подготовке публикации


Содержание

Резюме
Введение
История
Компьютеры
Будущее
Примечания
Эмпирические законы для математических обозначений
Печатные обозначения против экранных
Письменные обозначения
Шрифты и символы
Поиск математических формул
Невизуальные обозначения
Доказательства
Отбор символов
Частотное распределение символов
Части речи в математической нотации


Стенограмма речи, представленной на секции «MathML и математика в сети» первой Международной Конференции MathML в 2000-м году.


Резюме

Большинство математических обозначений существуют уже более пятисот лет. Я рассмотрю, как они разрабатывались, что было в античные и средневековые времена, какие обозначения вводили Лейбниц, Эйлер, Пеано и другие, как они получили распространение в 19 и 20 веках. Будет рассмотрен вопрос о схожести математических обозначений с тем, что объединяет обычные человеческие языки. Я расскажу об основных принципах, которые были обнаружены для обычных человеческих языков, какие из них применяются в математических обозначениях и какие нет.

Согласно историческим тенденциям, математическая нотация, как и естественный язык, могла бы оказаться невероятно сложной для понимания компьютером. Но за последние пять лет мы внедрили в Mathematica возможности к пониманию чего-то очень близкого к стандартной математической нотации. Я расскажу о ключевых идеях, которые сделали это возможным, а также о тех особенностях в математических обозначениях, которые мы попутно обнаружили.

Большие математические выражения — в отличии от фрагментов обычного текста — часто представляют собой результаты вычислений и создаются автоматически. Я расскажу об обработке подобных выражений и о том, что мы предприняли для того, чтобы сделать их более понятными для людей.

Традиционная математическая нотация представляет математические объекты, а не математические процессы. Я расскажу о попытках разработать нотацию для алгоритмов, об опыте реализации этого в APL, Mathematica, в программах для автоматических доказательств и других системах.

Обычный язык состоит их строк текста; математическая нотация часто также содержит двумерные структуры. Будет обсуждён вопрос о применении в математической нотации более общих структур и как они соотносятся с пределом познавательных возможностей людей.

Сфера приложения конкретного естественного языка обычно ограничивает сферу мышления тех, кто его использует. Я рассмотрю то, как традиционная математическая нотация ограничивает возможности математики, а также то, на что могут быть похожи обобщения математики.
Читать полностью »

Увидел пост о конкурсе, когда прошло уже две недели после начала. Но задача показалась крайне увлекательной, и я не ошибся в этом, нырнув в решение с головой. Хочу поделиться решением на 80+% и своими впечатлениями в этом посте.

Всё моё участие прошло под вопросом «где взять ещё один процент?», но в ответ я чаще получал сотые доли процента или ничего. Итак, обо всём по порядку.
Читать полностью »

По просьбе хабрачан продолжим публикации об исследовании обсценной лексики. (Если кто не читал первую часть, то можете ознакомиться).
Начнем сразу с картинок.
Итак, картинка первая.
Четыре слова, которые нельзя (часть 2) - 1
Рис.1. Распределение обсценной лексики по источникам.
Читать полностью »

Хорошая статья, заслуживающая перевода для ознакомления что нам ждать от ближайщего будущего. Небольшие неточности, которые будут заметны экспертам, никак не влияют на крепкую базу собранных в одном месте тенденций и трендов развития нового «социального общества», черты которого все явственнее проявляются в рельности: и чат-боты, и эмодзи, и самоуничтожающаяся информация, сдвиг инфо-потребления и инфо-генерации в сторону видео, лингвистическая обработка и выявления фактов в гигантских объемах неструктурированного контента… Так что почитать настоятельно советуем. Почитать и сравнить с собственным видением развития окружающего вас мира.

Краткий вывод: «Общий тренд – данных все больше, используются они более эффективно – для создания умной „автоматики“, которая и будет формировать информационный образ будущего.»
Десять трендов аналитики социальных медиа в 2016 году - 1
[Картинка с сайта Sostav.ru]
Читать полностью »

Определено новое универсальное выражение лица, понятное всем людям на Земле - 1
Визуальные маркеры, соответствующие негативной моральной оценке: гнев (A), отвращение (B), презрение (С), а также комбинация маркеров этих трёх эмоций (D) — выражение "Not Face" («Не-а»)

Мимика играет важную роль в человеческой коммуникации, без слов передавая собеседнику информацию о конкретных эмоциях: радость, удивление, презрение и т.д.

Многие выражения лиц понятны всем людям на Земле, независимо от культуры и расы: улыбка есть улыбка в любом уголке Земли. Теперь же американские учёные из университета штата Огайо впервые экспериментально доказали существование выражения лица, которое заменяет конкретную словесную фразу из любого языка на планете. Выражение "Not Face" сочетает визуальные маркеры трёх известных эмоций: гнев, отвращение и презрение. Это сведённые брови (код AU 4 в лицевой морфологии), поднятый подбородок (AU 17), сжатые губы (AU 24) и напряжение одного или двух уголков губ за счёт щёчной мышцы (AU 14). В совокупности такое универсальное выражение заменяет фразу «Нет, я не согласен» или, кратко, междометие «Не-а» (Nope).
Читать полностью »

Реализация семантического новостного агрегатора с широкими поисковыми возможностями - 1Цель этой статьи — поделиться опытом и идеями реализации проекта, основанного на полном преобразовании текстов в семантическое представление и организации семантического (смыслового) поиска по полученной базе знаний. Речь пойдет об основных принципах функционирования этой системы, используемых технологиях, и проблемах, возникающих при ее реализации.

Зачем это нужно?

В идеале, семантическая система «понимает» содержание обрабатываемых статей в виде системы смысловых понятий и выделяет из них главные («о чем» текст). Это дает огромные возможности по более точной кластеризации, автоматическому реферированию и семантическому поиску, когда система ищет не по словам запроса, а по смыслу, который стоит за этими словами.

Семантический поиск – это не только ответ по смыслу на набранную в поисковой строке фразу, а в целом способ взаимодействия пользователя с системой. Семантическим запросом может быть не только простое понятие или фраза, но и документ — система при этом выдает семантически связанные документы. Профиль интересов пользователя – это тоже семантический запрос и может действовать в «фоновом режиме» параллельно с другими запросами. Читать полностью »

В лингвистике сосуществуют две традиции описания языка: одна из них, до сих пор продолжающая традицию шумеров и древних греков, описывает язык фрагментарно — отдельно фонетику и фонологию, отдельно морфологию, отдельно синтаксис и т. д. Другая, идущая с четвертого — пятого веков до н. э. от индийского монаха Панини, описывает язык как интегральное целое — описание фонетики, морфологии, синтаксиса, семантики строится в виде взаимно ориентированных правил, с помощью которых из элементарных языковых единиц строятся тексты.

Именно последний способ описания языка используется в сложнейших инженерно-лингвистических моделях, позволяющих автоматически переводить тексты одного языка на другой. О них и об их развитии и пойдёт речь на лекции.

Лектор Александр Николаевич Барулин — сотрудник Института языкознания РАН. Закончил отделение структурной и прикладной лингвистики филологического факультета МГУ им. М. В. Ломоносова. Учился в аспирантуре Института востоковедения АН СССР, защитил диссертацию на тему «Теоретические проблемы описания турецкой именной словоформы» (1984). Проработал в Институте востоковедения 12 лет. В 1991 году совместно с В. К. Финном и Д. Г. Лахути организовал факультет информатики РГГУ и возглавил созданное на этом факультете отделение теоретической и прикладной лингвистики. В 1992 по проекту Барулина был организован факультет теоретической и прикладной лингвистики — он стал деканом этого факультета, а также заведующим кафедрой теоретической и прикладной лингвистики.

Под катом — подробная расшифровка лекции.
Читать полностью »

Многие замечали, что речи политиков имеют довольно стандартный формат, они похожи друг на друга. Нужно несколько раз повторить основные тезисы, используя стандартные формулировки. Такое впечатление, что есть алгоритм, который задаёт структуру таких речей.

В связи с этим возникает вопрос: может ли компьютер генерировать подобные тексты самостоятельно?

Валентин Кассарниг (Valentin Kassarnig) из университета Массачусетса доказал, что такое возможно. Он опубликовал программу (репозиторий на гитхабе), которая делает именно это: генерирует политические речи, удивительно похожие на настоящие. Подробнее о генераторе политических текстов автор рассказывает в научной статье.
Читать полностью »

Война, мир и ABBYY Compreno: продолжение нашего романа с Толстым - 1Недавно мы рассказывали здесь о том, как делался проект «Весь Толстой в один клик». С помощью 3249 (трех тысяч двухсот сорока девяти) волонтеров и 1 (одной) хорошей OCR-технологии мы оцифровали 46820 страниц 90-томного собрания сочинений писателя, тщательно вычитали их и выложили во всеобщий доступ.

Но если вы думали, что наш «роман с Толстым» на этом закончился, то вы ошибались – оцифровав тексты писателя, мы начали исследовать их при помощи технологии извлечения информации ABBYY Compreno – не пропадать же такому богатому материалу. О том, что дал нам «text mining Толстого» и где теперь используются полученные результаты, читайте дальше.

Введение

Главной целью проекта «Весь Толстой в один клик» было сделать творчество Толстого по-настоящему всеобщим достоянием, чтобы все вышедшие из-под его пера тексты были доступны в один клик в любой точке Земли. Как, кстати, и завещал сам автор, еще при жизни отказавшийся от всех прав на свои тексты (да-да, анонимус, Лев Толстой знал про копилефт и опендату задолго до этих ваших интернетов и Ричарда Столлмана).

Однако возможность загрузить книжку в удобном формате в ридер или планшет – не единственный плюс оцифровки. Теперь тексты Толстого можно не только читать, но и «измерять», то есть исследовать разными количественными методами, используя весь арсенал средств автоматической обработки текста (АОТ, она же NLP). Ведь если у вас есть все тексты писателя в электронном виде, даже с помощью одного-двух грамотных поисковых запросов вы можете получить любопытные данные, на добычу которых в иные времена мог потратить недели и месяцы упорного труда какой-нибудь литературовед. А уж если у вас к тому же имеется продвинутая технология анализа естественного языка, то есть шансы сделать серьезное филологическое открытие (даже не будучи филологом). Ниже я расскажу, что удалось намерить и узнать нам, но перед этим – пара слов о том, кто, как и зачем занимается автоматической обработкой художественных текстов и что интересного может при этом получиться.Читать полностью »

Учёные установили: у людей, которые умело матерятся, богаче словарный запас - 1Если кто-то упрекает вас, что ругаться матом некрасиво, можете смело возразить — наука на нашей стороне. Новое исследование британских американских учёных выявило, что люди с хорошим набором ругательств скорее имеют богатый словарный запас, чем вежливые люди без набора ругательств.

Другими словами, если вы знаете много разнообразных ругательств, то вы, скорее всего, умный и интеллектуально развитый человек.

Результаты исследования противоречат распространённому заблуждению, что человек ругается тогда, когда не может подобрать слов, чтобы выразить своё мнение.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js