Рубрика «язык»

Считается, что язык делает нас людьми. А что, если птицы тоже разговаривают?

Как учёные начали расшифровывать пение птиц - 1

Читать полностью »

Нейросеть DALL-E 2 создала собственный язык: правда, не совсем, и совсем не? - 1


1 июня 2022 года вышла статья Янниса Дараса и Александроса Димакиса из Техасского университета в Остине, названная «Открытие скрытого словарного запаса DALLE-2» (Discovering the Hidden Vocabulary of DALLE-2). Она произвела небольшой фурор в сети, заполнившейся заголовками «нейросеть создала свой язык!» — но, увы, не вполне заслуженно.

Для начала — пару слов о том, что из себя представляют генераторы изображений серии DALL-E вообще, и DALLE-2 в частности. Точнее, DALL·E 2 (через точку и пробел). Так называется выпущенная в начале апреля в ограниченный доступ — нейросеть, позволяющая генерировать изображения по запросам на английском языке. Как и первую DALL·E, её создала американская компания OpenAI, связанная с Илоном Маском и занимающаяся разработками в сфере нейросетей и самообучающегося искусственного интеллекта. Читать полностью »

Вернёмся к вопросу о компьютерах. Вопроса, что следует считать первым (или не совсем) компьютером, мы успели коснуться в статье про разностную машину Бэббиджа. А там, где есть первый компьютер, есть и первый программист. И кто же был этим супергероем, чинящим всё — от холодильника до лыж? А ответ, между тем, лежит недалеко от механического зверя Чарльза Бэббиджа, и в какой-то мере даже с ним связан. Итак, на сцену выходит леди Августа Ада Кинг Байрон, графиня Лавлейс!

image
Мать вычислений, бесподобная леди Лавлейс
Читать полностью »

Значение и загадочная история происхождения слова «религия»: расследование - 1


Неожиданно для меня, происхождение слова «религия» оказалось настоящей загадкой. Сперва всё было как будто бы просто: Google выдал родословное древо слова religion по первому же запросу. Оказалось, что корнями «религия» уходит в латинский глагол religare.

Латинский глагол religare означает «связывать», «воссоединять». В русской Википедии написано, что religare используется в смысле восстановления разорванной связи между человеком и Богом, ощущении некой связи со всем бытием, имеющим системность и организованность.

Во-первых, объяснение про связь с богом ничего не объясняет — даже если бы это было так, то каким образом это превратилось в дальнейшем в «религию» в современном значении?

Во-вторых, там же написано, что «religio (лат.) – совестливость, добросовестность, благочестие» — всё бы ничего, только это перевод не с латыни, а с древнефранцузского.

Расследование того, откуда на самом возникло слово «религия» в современном значении, уводит более чем на две тысячи лет в прошлое и обнаруживает столкновение двух совершенно разных версий двух значимых древнеримских мыслителей — известного ритора Цицерона и известного богослова Лактанция.
Читать полностью »

Моя маленькая помощь малым языкам - 1

Сложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...

На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.

Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.

Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.

Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.

I. Извлекаем параллельный корпус

Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.

Читать полностью »

Это мой первый пост об оптическом распознавании текста (OCR) с использованием Tesseract. Tesserast это очень популярная open source библиотека для OCR поддерживаемая Google, которая дает высокие результаты точности и поддерживает более 100 языков. В этом посте я расскажу как можно работать со стандартным словарем для языковой модели Tesseract и настроить его под свои нужды. Кому интересно, прошу под кат.Читать полностью »

Я расскажу о том, как изучать иностранный язык и буду это делать на примере личного опыта изучения английского языка. Английский я начал учить в 36 лет, а уже сейчас у меня свободный английский язык (как письменный, так и устный), подтверждённый официальными сертификатами. Чтобы не быть голословным: у меня есть сертификат IELTS 7.5 баллов (это С1 level) и сертификат переводчика NAATI. Короче, я знаю о чем говорю.

Оглавление:

  1. Отступление про умных людей и прочих полиглотов
  2. Первый шаг
  3. Какой преподаватель нужен (уровень преподавателя)
  4. Где искать преподавателя
  5. Развитие навыков: слушание
  6. Развитие навыков: чтение
  7. Развитие навыков: письмо
  8. Развитие навыков: разговор: произношение
  9. Развитие навыков: разговор: языковой барьер
  10. Словарный запас
  11. Самое главное

Как выучить иностранный язык - 1

Итак, вопрос: “Как выучить английский язык?”.Читать полностью »

Ломаем игру на память: целый детектив - 1

Эта игра не давала нам покоя несколько месяцев. Правила очень простые: надо выкладывать карточки с картинками и придумывать сказку. Потом вспомнить её.

Простая штука на запоминание, подумали мы. Сто раз в такое играли, и всё наше образование просто вопит, что сейчас будет просто.

Три месяца. Три долбанных месяца прошло, прежде чем мы почти научились выигрывать. По пути нам пришлось поднять переводы «Войны и мира» и вообще узнать много нового о длине слов в разных языках. Заодно дошли до психолингвистов. И решили для себя давний вопрос про длину сообщения в русском и английском.

Спойлер: русский язык в среднем (на длинных фразах) не длиннее английского. И вообще все языки примерно одинаковы по скорости передачи информации — по крайней мере, так нам сказали в РАН. Но сразу сказали, что цитировать их нельзя, потому что исследования нет, и где-то рядом ходит РЕН-ТВ. Тут очень кстати пришёлся релиз английской версии Хабра с переводами — так мы быстро нашли базу эквивалентов.

Но давайте с самого начала.
Читать полностью »

image

Люди с техническим складом ума во всем стремятся найти систему. При изучении английского, столь востребованного в IT, многие программисты сталкиваются с тем, что не могут понять, как устроен этот язык, его систему.

“Кто виноват?”

В чем же проблема? Казалось бы, программист, частенько владеющий несколькими формальным языками программирования, или сисадмин, играючи управляющийся со сложнейшими системами, без труда должны были бы освоить столь несложный язык, как английский.

К сожалению, в общепринятой практике изучения английского языка не все так просто. Обучают языку и пишут пособия гуманитарии с иным, чем у технических специалистов, складом ума. Условно создателей представленных на сегодняшнем рынке программ и пособий по изучению английского можно разделить на две категории:
Читать полностью »

Космический язык, ч. 1: универсальна ли универсальная грамматика? - 1

Глаза осьминога демонстрируют явление конвергентной эволюции – намёк на возможность того, что структура языка инопланетян может оказаться похожей на нашу

Симпозиум METI

Симпозиум

Как бы вы составили сообщение для разумных существ с другой планеты? Им не был бы знаком ни один из языков человечества. Их «речь» может отличаться от нашей так же, как жутковатые крики китов или мерцающие огоньки светлячков. У их культурной и научной истории был бы свой собственный путь. Даже их разум может работать не так, как наш. Будет ли глубинная структура языка, так называемая "универсальная грамматика", у инопланетян такой же, как у нас? Группа лингвистов и других учёных собралась 26 мая 2018 года, чтобы обсудить сложные проблемы разработки сообщения, которое смогли бы понять внеземные существа. Появляется всё больше надежд на то, что среди миллиардов обитаемых планет, которые, как мы теперь считаем, существуют в нашей Галактике, найдутся такие существа. Этот симпозиум, названный «Язык в космосе» [Language in the Cosmos], был организован инициативой METI International. Он проходил в рамках Международной конференции по разработке космоса в Лос-Анджелесе, организованной Национальным космическим обществом. Председателем был доктор Шерри Уэллс-Дженсен, лингвист из Университета Боулинг-грин-стэйт в Огайо.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js