Рубрика «язык»
Как учёные начали расшифровывать пение птиц
2024-10-31 в 11:20, admin, рубрики: пение птиц, птицы, речь, языкНейросеть DALL-E 2 создала собственный язык: правда, не совсем, и совсем не?
2022-06-18 в 10:00, admin, рубрики: dall-e, ruvds_статьи_выходного_дня, Блог компании RUVDS.com, искусственный интеллект, машинное обучение, Научно-популярное, нейросеть, Читальный зал, язык1 июня 2022 года вышла статья Янниса Дараса и Александроса Димакиса из Техасского университета в Остине, названная «Открытие скрытого словарного запаса DALLE-2» (Discovering the Hidden Vocabulary of DALLE-2). Она произвела небольшой фурор в сети, заполнившейся заголовками «нейросеть создала свой язык!» — но, увы, не вполне заслуженно.
Для начала — пару слов о том, что из себя представляют генераторы изображений серии DALL-E вообще, и DALLE-2 в частности. Точнее, DALL·E 2 (через точку и пробел). Так называется выпущенная в начале апреля в ограниченный доступ — нейросеть, позволяющая генерировать изображения по запросам на английском языке. Как и первую DALL·E, её создала американская компания OpenAI, связанная с Илоном Маском и занимающаяся разработками в сфере нейросетей и самообучающегося искусственного интеллекта. Читать полностью »
Тыж программист. Ада Лавлейс
2022-05-29 в 6:22, admin, рубрики: Ада Лавлейс, аналитическая машина, Блог компании Timeweb Cloud, история, компьютер, математика, программа, Программирование, язык
Мать вычислений, бесподобная леди Лавлейс
Читать полностью »
Значение и загадочная история происхождения слова «религия»: расследование
2022-01-09 в 14:00, admin, рубрики: Блог компании RUVDS.com, изучение языков, история, латынь, Научно-популярное, религия, Читальный зал, этимология, языкНеожиданно для меня, происхождение слова «религия» оказалось настоящей загадкой. Сперва всё было как будто бы просто: Google выдал родословное древо слова religion по первому же запросу. Оказалось, что корнями «религия» уходит в латинский глагол religare.
Латинский глагол religare означает «связывать», «воссоединять». В русской Википедии написано, что religare используется в смысле восстановления разорванной связи между человеком и Богом, ощущении некой связи со всем бытием, имеющим системность и организованность.
Во-первых, объяснение про связь с богом ничего не объясняет — даже если бы это было так, то каким образом это превратилось в дальнейшем в «религию» в современном значении?
Во-вторых, там же написано, что «religio (лат.) – совестливость, добросовестность, благочестие» — всё бы ничего, только это перевод не с латыни, а с древнефранцузского.
Расследование того, откуда на самом возникло слово «религия» в современном значении, уводит более чем на две тысячи лет в прошлое и обнаруживает столкновение двух совершенно разных версий двух значимых древнеримских мыслителей — известного ритора Цицерона и известного богослова Лактанция.
Читать полностью »
Моя маленькая помощь малым языкам
2021-10-03 в 13:28, admin, рубрики: data mining, natural language processing, python, изучение языков, Компьютерная лингвистика, лингвистика, машинное обучение, машинный перевод, переводчики, языкСложный был год: налоги, катастрофы, бандитизм и стремительное исчезновение малых языков. С последним мириться было нельзя...
На территории России проживает большое количество народов, говорящих более чем на 270 языках. Около 150 языков насчитывает менее 1 тысячи носителей, а за последние 20 лет 7 языков уже исчезло.
Этот проект — мои "пять копеек" по поддержке языкового разнообразия. Его цель — помощь исследователям в области машинного перевода, лингвистам, а также энтузиастам, радеющим за свой родной язык. Помогать будем добыванием параллельных корпусов, — своеобразного "топлива", при помощи которого современные модели все успешнее пытаются понять человеческий язык.
Сегодняшние языки — башкирский и чувашский, с популяризаторами которых я в последнее время тесно общался. Сначала я покажу как в принципе извлечь корпус из двух текстов на разных языках. Затем мы столкнемся с тем, что на рассматриваемых языках предобученная модель не тренировалась и попробуем ее дообучить.
Экспериментировать мы будем в среде Colab'а, чтобы любой исследователь при желании смог повторить этот подход для своего языка.
I. Извлекаем параллельный корпус
Для выравнивания двух текстов я написал на python'е библиотеку lingtrain_aligner. Код у нее открыт. Она использует ряд предобученных моделей, можно подключать и свои. Одной из самых удачных мультиязыковых моделей сейчас является LaBSE. Она обучалась на 109 языках. Так как соотношение текстов смещено в сторону популярных языков, то для них качество эмбеддингов (эмбеддингом называют вектор чисел применительно к данным, которые он описывает) будет лучше.
Tesseract OCR tips — создание своего словаря для повышения эффективности OCR
2019-12-30 в 19:11, admin, рубрики: optical character recognition, tesseract, машинное обучение, словарь, языкЭто мой первый пост об оптическом распознавании текста (OCR) с использованием Tesseract. Tesserast это очень популярная open source библиотека для OCR поддерживаемая Google, которая дает высокие результаты точности и поддерживает более 100 языков. В этом посте я расскажу как можно работать со стандартным словарем для языковой модели Tesseract и настроить его под свои нужды. Кому интересно, прошу под кат.Читать полностью »
Как выучить иностранный язык
2019-11-15 в 12:13, admin, рубрики: английский, английский язык, быстро выучить английский, изучение иностранного языка, изучение языков, языкЯ расскажу о том, как изучать иностранный язык и буду это делать на примере личного опыта изучения английского языка. Английский я начал учить в 36 лет, а уже сейчас у меня свободный английский язык (как письменный, так и устный), подтверждённый официальными сертификатами. Чтобы не быть голословным: у меня есть сертификат IELTS 7.5 баллов (это С1 level) и сертификат переводчика NAATI. Короче, я знаю о чем говорю.
Оглавление:
- Отступление про умных людей и прочих полиглотов
- Первый шаг
- Какой преподаватель нужен (уровень преподавателя)
- Где искать преподавателя
- Развитие навыков: слушание
- Развитие навыков: чтение
- Развитие навыков: письмо
- Развитие навыков: разговор: произношение
- Развитие навыков: разговор: языковой барьер
- Словарный запас
- Самое главное
Итак, вопрос: “Как выучить английский язык?”.Читать полностью »
Ломаем игру на память: целый детектив
2019-07-01 в 6:58, admin, рубрики: Блог компании Мосигра, изучение языков, настольная игра, Пора спать, разработка игр, язык
Эта игра не давала нам покоя несколько месяцев. Правила очень простые: надо выкладывать карточки с картинками и придумывать сказку. Потом вспомнить её.
Простая штука на запоминание, подумали мы. Сто раз в такое играли, и всё наше образование просто вопит, что сейчас будет просто.
Три месяца. Три долбанных месяца прошло, прежде чем мы почти научились выигрывать. По пути нам пришлось поднять переводы «Войны и мира» и вообще узнать много нового о длине слов в разных языках. Заодно дошли до психолингвистов. И решили для себя давний вопрос про длину сообщения в русском и английском.
Спойлер: русский язык в среднем (на длинных фразах) не длиннее английского. И вообще все языки примерно одинаковы по скорости передачи информации — по крайней мере, так нам сказали в РАН. Но сразу сказали, что цитировать их нельзя, потому что исследования нет, и где-то рядом ходит РЕН-ТВ. Тут очень кстати пришёлся релиз английской версии Хабра с переводами — так мы быстро нашли базу эквивалентов.
Но давайте с самого начала.
Читать полностью »
Английский и айтишник: английскую сову на русский глобус?
2019-03-22 в 16:56, admin, рубрики: английский язык, грамматика, грамматики, изучение языков, Метод 12, обучение, русскоязычное сообщество, Учебный процесс в IT, язык, языки мираЛюди с техническим складом ума во всем стремятся найти систему. При изучении английского, столь востребованного в IT, многие программисты сталкиваются с тем, что не могут понять, как устроен этот язык, его систему.
“Кто виноват?”
В чем же проблема? Казалось бы, программист, частенько владеющий несколькими формальным языками программирования, или сисадмин, играючи управляющийся со сложнейшими системами, без труда должны были бы освоить столь несложный язык, как английский.
К сожалению, в общепринятой практике изучения английского языка не все так просто. Обучают языку и пишут пособия гуманитарии с иным, чем у технических специалистов, складом ума. Условно создателей представленных на сегодняшнем рынке программ и пособий по изучению английского можно разделить на две категории:
Читать полностью »
Космический язык, ч. 1: универсальна ли универсальная грамматика?
2018-07-11 в 10:00, admin, рубрики: конвергентность эволюции, мозг, Научно-популярное, эволюция, языкГлаза осьминога демонстрируют явление конвергентной эволюции – намёк на возможность того, что структура языка инопланетян может оказаться похожей на нашу
Симпозиум METI
Симпозиум
Как бы вы составили сообщение для разумных существ с другой планеты? Им не был бы знаком ни один из языков человечества. Их «речь» может отличаться от нашей так же, как жутковатые крики китов или мерцающие огоньки светлячков. У их культурной и научной истории был бы свой собственный путь. Даже их разум может работать не так, как наш. Будет ли глубинная структура языка, так называемая "универсальная грамматика", у инопланетян такой же, как у нас? Группа лингвистов и других учёных собралась 26 мая 2018 года, чтобы обсудить сложные проблемы разработки сообщения, которое смогли бы понять внеземные существа. Появляется всё больше надежд на то, что среди миллиардов обитаемых планет, которые, как мы теперь считаем, существуют в нашей Галактике, найдутся такие существа. Этот симпозиум, названный «Язык в космосе» [Language in the Cosmos], был организован инициативой METI International. Он проходил в рамках Международной конференции по разработке космоса в Лос-Анджелесе, организованной Национальным космическим обществом. Председателем был доктор Шерри Уэллс-Дженсен, лингвист из Университета Боулинг-грин-стэйт в Огайо.
Читать полностью »