Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей. Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.
Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.
Рубрика «data mining» - 2
Первый нейросетевой переводчик для эрзянского языка
2022-10-09 в 10:00, admin, рубрики: cезон data mining, data mining, lower-resource language, machine learning, machine translation, ml, natural language processing, nlp, искусственный интеллект, малоресурсный язык, машинное обучение, машинный перевод, переводчик, СемантикаДелаем бизнес прозрачным или еще один пример распознавания капчи
2022-10-01 в 16:53, admin, рубрики: data mining, keras, python, scrapy, TensorFlow, каптча, капча, машинное обучение, нейросети, решение капчиНе для кого не секрет, что капча является популярным средством, чтобы снизить нагрузку на сайт и предотвратить скачивание информации роботами. Сегодня, когда капча применяется практически на каждом сайте, рассмотрим кейс с ее обходом на сервисе "Прозрачный бизнес".
Что такое "Прозрачный бизнес"?
Сервис содержит комплексную информацию о финансовых и правовых параметрах юридических лиц (подробнее тутЧитать полностью »
Анализ различий подачи новостей в Telegram-каналах
2022-08-27 в 11:19, admin, рубрики: data mining, natural language processing, python, агрегатор новостей, анализ данных, визуализация данных, машинное обучение, Новости, обработка естественного языка, тегиниктонечитаетПривет. Прошло уже почти полгода как я сделал новостной агрегатор каналов в Телеграме с открытым исходным кодом. Краткую статью про него можно прочитать на VC. Здесь же я бы хотел поделиться некоторыми интересными вещами, которые я нашёл в данных за всё время работы агрегатора.
Кратко об OData
2022-07-24 в 6:27, admin, рубрики: crud, data, data mining, odata, open data protocol, веб-сервисы, данные, открытые данные, поисковые технологии, протокол, Разработка веб-сайтов, стандартПривет! Недавно, пришлось работать на проекте с внешним API. Работал, я, к слову, всегда либо с простым REST, либо с GET/POST only запросами, но в этом нужно было работать с API Timetta. Он использует OData и что же это такое?
Содержание
Как подступиться к оптимизации процессов и расходов в организации — Process Mining и его возможности
2022-07-16 в 17:39, admin, рубрики: data mining, process mining, T1, watchman, Анализ и проектирование систем, Блог компании Группа Т1, Блог компании Т1 Консалтинг, Т1 Консалтинг, управление персоналомОдин из распространённых инструментов в области цифровой трансформации — процессная аналитика. Расскажем, на что обратить внимание в первую очередь и какие возможности — в этом контексте — есть у нашей системы.
Зачем этим заниматься
Национализация ваших данных происходит прямо сейчас
2022-07-13 в 14:19, admin, рубрики: big data, data engineering, data mining, государство, государство и it, данные, законНационализация ваших данных государством продолжается семимильными шагами. Ожил "замерший" новый законопроект Минцифры и летит к принятию. Это один из самых радикальных подходов к данным со стороны государства, который я когда-либо видел. Он заберёт все ваши данные у компаний, не спросив вас, и раздаст всем желающим.
Telegram бот с языковой моделью, обученной на 2ch
2022-06-11 в 21:52, admin, рубрики: 2ch, data mining, dataset, huggingface, natural language processing, nlp, python, pytorch, telegram, telegrambot, машинное обучениеЕсли вам хочется разбавить общение в telegram чате нелепыми, но зачастую меткими и смешными комментариями, или вы ищете информацию по интеграции языковой модели в бота, или хотите сами обучить языковые модели на данных с 2ch, то в этой статье описаны шаги, как это сделать.
Бот
Запустил бота, которого можно добавлять в чаты, и он будет отвечать на сообщения, как на посты на 2ch.hk/b/.
Для этого:
-
Был собран датасет постов с 2ch
-
Была обучена Читать полностью »
Как мы заняли 1-е место в задаче Matching в соревновании Data Fusion Contest 2022, или как нейронка обогнала бустинг
2022-06-09 в 16:01, admin, рубрики: big data, data mining, machine learning, neural networks, Блог компании Open Data Science, машинное обучениеНа платформе ODS.ai прошло соревнование по машинному обучению Data Fusion Contest 2022 от банка ВТБ.
Мы, команда Лаборатории ИИ Сбера и Института искусственного интеллекта AIRI, приняли решение поучаствовать в контесте, когда увидели, что тема соревнования сильно пересекалась с нашими исследованиями. Мы заняли первое место на private leaderboard в основной задаче Matching. Здесь я хотел бы описать решение, которое у нас получилось.
Что новенького по сущностям? Новости последней конференции EMNLP
2022-03-01 в 7:53, admin, рубрики: data mining, domclick, EMNLP2021, named entity recognition, natural language processing, relation extraction, Блог компании ДомКликВ ноябре 2021 проходила конференция EMNLPЧитать полностью »