Рубрика «обработка текста»

Как машинное обучение позволило Dropbox экономить ежегодно 1,7 миллиона долларов

2021-01-29 в 9:07, admin, рубрики: DropBox, Блог компании VDSina.ru, инфраструктура, искусственный интеллект, искуственный интеллект, машинное обучение, обработка данных, обработка текста, финансы в IT

Как машинное обучение позволило Dropbox экономить ежегодно 1,7 миллиона долларов - 1

Недавно благодаря предсказательной мощи машинного обучения (machine learning, ML) мы обеспечили экономию 1,7 миллионов долларов в год на инфраструктурных тратах, оптимизировав процесс генерации и кэширования превью документов Dropbox. Машинное обучение и раньше применялось в Dropbox для таких хорошо известных функций, как поиск, рекомендации файлов и папок, а также OCR при сканировании документов. Хоть и не все сферы применения ML непосредственно видны пользователю, они всё равно изнутри влияют на развитие бизнеса.

Что такое превью?

Функция Dropbox Previews позволяет пользователям просматривать файл без скачивания контента. В дополнение к превью-миниатюрам Dropbox имеет интерактивную поверхность Previews с возможностью обмена между пользователями и совместной работы, в том числе использования комментарии и тегирования других пользователей.
Читать полностью »

Самоучитель клингонского

2020-06-23 в 10:05, admin, рубрики: natural language processing, автокодировщик, Алгоритмы, анализ данных, анализ текста, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, машинный перевод, обработка текста, обучение без учителя, Семантика

Пару лет назад мы рассказали о том, как в системе Антиплагиат устроен поиск русского перевода английских статей. Естественно, без машинного переводчика в алгоритме не обойтись. В основе машинного переводчика, конечно, лежит машинное обучение, которое, в свою очередь, требует весьма значительного количества «параллельных предложений», т.е. одинаковых по смыслу предложений, написанных на двух языках. Значительное количество — это миллионы предложений, и чем больше, тем лучше. Понятно, что для русско-английской пары найти такую базу (в том числе и в открытом доступе) реально. А что делать с теми языковыми парами, для которых параллельных предложений принципиально не может быть слишком много?

Казалось бы, не имея в распоряжении большого объема обучающих примеров, обучить систему машинного перевода невозможно. Но на помощь приходит идеология Unsupervised Learning, или «обучение без учителя». Ну а чтобы задача была действительно интересной (особенно порадует она фанатов вселенной Стартрека), мы будем обучать наш машинный переводчик для пары языков «английский – клингонский».

Самоучитель клингонского - 1 Источник картинки: Собственное творчество от команды Антиплагиата

А самым подходящим девизом к дальнейшему рассказу о применении Unsupervised Learning будет знаменитая выдержка из Инструкции клингонского почетного караула «Если не можешь контролировать себя, тебе не дано командовать другими».

Читать полностью »

Deepfakes и deep media: Новое поле битвы за безопасность

2020-05-08 в 13:17, admin, рубрики: Deepfake, deepfakes, Блог компании Voximplant, информационная безопасность, искусственный интеллект, машинное обучение, Научно-популярное, нейронные сети, обработка звука, обработка текста, Работа с видео, распознавание лиц

Эта статья является частью специального выпуска VB. Читайте полную серию здесь: AI and Security.

Количество дипфейков – медиа, которые берут существующее фото, аудио или видео и заменяют личность человека на нем на чужую с помощью ИИ – очень быстро растет. Это вызывает беспокойство не только потому, что такие подделки могут быть использованы, чтобы влиять на мнения людей во время выборов или впутывать кого-то в преступления, но и потому, что ими уже злоупотребляли для создания фейкового порно и обмана директора британской энергетической компании. Читать полностью »

Бредогенератор: создаем тексты на любом языке с помощью нейронной сети

2019-10-03 в 21:35, admin, рубрики: keras, python, машинное обучение, Научно-популярное, нейросети, ненормальное программирование, обработка текста, Программирование

Привет.

Эта статья будет в немного «пятничном» формате, сегодня мы займемся NLP. Не тем NLP, про который продают книжки в подземных переходах, а тем, который Natural Language Processing — обработка естественных языков. В качестве примера такой обработки будет использоваться генерация текста с помощью нейронной сети. Создавать тексты мы сможем на любом языке, от русского или английского, до С++. Результаты получаются весьма интересными, по картинке уже наверно можно догадаться.

Бредогенератор: создаем тексты на любом языке с помощью нейронной сети - 1

Для тех, кому интересно что получается, результаты и исходники под катом.
Читать полностью »

XLNet против BERT

2019-07-08 в 11:21, admin, рубрики: BERT, natural language processing, nlp, ods, open data science, python, XLNet, Блог компании Open Data Science, глубокое обучение, искусственный интеллект, машинное обучение, нейросети, обработка естественного языка, обработка текста

XLNet против BERT - 1

В конце июня коллектив из Carnegie Mellon University показал нам XLNet, сразу выложив публикацию, код и готовую модель (XLNet-Large, Cased: 24-layer, 1024-hidden, 16-heads). Это предобученная модель для решения разных задач обработки естественного языка.

В публикации они сразу же обозначили сравнение своей модели с гугловым BERT-ом. Они пишут, что XLNet превосходит BERT в большом количестве задач. И показывает в 18 задачах state-of-the-art результаты.
Читать полностью »

Терпение и труд весь текст извлекут

2019-07-05 в 9:07, admin, рубрики: .net, api, C#, devexpress, PDF, Алгоритмы, антиплагиат, Блог компании «Антиплагиат», документы, обработка текста

Во время учебной сессии (май-июнь и декабрь-январь) пользователи просят нас проверить на наличие заимствований до 500 документов каждую минуту. Документы приходят в файлах различных форматов, сложность работы с каждым из которых различна. Для проверки документа на заимствования нам сперва необходимо извлечь из файла его текст, а заодно и разобраться с форматированием. Задача — реализовать качественное извлечение полутысячи текстов с форматированием в минуту, при этом падать нечасто (а лучше не падать совсем), потреблять мало ресурсов и не платить за разработку и эксплуатацию конечного детища половину галактического бюджета.

Да-да, мы, конечно, знаем, что из трех вещей — быстро, дешево и качественно — нужно выбрать любые две. Но самое противное, что в нашем случае мы ничего не можем вычеркнуть. Вопрос в том, как хорошо у нас это получилось...

Терпение и труд весь текст извлекут - 1

_{Источник изображения: Википедия}

Читать полностью »

Так сложно найти, легко пропустить и невозможно оформить

2019-04-23 в 9:57, admin, рубрики: Алгоритмы, анализ данных, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, обработка текста, Семантика

Наши правила жизни: начинать название статей с буквы «Т» и искать текстовые заимствования быстро, точно и, самое главное, красиво. Уже больше года мы успешно находим переводные заимствования и рерайт с помощью нейросетей. Но иногда нужно намеренно «стрелять себе в ногу» и, прихрамывая, идти другой дорожкой, т.е. не проверять ни на парафраз, ни на плагиат, а просто оставить кусочек текста в покое. Парадоксально, больно, но надо. Скажем сразу: трогать не будем библиографию. Как отыскать её в тексте? Почему это легко сказать, но сделать гораздо сложнее, чем кажется? Всё это в продолжении корпоративного блога компании Антиплагиат, единственного блога, где ~~не любят зачёркнутый текст~~.

Так сложно найти, легко пропустить и невозможно оформить - 1

_{Источник изображения:Fandom.com}

Читать полностью »

Гадание на нейросетях: отметился ли в комментариях к посту сам автор

2019-02-26 в 19:23, admin, рубрики: machine learning, python, машинное обучение, нейросети, обработка текста

Гадание на нейросетях: отметился ли в комментариях к посту сам автор - 1

Поделюсь рассказом о небольшом проекте: как найти в комментариях ответы автора, заведомо не зная кто автор поста.

Свой проект я начинал с минимальными знаниями по машинному обучению и думаю для специалистов тут не будет ничего нового. Этот материал в некотором смысле компиляция разных статей, в нем расскажу, как подходил к задаче, в коде можно найти полезные мелочи и приемы с обработкой естественного языка.
Читать полностью »

BERT — state-of-the-art языковая модель для 104 языков. Туториал по запуску BERT локально и на Google Colab

2019-01-21 в 8:35, admin, рубрики: BERT, nlp, глубокое обучение, искусственный интеллект, машинное обучение, нейросети, обработка естественного языка, обработка текста

BERT — это нейронная сеть от Google, показавшая с большим отрывом state-of-the-art результаты на целом ряде задач. С помощью BERT можно создавать программы с ИИ для обработки естественного языка: отвечать на вопросы, заданные в произвольной форме, создавать чат-ботов, автоматические переводчики, анализировать текст и так далее.

Google выложила предобученные модели BERT, но как это обычно и бывает в Machine Learning, они страдают от недостатка документации. Поэтому в этом туториале мы научимся запускать нейронную сеть BERT на локальном компьютере, а также на бесплатном серверном GPU на Google Colab.

Читать полностью »

«Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз

2018-09-11 в 12:30, admin, рубрики: Алгоритмы, алгоритмы поиска, анализ данных, антиплагиат, Блог компании «Антиплагиат», математика, машинное обучение, обработка текста, Семантика

Наступил новый учебный год. Студенты получили расписание занятий и стали задумываться о ~~пьянках-гулянках-девушках-гитарах~~ будущей сессии. Написание курсовых, дипломов, статей и диссертаций не за горами. А значит, грядут и анализ текстов на наличие заимствований, и отчеты о проверке, и прочая головная студенческая и администраторская боль. И у сотен тысяч людей (без шуток – мы посчитали!) уже возникает закономерный вопрос – как же обмануть «Антиплагиат». В нашем случае практически все способы обмана так или иначе связаны с искажениями текста. Мы уже научили «Антиплагиат» обнаруживать текст, «искаженный » с помощью перевода с английского на русский ( мы уже писали об этом в первой статье нашего корпоративного блога). Сегодня речь пойдет о том, как обнаруживать самый эффективный, хотя и трудоемкий способ искажения текста – парафраз.

«Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз - 1

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «обработка текста»

Как машинное обучение позволило Dropbox экономить ежегодно 1,7 миллиона долларов

Что такое превью?

Самоучитель клингонского

Deepfakes и deep media: Новое поле битвы за безопасность

Бредогенератор: создаем тексты на любом языке с помощью нейронной сети

XLNet против BERT

Терпение и труд весь текст извлекут

Так сложно найти, легко пропустить и невозможно оформить

Гадание на нейросетях: отметился ли в комментариях к посту сам автор

BERT — state-of-the-art языковая модель для 104 языков. Туториал по запуску BERT локально и на Google Colab

«Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «обработка текста»

Что такое превью?

Новости

Актуальные темы

Архив