Хотим представить наш новый инструмент для токенизации текста — YouTokenToMe. Он работает в 7–10 раз быстрее других популярных версий на языках, похожих по структуре на европейские, и в 40–50 раз — на азиатских языках. Рассказываем о YouTokenToMe и делимся им с вами в open source на GitHub. Ссылка в конце статьи!
Рубрика «BPE»
YouTokenToMe: инструмент для быстрой токенизации текста от Команды ВКонтакте
2019-07-19 в 12:54, admin, рубрики: BPE, Byte Pair Encoding, natural language processing, open source, Блог компании ВКонтакте, машинное обучение, токенизацияНовые виртуальные машины Microsoft Azure — SSD-диски, повышенная производительность и Buffer Pool Extensions
2014-09-26 в 6:00, admin, рубрики: BPE, cloud, Microsoft Azure, performance, sql server, ssd, Блог компании Microsoft, облакоБуквально вчера были анонсированы новые виртуальные машины Microsoft Azure, которые уже доступны всем пользователям. Суть новых виртуальных машин заключена в повышенной производительности – от пользователей было много запросов на то, чтобы производительность процессоров была повышена. В виртуальных машинах D-серии используются быстрые vCPU (около 60% прироста в скорости по сравнению с виртуальными машинами A) и большим количеством памяти (до 112 Гб). Также у новых машин — локальные SSD-диски (до 800 Гб), что открывает большие перспективы для повышенных запросов к файловой подсистеме.
А Michal Smereczynski из Варшавы, не откладывая важные дела на потом, уже скомпилировал немного ядра за ~11 минут.