Амбициозный проект Луначарского — далеко не первое предложение по упрощению русской орфографии, оставшееся нереализованным. Читать полностью »
Рубрика «алфавит»
Щ — самая упорная из православных букв
2022-01-07 в 9:00, admin, рубрики: алфавит, Блог компании RUVDS.com, изучение языков, кириллица, Научно-популярное, орфография, счастливого рождества, церковнославянскийФормула для корейского, или распознаем хангыль быстро, легко и без ошибок
2019-03-04 в 12:11, admin, рубрики: ABBYY, machine learning, алфавит, Блог компании ABBYY, высокая производительность, искусственный интеллект, корейский язык, машинное обучение, нейросети, обработка изображений, сверточные нейронные сети, хангыльНа сегодняшний день сделать распознавание корейских символов может любой студент, прослушавший курс по нейросетям. Дайте ему выборку и компьютер с видеокартой, и через некоторое время он принесёт вам сеть, которая будет распознавать корейские символы почти без ошибок.
Но такое решение будет обладать рядом недостатков:
Во-первых, большое количество необходимых вычислений, что влияет на время работы или требуемую энергию (что очень актуально для мобильных устройств). Действительно, если мы хотим распознавать хотя бы 3000 символов, то это будет размер последнего слоя сети. А если вход этого слоя равен хотя бы 512-ти, то получаем 512 * 3000 умножений. Многовато.
Во-вторых, размер. Тот же самый последний слой из предыдущего примера будет весить 512 * 3001 * 4 байт, то есть около 6-ти мегабайт. Это только один слой, вся сеть будет весить десятки мегабайт. Понятно, для настольного компьютера это проблема небольшая, но на смартфоне не все будут готовы хранить столько данных для распознавания одного языка.
В-третьих, такая сеть будет давать непредсказуемый результат на изображениях, которые не являются корейскими символами, но тем не менее используются в корейских текстах. В лабораторных условиях это не трудно, но для практического применения технологии этот вопрос придётся как-то решать.
И в-четвёртых, проблема в количестве символов: 3000, скорее всего, хватит чтобы, например, отличить в меню ресторана стейк от жареного морского огурца, но порой встречаются и более сложные тексты. Обучить сеть на большее количество символов будет сложно: она будет не только более медленной, но и возникнет проблема со сбором обучающей выборки, так как частота символов падает приблизительно экспоненциально. Конечно, можно доставать изображения из шрифтов и аугментировать их, но для обучения хорошей сети этого недостаточно.
И сегодня я расскажу, как нам удалось решить эти проблемы.
Читать полностью »
Много иероглифов – много нейросетей: как построить эффективную систему распознавания для большого числа классов?
2019-02-05 в 11:51, admin, рубрики: ABBYY, cpu, end-to-end, gpu, kmeans, lenet, machine learning, mnist, SqueezeNet, WideResNet, алфавит, Блог компании ABBYY, иероглифы, искусственный интеллект, машинное обучение, нейросети, сверточные нейронные сетиВ прошлых статьях уже писали о том, как у нас устроены технологии распознавания текста:
Примерно так же до 2018 года было устроено распознавание японских и китайских символов: в первую очередь с использованием растровых и признаковых классификаторов. Но с распознаванием иероглифов есть свои трудности:
1). Огромное количество классов, которое нужно различать.
2). Более сложное устройство символа в целом.
Сказать однозначно, сколько символов насчитывает китайская письменность, так же сложно, как точно посчитать, сколько слов в русском языке. Но наиболее часто в китайской письменности используются ~10 000 символов. Ими мы и ограничили число классов, используемых при распознавании.
Обе описанные выше проблемы также приводят и к тому, что для достижения высокого качества приходится использовать большое количество признаков и сами эти признаки вычисляются на изображениях символов дольше.
Чтобы эти проблемы не приводили к сильнейшим замедлениям во всей системе распознавания, приходилось использовать множество эвристик, в первую очередь направленных на то, чтобы быстро отсечь значительное количество иероглифов, на которые эта картинка точно не похожа. Это всё равно не до конца помогало, а нам хотелось вывести наши технологии на качественно новый уровень.
Мы стали исследовать применимость свёрточных нейронных сетей, чтобы поднять как качество, так и скорость распознавания иероглифов. Хотелось заменить весь блок распознавания отдельного символа для этих языков с помощью нейронных сетей. В этой статье мы расскажем, как нам в итоге это удалось.
Читать полностью »
Расставляем точки над Ы
2016-10-03 в 5:46, admin, рубрики: алфавит, Дизайн игр, интерфейсы, локализация, перевод, текстура, типографика, шрифты
Готовлю сейчас текстуры с буквами для нашей игрушки со словами. А у таких игр есть одна особенность: не переведешь игру на какой-то язык — не видать покупок от носителей этого языка. Поэтому релиз игры будет локализован на 42 языка. Это много-много разных букв, каждая из которых обрабатывается в фотошопе и вставляется в текстуру, место в которой — на вес золота. Приходится вникать в устройство современных алфавитов, чтобы брать только те буквы, которые действительно нужны в современных словах.
Погрузившись в этот процесс, я открыл для себя, на сколько фраза «расставить точки над и» не полна. Точки расставляют далеко не только сверху.
Читать полностью »
Google приобрёл доменное имя abcdefghijklmnopqrstuvwxyz.com
2015-10-08 в 5:21, admin, рубрики: alphabet, Google, алфавит, доменное имяХолдинг Alphabet, более известный по названию своей дочерней компании Google, приобрёл доменное имя abcdefghijklmnopqrstuvwxyz.com, в котором домен второго уровня является последовательностью 26 букв английского алфавита. На забавный факт обратило внимание издание Recode.
Спикер Alphabet так прокомментировал покупку: «Мы поняли, что пропустили несколько букв в abc.xyz [уже принадлежащий Alphabet домен], так что теперь мы просто были более тщательными». Как выяснилЧитать полностью »
«Эс как доллар» –субботнее–
2015-09-19 в 8:31, admin, рубрики: алфавит, английский язык, инновации, Карьера в IT-индустрии, качество, контент-маркетинг, Медиа, обучение, продажи, развитие, сервис, технологические отрасли, управление персоналом, Учебный процесс в IT
Как избежать позора на ровном месте – наглядное пособие
Вообразим ситуацию (да что фантазировать – такое сплошь и рядом). Вам звонят, представляются сотрудником какого-нибудь современного супер-сервиса/технологической/уважаемой компании. При этом, по интонации слышно, что человек осознает свою статусность и общую «непростоту» – ну т.е. «в образе». Но через некоторое время, когда начинаются шедевры типа «U как ванночка», наступает постыдное разоблачение…Читать полностью »