Доброго времени суток. На днях у меня возникла задача по реализации алгоритма пост-обработки результатов оптического распознавания текста. Для решения этой проблемы не плохо подошла одна из моделей для проверки орфографии в тексте, хотя конечно слегка модифицированная под контекст задачи. Этот пост будет посвящен модели Noisy Channel, которая позволяет осуществлять автоматическую проверку орфографии, мы изучим математическую модель, напишем на c# немного кода, обучим модель на базе Питера Норвига, и под конец протестируем то что у нас получится.
Метка «орфография»
Автоматическая проверка орфографии, модель Noisy Channel
2013-11-20 в 15:27, admin, рубрики: data mining, алгоритм, Алгоритмы, вероятность, искусственный интеллект, орфография, расстояние дамерау-левенштейна, расстояние Левенштейна, метки: алгоритм, вероятность, орфография, расстояние дамерау-левенштейна, расстояние ЛевенштейнаВ Notepad++ появилась подсветка ошибок в проверке орфографии
2013-06-24 в 4:58, admin, рубрики: notepad++, орфография, Софт, метки: notepad++, орфография
В замечательном редакторе наконец появилась (Upd. еще с 5 мая) подсветка ошибок в проверке орфографии! Для меня это очень долгожданное нововведение, которое очень сильно ждал и надеялся. В свое время даже хотел перескочить на другие редакторы из-за этой проблемы. В Notepad++ можно было до данного момента настроить проверку орфографию, но подсветки слов с ошибками не было, что сводило пользу от проверки орфографии на нет.
Далее расскажу, как настроить проверку русского и английского языка.Читать полностью »
Многоязыковая проверка орфографии для программ, использующих Hunspell
2012-11-13 в 9:20, admin, рубрики: diy или сделай сам, Firefox, hunspell, miranda, орфография, метки: firefox, hunspell, miranda, орфография Многие часто сталкиваются с необходимостью проверки орфографии на нескольких языках одновременно, однако далеко не все существующие программы позволяют производить такую проверку, предлагая пользователю переключаться с одного языка на другой, что довольно неудобно и отнимает массу времени.
Не желая мириться с подобным неудобством для программ, использующих Hunspell словари (FireFox, Seamonkey, Miranda и др.) было принято решение создать автоматическую графическую утилиту для склейки нескольких языков, с возможностью дальнейшего использования полученных словарей.
Читать полностью »
Не бойся, что не знаешь — бойся, что не учишься!
2012-05-11 в 8:24, admin, рубрики: mobile development, орфография, правописание, словари, учеба, метки: орфография, правописание, словари, учебаПосле публикации DevStory Жи-Ши на Хабре мы получили массу конструктивной (и не очень) критики. Многие проблемы были устранены, а дизайн переработан. Сейчас мы хотим помочь всем студентам и школьникам сдать экзамены, тесты и курсовые используя наше приложение Жи-Ши. Оно уже получило массу положительных отзывов и поэтому мы думаем, что движемся в верном направлении.
Кто из нас хоть раз не задумывался над тем, как правильно написать слово? “О” или “А”? две “Н” или одна? “Как это вообще пишется?” В подобных случаях мы чаще всего открываем словарь и долго ищем подходящее слово, порой перебирая несколько вариантов — это если словарь электронный. Специально обученные люди — журналисты, лингвисты и филологи (а они тоже не всегда уверены, как будет правильно) пишут разные варианты слова и на глаз уже вычисляют “верное”, по памяти…
21 век на дворе! Словарь — это, конечно, хорошо. Но долго. И нельзя ошибиться в написании нужного слова. А как не ошибиться, если не знаешь как его написать? Замкнутый круг, разорвать который помогает приложение «Жи-Ши».
Почему не автоматизировать то, что можно автоматизировать?
2012-04-21 в 6:27, admin, рубрики: грамматика, орфография, оффтоп, пунктуация, типографика, хабрахабр, метки: грамматика, орфография, оффтоп, пунктуация, типографикаВчера вышел топик «Хабр — не место для сублимации», автор которого привёл хороший пример того, как левые оффтопики оказываются популярнее, чем обсуждение основной темы.
Типичный оффтопик на Хабре — это граммарно-националистические советы-шутки-прибаутки. Где запятую поставить, да у кого тире подлиннее.
Самое забавное, что для решения это типичной проблемы давным-давно было придумано решениеЧитать полностью »
«Автопереключение раскладки» в php-приложениях
2012-03-20 в 13:41, admin, рубрики: php, орфография, раскладка клавиатуры, метки: PHP, орфография, раскладка клавиатурыДоброго времени суток!
С недавнего времени я занимаюсь разработкой системы чатов, так сказать чаты 3.0. Данная идея пришла после того как познакомился с такой интересной и удобной штукой как comet-сервер Realplexor от dkLab. Но сейчас не об этом…
Основной движок написал, чат работает, пользователи общаются, все вроде бы ничего, но есть одно НО! Все же мы люди и бывает забываем переключить раскладку клавиатуры с английской на русскую, такое бывает. После написания n-го количества слов отправляем сообщение и что видим — написали не в той раскладке, и редко кому захочется заново переписывать этот текст, а читателям не всем захочется переводить Ваши каракули. И решено было придумать какой-нибудь очень простой способ исправления таких сообщений.
Читать полностью »