Примерно месяц назад я опубликовал пост Вернулся невод с тиной морскою..., речь там шла о сравнении частотных словарей Википедии и Башорга. В комментах было много идей насчёт того, как это сделать правильно, а так же просьб распарсить другие сайты — Луркмор и конечно же Хабрахабр.
Читать полностью »
Рубрика «словари» - 2
И снова закинул старик невод… (парсинг хабра, продолжение)
2013-09-05 в 11:47, admin, рубрики: python, ненормальное программирование, словари, хабрахабр, метки: словари, ХабрахабрОхота на слова
2013-08-06 в 21:26, admin, рубрики: python, wikipedia, ненормальное программирование, Питон, рекорды, слова, словари, метки: python, wikipedia, Питон, рекорды, слова, словари Продолжу цикл статей «Как развлечь себя при помощи частотного словаря Википедии и интерпретатора Питона, если ничего другого под рукой нет и в ближайшее время не предвидится».
Я попробую воссоздать тот замечательный вечер, когда мой парсер Википедии отработал, я получил вожделенный словарь, открыл Питон в интерактивном режиме и начал вводить различные запросы с целью получить слова со всякими необычными свойствами. Тот, двухлетней давности, сеанс работы с шеллом, к сожалению, не сохранился, поэтому сделаю всё заново.
Читать полностью »
Вернулся невод с тиной морскою…
2013-08-01 в 19:33, admin, рубрики: bash.org.ru, python, wikipedia, башорг, ненормальное программирование, словари, эксперименты, метки: bash.org.ru, python, wikipedia, башорг, словари, эксперименты Года полтора назад я решил провести небольшой эксперимент. Цель была посмотреть на концентрированный новояз. Сделал я следующее:
1) Распарсил bash.im (тогда ещё bash.org.ru) и создал частотный словарь встречающихся там слов
2) Распарсил Википедию и создал частотный словарь (точнее не совсем так, словарь Википедии у меня к тому моменту уже был, я его делал раньше для совсем других целей)
3) Рассортировал словарь Баша по встречаемости в порядке убывания, шёл по нему и печатал те слова, которые ни разу не встречались в Википедии.
Читать полностью »
Использование словарей в tcl
2013-03-26 в 4:05, admin, рубрики: tcl, извращения, ненормальное программирование, словари, метки: tcl, извращения, словари Приветствую! %username, ты наверняка слышал про такой язык как tcl и его графический тулкит tk. Язык отличается особой гибкостью (на мой скромный взгляд). Пока нет много времени написать об «облачной» разработке, решил написать мини-статью/мини-урок про одну из возможностей замечательного языка tcl — словарях ( причем, их я не могу вспомнить по книге «Практическое программирование на Tcl/TK», быть может просто читал старую версию). Наиболее полное описание данного типа данных, %username, ты можешь найти по ссылкe.
Читать полностью »
Бесплатные словари для Android
2012-10-02 в 5:13, admin, рубрики: android, android apps, словари, метки: android apps, словари Небольшой обзор словарных оболочек для Android. Словари на телефоне-это здорово.А вот чем их смотреть…
Читать полностью »
Переводчикам на заметку: ускорение работы ABBYY Lingvo и других инструментов
2012-09-03 в 22:21, admin, рубрики: ABBYY, big data, Lingvo, ram disk, windows, браузеры, высокая производительность, производительность, словари, словарь, Софт, метки: ABBYY, big data, Lingvo, ram disk, windows, браузеры, производительность, словари, словарьЭлектронный словарь сегодня стал одним из основных инструментов переводчика, наряду с браузером, оцифрованными справочниками и базами соответствий (последнее важно в основном лишь для переводчиков нехудожественных текстов).
Среди электронных словарей ABBY Lingvo отличается одной ключевой особенностью: полнотекстовым поиском с индексацией. Что-то похожее можно реализовать при помощи индексов в Adobe Acrobat, но удобство интерфейсов именно в словарной области не подлежит сравнению.
ABBY Lingvo давно уже превратился из обычного словаря в универсальный агрегатор источников. Вдобавок к титанической работе фирмы-создателя, энтузиастами оцифрованы в формат Lingvo сотни пособий, в том числе и основные двуязычные, и огромные многотомные толковые словари серий Cambridge, Collins, Longman, Merriam-Webster, Oxford, и энциклопедические словари вроде Британики. Созданы локальные копии сетевых гигантов (Википедий, Викисловарей, Urban Dictionary и так далее). И при обычном использовании это предоставляло бы исключительные возможности. Но при полнотекстовом поиске всё это богатство превращается ещё и в языковые корпусы и базы соответствий. Значение такого поиска при переводах сложных терминов, устойчивых словосочетаний, фразеологизмов трудно переоценить.
С каждым выпуском ABBY расширяет допустимые границы компилируемых словарей и поисковых индексов. Уже сейчас можно скомпилировать словарь размером почти в 2 гигабайта исходного текста. Однако при подключении большого количества словарей индекс разрастается. И сами словари на диске, и поисковый пользовательский индекс также могут достигать гигабайтных размеров. При этом полнотекстовый поиск замедляется, на него начинает влиять скорость работы винчестеров. Эпоха развития SSD может помочь в решении этой проблемы, но пока эти механизмы ещё не используются повсеместно из-за большей цены и меньшей износоустойчивости. К счастью, есть способ, по приросту скорости выигрывающий даже у SSD. Читать полностью »
Не бойся, что не знаешь — бойся, что не учишься!
2012-05-11 в 8:24, admin, рубрики: mobile development, орфография, правописание, словари, учеба, метки: орфография, правописание, словари, учебаПосле публикации DevStory Жи-Ши на Хабре мы получили массу конструктивной (и не очень) критики. Многие проблемы были устранены, а дизайн переработан. Сейчас мы хотим помочь всем студентам и школьникам сдать экзамены, тесты и курсовые используя наше приложение Жи-Ши. Оно уже получило массу положительных отзывов и поэтому мы думаем, что движемся в верном направлении.
Кто из нас хоть раз не задумывался над тем, как правильно написать слово? “О” или “А”? две “Н” или одна? “Как это вообще пишется?” В подобных случаях мы чаще всего открываем словарь и долго ищем подходящее слово, порой перебирая несколько вариантов — это если словарь электронный. Специально обученные люди — журналисты, лингвисты и филологи (а они тоже не всегда уверены, как будет правильно) пишут разные варианты слова и на глаз уже вычисляют “верное”, по памяти…
21 век на дворе! Словарь — это, конечно, хорошо. Но долго. И нельзя ошибиться в написании нужного слова. А как не ошибиться, если не знаешь как его написать? Замкнутый круг, разорвать который помогает приложение «Жи-Ши».