Рубрика «словарь»

У одной задачи может быть несколько способов решения. Возьмем классическую задачу программирования — задачу подсчета, в которой мы считаем, сколько раз каждый элемент списка встречается в нем. Способ решения этой задачи на Python менялся по мере развития языка. Именно об этом мы будем говорить в этой статье.

Большинство из нас присоединилось к программированию на Python с его третьей версии. Однако мы начнем с Python 1.4. Пристегните ремни, отправляемся в далекое прошлое — в 1997 год!

Читать полностью »

Абсолютная звёздная величина

Астрономический словарик: абсолютная звёздная величина, адаптивная оптика, альбедо и астрономическая единица - 1

Человек познаёт окружающий мир через упрощение и классификацию. Звёзды привлекали исследователей мира с древних времён, и казались загадочными из-за своей недосягаемости. Но если хотя бы один орган чувств способен воспринимать явление – мы можем описать его и попытаться классифицировать.

Так поступил Гиппарх Никейский — древнегреческий астроном, механик, географ и математик, живший около 2200 лет назад, и большую часть жизни работавший на острове Родос. Тайна звёздного неба чрезвычайно привлекала его, и, стремясь раскрыть её, он составил звёздный каталог, в котором разделил звёзды по их светимости на 6 классов. К звёздам 6-й величины он отнёс те из них, которые были едва различимы невооружённым глазом, а самые яркие отнёс к звёздам 1-й величины. Каждая следующая величина отличалась от предыдущей по яркости примерно в два раза. К сожалению, в первозданном виде его каталог не дошёл до наших дней, и знаем мы о нём только из трудов других великих учёных древности (Паппа, Страбона и Птолемея).
Читать полностью »

Наверняка на просторах Интернета вам, читатель, встречались ролики от недоумевающих иностранцев, пытающихся понять, когда именно стоит употреблять глаголы из заголовка. Например, такие

Если вам недосуг смотреть видео, под спойлером — суть проблемы. 

Восхитительная история
Агент 007: как слова-призраки защищают английские словари - 1

Даже в самых известных словарях бывают ошибки. Иногда на страницы изданий попадают несуществующие слова, которых на самом деле нет в английском.

Оксфордский, Кембриджский, Вебстер и десятки других менее известных словарей — во всех из них есть подобные лексемы, которые еще называют слова-призраки. Они как бы есть, но их на самом деле нет.

Читать полностью »

Это мой первый пост об оптическом распознавании текста (OCR) с использованием Tesseract. Tesserast это очень популярная open source библиотека для OCR поддерживаемая Google, которая дает высокие результаты точности и поддерживает более 100 языков. В этом посте я расскажу как можно работать со стандартным словарем для языковой модели Tesseract и настроить его под свои нужды. Кому интересно, прошу под кат.Читать полностью »

В первой части статьи я перечислила и объяснила слова, которые разработчики и менеджеры компании Wrike используют в своем ежедневном общении. Как в устном, так и в письменном. Но остался еще ряд слов из тех же категорий. Знание значений этих слов помогает коллегам легче понимать друг друга.
image
Читать полностью »

«Привет! Добро пожаловать! Спасибо, что приняла наш оффер. Пойдем знакомиться с твоей командой. У них как раз сейчас дейли. Ты вышла под конец спринта, поэтому пока работы для тебя не запланировали. Как стендап закончится, можешь почитать спеки, командные окиары и просмотреть бэклог на следующий спринт. По всем вопросам обращайся к своему пио

Это бессмыслица какая-то или деловой язык? Попробуем разобраться.
image
Читать полностью »

Внутреннее устройство словарей в Python не ограничивается одними лишь бакетами и закрытым хешированием. Это удивительный мир разделяемых ключей, кеширования хешей, DKIX_DUMMY и быстрого сравнения, которое можно сделать ещё быстрее (ценой бага с примерной вероятностью в 2^-64).

Если вы не знаете количество элементов в только что созданном словаре, сколько памяти расходуется на каждый элемент, почему теперь (CPython 3.6 и далее) словарь реализован двумя массивами и как это связано с сохранением порядка вставки, или просто не смотрели презентацию Raymond Hettinger «Modern Python Dictionaries A confluence of a dozen great ideas». Тогда добро пожаловать.

Впрочем, люди знакомые с лекцией, тоже могут найти немного подробностей и свежей информации, и для совсем новичков, не знакомых с бакетами и закрытым хешированием, статья тоже будет интересна.
Читать полностью »

image

Как-то, решая проблему лингвистического анализа в Power BI и заодно подыскивая примеры для моей предыдущей статьи, я вспомнил о задаче, которую пытался решить в Excel ещё несколько лет назад: нужно было внедрить в аналитическую систему словарь русского языка для лингвистического анализа большого количества запросов на естественном языке. Причём желательно было использовать стандартные офисные инструменты. Подавляющее большинство людей сразу взялись бы решать эту задачу в Excel, и я когда-то пошёл по тому же пути. В качестве словаря использовал открытый корпус русского языка (http://opencorpora.org/).

Но меня ждало разочарование — словарь состоял из 300 тыс. словоформ, более 5 млн записей, а для Excel это в принципе невозможный объём. Даже если запихнуть в него «всего лишь» 1 млн строк, то выполнять с ними какие-то манипуляции или, упаси боже, вычисления, сможет только очень терпеливый человек, который вообще никогда и никуда не торопится. Но в этот раз я решил натравить на задачу более подходящий инструмент — Power BI.
Читать полностью »

Куй железо: горячий жаргон hardware-стартапов - 1

Борис Каганович, технический директор CINEMOOD, открывает цикл статей, посвященных hardware-стартапам, разработке, производству и развитию продуктов. В первой статье цикла — словарь специфических терминов, которые помогут разработчикам и основателям компаний быстрее интегрироваться в hardware среду.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js