Рубрика «строки» - 3

Shortest Common Superstring Problem

2013-11-11 в 8:46, admin, рубрики: java, scss, Алгоритмы, биоинформатика, сжатие данных, строки, метки: java, scss, Алгоритмы, биоинформатика, сжатие данных, строки

Проблема кратчайшей общей надстроки формулируется следующим образом: найти кратчайшую строку, такую, что каждая строка из заданного набора являлась бы её подстрокой. Эта проблема имеет место как в биоинформатике (задача сборки генома в общем случае) так и в сжатии данных (вместо данных хранить их надстроку и последовательность пар, вида (индекс вхождения, длина)).

Когда я искал в сети информацию по этой проблеме и её решению на русском языке — находилась лишь пара постов про биоинформатике, где вскользь упоминаются эти слова. Кода (кроме жадного алгоритма), конечно же, тоже не было. Разобравшись в проблеме, этот факт сподвиг на статью здесь.

Осторожно, 4 мегабайта!
Читать полностью »

Алгоритм Ахо-Корасик

2013-10-23 в 12:19, admin, рубрики: c++, Алгоритмы, алгоритмы поиска, Программирование, строки, строки на деревьях, метки: c++, Алгоритмы, алгоритмы поиска, Программирование, строки, строки на деревьях

Вступление

В посте я постарался избежать сложных дефиниций и строгих матетематических доказательств, а некоторые вещи вообще понятны интуитивно. Алгоритм удобно разбивается взаимосвязные части, поэтому и уловить принцип его работы не должно составлять труда.

Начальное описание

Алгоритм Ахо-Корасик реализует эффективный поиск всех вхождений всех строк-образцов в заданную строку. Был разработан в 1975 году Альфредом Ахо и Маргарет Корасик.
Опишем формально условие задачи. На вход поступают несколько строк pattern[i] и строка s. Наша задача — найти все возможные вхождения строк pattern[i] в s.

Суть алгоритма заключена в использование структуры данных — бора и построения по нему конечного детерминированного автомата. Важно помнить, что задача поиска подстроки в строки тривиально реализуется за квадратичное время, поэтому для эффективной работы важно, чтоб все части Ахо-Корасика ассимптотически не превосходили линию относительно длинны строк. Мы вернемся к оценке сложности в конце, а пока поближе посмотрим на составляющие алгоритма.
Читать полностью »

Юникод и .NET

2013-09-24 в 13:07, admin, рубрики: .net, jon skeet, skeet, string, Unicode, переводы, строки, Юникод

От переводчика. На Хабре уже неоднократно публиковались статьи как по Юникоду, так и по строкам в .NET. Однако статьи о Юникоде применительно к .NET ещё не было, поэтому я решил перевести статью общепризнанного гуру .NET Джона Скита. Она закрывает обещанный мною цикл из трёх статей-переводов Дж. Скита, посвящённых строкам в .NET. Как всегда, буду рад замечаниям и исправлениям.
Логотип Юникода

Введение

Тема данной статьи довольно обширна, и не ждите от неё детального и глубокого разбора всех нюансов. Если вы полагаете, что достаточно хорошо разбираетесь в Юникоде, кодировках и т.д., эта статья может быть для вас почти или даже полностью бесполезной. Тем не менее, довольно много людей не понимают, чем различаются двоичные и текстовые данные (binary и text), или что такое кодировка символов. Именно для таких людей и написана данная статья. Несмотря на, в общем-то, поверхностное описание, в ней затрагиваются некоторые сложные моменты, однако это сделано скорее для того, чтобы читатель имел представление об их существовании, нежели чтобы дать детальные разъяснения и руководства к действию.
Читать полностью »

Строковая интерполяция. Сказка-быль

2013-08-31 в 16:57, admin, рубрики: javascript, интерполяция, Программирование, строки, метки: javascript, интерполяция, строки

Постановка задачи

Совершенно случайно я превратился из питониста в JS-разработчика, и на мою хрупкую детскую психику обрушился непосильный груз вещей, которых в JS нет. Например, нет удобного форматирования строк. На питоне можно написать:

'hello, %(thing)s' % {'thing': 'world'}

Или вот так:

'hello, {thing}'.format(**{'thing': 'world'})

Читать полностью »

StringBuilder прошлое и настоящее

2013-04-16 в 20:52, admin, рубрики: .net, rope string, строки, метки: rope string, строки

Вступление

Моя прошлая статья была посвящена особенностям строкового типа данных String в .NET. Эта статья продолжает традицию, однако на этот раз мы рассмотрим класс StringBuilder.

Как известно, строки в .NET являются неизменяемыми (не используя unsafe), а поэтому проводить с ними операцию конкатенации в больших количествах не самая лучшая идея. Это значит, что следующий код имеет весьма серьезные проблемы с нагрузкой на память:

string s = string.Empty;
for (int i = 0; i < 100; i++)
 {
    s += "T";
 }

Читать полностью »

Элегантные строки

2013-04-15 в 19:49, admin, рубрики: .net, fluent interface, library, string, строки, метки: .net, fluent interface, library, string, строки

Представим, что нам нужно что-нибудь сделать со строками в .net. Что-то не очень сложное, но и не совсем простое. Например, для правильного форматирования, расставить пробелы после запятых в тексте. Что же предлагает .net из коробки?
Что-то такое:

string str = "...";
str.Replace(",", ", ");

Постойте, но мы же хотели расставлять пробелы, а не заменять запятые!..
Читать полностью »

Особенности строк в .NET

2013-04-08 в 19:12, admin, рубрики: .net, особенности, строки, структура данных, метки: особенности, строки, структура данных

Строковый тип данных является одним из самых важных в любом языке программировании. Вряд ли можно написать полезную программу не задействовав этот тип данных. При этом многие разработчики не знают некоторых нюансов связанных с этим типом. Поэтому давайте рассмотрим кое-какие особенности этого типа в .NET.

Итак, начнем с представления строк в памяти

В.NET строки располагаются согласно правилу BSTR (Basic string or binary string). Данный способ представления строковых данных используется в COM (слово basic от языка программирования VisualBasic, в котором он первоначально использовался). Как известно в C/C++ для представления строк используется PWSZ, что расшифровывается как Pointer to Wide-character String, Zero-terminated. При таком расположении в памяти в конце строки находится null-терминированный символ, по которому мы можем определить конец строки. Длина строки в PWSZ ограничена лишь объемом свободной памяти. Читать полностью »

Что такое TCHAR, WCHAR, LPSTR, LPWSTR,LPCTSTR (итд)

2012-12-31 в 16:46, admin, рубрики: ansi, api, c++, Unicode, visual c++, windows api, переводы, С++, строки, метки: ansi, Unicode, visual c++, windows api, С++, строки

Что такое TCHAR, WCHAR, LPSTR, LPWSTR,LPCTSTR (итд)

Многие C++ программисты, пишущие под Windows часто путаются над этими странными идентификаторами как TCHAR, LPCTSTR. В этой статье я попытаюсь наилучшим способом расставить все точки над И. И рассеять туман сомнений.

В свое время я потратил много времени копаясь в исходниках и не понимал что значат эти загадочные TCHAR, WCHAR, LPSTR, LPWSTR,LPCTSTR.
Недавно нашел очень грамотную статью и представляю ее качественный перевод.
Статья рекомендуется тем кто бессонными ночами копошиться в кодах С++.

Вам интересно ??
Прошу под кат!!!
Читать полностью »

Строковые коллекции только для чтения: экономим на спичках

2012-06-04 в 14:11, admin, рубрики: java, read-only, коллекции, оптимизация памяти, списки, строки, метки: java, read-only, коллекции, оптимизация памяти, списки, строки

Нередко случается, что какие-то данные программа загружает в память и оставляет их там надолго (а то и до конца работы) в неизменном виде. При этом используются структуры данных, оптимизированные как для чтения, так и для записи. Например, вы вычитываете из базы Ensembl список идентификаторов всех генов человека (включая всякие микроРНК и т. д. — всего чуть больше 50000). Если их прочитать в стандартный ArrayList, то на 32-битной HotSpot вы потратите чуть больше 4 мегабайт. Можно ли сэкономить память, зная, что коллекция больше не будет меняться?
Читать полностью »

Ropes — быстрые строки

2012-05-29 в 7:59, admin, рубрики: rope string, Алгоритмы, строки, строки на деревьях, метки: rope string, строки, строки на деревьях

Здравствуй.
Большинство из нас так или иначе работает со строками. Этого не избежать — если ты пишешь код, ты обречен каждый день складывать строки, разбивать их на составные части и обращаться к отдельным символам по индексу. Мы давно привыкли что строки — это массивы символов фиксированной длины, а это влечет за собой соответствующие ограничения в работе с ними.
Так, мы не можем быстро объединить две строки — для этого нам потребуется сначала выделить необходимое количество памяти, а потом скопировать туда данные из конкатенируемых строк. Очевидно, что такая операция имеет сложность порядка О(n), где n — суммарная длина строк.
Именно поэтому код

string s = "";
for (int i = 0; i < 100000; i++) s += "a";

работает так медленно.

Хочешь выполнять конкатенацию гигантских строк быстро? Не нравится, что строка требует для хранения непрерывную область памяти? Надоело использовать буферы для построения строк?

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «строки» - 3

Shortest Common Superstring Problem

Алгоритм Ахо-Корасик

Вступление

Начальное описание

Юникод и .NET

Введение

Строковая интерполяция. Сказка-быль

Постановка задачи

StringBuilder прошлое и настоящее

Вступление

Элегантные строки

Особенности строк в .NET

Итак, начнем с представления строк в памяти

Что такое TCHAR, WCHAR, LPSTR, LPWSTR,LPCTSTR (итд)

Строковые коллекции только для чтения: экономим на спичках

Ropes — быстрые строки

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «строки» - 3

Вступление

Начальное описание

Введение

Постановка задачи

Вступление

Итак, начнем с представления строк в памяти

Новости

Актуальные темы

Архив