Рубрика «regexp» - 3

Выразительный JavaScript: Регулярные выражения

2014-11-09 в 16:09, admin, рубрики: javascript, regexp, Программирование, регулярки, Регулярные выражения

Содержание

Введение
Величины, типы и операторы
Структура программ
Функции
Структуры данных: объекты и массивы
Функции высшего порядка
Тайная жизнь объектов
Проект: электронная жизнь
Обработка ошибок
Регулярные выражения
Модули
Проект: язык программирования
JavaScript и браузер
Document Object Model
Обработка событий
Проект: игра-платформер
Рисуем на Canvas
HTTP
Формы и поля ввода
Проект: Paint
Node.js
Проект: веб-сайт по обмену умениями
Песочница для кода

Некоторые люди, столкнувшись с проблемой, думают: «О, а использую-ка я регулярные выражения». Теперь у них есть две проблемы.
Джейми Завински

Юан-Ма сказал: «Требуется большая сила, чтобы резать дерево поперёк структуры древесины. Требуется много кода, чтобы программировать поперёк структуры проблемы.
Мастер Юан-Ма, «Книга программирования»

Инструменты и техники программирования выживают и распространяются хаотично-эволюционным способом. Иногда выживают не красивые и гениальные, а просто такие, которые достаточно хорошо работают в своей области – к примеру, если их интегрируют в другую успешную технологию.

В этой главе мы обсудим такой инструмент – регулярные выражения. Это способ описывать шаблоны в строковых данных. Они создают небольшой отдельный язык, который входит в JavaScript и во множество других языков и инструментов.

Регулярки одновременно очень странные и крайне полезные. Их синтаксис загадочен, а программный интерфейс в JavaScript для них неуклюж. Но это мощный инструмент для исследования и обработки строк. Разобравшись с ними, вы станете более эффективным программистом.
Читать полностью »

Генератор utf-8 json на php с поддержкой unicode 6

2013-09-30 в 16:11, admin, рубрики: emoji, json, php, regexp, utf-8

Разумеется, в PHP есть прекрасная функция json_encode. Но до версии 5.3 включительно те же русские символы кодируются в виде uXXXX — в разы длиннее, чем utf-8. Чтобы уменьшить объем трафика, необходимо убрать преобразование utf-8 символов в u-последовательности. Да, в PHP 5.4 у json_encode наконец-то появился параметр JSON_UNESCAPED_UNICODE, но многие хостеры до сих пор представляют пользователям выбор только между версиями 5.2 и 5.3.

Я бы не стал изобретать очередной велосипед, но те решения, которые мне попадались, имеют общую проблему — они корректно обрабатывают только символы базовой плоскости юникода.Читать полностью »

Генерация больших объемов полезных данных

2013-09-30 в 4:52, admin, рубрики: pivot tables, regexp, sql, Алгоритмы, Регулярные выражения, метки: pivot tables, regexp, sql, регулярные выражения

Хочу поделиться опытом создания механизма генерации большой базы данных товаров. С его помощью наши пользователи могут за несколько минут сгенерировать более миллиона однотипных, но разных записей.
Читать полностью »

Разбор регулярных выражений

2013-09-07 в 19:28, admin, рубрики: regexp, Веб-разработка, Программирование, разработка, Регулярные выражения, метки: regexp, Программирование, разработка, регулярные выражения

Разбор регулярных выражений

Хочу просто поделиться недавно найденным сервисом для работы с регулярными выражениями. Да, это еще один сервис. Но у него есть особенность — он позволяет не только составлять регулярные выражения, но и помогает разбирать уже написанные — эдакий regexp-декомпилятор.
Сервис называется Regex101.

Читать полностью »

Набор регулярных выражений для MarkDown

2013-08-16 в 11:38, admin, рубрики: markdown, regexp, regular expressions, разработка под iOS, Регулярные выражения, метки: markdown, regexp, regular expressions

Добрый день, уважаемые пользователи Хабра.
В этом посте хотел бы поделиться тем, с чем игрался долго и надеюсь это будет кому-то полезным.

Недавно столкнулся с тем, что в новом проекте надо было сделать подсветку синтаксиса для языка разметки MarkDown. В последнее время он достаточно популярен в разных местах. Долго гуглил, в результате пришлось все писать самому и долго тестировать чтобы все работало правильно.
Под катом набор регулярных выражений, которые ищут основные элементы разметки MarkDown в варианте для Objective-c.
Читать полностью »

Как найти или проверить e-mail адрес

2013-04-03 в 18:26, admin, рубрики: e-mail, regexp, regular expressions, Регулярные выражения

Наибольшее число отзывов, не говоря уже об «ошибках», мне приходит на регулярное выражение e-mail адреса:

b[A-Z0-9._%+-]+@[A-Z0-9.-]+.[A-Z]{2,4}b

Я утверждаю, что это регулярное выражение определяет любой e-mail адрес. В обратной связи обычно показывается один e-mail адрес, который не подпадает под это выражение; также, в отчетах об «ошибках» содержится предложение создать идеальный regexp.

Как я объясню ниже, мое утверждение справедливо тогда, когда вы принимаете мое определение того, что есть действительный адрес электронной почты, а что — нет. Если вы используете другое определение, то вам придется подкорректировать выражение. Определение действительного e-mail адреса — это отличный пример, показывающий, что

перед написание выражения вы должны точно знать, что должно совпасть, а что нет;
следует разрешить компромисс между точностью и практичностью.

Читать полностью »

4-числовая система нумерации версий с датой и минорами

2013-04-02 в 17:28, admin, рубрики: javascript, regexp, ненормальное программирование, Регулярные выражения, метки: regexp

4 числовая система нумерации версий с датой и минорами В расширениях Хрома принято указывать версию скрипта в виде не более чем 4 чисел, разделённых точками, и величиной не более 32767 каждое и не начинающихся с цифры 0. Этого более чем достаточно, если в номер версии включены обычные данные: версия, подверсия, сборка. Если в версию хотим поместить дату в виде 3 чисел, то в наиболее удобной для чтения записи (версия.год.месяц.день) числа года, месяца и дня занимают 3 места из 4. На версию остаётся первое число (как более приоритетное перед датой), а на подверсию и минор ничего не остаётся. Задача: как расположить минорную версию, чтобы уложиться в формат, чтобы дата была читаемой, а версия с минором при сравнении 2 строк занимала правильное место в ряду версий? Кроме того, нужна процедура выделения даты и версии с минором из общей строки.
Читать полностью »

PostgreSQL, TCL и другие: Критическая ошибка в RE engine. Возможная уязвимость

2013-02-12 в 17:31, admin, рубрики: postgresql, regexp, regular expressions, sql, tcl/tk, безопасность веб-приложений, информационная безопасность, уязвимость, метки: postgresql, regexp, regular expressions, tcl/tk, безопасность веб-приложений, уязвимость

Хочу обратить внимание хабрасообщества на возможную «уязвимость» в TCL, PostgreSQL и теоретически в некоторых других системах использующих RE engine, или NFA утилиты, изначально написаные самим Генри Спенсором (Henry Spencer). Измененных исходников можно найти добрую сотню (у того же Sun Microsystems, UUNET и т.д.). И хотя я не думаю что баг существует изначально с далеких 1998-х, хотя бы потому, что кода где возникает эта ошибка я у Генри, в старых его источниках, не нашел, проверить ваши системы все-таки стоит.

И так ошибка: это busyloop на стадии компиляции регулярного выражения вида (((((x)*)*)*)*)*. Причем именно не исполнения, а компиляции, т.е. если есть проверка валидности регулярки и она базируется на том же коде NFA — имеем тот же безконечный цикл + 100% cpu usage.

Ошибку нашли коллеги по opensource проекту TCL, во всех его актуальных версиях (включая develop). Зная, что Postgres использует похожее API, нетрудно было выяснить, что скармливание этого регулярного выражения Postgres приводит к такой же ошибке.

Ошибка возникает при таком группировании только в пятом и более порядке вложенности — т.е. четыре вложеных группы корректно компилируются и исполняются.
Читать полностью »

Разминаем мозг регулярными выражениями — Regex Tuesday Challenge

2013-01-25 в 3:37, admin, рубрики: challenge, javascript, regexp, regular expressions, Регулярные выражения, метки: challenge, javascript, regexp, regular expressions

Я хочу предложить вам поломать голову вечерок-другой над интересными задачками, на регулярные выражения, которые Callum Macrae выкладывает на своем сайте на GitHub каждый Вторник.

Каждый вопрос представлен в виде набора тестов. Задача — написать такой регулярное выражение, чтобы все тесты стали зелеными.
Некоторые из задач сами по себе довольно простые, а самая интересная часть — в том, чтобы написать наиболее короткое возможное регулярное выражение.

Тесты используют JavaScript Regex движок вашего браузера, который обладает всеми основными возможностями PCRE. Подробнее можно посмотреть тут (англ.) , в колонке ECMA в таблице.

Я собрал в этой статье русские версии задач и материалов, которые могут помочь в их решении. Было бы интересно увидеть самые интересные решения в комментах.

Читать полностью »

Очередной конфуз, regexp, или за что я не люблю java

2012-09-28 в 2:45, admin, рубрики: bug, java, python, regexp, script, tcl, проблемы программирования, Программирование, Регулярные выражения, метки: bug, java, python, regexp, script, tcl, проблемы программирования, регулярные выражения

Нужно было мне намедни расширить Tokenizer для одного известного поисковика на джаве. Всяческие стандартные токенайзеры ну никак не хотели делать то, что нужно было, даже с включением разных токен фильтров типа WordDelimiter и ко. Кто в теме, знает какой с этим бывает геморрой, особенно если используем мультиязычные фильтры — токенайзер то один.

Так вот, на java крутить тест-кейсы довольно муторно (длинный код, вечный ескейп, долгий деплой, и т.д. и т.п.), я пытаюсь это делать как можно меньше, поэтому отрабатывал регулярки на тестах в tcl (ну люблю я этот язык).

Так вот накидал такое вот в тикле, ~~даволен как слон~~ все работает как хотел:

% join [regexp -inline -all {[w][w-&]+|[d-][d-*.,/]+} 
    "US-Währung, C&A, VW-Bus. 1.2.3 -23.456,78 12,345.00 12/01/2012"] " | "
US-Währung | C&A | VW-Bus | 1.2.3 | -23.456,78 | 12,345.00 | 12/01/2012

Немного поясню: нужно вырвать слова из текста, при этом соблюсти кое-какую логику на спецсимволах, чтобы ловить минус только как дефис или например точки и запятые в числах, или даты в разных форматах, но при этом более-менее хорошо отделять пунктуацию.

Короче, регулярка в порядке — лезем в джаву. Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «regexp» - 3

Выразительный JavaScript: Регулярные выражения

Содержание

Генератор utf-8 json на php с поддержкой unicode 6

Генерация больших объемов полезных данных

Разбор регулярных выражений

Набор регулярных выражений для MarkDown

Как найти или проверить e-mail адрес

4-числовая система нумерации версий с датой и минорами

PostgreSQL, TCL и другие: Критическая ошибка в RE engine. Возможная уязвимость

Разминаем мозг регулярными выражениями — Regex Tuesday Challenge

Очередной конфуз, regexp, или за что я не люблю java

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «regexp» - 3

Содержание

Новости

Актуальные темы

Архив