Понадобилось мне однажды распарсить CSS, чтобы вынуть @import
, url()
. Но для .NET были только разной степени кривоты поделки. Лучшей библиотекой была ExCSS, но она загибалась на таких тривиальных вещах, как медиа-запросы. Поэтому я решил заполнить пробел.
Были варианты: расковырять Chrome, расковырять Firefox, расковырять левую библиотеку. Нужно было гарантированное качество и регулярное обновление, поэтому последний вариант отпадал. В Chrome парсинг CSS и HTML генерировался на основе грамматик, и беглое изучение разнообразия инструментов для .NET повергло в уныние, что уж говорить о совместимости инструментов, поэтому Chrome отпал. Остался Firefox с вручную написанными парсерами.
И здесь начинается интересное: дабы сохранить хоть какую-то возможность обновлять код при выходе новых версий файрфокса, я решил не единожды переписать сорцы, а натравливать на плюсовые сорцы тонны регулярных выражений, и добиваться компилируемости плюсового кода только регулярками.
Я вижу косые взгляды. У кого-то уже тянется рука набирать 03…
Не спешите. Всё не так страшно. Конвертация страшного и ужасного nsCSSParser.cpp
длиной в более, чем 10 000 строк, уложилась всего-то в небольшую простынку регулярок на 400 строк, то есть всего лишь 4% оригинального кода. Ну да, конвертация некоторых файлов в 10 строк выливалась в 30 строк кода, но не будем о грустном.
В общем, с грехом напополам потенциально самые часто обновляемые куски кода были конвертированы регулярками. Более-менее стабильные куски кода (типы значений и т.п.) и невменяемо-плюсовые куски кода (перегрузка оператора new для выделения дополнительной памяти, union'ы и т.п.) были переписаны вручную. Очень помогло, что стиль именования переменных в кода Мазилы очень строг, и по префиксу сразу можно понять, что перед тобой: аргумент, поле, константа, статическая переменная, член перечисления и т.п. Того же не скажешь про именование классов — там полное раздолбайство, которое даже в коде нелестно комментируется, — но, опять-таки, не будем о грустном.
Насколько удастся коварный план без особых проблем обновлять библиотеку с выходом новых версий файрфокса — покажет время.
Долго ли, коротко ли, в итоге получилось нечто, что делает вид, что работает.
Делает вид — это потому что я не представляю, как полноценно проверить работоспособность. Тесты в файрфоксе вызывают уныние своей джаваскрипт-в-аштээмэльностью. Других нормальных тестов я не нашёл. Twitter Bootstrap делает вид, что распарсивается (не падает, вручную просмотренные свойства похожи на правду). Я очень надеюсь, что библиотека хоть кому-то пригодится, и этот кто-то расскажет мне об ошибках, если таковые встретятся.
Что имеется
- Поддерживаются все правила, свойства, значения и т.п., которые поддерживаются Mozilla Firefox. Специфические для ФФ расширения (
-moz-*
) в том числе. - Два режима совместимости: стандарты и
IE6глюки. - Все значения распарсиваются в сложные структуры. Краткое свойство
background
развернётся в несколько свойств, в том числеbackground-image
, которое содержит список фоновых картинок, каждая из которых — URL или градиент; в последнем случае в градиенте будут содержаться отдельные точки и все параметры. - Обработка ошибок в соответствии со всеми спецификациями. Если что-то не распознает, то парсер просто пропустит непонятный кусок.
- Детальное логирование ошибок. Все предупреждения про неверный синтаксис и свойства сваливаются в
TraceSource "Alba.CsCss.CssParser"
и кидаются событием.
Чего не имеется
- Поддержка кидировок. В юникод нужно перекидывать самостоятельно.
- Модификация и конвертация обратно в строку.
- DOM CSS. Интерфейс с точки зрения стандартов кодирования C# весьма сомнителен, поэтому польза под вопросом.
- Свойства с вендорными префиксами остальных браузеров (-webkit-, -ms-, -o-) игнорируются.
- .NET 4.0 и ниже. От .NET 4.5 используется разве что
IReadOnlyList
, но пока возиться с версиями несколько лень. - Пакет NuGet. Сыровата пока библиотека.
Пример использования
// Распарсить CSS, указав URL файла (для логирования) и базовый URL (для резолва относительных урлов)
CssStyleSheet css = new CssLoader().ParseSheet("h1, h2 { color: #123; }",
"http://example.com/sheet.css", "http://example.com/");
Console.WriteLine(css.SheetUri); // http://example.com/sheet.css
// Получить цвет (варианты равносильны)
Console.WriteLine(css.StyleRules.Single().Declaration.Color.Color.R); // 17
Console.WriteLine(css.Rules.OfType<CssStyleRule>.Single().Declaration
.GetValue(CssProperty.Color).Color.R); // 17
// Получить тег в первом селекторе
Console.WriteLine(css.StyleRules.Single().SelectorGroups.First().Selectors.Single().Tag);
Сборка проекта
Alba.CsCss
— собственно библиотека. Зависимостей от других проектов не имеет. Если хотите использовать библитеку в своём солюшене, достаточно включить этот проект.Alba.CsCss.Tests
— «юнит»-тесты (попахивают скорее интеграционными). Количество такое, о котором в приличном обществе принято молчать.Alba.Framework
— персональныйсборник велосипедов с квадратными колёсамифреймворк. Упрощает код в трансформациях T4. Для запуска оных нужно собрать Debug версию.Alba.Framework.CodeGeneration
— сборник T4 велосипедов. Собираться должен под админским аккаунтом, чтобы коварно пролезть в вашу систему и установить custom tool «AttachT4» (родственно T4 Toolbox, только без тонны хлама). Нужно, если хотите удобно работать с T4 в проекте.Alba.Framework.Testing
— тестировальные велосипеды. Используются в тестах.
Лицензия
Mozilla Public License. Помесь бульдога с носорогом BSD с GPL. Вирусная, как GPL, но заражает только отдельные файлы сорцов с кодом MPL. Всё остальное лицензию не волнует.
Как ощущения?
Незабываемые! Я почвствовал себя настоящим экспертом по регулярным выражениям.
Например, угадайте, что ищет этот код?
@"(?n)(?<!(switch ?(.*) ?{( *//.*)?|case .*:|default:|break;|return [^;]*;)s+)(?<s> +)(?<c>default|case .*):"
Правда случались и загвоздки. Например, я никак не могу переписать это выражение без использования «безоглядного» режима ((?> ... )
):
.ReReplace(@"(?nx)
(?<! , ) # do not match if among arguments
(?> # no backtracking: disallow skipping openning bracket
(?<o> ( )? # opening bracket
(?<Var> aVariantMask | yVal | mask ) # A & B expression: A
& # A & B expression: &
(?<Const> VARIANT_w+ | BG_w+ ) # A & B expression: B
)
(?<-o> ) )? # closing bracket
(?!)? != 0) # do not match if comparison with 0 is already present
(?(o)(?!)) # do not match if opening and closing brackets don't match",
"((${Var} & ${Const}) != 0)") // A & B -> ((A & B) != 0)
Здесь нужно преобразовать выражение (A & B)
в ((A & B) != 0))
, не добавляя лишние скобки и не добавляя проверку на ноль, если она уже есть.
Итоги
Библиотека написана. Будет ли она развиваться — зависит от того, будет ли она использоваться. Мне самому-то только малая часть нужна. Надеюсь на баг-репорты, а, возможно, даже пулл-реквесты, если есть смелые.
Автор: Athari