ОГЛАВЛЕНИЕ
ВВЕДЕНИЕ
МЕТОДЫ
⠀⠀1. Единственная отложенная выборка
⠀⠀⠀⠀⠀1.1. Модели действительно разные?
⠀⠀⠀⠀⠀1.2. Отличается ли качество моделей?
⠀⠀⠀⠀⠀1.3. Есть ли разница в информативности моделей?
⠀⠀2. Итеративное семплирование
⠀⠀⠀⠀⠀2.1. Отличается ли качество моделей?
⠀⠀⠀⠀⠀2.2. Есть ли разница в информативности моделей?
СПИСОК ЛИТЕРАТУРЫ
ВВЕДЕНИЕ
Дорогие читатели, надеюсь данная статья будет для Вас интересной и практически полезной, а также сумеет привлечь вас к активному обсуждению!
В ходе разработки системного подхода, о котором пойдет речь, я попытался собрать исчерпывающий набор инструментов для быстрых ответов на наиболее популярные вопросы: действительно ли модели по-разному решают поставленную задачу, обусловлена ли разница в качестве более полным признаковым описанием, а также работу какой из моделей можно считать математически более стабильной. Приведенная ниже схема описывает выработанный набор гипотез и тестов, которым могут пользоваться как разработчики, так и лица принимающие решения по распределению ресурсов. Далее в статье мы подробно разберем каждый из элементов этой схемы.
Сразу следует отметить, что предлагаемый в работе инструментарий рассчитан на сравнение именно двух моделей между собой. Для проверки гипотез на некотором множестве выборок существуют широко применяемые специализированные тесты, например, ANOVA[1]. Поскольку в данной работе не затрагиваются вопросы отбора признаков, то любые из рассматриваемых гипотез на практике успешно сводятся к попарному сравнению.
При использовании статистических тестов всегда следует заранее определить допустимый уровень значимости. Выбор допустимых пределов ошибок первого и второго рода определяется издержками индустрии и контекстом исследования. В связи с этим, хотя данная работа и предлагает практическое руководство по использованию статистического инструментария, здесь не приводится конкретных рекомендаций по выбору порога принятия решения. В статье рассматриваются исключительно аспекты, связанные с изменением качества ответов модели. Практически весь оставшийся спектр аргументов в пользу выбора определенной модели, де факто является требованиями индустрии и не требует проверок для разрешения неоднозначности. К примерам таких требований относятся интерпретируемость моделей, потребность в конкретной архитектуре, минимальное смещение распределения скоров за временной промежуток и т.д.
Даже с учетом обширного теоретического и практического опыта исследований[2-6] в области выбора оптимальной ML модели, ряд вопросов в данной работе остается открытым к дискуссии. В первую очередь это вопрос о связанности тестируемых выборок, что во многом определяет применяемый к ним метод проверки гипотез. Если объекты в выборках одни и те же, признаковое пространство имеет пересечение, а стратегии обучения и типы алгоритмов совпадают, можно с высокой долей уверенности применять парные тесты. Аналогичным образом независимость выборок не вызывает сомнения, если объекты в выборках разные, признаковое пространство не имеет пересечения, а стратегии обучения или сами алгоритмы разные. В остальных случаях однозначно определить связанность ответов двух моделей затруднительно, и выбор определенного теста может не иметь достаточного обоснования. Для таких случаев рекомендуется производить все доступные виды тестирования, так как для современных компьютеров это достаточно простая задача.
Еще одним открытым вопросом в данной работе остается обоснованность использования информационных критериев, в частности информационный критерий Акаике[6] (AIC), и теста отношения правдоподобия[7]. С одной стороны, эти подходы тесно связаны с широко используемыми понятиями эмпирической функции правдоподобия и G-теста[8]. С другой стороны, применимость подхода для сравнения логических моделей (случайный лес, градиентные бустинги на деревьях и др.) вызывает сомнения, так как обучение этих алгоритмов нельзя свести к классической операции максимизации правдоподобия, потому что функция правдоподобия от параметров модели не может быть изначально задана. В связи с этим, информационные критерии рекомендуется воспринимать в качестве дополнения к другим тестам.
МЕТОДЫ
1. Единственная отложенная выборка
Существует ряд ситуаций, в которых модель может быть обучена и провалидирована ограниченное количество раз. Недостаток вычислительных ресурсов, времени или специфика выделения тестовой выборки могут препятствовать проведению качественной кросс-валидации. В таких случаях качество моделей приходится сравнивать на единственной общей отложенной выборке.
1.1. Модели действительно разные?
Можно ли считать, что две модели одинаково оценивают одни и те же объекты, а разница в оценке обусловлена исключительно случайным шумом? Если сравниваются модели разных типов, например, линейная модель и дерево решений, можно сразу дать однозначный отрицательный ответ. Для одинаковых типов моделей, имеющих разные стратегии обучения и обучающие данные ответ уже не так очевиден, особенно если обучающие выборки достаточно представительны. Для выявления значимого отличия в ответах классификаторов применимы следующие тесты:
G-test. Н0 – частоты классов в ответе совпадают. В более общем смысле это тест отношения правдоподобия, в случае классификации этот тест можно воспринимать как аналог χ2 теста на сходство частот классов в ответе классификатора. Несмотря на асимптотическую близость и академическую наглядность χ2 теста, G-test все же более эффективен[8].
KS-test. Критерий однородности Смирнова[9] может быть применен для проверки Н0 о принадлежности распределений уверенности (probability) двух моделей общему закону распределения. Следует учитывать, что условие независимости распределений с одной отложенной выборкой будует нарушаться.
Wilcoxon signed-rank test. Критерий знаковых рангов Вилкоксона[10] позволяет проверить гипотезу Н0 о том, что в среднем разница между ответами двух моделей на одном и том же объекте равна нулю. Данный критерий наиболее удобен в использовании потому, что имеет меньше условий и ограничений, чем его аналоги, например, парный t-тест[11]. В случае классификаторов применяется к разнице уверенностей (probability).
Сравнить ответы регрессоров можно критериями однородности Смирнова и знаковых рангов Вилкоксона. Как в случае регрессии, так и в случае классификации совместно с тестами рекомендуется визуально оценивать форму распределений.
1.2. Отличается ли качество моделей?
Модели, по-разному оценивающие одни и те же объекты, могут не иметь принципиальных отличий в метриках качества. Сравнивая модели регрессии, которые, опираясь на предыдущий раздел, уже определены как «разные», можно использовать метрики качества на отложенной выборке. В случае классификаторов, если метрики близки, следует определить, не является ли различие результатом случайного шума.
DeLong-test. Данный тест[12] проверяет Н0 гипотезу о том, что ранжирующая способность двух моделей (ROC AUC) на самом деле одинакова. Поскольку данный тест использует эмпирические данные ROC кривой, то его статистика совпадает со статистикой U-теста Манна-Уитни[13].
McNemar`s test. Н0 – два алгоритма имеют одинаковый уровень ошибки. В исходной формулировке тест описан в работе [2]. В качестве данных используются конечные метки классов при фиксированном отсечении по уровню уверенности (probability).
1.3. Есть ли разница в информативности моделей?
Как правило, на практике ответов на два предыдущих вопроса достаточно для принятия решения. Тем не менее, если ответы классификаторов и метрики качества не позволяют однозначно выбрать лучший, а необходимость в дополнительном подтверждении есть, можно обратиться к информационным критериям. Отчасти описанный выше G-test отвечает на поставленный вопрос, так как использует отношение эмпирических правдоподобий моделей. Но если и он не дает нужных результатов, то можно обратиться к критерию информативности Акаике.
AIC. Данный критерий позволяет выбрать наименее переобученную и при этом качественную модель. Лучшая модель характеризуется наименьшим показателем AIC. Кроме того, метод весов Акаике[6] позволяет рассчитать вероятность (не путать с p_value) того, что модель с AIC, превышающим минимальный, на самом деле лучше, а не хуже.
В случае регрессии AIС является более показательным критерием, тем более что для регрессоров он напрямую связан с суммой квадратичных остатков. К тому же, метод весов Акаике позволяет оценить превосходство одной из регрессионных моделей в терминах вероятности.
Качество обучения алгоритмов регрессии возможно сравнить посредством анализа остатков. В общем случае распределение остатков может иметь любую форму, однако факт того, что остатки регрессии распределены нормально, свидетельствует в пользу высокого качества модели. Это подтверждает, что отклонения ответов модели от фактических значений обусловлены исключительно случайным шумом.
Normality test. Для проверки принадлежности распределения остатков регрессии к нормальному распределению подойдет тест Колмогорова-Смирнова[9]. Сравнение качества моделей производится через сравнение уровня значимости теста. В крайне редких случаях, когда число наблюдений в тестовой выборке меньше 50, следует использовать критерий Шапиро-Уилка[14].
2. Итеративное семплирование
Делая выводы на основании единственной отложенной выборки, исследователь принимает риск того, что оценка может оказаться смещенной. Возможность многократно семплирования отложенных выборок позволяет снизить риск смещенной оценки, а также. сформулировать и проверить качественно иные гипотезы.
Опишем общий вид эксперимента. Рассмотрим обучающие выборки S1 и S2 и две стратегии обучения, приводящие к двум разным алгоритмам М1 и М2. Суть эксперимента заключается в итеративном разбиении S1 и S2 на обучающую (T1 и Т2) и тестовую части (V1 и V2), обучении M1 и M2 на T1 и Т2, вычислении метрик качества на V1 и V2 с последующим сравнением. Так как в большинстве случаев количество доступных данных ограничено, то достаточно частой и удобной ситуацией является общий набор объектов в S=S1=S2.
Из стратегий семплирования будут рассмотрены две наиболее распространенные: N-фолдинг и случайное семплирование. В первом случае каждое значение в распределениях метрик можно считать независимым, так как оно было получено на непересекающемся множестве объектов. Чем больше значений метрики будет вычислено таким образом, тем более показательными будут статистики проведенных тестов. Однако, не всегда размер S позволяет получить нужное количество таких фолдов, чтобы алгоритмы были дообучены, а валидационные метрики не смещенными. В таких случаях может быть использовано случайное семплирование с фиксированным размером тестовой части.
Еще один аспект, на который следует обращать внимание – это индексация при семплировании. Если из S1 и S2 выбираются одни и те же объекты для обучения и валидации, то полученные значения метрик можно считать связанными и ориентироваться на результаты статистических тестов для связанных выборок. Автор рекомендует по возможности придерживаться такого подхода.
2.1. Отличается ли качество моделей?
Для повышенной уверенности рекомендуется проводить тестирование одновременно для разных метрик, советующих типу предсказательного алгоритма. Также автор рекомендует подкреплять статистические тесты наглядной визуализацией распределений, например, «ящиком с усами».
Когда обучающие выборки в каждой итерации отличаются не только по составу объектов, но и по размеру, распределения метрик следует сравнивать с помощью Критерия однородности Смирнова. Если эксперимент выполнен в соответствии с рекомендациями этой статьи и выборки можно считать связанными, то предпочтение в принятии решения лучше отдавать критерию знаковых рангов Вилкоксона, особенно, если количество наблюдений меньше 25. Тем не менее, учитывая неоднозначность определения «связанных» выборок, о которой говорилось во введении, для большей надежности рекомендуется вычислять обе статистики.
2.2. Есть ли разница в информативности моделей?
Итеративно сравнивать информативность необходимости нет, так как она напрямую зависит от эмпирических показателей качества, а генеральная совокупность данных в ходе экспериментов остается неизменной. Однако помимо среднего смещения метрик для одной из моделей может наблюдаться разница в дисперсии ответов. При одинаковых средних значениях метрик больший демонстрирует меньшую стабильность стратегии обучения иили результирующей модели, иными словами, свидетельствует в пользу недообученности или переобученности алгоритма.
Levene's test & Brown–Forsythe test. Родственные непараметрические тесты[15, 16] для проверки гипотезы Н0 о равенстве дисперсий. Рекомендуется использовать в связке, так как тест Брауна-Форсайта обладает большей стабильностью при отклонении распределения от нормального.
СПИСОК ЛИТЕРАТУРЫ
[1] Larson M. Analysis of variance. Circulation. (2008) doi: 10.1161/CIRCULATIONAHA.107.654335
[2] Dietterich T. Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms. Neural Comput. (1998) doi: 10.1162/089976698300017197
[3] Marusteri M., Bacarea V. Comparing groups for statistical differences: how to choose the right statistical test? Biochem Med. (2010) doi: 10.11613/BM.2010.004
[4] Mishra P., Pandey C., Singh U. et al. Descriptive statistics and normality tests for statistical data. Ann Card Anaesth. (2019) doi: 10.4103/aca.ACA_157_18
[5] Rainio O., Teuho J., Klén R. Evaluation metrics and statistical tests for machine learning. Sci Rep. (2024) doi: 10.1038/s41598-024-56706-x
[6] Burnham K., Anderson D. edit. Model Selection and Multimodel Inference. Springer New York. (2002) doi: 10.1007/b97636
[7] Gudivada V. N., Rao C. R. edit. Handbook of statistics. Elsevier. (2018) doi: 10.1016/bs.host.2018.06.004
[8] Quine M., Robinson J. Efficiencies of Chi-Square and Likelihood Ratio Goodness-of-Fit Tests. Ann Statist. (1985) doi: 10.1214/aos/1176349550
[9] Kac M., Kiefer J., Wolfowitz J. On Tests of Normality and Other Tests of Goodness of Fit Based on Distance Methods. Ann Math Stat. (1955) doi: 10.1214/aoms/1177728538
[10] Whitfield J. W., Siegel S. Nonparametric Statistics for the Behavioral Sciences. J R Stat Soc. (1957) doi:10.2307/2342828
[11] Student. The Probable Error of a Mean. Biometrika. (1908) doi:10.2307/2331554
[12] DeLong E., DeLong D., Clarke-Pearson D. Comparing the Areas under Two or More Correlated Receiver Operating Characteristic Curves: A Nonparametric Approach. Biometrics. (1988) doi: 10.2307/2531595
[13] Mann H. B., Whitney D. R. On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other. Ann Math Stat. (1947) doi: 10.2307/2236101
[14] Shapiro S. S., Wilk M. B. An Analysis of Variance Test for Normality (Complete Samples). Biometrika. (1965) doi:10.2307/2333709
[15] Brown M. B., Forsythe A. B. Robust Tests for the Equality of Variances. J Am Stat Assoc. (1974) doi:10.2307/2285659
[16] Keselman H. J., Wilcox R. R. The “improved” brown and forsythe test for mean equality: some things can’t be fixed. Commun Stat-Simul C. (1999) doi:10.1080/03610919908813572
Автор: BolshinDS