Охотясь на новые фундаментальные частицы, физикам всегда приходилось предполагать, как частицы могут повести себя. Новым алгоритмам с машинным обучением этого не нужно.
В столкновении, произошедшем на Большом адронном коллайдере в этом апреле обнаружены отдельные заряженные частицы (оранжевые линии) и крупные струи частиц (жёлтые конусы)
Большой адронный коллайдер (БАК) сталкивает миллиарды пар протонов каждую секунду. Иногда этой машине удаётся немного покачнуть реальность, и создать в этих столкновениях нечто, невиданное ранее. Но поскольку такие события по определению неожиданные, физики не знают, что конкретно им нужно искать. Они беспокоятся, что, просеивая данные о миллиардах этих столкновений, и делая выборку какого-то более посильного количества, они могут нечаянно удалить свидетельства какой-нибудь новой физики. «Мы всегда беспокоимся, что можем выплеснуть с водой ребёнка», — говорит Кайл Кранмер, специалист по физике частиц из Нью-Йоркского университета, работающий в рамках эксперимента ATLAS на БАК.
Сталкиваясь с задачей разумного уменьшения объёма данных, некоторые физики пытаются использовать такую технологию машинного обучения, как «глубинные нейросети», чтобы драгировать море знакомых событий в поисках новых физических явлений.
В типичном случае использования этой технологии глубинная нейросеть учится отличать кошек от собак, изучая кипу фотографий, помеченных «кошка», и другую кипу, с пометкой «собака». Но такой подход не сработает в поиске новых частиц, поскольку физики не могут скормить машине изображения чего-то, что они никогда не видели. Поэтому им приходится заниматься «обучением со слабым надзором», когда машины начинают обучение с известных частиц, а затем ищут редкие события при помощи менее подробной информации – например, как часто такие события могут происходить в общем.
В опубликованной в мае на сайте препринтов arxiv.org работе трое исследователей предложили применять похожую стратегию для расширения техники «ударного поиска» [bump hunting], классической техники поиска частиц, благодаря которой нашли бозон Хиггса. Общая идея, как пишет один из авторов работы, Бен Начман, исследователь из Национальной лаборатории Лоуренса в Беркли, натренировать машину на поиски редких вариаций в наборе данных.
Рассмотрим такой простейший пример, в духе упомянутых кошек и собак, как попытка обнаружить новый вид животных в наборе данных, заполненном наблюдениями за лесами Северной Америки. Если предположить, что новые животные будут кучковаться в определённых географических областях (эта идея соответствует тому, что новые частицы кучкуются вокруг определённой массы), алгоритм должен суметь выбрать их путём систематического сравнения соседних регионов. Если в Британской Колумбии найдётся 113 карибу [северных оленей Северной Америки], а в штате Вашингтон – 19 (несмотря на наличие и там, и там миллионов белок), то программа научится отличать карибу от белок, не изучая их напрямую. «Это не магия, но похоже на неё», — сказал Тим Коэн, специалист по теоретической физике частиц из Орегонского университета, также изучающий слабый надзор.
Для традиционных поисков в физике частиц, в отличие от описанного, исследователям приходится делать предположения о том, как может выглядеть новое явление. Они создают модель того, как будут вести себя новые частицы – допустим, новая частица может тяготеть к распаду на определённый набор известных частиц. И только после того, как они определятся, что именно ищут, они могут создать специальную стратегию поисков. На эту задачу у аспиранта обычно уходит год работы, но Начман считает, что её можно было бы делать быстрее и тщательнее.
Предложенный алгоритм CWoLa, что означает «классификация без меток» (КБМ), способен искать в существующих данных любые неизвестные частицы, распадающиеся либо на две более лёгкие неизвестные частицы одного типа, либо на две известные частицы одного или разных типов. При помощи обычных методов поиска у команд, работающих на БАК, должно было уйти не менее 20 лет на то, чтобы просеять все возможности, совпадающие со вторым вариантом, а для первого варианта на сегодня вообще не существует поисковых стратегий. Начман, работающий на проекте ATLAS, говорит, что КБМ способен провести все эти поиски за один раз.
Другие специалисты по экспериментальной физике частиц соглашаются, что игра может стоить свеч. «Мы уже искали в разных предсказуемых местах, поэтому для нас довольно важно будет пойти другим путём, и заполнять те пустоты, в которых мы ещё не искали», — сказала Кэйт Пачал, физик, ищущий столкновения новых частиц в проекте ATLAS. Они с коллегами игрались с идеей разработки гибкого ПО, способного справляться с большим диапазоном масс частиц, но никто из них не имел квалификации в вопросе машинного обучения. «Думаю, пришло время попробовать это», — сказала она.
Есть надежда, что нейросети смогут определить подспудные корреляции данных, недоступные текущим моделям. Другие технологии машинного обучения уже успешно разгоняли эффективность определённых задач на БАК, например, определение струй, выдаваемых нижними кварками. В той работе было совершенно ясно, что физики пропускают некоторые сигналы. «Они упускали какую-то информацию, а если вы заплатили за агрегат $10 млрд, то никакую информацию упускать нельзя», — сказал Дэниел Уайтсон, специалист по физике частиц из Калифорнийского университета в Ирвине.
И всё же, область машинного обучения полна предостерегающих историй о программах, перепутавших руки с гантелями (или ещё что похуже). Некоторые на БАК беспокоятся, что все эти короткие пути станут отражением работы гремлинов в самой машине, которую экспериментаторы так тщательно стараются намеренно не замечать. «Когда вы нашли аномалию, сразу непонятно – это новая физика, или это просто что-то не то с детектором?» – говорит Тилл Эйферт, физик, работающий в проекте ATLAS.
Автор: Вячеслав Голованов