Исследователи Массачусетского Технологического Института (MIT) предположили, что современные нейросети можно уменьшить до десяти раз, не потеряв в точности предсказаний. Скорость и легкость обучения таких сетей также может быть значительно выше. При этом тренировать и обеспечивать данными их смогут даже программисты-одиночки, а не только технологические гиганты с GPU-серверами и огромными датасетами.
В своей своей работе исследователи обнаружили, что в больших нейросетях есть так называемые «подсети» — небольшие части общей сети, ответственные за финальный результат работы. Сейчас для их появления требуется очень много ресурсов и времени, которые тратят на тренировку сетей. Но ученые предполагают, что правильную «подсеть» можно создать с самого начала, минуя долгий период построения большой нейросети.
«В традиционной работе с нейросетями строится рандомная структура, и после тренировки на огромном количестве данных, она волшебным образом начинает работать», говорит профессор Майкл Карбин. «Это как покупать мешок лотерейных билетов, хотя чтобы разбогатеть надо купить лишь пару нужных. Теперь дело за малым — понять как находить выигрышные билеты не зная, какой номер выпадет в лотерее».
Пока способ не найден, исследователи строят огромные нейросети и тренируют их классическим способом. Затем они начинают «отрезать» связи с самыми низкими весами, пока нейросеть не будет способна работать на смартфонах и слабых машинах. После этого они сбрасывают веса на всех связях до состояния, которое было перед началом обучения и начинают тренировать ту же самую сеть еще раз — но уже в урезанном виде. И она показывает аналогичные результаты.
Гипотеза ученых состоит в том, что большинство связей в нейросети просто не нужны для ее работы. Они отрезают низковесные связи до тех пор, пока сеть не теряет способность к обучению. Чтобы подтвердить гипотезу, ученые повторяют процесс десятки тысяч раз на большом количестве сетей при различных условиях.
Опираясь на свое исследование они утверждают, что современные способы обучения нейросетей далеки от оптимального, и есть огромное пространство для совершенствования. Чтобы оно стало возможным, ученые будут пытаться понять, как именно обучаются «подсети» и как их быстрее находить.
Но для этого потребуется много ресурсов и годы работы. Тем не менее, сообщество считает работу перспективной. На международной конференции ICLR в Новом Орлеане проект был признан одним из лучших среди 1600 заявок.
Автор: arttom