Рубрика «gru»

Продолжение исследования RNN

2024-10-16 в 16:03, admin, рубрики: gru, LSTM, msmr, python, RNN, SLR, SMR, TensorFlow, transformer, исследование

С прошлой статьи я внёс несколько изменений:
1. Планировщик был сломан и не изменял скорость. Починил.
2. Остаточное соединение через умножение.
3. WindowedDense для выходной проекции.
4. Добавил clipnorm 1, cutoff_rate 0.4

Как обычно это всё добавляет стабильности и 1% точности.

WindowedDense по неизвестной мне причине добавляет SMR стабильность.

class SMR(layers.Layer):
  def __init__(self, units):
    super().__init__()
    self.state_size = units
    self.s_l = layers.Dense(units, use_bias=False)

  def get_in_proj(self):
    return WindowedDense(self.state_size, 16)

  def call(self, i, states):
    s = states[0]
    s = self.s_l(s)
    o = i * (s + 0.1)
    return o, [o]

Читать полностью »

Рекуррентные нейронные сети наносят ответный удар

2024-10-05 в 20:55, admin, рубрики: gru, LSTM, рекуррентные нейронные сети, трансформеры

Рекуррентные нейронные сети (RNN), а также ее наследники такие, как LSTM и GRU, когда-то были основными инструментами для работы с последовательными данными. Однако в последние годы они были почти полностью вытеснены трансформерами (восхождение Attention is all you need), которые стали доминировать в областях от обработки естественного языка до компьютерного зрения. В статье "Were RNNs All We NeededЧитать полностью »

Как лучше обучать RNN для прогнозирования временных рядов?

2022-11-26 в 19:27, admin, рубрики: deep learning, gru, LSTM, python, RNN, искусственный интеллект, машинное обучение, финансы в IT

Привет!

Два последних года я в рамках магистерской диссертации разбирался с тем, как лучше использовать рекуррентные нейронные сети для прогнозирования временных рядов, и теперь хочу поделиться моим опытом с сообществом.

Я разделил свой рассказ на несколько блоков:

Что такое RNN
Рекуррентные нейроны
Методы обработки временных рядов
Стратегии прогнозирования
Добавление факторов в RNN
Глобальные модели RNN

Читать полностью »

Kaggle: не можем ходить — будем бегать

2019-03-06 в 5:22, admin, рубрики: cnn, data mining, gru, kaggle, keras, LightGBM, LSTM, machine learning, RNN, scikit-learn, Блог компании Singularis, искусственный интеллект, машинное обучение, рекуррентная нейронная сеть, финансы в IT

Насколько сложна тема машинного обучения? Если Вы неплохо математически подкованы, но объем знаний о машинном обучении стремится к нулю, как далеко Вы сможете зайти в серьезном конкурсе на платформе Kaggle?

Kaggle: не можем ходить — будем бегать - 1
Читать полностью »

Обзор исследований в области глубокого обучения: обработка естественных языков

2017-06-05 в 12:54, admin, рубрики: deep learning, gru, LSTM, machine learning, natural language processing, neural networks, RNN, wunder fund, wunderfund, Блог компании Wunder Fund, машинное обучение

Обзор исследований в области глубокого обучения: обработка естественных языков - 1

Это третья статья из серии “Обзор исследований в области глубокого обучения” (Deep Learning Research Review) студента Калифорнийского университета в Лос-Анджелесе Адита Дешпанда (Adit Deshpande). Каждые две недели Адит публикует обзор и толкование исследований в определенной области глубинного обучения. В этот раз он сосредоточил свое внимание на применении глубокого обучения для обработки текстов на естественном языке.
Читать полностью »

Эксперименты с malloc и нейронными сетями

2017-05-26 в 9:02, admin, рубрики: gru, heap, LSTM, malloc, python, Алгоритмы, Блог компании Mail.Ru Group, куча, машинное обучение, нейронные сети, рекуррентная нейронная сеть, системное программирование

Эксперименты с malloc и нейронными сетями - 1

Больше года назад, когда я работал антиспамщиком в Mail.Ru Group, на меня накатило, и я написал про эксперименты с malloc. В то время я в свое удовольствие помогал проводить семинары по АКОСу на ФИВТе МФТИ, и шла тема про аллокацию памяти. Тема большая и очень интересная, при этом охватывает как низкий уровень ядра, так и вполне себе алгоритмоемкие структуры. Во всех учебниках написано, что одна из основных проблем динамического распределения памяти — это ее непредсказуемость. Как говорится, знал бы прикуп — жил бы в Сочи. Если бы оракул заранее рассказал весь план по которому будет выделяться и освобождаться память, то можно было составить оптимальную стратегию, минимизирующую фрагментацию кучи, пиковое потребление памяти и т.д. Отсюда пошла возня с ручными аллокаторами. В процессе раздумий я натолкнулся на отсутствие инструментов логирования malloc() и free(). Пришлось их написать! Как раз про это была статья (а ещe я изучал macOS). Были запланированы две части, однако жизнь круто повернулась и стало не до malloc(). Итак, пора восстановить справедливость и реализовать обещанное: ударить глубоким обучением по предсказанию работы с кучей.

Внутри:

Совершенствуем libtracemalloc, перехватчик malloc().
Строим LSTM на Keras — глубокую рекуррентную сеть.
Обучаем модель на примере работы реального приложения (vcmi/vcmi — а вы думали, причем здесь Heroes III?).
Удивляемся неожиданно хорошим результатам.
Фантазируем про практическое применение технологии.
Исходники.

Интересно? Добро пожаловать под кат.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «gru»

Продолжение исследования RNN

Рекуррентные нейронные сети наносят ответный удар

Как лучше обучать RNN для прогнозирования временных рядов?

Kaggle: не можем ходить — будем бегать

Обзор исследований в области глубокого обучения: обработка естественных языков

Эксперименты с malloc и нейронными сетями