Всем привет. Уже в этом месяце в ОТУС стартует новый курс — "Математика для Data Science". В преддверии старта данного курса традиционно делимся с вами переводом интересного материала.
Аннотация. Глубокое обучение является передовой областью исследований машинного обучения (machine learning — ML). Оно представляет из себя нескольких скрытых слоев искусственных нейронных сетей. Методология глубокого обучения применяет нелинейные преобразования и модельные абстракции высокого уровня на больших базах данных. Последние достижения во внедрении архитектуры глубокого обучения в многочисленных областях уже внесли значительный вклад в развитие искусственного интеллекта. В этой статье представлено современное исследование о вкладе и новых применениях глубокого обучения. Следующий обзор в хронологическом порядке представляет, как и в каких наиболее значимых приложениях использовались алгоритмы глубокого обучения. Кроме того, представлены выгода и преимущества методологии глубокого обучения в ее многослойной иерархии и нелинейных операциях, которые сравниваются с более традиционными алгоритмами в обычных приложениях. Обзор последних достижений в области далее раскрывает общие концепции, постоянно растущие преимущества и популярность глубокого обучения.
1. Введение
Искусственный интеллект (ИИ) как интеллект, демонстрируемый машинами, является эффективным подходом к пониманию человеческого обучения и формирования рассуждений [1]. В 1950 году «Тест Тьюринга» был предложен как удовлетворительное объяснение того, как компьютер может воспроизводить когнитивные рассуждения человека [2]. Как область исследований, ИИ делится на более конкретные подобласти. Например: обработка естественного языка (Natural Language Processing — NLP) [3] может улучшить качество письма в различных приложениях [4,17]. Самым классическим подразделением в NLP является машинный перевод, под которым понимают переводом между языками. Алгоритмы машинного перевода способствовали появлению различных приложений, которые учитывают грамматическую структуру и орфографические ошибки. Более того, набор слов и словарный запас, относящиеся к теме материала, автоматически используются в качестве основного источника, когда компьютер предлагает изменения для автора или редактора [5]. На рис. 1 подробно показано, как ИИ охватывает семь областей компьютерных наук.
В последнее время машинное обучение и интеллектуальный анализ данных попали в центр внимания и стали наиболее популярными темами среди исследовательского сообщества. Совокупность этих областей исследования анализируют множество возможностей характеризации баз данных [9]. На протяжении многих лет базы данных собирались в статистических целях. Статистические кривые могут описывать прошлое и настоящее, чтобы предсказывать будущие модели поведения. Тем не менее, в течение последних десятилетий для обработки этих данных использовались только классические методы и алгоритмы, тогда как оптимизация этих алгоритмов могла бы лечь в основу эффективного самообучения [19]. Улучшенный процесс принятия решений может быть реализован на основе существующих значений, нескольких критериев и расширенных методов статистики. Таким образом, одним из наиболее важных применений этой оптимизации является медицина, где симптомы, причины и медицинские решения создают большие базы данных, которые можно использовать для определения лучшего лечения [11].
Рис. 1. Исследования в области искусственного интеллекта (ИИ) Источник: [1].
Поскольку ML охватывает широкий спектр исследований, на данный момент уже разработано множество подходов. Кластеризация, байесовская сеть, глубокое обучение и анализ дерева решений — это только их часть. Следующий обзор в основном фокусируется на глубоком обучении, его основных понятиях, проверенных и современных применениях в различных областях. Кроме того, в нем представлены несколько рисунков, отражающих стремительный рост публикаций с исследованиями в области глубокого обучения за последние годы в научных базах данных.
2. Теоретические основы
Концепция глубокого обучения (Deep Learning — DL) впервые появилась в 2006 году как новая область исследований в машинном обучении. Вначале оно было известно как иерархическое обучение в [2], и как правило оно включало в себя множество областей исследований, связанных с распознаванием образов. Глубокое обучение в основном принимает в расчет два ключевых фактора: нелинейная обработка в нескольких слоях или стадиях и обучение под наблюдением или без него [4]. Нелинейная обработка в нескольких слоях относится к алгоритму, в котором текущий слой принимает в качестве входных данных выходные данные предыдущего слоя. Иерархия устанавливается между слоями, чтобы упорядочить важность данных, полезность которых следует установить. С другой стороны, контролируемое и неконтролируемое обучение связано с меткой классов целей: ее присутствие подразумевает контролируемую систему, а отсутствие — неконтролируемую.
3. Применения
Глубокое обучение подразумевает слои абстрактного анализа и иерархические методы. Тем не менее, оно может быть использовано в многочисленных реальных приложениях. Как пример, в цифровой обработке изображений; раскраска черно-белых изображений раньше выполнялась вручную пользователями, которым приходилось выбирать каждый цвет на основе своего собственного суждения. Применяя алгоритм глубокого обучения, раскраска может выполняться автоматически с помощью компьютера [10]. Точно так же звук может быть добавлен в видео с игрой на барабанах без звука с использованием рекуррентных нейронных сетей (Recurrent Neural Networks — RNN), которые являются частью методов глубокого обучения [18].
Глубокое обучение может быть представлено как метод улучшения результатов и оптимизации времени обработки в нескольких вычислительных процессах. В области обработки естественного языка методы глубокого обучения были применены для создания подписей к изображениям [20] и генерации рукописного текста [6]. Следующие применения детальнее классифицированы в таких областях как цифровая обработка изображений, медицина и биометрия.
3.1 Обработка изображений
До того, как глубокое обучение официально утвердилось в качестве нового исследовательского подхода, некоторые приложения были реализованы в рамках концепции распознавания образов посредством обработки слоев. В 2003 году был разработан интересный пример с применением фильтрации частиц и алгоритма распространения доверия (Bayesian – belief propagation). Основная концепция этого приложения полагает, что человек может распознавать лицо другого человека, наблюдая только половину изображения лица [14], поэтому компьютер может восстановить изображение лица из обрезанного изображения.
Позже в 2006 году жадный алгоритм и иерархия были объединены в приложение, способное обрабатывать рукописные цифры [7]. Недавние исследования применили глубокое обучение в качестве основного инструмента для цифровой обработки изображений. Например, применение сверточных нейронных сетей (Convolutional Neural Networks — CNN) для распознавания радужной оболочки может быть более эффективным, чем использование привычных датчиков. Эффективность CNN может достигать 99,35% точности [16].
Мобильное распознавание местоположения в настоящее время позволяет пользователю узнать определенный адрес на основе изображения. Алгоритм SSPDH (Supervised Semantics – Preserving Deep Hashing) оказался значительным улучшением по сравнению VHB (Visual Hash Bit) и SSFS (Space – Saliency Fingerprint Selection). Точность SSPDH аж на 70% эффективнее [15].
Наконец, еще одно замечательное применение в цифровой обработке изображений с использованием метода глубокого обучения — распознавание лиц. Google, Facebook и Microsoft имеют уникальные модели распознавания лиц с глубоким обучением [8]. В последнее время идентификация на основе изображения лица изменилась на автоматическое распознавание путем определения возраста и пола в качестве исходных параметров. Sighthound Inc., например, тестировали алгоритм глубокой сверточной нейронной сети, способный распознавать не только возраст и пол, но даже эмоции [3]. Кроме того, была разработана надежная система для точного определения возраста и пола человека по одному изображению путем применения архитектуры глубокого многозадачного обучения [21].
3.2 Медицина
Цифровая обработка изображений, несомненно, является важной частью исследовательских областей, где может применяться метод глубокого обучения. Таким же образом, недавно тестировались клинические приложения. Например, сравнение между малослойным обучением и глубоким обучением в нейронных сетях привело к лучшей эффективности в прогнозировании заболеваний. Изображение, полученное с помощью магнитно-резонансной томографии (МРТ) [22] из головного
Оптическая когерентная томография (ОКТ) является еще одним примером, где методы глубокого обучения показывают весомые результаты. Традиционно изображения обрабатываются путем ручной разработки сверточных матриц [12]. К сожалению, отсутствие учебных наборов ограничивает метод глубокого обучения. Тем не менее, в течение нескольких лет внедрение улучшенных тренировочных наборов будет эффективно предсказывать патологии сетчатки и уменьшать стоимость технологии ОКТ [24].
3.3 Биометрия
В 2009 году было применено приложение для автоматического распознавания речи, чтобы уменьшить частоту телефонных ошибок (Phone Error Rate — PER) с использованием двух разных архитектур сетей глубокого доверия [18]. В 2012 году метод CNN [25] был применен в рамках гибридной нейронной сети — скрытой модели маркова (Hybrid Neural Network — Hidden Markov Model — NN — HMM). В результате был достигнут PER на уровне 20,07%. Полученный PER лучше по сравнению с ранее применяемым 3-слойным методом базовой линии нейронной сети [26]. Смартфоны и разрешение их камер были протестированы для распознавания радужной оболочки. При использовании мобильных телефонов, разработанных различными компаниями, точность распознавания радужной оболочки может достигать до 87% эффективности [22,28].
С точки зрения безопасности, особенно контроля доступа; глубокое обучение используется в сочетании с биометрическими характеристиками. DL был использован для ускорения разработки и оптимизации устройств распознавания лиц FaceSentinel. По словам этого производителя, их устройства могут расширить процесс идентификации с одного-к-одному до одного-к-многим за девять месяцев [27]. Это усовершенствование движка могло бы занять 10 человеко-лет без внедрения DL. Что ускорило производство и запуск оборудования. Эти устройства используются в лондонском аэропорту Хитроу, а также могут использоваться для учета рабочего времени и посещаемости, и в банковском секторе [3, 29].
4. Обзор
Таблица 1 подытоживает несколько применений, реализованных в течение предыдущих лет относительно глубокого обучения. В основном упоминаются распознавание речи и обработка изображений. В этом обзоре рассматриваются только некоторые из большого списка применений.
Таблица 1. Применения глубокого обучения, 2003–2017 гг.
(Применение: 2003 — Иерархический байесовский вывод в зрительной коре; 2006 — Классификация цифр; 2006 — Глубокая сеть доверия для телефонного распознавания; 2012 — Распознавание речи из множественных источников; 2015 — Распознавание радужки глаза с помощью камер смартфонов; 2016 — Освоение игры Го глубокими нейронными сетями с поиском по дереву; 2017 — Модель сенсорного распознавания радужки).
4.1 Анализ публикаций за год
На рис. 1 приведено количество публикаций по глубокому обучению из базы данных ScienceDirect в год с 2006 по июнь 2017 года. Очевидно, что постепенное увеличение числа публикаций мог бы описать экспоненциальный рост.
На рис. 2 представлено общее количество публикаций по глубокому обучению в Springer в год с января 2006 года по июнь 2017 года. В 2016 году наблюдается внезапный рост публикаций, достигающий 706 публикаций, что доказывает, что глубокое обучение действительно в центре внимания современных исследований.
На рис. 3 показано количество публикаций на конференциях, в журналах и изданиях IEEE с января 2006 года по июнь 2017 года. Примечательно, что с 2015 года количество публикаций значительно увеличилось. Разница между 2016 и 2015 годами составляет более 200% прироста.
Рис. 1. Рост количества публикаций по глубокому обучению в базе данных Sciencedirect (январь 2006 г. — июнь 2017 г.)
Рис. 2. Рост количества публикаций по глубокому обучению из базы данных Springer. (январь 2006 г. — июнь 2017 г.)
Рис. 3. Рост публикаций в по глубокому обучению из базы данных IEEE. (январь 2006 г. — июнь 2017 г.)
5. Выводы
Глубокое обучение — действительно быстро растущее применение машинного обучения. Многочисленные приложения, описанные выше, доказывают его стремительное развитие всего за несколько лет. Использование этих алгоритмов в разных областях показывает его универсальность. Анализ публикаций, выполненный в этом исследовании, ясно демонстрирует актуальность этой технологии и дает четкую иллюстрацию роста глубокого обучения и тенденций в отношении будущих исследований в этой области.
Кроме того, важно отметить, что иерархия уровней и контроль в обучении являются ключевыми факторами для разработки успешного приложения в отношении глубокого обучения. Иерархия важна для соответствующей классификации данных, в то время как контроль учитывает важность самой базы данных как части процесса. Основная ценность глубокого обучения заключается в оптимизации существующих приложений в машинном обучении благодаря инновационности иерархической обработки. Глубокое обучение может обеспечить эффективные результаты при цифровой обработке изображений и распознавании речи. Снижение процента ошибок (от 10 до 20%) явно подтверждает улучшение по сравнению с существующими и проверенными методами.
В нынешнюю эпоху и в будущем глубокое обучение может стать полезным инструментом безопасности благодаря сочетанию распознавания лиц и речи. Помимо этого, цифровая обработка изображений является областью исследований, которая может применяться в множестве других областей. По этой причине и доказав истинную оптимизацию, глубокое обучение является современным и интересным предметом развития искусственного интеллекта.
Использованная литература
- Abdel, O.: Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition. Acoustics, Speech and Signal Processing 7, 4277-4280 (2012).
- Mosavi A., Varkonyi-Koczy A. R.: Integration of Machine Learning and Optimization for Robot Learning. Advances in Intelligent Systems and Computing 519, 349-355 (2017).
- Bannister, A.: Biometrics and AI: how FaceSentinel evolves 13 times faster thanks to deep learning (2016).
- Bengio, Y.: Learning deep architectures for AI. Foundations and trends in Machine Learning 2, 1-127 (2009).
- Mosavi, A., Varkonyi-Koczy, A. R., Fullsack, M.: Combination of Machine Learning and Optimization for Automated Decision-Making. MCDM (2015).
- Deng L, Yu D Deep learning: methods and applications. Foundations and Trends in Signal Processing 7, 197-387 (2014)
- Goel, B.: Developments in The Field of Natural Language Processing. International Journal of Advanced Research in Computer Science 8, (2017).
- Vaezipour, A.: Mosavi, A. Seigerroth, U.: Machine learning integrated optimization for decision making, 26th Europian Conference on Operational Research, Rome (2013).
- Hinton G E, Simon O, Yee-Whye T A fast learning algorithm for deep belief nets. Neural computation 18, 1527-1554 (2006)
- Hisham, A., Harin, S.: Deep Learning – the new kid in Artificial Intelligence. (2017)
- Kim I W, Oh, M.: Deep learning: from chemoinformatics to precision medicine. Journal of Pharmaceutical Investigation: 1-7 (2017)
- Mosavi, A., Vaezipour, A.: Developing Effective Tools for Predictive Analytics and Informed Decisions. Technical Report. University of Tallinn (2013)
- Mosavi A., Y., Bathla, Varkonyi-Koczy A. R.: Predicting the Future Using Web
Knowledge: State of the Art Survey Advances in Intelligent Systems and Computing (2017). - Mosavi, A., Vaezipour, A.: Reactive Search Optimization; Application to Multiobjective
Optimization Problems. Applied Mathematics 3, 1572-1582 (2012) - Lee J-G (2017) Deep Learning in Medical Imaging: General Overview. Korean Journal of
Radiology 18(4):570-584 - Lee T.: David M Hierarchical Bayesian inference in the visual cortex. JOSA 20, 1434-1448
(2003). - Liu W Deep learning hashing for mobile visual search. EURASIP Journal on Image and
Video Processing 17, (2017). - Marra F.: A Deep Learning Approach for Iris Sensor Model Identification. Pattern Recognition Letters (2017).
- Miotto R et al (2017) Deep learning for healthcare: review, opportunities and challenges.
Briefings in Bioinformatics - Mohamed A.: Deep belief networks for phone recognition. Nips workshop on deep learning
for speech recognition and related applications: 1, 635-645 (2009). - Moor. J.: The Turing test: the elusive standard of artificial intelligence. Springer Science &
Business Media (2003). - Vaezipour, A. Mosavi, U. Seigerroth, A.: Visual analytics and informed decisions in health
and life sciences, International CAE Conference, Verona, Italy (2013) - Raja K B, Raghavendra R, Vemuri V K, Busch C (2015) Smartphone based visible iris
recognition using deep sparse filtering. Pattern Recognition Letters 57:33-42. - Safdar S, Zafar S, Zafar N, Khan N F (2017) Machine learning based decision support systems (DSS) for heart disease diagnosis: a review. Artificial Intelligence Review: 1-17
- Mosavi, A. Varkonyi. A.: Learning in Robotics. Learning 157, (2017)
- Xing J, Li K, Hu W, Yuan C, Ling H et al (2017) Diagnosing deep learning models for high
accuracy age estimation from a single image. Pattern Recognition - Mosavi, A. Rabczuk, T.: Learning and Intelligent Optimization for Computational Materials
Design Innovation, Learning and Intelligent Optimization, Springer-Verlag, (2017) - Vaezipour, A., et al., Visual analytics for informed-decisions, International CAE Conference, Verona, Italy, (2013).
- Dehghan, A.: DAGER: Deep Age, Gender and Emotion Recognition Using Convolutional
Neural Network3, 735-748 (2017) - Mosavi, A: predictive decision model, 2015, https://doi.org/10.13140/RG.2.2.21094.630472
- Vaezipour, A., et al.: Visual analytics and informed decisions in health and life sciences."
Paper in Proceedings of International CAE Conference, Verona, Italy. (2013). - Vaezipour, A.: Visual analytics for informed-decisions, CAE Conference, Italy, (2013).
- A.Vaezipour, A.:Machine learning integrated optimization for decision making. 26th European Conference on Operational Research, Rome (2013).
- Vaezipour, A.: Visual Analytics for Multi-Criteria Decision Analysis, in Proceedings of International CAE Conference, Verona, Italy (2013).
- Mosavi, A., Vaezipour, A.: Developing Effective Tools for Predictive Analytics and Informed Decisions. Technical Report. (2013). https://doi.org/10.13140/RG.2.2.23902.84800
- Mosavi A., Varkonyi-Koczy A. R.: Integration of Machine Learning and Optimization for
Robot Learning. Advances in Intelligent Systems and Computing 519, 349-355 (2017). - Mosavi, A., Varkonyi, A.: Learning in Robotics. Learning, 157, (2017).
- Mosavi, A.: Decision-making software architecture; the visualization and data mining assisted approach. International Journal of Information and Computer Science 3, 12-26 (2014).
- Mosavi, A.: The large scale system of multiple criteria decision making; pre-processing,
Large Scale Complex Systems Theory and Applications 9, 354-359 (2010). - Esmaeili, M., Mosavi, A.: Variable reduction for multiobjective optimization using data
mining techniques. Computer Engineering and Technology 5, 325-333 (2010) - Mosavi, A.: Data mining for decision making in engineering optimal design. Journal of AI
and Data Mining 2, 7-14 (2014). - Mosavi, A., Vaezipour, A.: Visual Analytics, Obuda University, Budapest, (2015).
- Mosavi, A., Vaezipour, A.: Reactive Search Optimization; Application to Multiobjective
Optimization Problems. Applied Mathematics 3, 1572-1582 (2012). - Mosavi, A., Varkonyi-Koczy, A. R., Fullsack, M.: Combination of Machine Learning and
Optimization for Automated Decision-Making. MCDM (2015). - Mosavi, A., Delavar, A.: Business Modeling, Obuda University, Budapest, (2016).
- Mosavi, A.: Application of data mining in multiobjective optimization problems. International Journal for Simulation and Multidisciplinary Design Optimization, 5, (2014)
- Mosavi, A. Rabczuk, T.: Learning and Intelligent Optimization for Material Design Innovation, Theoretical Computer Science and General Issues, LION11 (2017).
- Mosavi, A., Visual Analytics, Obuda University, 2016.
- Mosavi, A.: Predictive decision making, Tech Rep 2015. doi: 10.13140/RG.2.2.16061.46561
- Mosavi. A.: Predictive Decision Making, Predictive Decision Model, Tech. Report. (2015).
https://doi.org/10.13140/RG.2.2.21094.63047 - Mosavi, A., Lopez, A.: Varkonyi-Koczy, A.: Industrial Applications of Big Data: State of
the Art Survey, Advances in Intelligent Systems and Computing, (2017). - Mosavi, A., Rabczuk, T., Varkonyi-Koczy, A.: Reviewing the Novel Machine Learning
Tools for Materials Design, Advances in Intelligent Systems and Computing, (2017). - Mousavi, S., Mosavi, A., Varkonyi-Koczy, A. R.: A load balancing algorithm for resource
allocation in cloud computing, Advances in Intelligent Systems and Computing, (2017). - Baranyai, M., Mosavi, A., Vajda, I., Varkonyi-Koczy, A. R.: Optimal Design of Electrical
Machines: State of the Art Survey, Advances in Intelligent Systems and Computing, (2017). - Mosavi, A., Benkreif, R., Varkonyi-Koczy, A.: Comparison of Euler-Bernoulli and Timoshenko Beam Equations for Railway System Dynamics, Advances in Intelligent Systems
and Computing, (2017). - Mosavi, A., Rituraj, R., Varkonyi-Koczy, A. R.: Reviewing the Multiobjective Optimization
Package of modeFrontier in Energy Sector, Advances in Intelligent Systems and Computing,
(2017). - Mosavi, A., Bathla, Y., Varkonyi-Koczy A. R.: Predicting the Future Using Web
Knowledge: State of the Art Survey, Advances in Intelligent Systems and Computing,
(2017).
Автор: Дмитрий