Разработка системы управления процессом обучения нейронных сетей на основе генетического алгоритма
Введение
Современные технологии автоматизации позволяют нам избавляться от рутинных задач и общаться с машиной более естественно. Однако, чтобы это взаимодействие было более социально и эмоционально, аналогично тому, как бы повел себя человек, создается специальная среда при помощи мониторов или виртуальных окружений с аватарами, которые выражают эмоции и ведут себя в соответствии с социальными нормами. На данный момент, наиболее успешной в этой области являются агенты, управляемые нейронными сетями.
Существует множество нейросетевых архитектур и методов их обучения. Путем изменения гиперпараметров или архитектуры можно значительно повысить точность модели. Однако, обучение нейронной сети классическими подходами не решает проблему застревания в локальных минимумах функции потерь или же пространство признаков слишком велико для точного обучения модели. В данном случае требуется процедура, которая будет являться вышестоящей по отношению к процедуре обучения нейронной сети.
Оглавление
Реферат 2
Введение 5
Раздел 1. Анализ методов и решений. 6
1.1 Изучение и анализ парадигм задействующих социально эмоциональное взаимодействие. 6
1.2 Изучение методов глубокого обучения в задачах социально эмоционального взаимодействия в выбранных парадигмах. 6
1.2.1 Многослойные полносвязные нейронные сети прямого распространения. 6
1.2.2 Рекуррентные нейронные сети. 7
1.3 Изучение и анализ генетических алгоритмов, как средств оптимизации нейронных сетей. 8
1.4 Анализ и обзор существующих видов генетических алгоритмов. 8
1.4.1 CHC-алгоритм 9
1.4.2 Гибридные алгоритмы 9
1.5 Анализ возможностей применения эволюционных алгоритмов для модификации обучающей выборки моделей глубокого обучения. 9
1.5.1 EPOSearch 10
1.6 Выводы. 10
1.7 Цели и задачи УИР/НИР 11
Раздел 2. Моделирование системы управления процессом обучения нейронных сетей на основе генетического алгоритма. 12
2.1 Конкретизация парадигм социального взаимодействия. 12
2.2 Выбор модели глубокого обучения и ее архитектуры для управления поведением актора. 13
2.3 Формулировка принципов комбинирования генетического и глубинного подходов: выбор и конкретизация понятий, относящихся к генетическому алгоритму. 17
2.3.1 Базовая структура генетических алгоритмов. 18
2.3.2 Виды селекции. 19
2.3.3 Виды скрещивания. 20
2.3.4 Пояснения к скрещиваниям и мутациям в разрабатываемой системе 21
2.4 Формулировка принципов работы и требований к программной реализации, реализующей комбинированный метод обучения, использующий генетический алгоритм с алгоритмом глубокого обучения в качестве акторов. 22
2.5 Выводы 23
Раздел 3. Проектирование программы для управления процессом обучения нейронных сетей на основе генетического алгоритма. 24
3.1. Разработка архитектуры, реализующей комбинированный метод обучения, использующий генетический алгоритм с алгоритмом глубокого обучения в качестве акторов. 24
3.2. Разработка алгоритмов кроссинговера, мутаций, и отбора в генетическом алгоритме. 26
3.3. Проектирование системы, реализующей особенности выбранной парадигмы. 29
3.4. Разработка системы тестирования системы без участия испытуемых. 32
3.5. Программное обеспечение 34
3.6. Выводы 35
Раздел 4. Программная реализации системы для управления процессом обучения нейронных сетей на основе генетического алгоритма. 36
4.1. Разработка программы для управления процессом обучения нейронных сетей на основе генетического алгоритма. 37
4.2. Оценка работы программы 37
4.3. Выводы 38
Раздел 5. Эксперементальные исследования системы для управления процессом обучения нейронных сетей на основе генетического алгоритма. 39
5.1. Поведение внутри популяций 39
5.2. Сравнение с эталонным представителем 40
5.3. Выводы 43
Заключение 44
Список литературы
Список источников
Нейронные сети: полный курс, 2-е издание. : Пер. с англ. – М. : Издательский дом «Вильямс» 2006. – 1104 с.
Sherstinsky, A.: Fundamentals of Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM) network // Physica D: Nonlinear Phenomena, Vol. 4, March 2020
Yu Y. et al. A review of recurrent neural networks: LSTM cells and network architectures //Neural computation. – 2019. – Т. 31. – №. 7. – С. 1235-1270.
Ortony, A., Clore, G.L., Collins, A.: The Cognitive Structure of Emotions // Cambridge University Press, Cambridge, UK (1988).
Дрокин И. С. Об одном алгоритме последовательной инициализации весов глубоких нейронных сетей и обучении ансамбля нейронных сетей //Вестник Санкт-Петербургского университета. Прикладная математика. Информатика. Процессы управления. – 2016. – №. 4. – С. 66-74.
Осовский С. Нейронные сети для обработки информации / пер. с польского И.Д. Рудинского. – М. : Финансы и статистика, 2002. – 344 с.
Kim I. J., Choi C., Lee S. H. Improving discrimination ability of convolutional neural networks by hybrid learning //International Journal on Document Analysis and Recognition (IJDAR). – 2016. – Т. 19. – №. 1. – С. 1-9.
Whitley D., Sutton A. M. Genetic algorithms-A survey of models and methods //Handbook of natural computing. – Springer Berlin Heidelberg, 2012. – С. 637-671.
El-Mihoub T. A. et al. Hybrid Genetic Algorithms: A Review //Eng. Lett. – 2006. – Т. . – №. 2. – С. 124-137.
Debabrata Mahapatra, Vaibhav Rajan Proceedings of the 37th International Conference on Machine Learning, PMLR 119:6597-6607, 2020.
Sepp Hochreiter; Jürgen Schmidhuber (1997). "Long short-term memory". Neural Computation. 9 (8): 1735–1780.
Hochreiter, Sepp (1991). Untersuchungen zu dynamischen neuronalen Netzen Technical University Munich, Institute of Computer Science, advisor: J. Schmidhuber.
Vaswani A., Shazeer N., Parmar N., Uszkoreit J., Jones L., Gomez A. N., Polosukhin I., Kaiser Ł. Attention is All you Nee
Структура LSTM похожа на цепочку, но модули содержат четыре слоя, которые взаимодействуют между собой. Модуль LSTM состоит из нескольких элементов: ячейки, элемента ввода, элемента вывода и элемента забывания. Ячейка помнит значения на протяжении произвольного времени, а три вентиля регулируют поток информации в ячейку и из нее. Элементы забывания решают, какую информацию отбросить из предыдущего состояния, а элементы ввода решают, какие фрагменты новой информации хранить в текущем состоянии. Элементы вывода управляют тем, какие фрагменты информации в текущем состоянии выводить. Это позволяет сети LSTM поддерживать полезные долгосрочные зависимости для составления прогнозов как на текущем, так и на будущих временных шагах.
Рассмотрим устройство отдельной ячейки LSTM, структура которой представлена на Рис.4. На данной схеме каждая линия перемещает вектор значений от одного узла к другому. Совмещенные линии представляют собой объединение векторов