ПРИМЕНЕНИЕ АЛГОРИТМА Q-ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ В ЗАДАЧЕ РАСПОЗНАВАНИЯ ОБРАЗОВ
Скачать PDF
Аннотация: В данной статье рассматривается алгоритм Q-обучения, основанный на использовании нейронной сети с
архитектурой свёрточной нейронной сети. Помимо этого, также рассматривается метод градиентного
спуска с оптимизатором Adam и функцией потерь Sparse Categorical Crossentropy. Описана методика
обучения агента на примерах из обучающего набора данных MNIST и вычисления градиента с помощью
алгоритма обратного распространения ошибки. Также описана стратегия ε-greedy, которая необходима
для помощи агенту в исследовании различных действий и выбора оптимального в зависимости от
текущего состояния среды. Кроме того, статья рассматривает параметры обучения, такие как количество
эпох и размер пакета.
Ключевые слова: Q-обучение, свёрточная нейронная сеть, распознавание изображений, агент, высокоуровневая
абстракция, метод градиентного спуска, оптимизатор Adam, функция потерь Sparse Categorical Crossentropy,
набор данных MNIST, алгоритм обратного распространения ошибки, стратегия ε-greedy
Номера страниц: 36-41.
Для цитирования: Лясковский В.Л., Куликова М.А. Применение алгоритма q-обучения с подкреплением в задаче распознавания образов // Электронный научный журнал «ИТ-Стандарт». – 2023. – № 3. – С. 36-41.