Главная Работы на конкурс Предметное образование Технические дисциплины
Проект «Исследование феномена гроккинга в нейронных сетях на примере задачи модульного сложения»
Автор: Орлов Дмитрий Дмитриевич
Место работы/учебы (аффилиация): Тверской государственный технический университет, магистрант 1 курса
Научный руководитель: Егерева Ирина Александровна, кандидат технических наук, доцент
Цель работы — исследовать феномен гроккинга в нейронной сети на примере задачи модульной арифметики и выявить условия, при которых модель переходит от запоминания обучающей выборки к обобщению на тестовых данных.
Для достижения цели были решены следующие задачи:
- рассмотрено понятие гроккинга и его отличие от классического переобучения;
- обоснован выбор задачи модульного сложения как контролируемой экспериментальной среды;
- сформированы обучающая и тестовая выборки;
- реализована нейронная сеть с embedding-слоем;
- проведены эксперименты по оценке влияния размера обучающей выборки и коэффициента регуляризации weight decay;
- проанализирована динамика точности и функции потерь.
Актуальность работы связана с необходимостью более точного понимания того, как нейронные сети переходят от запоминания обучающих данных к обобщению на новых примерах. Одним из явлений, показывающих сложность этого процесса, является гроккинг: модель может сначала почти полностью запомнить обучающую выборку, долго сохранять низкое качество на тестовых данных, а затем после продолжительного обучения резко перейти к обобщению.
Объектом исследования является процесс обучения нейронных сетей в задачах машинного обучения. Предметом — феномен гроккинга, проявляющийся как отложенный переход модели от запоминания обучающих примеров к обобщению при решении задачи модульного сложения.
Гипотеза исследования состоит в том, что гроккинг в задаче модульного сложения возникает не автоматически при длительном обучении, а зависит от условий обучения модели, прежде всего от размера обучающей выборки и значения регуляризации.
В качестве экспериментальной задачи использовалось модульное сложение y = (a + b) mod 97. Полный набор данных включал 9409 примеров. В базовом эксперименте модель достигла высокой точности на обучающей выборке раньше, чем на тестовой: точность на обучающей выборке превысила 95 % на 41-й эпохе, а точность на тестовой выборке превысила 90 % только на 442-й эпохе. Это позволило зафиксировать временной разрыв между запоминанием и обобщением, характерный для гроккинга.
Основные результаты работы показали, что при 20 % обучающих данных модель запоминала обучающую выборку, но не обобщала правило модульного сложения. При увеличении доли обучающих данных гроккинг возникал раньше. Также установлено, что без регуляризации или при слишком слабой регуляризации модель не переходила к обобщению, а наиболее выраженный гроккинг был получен при weight decay = 1,0. Полученные результаты подтверждают, что возникновение гроккинга зависит не только от длительности обучения, но и от параметров, определяющих процесс оптимизации модели.
Смотреть похожие работы
Исследовательская работа «Влияние искусственного интеллекта на учебную мотивацию подростков (на примере учащихся 7–11 классов общеобразовательных школ г. Твери)»
Проект «Алгоритмическое правосудие: этико-правовые риски внедрения Искусственного интеллекта в систему государственного управления и правопорядка»
Исследовательская работа по теме: «Искусственный интеллект — друг, помощник или соперник?»
Доступна к просмотру полнотекстовая версия работы
Исследовательский проект «Информационный компас: тренажер критического мышления для эпохи ИИ»
Исследовательская работа «ChatGPT как современный инструмент подготовки к ОГЭ по русскому языку: исследование эффективности и разработка гайдбука»
Доступна к просмотру полнотекстовая версия работы
Исследовательская работа «Новый мир: искусственный интеллект в XXI веке»
Доступна к просмотру полнотекстовая версия работы

Добавить комментарий