-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathSlideNotes.tex
183 lines (113 loc) · 26.6 KB
/
SlideNotes.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
\documentclass[10pt, twoside]{article}
\usepackage[utf8]{inputenc}
\usepackage{a4wide}
\usepackage[english,russian]{babel}
\usepackage{amsmath,amssymb}
\usepackage{geometry}
\geometry{left=1.0cm}
\geometry{right=1.0cm}
\geometry{top=1.0cm}
\geometry{bottom=2.0cm}
\renewcommand{\baselinestretch}{1.}
\begin{document}
\section{Титульный слайд}
Всем добрый день, тема моей диссертационной работы ``Априорное распределение параметров в задачах выбора моделей глубокого обучения''.
\section{Априорное распределение параметров моделей}
В работе исследуются методы задания априорного распределения параметров с учетом накопленной информации о решаемой задаче.
Задача является актуальной в связи с ростом сложности моделях глубокого обучения в последние годы, что в свою очередь характеризируется увеличением числа параметров. Увеличение числа параметров необходимо для повышения качества аппроксимации, которое в свою очередь влечет повышение вычислительной сложности этой аппроксимации. В свою очередь задание априорного распределения на параметрах модели, позволяет работать с пространствами меньшей размерности без потери качества.
Снижение размерности пространства параметров при незначительной потере качества делает возможным использовать эти модели на устройствах с низкой производительностью, в частности, на мобильных устройствах.
Для назначения априорного распределения параметров предлагается использовать априорное и апостериорное распределение параметров ранее обученных моделей.
\section{Привилегированное обучение В. Н. Вапника и дистилляция Дж. Хинтона}
Значимая часть результатов посвящена снижению размерности пространства параметров используя дистилляцию.
Обобщенная постановка задачи дистилляции следующая: пусть задано признаковое расширенное привилегированное описание объектов. Также задана целевая переменная для аппроксимации на основе признакового описания.
Требуется же выбрать модель~$\mathbf{g}$ из некоторого семейства. Данную модель далее будем называть учеником.
Предполагается, что вместе с выборкой задана некоторая более сложная модель, называемая учителем, которая аппроксимирует эту выборку.
Модель ученика же выбирается, минимизируя функционал ошибки~$\mathcal{L},$ зависящий от выборки и модели учителя.
\section{Оптимизация модели ученика на основе учителя}
Предположим, что признаковое описание объектов для учителя и ученика совпадает.и принадлежит пространству~$\mathbb{R}^{n}.$
В качестве целевой переменной рассматриваются метки классов задачи классификации. Параметрические семейства учителя и ученика задаются в виде суперпозиции диффиренцируемых функций~$\mathbf{v}$ и $\mathbf{z}$ с функцией~$\text{softmax}$ соотвественно. Первое пространство модели учителя, а второе модели ученика. Оптимальная модель учителя зафиксирована.
Функция ошибки для минимизации состоит из двух слагаемых. Первое слагаемое это кросс-энтропийная функция потерь для задачи классификации. Второе же слагаемое является слагаемым дистилляции введенное Джеффри Хинтоном эмпирически, оно описывает кросс-энтропию между ответами учителя и ученика. Заметим, что данное слагаемое имеет параметр~$T$ задающий разреженность вероятностей классов.
Второе слагаемое дистилляции представляет основной интерес для дальнейшего исследования.
\section{Байесовская дистилляция модели}
В базовой постановке задачи машинного обучения не учитывается дополнительной информации о рассматриваемой задаче. Это соответствует верхней части диаграммы.
Задана только модель~$g$ из некоторого параметрического семейством; выборка, которую требуется аппроксимировать; и функционал качества, согласно которому выбирается оптимальный вектор параметров~$\mathbf{w}$.
В случае использования базовой дистилляции рассматривается новая переменная~$s$ описывающая ответы модели учителя~$f$. В байесовской же дистилляции, параметры априорного распределения ученика получены из апостериорного распределения учителя.
В обоих дистилляция, как в классической, так и в байесовской требуется минимизировать функционал качества, но с некоторым отличием, которое выделено цветом. К примеру в базовой дистилляции упускается априорное распределение параметров~$\mathbf{w}_0$ и $\mathbf{A}_0$ выделенное зеленым цветом. А в байесовской дистилляции упускаются ответы учителя~$\mathbf{s}$ выделенные синим цветом.
\section{Вероятностная постановка задачи дистилляции}
Для обобщения эмпирически полученных слагаемых дистилляцией в рамках диссертационной работы предложена вероятностная интерпретация дистилляции.
Пусть задано распределение целевой переменной, а также задано совместное распределение этой переменной с ответами модели учителя. Предполагается, что модель учителя является ``адекватной'', то есть целевая переменная и предсказания модели являются зависимыми величинами с положительной ко-вариацией. Причем, в случае, если предсказания модели учителя отсутствует для всех объектов, то правдоподобие модели должно совпадать с правдоподобием модели без дистилляции.
Учитывая гипотезы, получено совместное правдоподобие истинных меток и меток учителя. Именно это правдоподобие требуется максимизировать. Для удобства решения задачи оптимизации, рассматривается логарифм от совместного правдоподобия.
Заметим, что целевая переменная и ответы учителя зависят только посредством признакового описания, а следовательно получаем задачу оптимизации из трех слагаемых. Первые два слагаемых соответствуют правдоподобию выборки, а последнее слагаемое является слагаемым дистилляции.
\section{Вероятностная постановка задачи классификации}
В работе доказано, что оптимизационная задача эмпирически предложенная Джефри Хинтоном является частным случаем вероятностной дистилляции.
А именно, пусть распределение истинных меток является категориальным, а ответов учителя задается функцией плотности. Видно, что слагаемые также условно деляться на 3 части: первая часть это кросс-энтропийная функция ошибки, вторая часть кросс-энтропия между ответами учителя и ученика. А третья часть получена из константы интегрирования, задает разреженность ответов ученика, по аналогии с температурой в базовой дистилляции.
Получаем, что введенные гипотезы порождения данных является адекватными и позволяют обобщить ранее эмпирически полученные слагаемые дистилляции.
\section{Вероятностная постановка задачи регрессии}
Для задачи регрессии доказано, что при некоторых ограничениях, дистилляция эквивалентна простой задаче регрессии с точностью до переопределения целевой переменной.
Рассмотрим случай, когда распределения истинных меток и меток учителя является нормальными. А аппроксимирующие функции учителя и ученика линейными.
В этом случае оптимизационная задача состоит из трех слагаемых, которые можно свести в одно слагаемые изменив значения целевых переменных и веса объектов. Сами преобразования представлены в формулировке теоремы внизу слайда.
\section{Байесовская постановка задачи дистилляции}
Классическая и вероятностная дистилляции не учитывают параметров учителя.
Рассмотрим частный случай параметрического семейства, в котором ученик и учитель являются полносвязными нейронными сетями.
Далее матрицами и векторами~$U$ обозначим параметры учителя, а~$W$ обозначим параметры ученика.
Параметры ученика выбираются на основе вариационного вывода. Но, для его использования требуется априорное распределение параметров ученика.
Предлагается метод, в котором априорное распределение параметров ученика задается на основе апостериорного распределения параметров учителя.
Основная проблема данного метода заключается в том, что пространства параметров учителя и ученика в общем случае не совпадают.
\section{Выравнивание структур моделей}
Для решения проблемы с различием пространств учителя и ученика вводиться выравнивание структур.
В качестве структуры параметрической модели рассматривается последовательность размерностей скрытых представлений после каждого слоя нейросетевой модели.
Выравниванием структур назовем изменение структуры одной или нескольких моделей в результате которого вектора параметров лежат в одном пространстве.
В случае же, если структура учителя и ученика совпадает, то апостериорное распределение параметров учителя просто назначается априорным распределением параметров ученика.
В случае же, если структуры моделей отличаются, то сначала проводится их выравнивание.
\section{Размеры скрытых слоев учителя и ученика различны}
Предложен метод для выравнивания двух структур в случае, когда число слоев учителя и ученика совпадает, а различаются только размеры этих слоев.
Рассматривается отображение~$\phi$, которое соответствуют удалению одного нейрона с~$t$-го слоя.
Доказана теорема о виде распределения параметров полносвязной нейросетевой модели после удаления одного нейрона.
Также доказана теорема-следствие о том, что если до удаления нейрона вектор параметров был распределен нормально, то после удаления одного нейрона распределение также будет нормальным.
\section{Решение задачи выравнивания структур моделей}
Сама теорема имеет простую иллюстрацию. Рассмотрим модель полносвязной сети~$f$. В процессе выравнивания, параметры модели условно делятся на три типа: удаляемые, зануляемые и оставшиеся.
Пусть модель учителя и ученика отличается только размерностью~$t$-го слоя. Причем, размерность слоя ученика на единицу меньше чем соответствующий слой учителя. Также не умоляя общности пусть требуется удалить~$j$-ю строку матрицы~$U_t,$ которая выделена красным цветом.
Удаление~$j$-й строки матрицы~$U_t$ эквивалентно занулению~$j$-го столбца матрицы~$U_{t+1}$, который выделен синим цветом. В следствии чего модель учителя не учитывает~$j$-ю строку при вычислении прогноза.
С другой стороны нулевые значения в~$j$-м столбце матрицы~$U_{t+1}$ позволяют принимать произвольные значения в~$j$-й строке матрицы~$U_{t}$ не влияющие на прогноз модели~$f$.
Это риводит к простому выполнению двух действий: подсчета условного распределения при занулении части параметров и маргинализации другой части параметров.
Далее из свойств нормального распределения получаем распределение вектора параметров после удаления одного нейрона. Параметры нормального распределения записаны внизу слайда.
\section{Число скрытых слоев учителя и ученика различны}
Также предложен метод для выравнивания двух структур в случае, когда число слоев учителя и ученика различны.
Вводится отображение~$\psi$, которое соответствует удалению одного слоя из нейросетевой модели.
Доказана теорема, которая гласит, что в случае если исходный вектор параметров распределён нормально, удаляемый слой задается квадратной матрицей, а функция активации удовлетворяет свойству идемпотентность, то распределение параметров после удаления слоя также будет нормальным. Причем явный вид этого распределения записан внизу слайда.
\section{Обобщение для рекурентной сети RNN}
Представленные выше теоремы имеют обобщение и для других структур нейросетевых моделей. На слайде представлены соответсвующие теоремы для рекурентных сетей. Как для удаления нейронов со скрытых слоев, так и для удаления слоев целиком. Структура рекурентнной сети в этом случае задается последовательностью размерностей скрытых слоев.
\section{Последовательность выравнивающих преобразований}
Предыдущие теоремы описывают локальное преобразование нейросетей, которое отображает исходную структуру в новую с отличием в одном нейроне либо в одном слое. На данном слайде представлено множество структур, которые могут быть получены путем последовательных преобразований из заданной структуры учителя~$f$.
Рассмотрим множество всех структур, которые описываются последовательностью натуральных чисел. А также введем множество структур, которые порождаются структурой модели учителя~$\mathbf{f}$.
В теореме доказано, что каждую структуры из заданного множества можно получить последовательностью локальных преобразований~$\tau$ из структуры учителя сохранив при этом информацию об апостериорном распределении параметров.
Важно, что теорема доказывает существования последовательности преобразований, но легко показать, что такая последовательностью не единственная.
Рассмотрим пример представленный на рисунке справа. Из структуры учителя в структуру ученика существует три различных последовательности преобразований, которые представлены внизу слайда.
\section{Введение отношения порядка на множестве параметров}
На предыдущих слайдах не был оговорен выбор нейронов или слоев для удаления. В диссертационной работе проведены исследования различных методов по заданию порядка на множестве параметров:
\begin{itemize}
\item это случайный порядок;
\item метод оптимального прореживания;
\item и метод на основе анализа апостеориорного распределения параметров;
\end{itemize}
А также были предложены новые методы
\begin{itemize}
\item на основе анализа мультиколиниарности параметров методом Белсли;
\item и на основе анализа ковариационной матрицы градиентов параметров;
\end{itemize}
На графике видно, что порядок заданный методом Белсли позволяет удалять больше параметров без значимой потери качества.
\section{Анализ вероятностных свойств ответов модели ученика}
Вычислительные эксперименты показывают, что правдоподобие ученика в случае использования байесовской дистилляции растет много быстрее чем правдоподобие ученика без использования дистилляции.
Для численной характеристики качества дистилляции введен интегральный критерий, имеющий простую интерпретацию: площадь между графиками. Положительное значение указывает на эффективность дистилляции.
В таблице представлены результаты сравнения интегрального критерия для разных дистилляций. Показано, что правдоподобие ученика на основе байесовской дистилляции растет быстрее чем правдоподобие ученика на основе базовой дистилляции.
Проведен эксперимент по вероятностному анализу ответов моделей. Показано, что дистилляция позволяет учесть распределения над метками классов. Видно, что кросс-энтропийная ошибка меньше у модели ученика без учителя. Но, кросс-энтропия между предсказанными и реальными вероятностями меньше у модели с учителем.
Модель без учителя имеет бОльшую разность между наиболее и наименее правдоподобными метками классов, что свидетельствует о ее переобучении.
Получаем, что модель ученика обученная на основе учителя более качественно аппроксимирует истиныне вероятности классов объектов.
\section{Выносится на защиту}
В рамках диссертационной работы предложен байесовский метод выбора моделей используя накопленную информацию об исследованной задачи.ы
Доказаны теоремы об эквивалентности для дистилляции моделей в случае задачи регрессии и классификации
Доказаны теоремы о виде априорного распределения параметров ученика для байесовской дистилляции.
Отдельной частью диссертации является исследования методов задания порядка на множестве параметров нейросетевых моделей. Предложены методы на основе анализа мультиколлиниарности, а также на основе анализа ковариационной матрицы градиентов.
\section{Список работ автора по теме диссертации}
Список публикаций и выступлений на конференциях по теме диссертационной работе представлен на слайде.
\end{document}