Основы нейронных сетей

1. Нейронные сети бывают следующих видов:

*Полносвязные и рекуррентные

*Рекуррентные, сверточные и трансформеры

*Рекуррентные, сверточные, полносвязные и трансформеры

2. Задача классификации – это задача

*Обучения с учителем

*Обучения без учителя

*Обучения с подкреплением

3. Обучение нейронной сети – это применение алгоритма оптимизации для решения задачи

*Минимизации средней нормы градиента эмпирического риска по весам модели

*Минимизации эмпирического риска

*Минимизации средней нормы матриц весов модели

4. Отметьте верные высказывания о функциях активации:

*Функция активации сигмоида лежит в диапазоне [0,1] и может быть интерпретирована как вероятность, а потому часто используется для решения задач бинарной классификации. Функция ReLU - кусочно-линейная

*Функция Leacky ReLU - всюду дифференцируема. Популярная функция активации гиперболический тангенс может быть использована, как решающая функция для задачи регрессии. Производная сигмоидальной функции не выражается аналитически через значение самой функции в данной точке

* Все функции активации взаимозаменяемы вследствие того, что имеют одну и ту же область значений и область определения

5. Идея Momentum состоит в:

*Вычислении градиента в точке, к которой алгоритм должен сойтись на текущем шаге, согласно посчитанному моментному члену, а не в той точке, откуда алгоритм производит шаг

*Использовании идеи физической инерции посредством добавления моментных членов, "скоростей"

*приближенном, а значит - более быстром ("моментальном") вычислении градиентов в текущей

6. Нейронные сети, наиболее часто применяющиеся в CV – это

*Полносвязные

*Сверточные

*Рекуррентные

7. Задачу машинного обучения можно представить в виде последовательности выполнения действий по выбору оптимальной решающей функции f из многопараметрического семейства F. Задача обучения сводится к задаче оптимизации на этапе:

*Выбора семейства F

*Оценки качества выбранной функции f из семейства F

*Поиска наилучшей функции из семейства F

8. Производная сигмоиды выражается через саму сигмоиду аналитически, как

*sigm’ = sigm(1 - sigm)

*sigm’ = 5sigm^(5)

*sigm’ = 100sigm/sin(sigm)

9. Метод подбора адаптированного learning rate на основе оценки исторических градиентов:

*Nesterov Momentum

*RMSProp

*Adagrad

10. При прямом проходе через Feed Forward Neural Network:

*Происходит обновление весов модели на основе градиентов, посчитанных на предыдущей итерации

*Происходит выстраивание архитектуры модели посредством подбора числа слоев и их размеров

*Сигнал передается посредством последовательного матричного умножения и применения нелинейных функций активации

11. Архитектура полносвязной нейронные сети основана на идее

*обобщения низкоуровневых признаков и генерирования на их основе более высокоуровневых

*Построения разделяющей гиперплоскости

*Минимизации лосс-функции без использования градиентных методов

12. Начальная инициализация весов нейросети:

*Должна быть константной для того, чтобы результаты обучения нейросети на одной и той же трейнинговой выборке были воспроизводимыми

*Должна быть случайной для того, чтобы модель могла обучиться, не зануляя градиенты на определенном шаге, причем такой, что дисперсия сигнала не будет изменяться при проходе через слои нейросети.

*Может быть любой

13. Лучший способ борьбы с переобучением:

*Изменение архитектуры модели

*Регуляризации

*Увеличение количества данных

14. Наиболее популярный на текущий момент метод оптимизации, основанный на идее использования двух моментных членов, предложенный в 2015 году:

*ADAM

*Adagrad

*Adadelta

15. Обучение с учителем характеризуется

*Целью обучить агента принимать оптимальные решения в среде

* Отсутствием размеченной выборки

*Наличием размеченной выборки

16. Градиентные методы оптимизации

*Представляют собой итерационные алгоритмы

*Аналитически ищут решение задачи оптимизации

*Вопреки названию, не используют градиенты

17. Условия Каруша-Куна-Таккера применимы для решения:

*Любой задачи оптимизац

*Любой задачи оптимизации

*Задачи выпуклой оптимизации

*Задачи оптимизации произвольной функции на выпуклом множестве Q

18. Все описанные в лекции алгоритмы обладают общим свойством. Каким?

*Для всех требуется вычисление матрицы Гессе оптимизируемой функции

*Для всех требуется вычисление градиентов оптимизированной функции

*Для всех требуется подсчет значения оптимизируемой функции в данной точке

19. Функции активации в нейронных сетях:

*Нелинейны (глобально) и вносят неоднородность в сигнал при прямом проходе

*Линейны и нужны для проверки работоспособности модели

*Активируют нейросеть в разных режимах работы

20. Переобучение – это эффект, возникающий при

*Излишней сложности модели по отношению к сложности обучающей выборки, из-за чего происходит “заучивание” данных

*Слишком долгом обучении модели, из-за чего она теряет свою предсказательную способность вследствие увеличения энтропии весов

*Усталости специалиста по машинному обучению от того, что его модели слишком долго учатся

21. Алгоритм Backpropagation:

*Состоит в случайном подборе весов модели до тех пор, пока не будет достигнут оптимальный набор параметров, минимизирующий ошибку

*Используется только для оптимизации полносвязных нейросетей

*Последовательном вычислении градиентов по весам модели, начиная с последнего слоя, по предактивациям соответствующего слоя и градиентам по весам следующего

22. Функции активации в нейронных сетях:

*Нелинейны (глобально) и вносят неоднородность в сигнал при прямом проходе

*Линейны и нужны для проверки работоспособности модели

*Активируют нейросеть в разных режимах работы

Отзывов от покупателей не поступало