А. В. Гасников планирует провести 2 занятия.
Доступна видеозапись курса.
В мини-курсе сначала речь пойдет о вполне простых вещах, связанных с марковскими процессами. Мы познакомимся с конкретными примерами марковских процессов и эргодической теоремой. Дальше, мы перейдем к управляемым марковским процессам и получим уравнение Вальда-Беллмана, описывающее оптимальную стратегию (выбор управления в зависимости от состояния). С помощью этого уравнения будет решена задача о разборчивой невесте...
На второй лекции мы свяжем уравнение
Вальда-Беллмана с задачами Линейного программирования (ЛП). Немного
поговорим о задачах ЛП и современных методах их решений. В
большинстве реальных приложений нельзя считать, что функции
вознаграждений и матрица переходных вероятностей управляемого
марковского процесса известны. Возникает потребность численно
(численными методами) искать оптимальную стратегию. Планируется
познакомиться с некоторыми современными способами поиска оптимальных
стратегий, базирующимися на стохастических вариантах метода
последовательных итераций ($Q$-обучение) и некоторых аналогах процедур
типа стохастических градиентных спусков. Вряд ли удастся реализовать
этот план в полном объеме (с доказательствами), однако некоторые
впечатления о современном состоянии данной области всё же постараемся
оставить.
Литература.
Пререквизиты. Первая лекция рассчитана будет на самую широкую аудиторию, а вот вторая будет доступна только студентам — или очень продвинутым и мотивированным школьникам.