tese_spy.toc

\select@language {english}
\contentsline {chapter}{\numberline {1}Introduction}{14}{chapter.1}
\contentsline {section}{\numberline {1.1}Motivation}{14}{section.1.1}
\contentsline {section}{\numberline {1.2}Problem Statement}{16}{section.1.2}
\contentsline {section}{\numberline {1.3}Approach}{17}{section.1.3}
\contentsline {section}{\numberline {1.4}Literature Review}{17}{section.1.4}
\contentsline {section}{\numberline {1.5}Contributions}{19}{section.1.5}
\contentsline {section}{\numberline {1.6}Outline of this Dissertation}{19}{section.1.6}
\contentsline {chapter}{\numberline {2}Reinforcement Learning}{20}{chapter.2}
\contentsline {section}{\numberline {2.1}Model Introduction}{20}{section.2.1}
\contentsline {section}{\numberline {2.2}Markov Decision Processes}{21}{section.2.2}
\contentsline {subsection}{\numberline {2.2.1}Optimality in Reinforcement Learning}{22}{subsection.2.2.1}
\contentsline {subsubsection}{\numberline {2.2.1.1}Optimal Value Function}{22}{subsubsection.2.2.1.1}
\contentsline {subsubsection}{\numberline {2.2.1.2}Optimal Policy}{22}{subsubsection.2.2.1.2}
\contentsline {section}{\numberline {2.3}RL Algorithms}{23}{section.2.3}
\contentsline {subsection}{\numberline {2.3.1}Categorizing RL}{23}{subsection.2.3.1}
\contentsline {subsection}{\numberline {2.3.2}Value Function Methods}{24}{subsection.2.3.2}
\contentsline {subsubsection}{\numberline {2.3.2.1}Monte Carlo Methods}{24}{subsubsection.2.3.2.1}
\contentsline {subsubsection}{\numberline {2.3.2.2}Temporal-Difference and Sarsa}{25}{subsubsection.2.3.2.2}
\contentsline {subsubsection}{\numberline {2.3.2.3}Q-Learning}{26}{subsubsection.2.3.2.3}
\contentsline {subsection}{\numberline {2.3.3}Policy Search Methods}{27}{subsection.2.3.3}
\contentsline {subsection}{\numberline {2.3.4}Actor-Critic}{28}{subsection.2.3.4}
\contentsline {chapter}{\numberline {3}Deep Reinforcement Learning}{29}{chapter.3}
\contentsline {section}{\numberline {3.1}Neural Networks}{29}{section.3.1}
\contentsline {subsection}{\numberline {3.1.1}Representation}{29}{subsection.3.1.1}
\contentsline {subsection}{\numberline {3.1.2}Vectorization}{31}{subsection.3.1.2}
\contentsline {subsection}{\numberline {3.1.3}Forward Propagation}{32}{subsection.3.1.3}
\contentsline {subsection}{\numberline {3.1.4}Backward Propagation}{32}{subsection.3.1.4}
\contentsline {section}{\numberline {3.2}Trust Region Policy Optimization}{33}{section.3.2}
\contentsline {section}{\numberline {3.3}Proximal Policy Optimization (PPO)}{35}{section.3.3}
\contentsline {chapter}{Bibliography}{37}{chapter.4}