Bluesplatter

Prediction and Control with Function Approximation - 03. Week 3. Control with Approximation

2024-05-17T10:00:00+00:00

Chap.10 On-policy Control with Approximation

이번 챕터에서는 제어 문제에 대해 집중한다.
- action-value function 의 근사화 함수 $\hat{q} (s,a, \textbf{w} ) \approx q_*(s,a)$
- $\textbf{w} \in \mathbb{R}^d$ (유한 차원의 가중치 벡터)
- 이번 쳅터에서는 on-policy 의 경우에 집중한다. (off-policy 는 11장에서 다룬다.)
이 장에서는 semi-gradient Sarsa 알고리즘에 대해 다룬다.
- semi-gradient TD(0) 를 action value 와 on-policy control 로 자연스럽게 확장한다.
- episodic case 에서는 이 확장이 직관적이나, continuing case 에서는 최적 정책을 정의하기 위한 할인에 대한 개념을 고려해야 한다.
- 놀랍게도 우리가 참 함수근사를 가지게 된다면, 할인을 포기하고 새로운 “average-reward” 공식을 새로운 “differential” value function 에 적용해야 한다.

10.1 Episodic Semi-gradient Control

semi-gradient prediction methods 를 action values 로 확장하는 것은 직관적이다.
- action-value function 의 근사화, $\hat{q} \approx q_\pi$ 를 가중치 벡터 $\textbf{w}$ 로 파라미터화된 함수화 형태를 만드는 것.
- 이전에 고려하였던 $S_t \mapsto U_t$ 에 대해 이제는 $S_t, A_t \mapsto U_t$ 를 고려한다.
- 업데이트 타겟 $U_t$ 는 $q_\pi (S_t,A_t)$ 의 어떠한 근사치도 될 수 있다.
- 가령 통상적인 backed-up value 들, full Monte Carlo return ($G_t$) 또는 n-step Sarsa returns 가 될 수 있다.
보편적인 gradient-descent update for action-value prediction
episodic semi-gradient one-step Sarsa
- 이 방식 또한 TD(0) 와 같은 방식으로 수렴하고, 같은 error 범위를 가지게 된다. (단 가치함수근사가 선형임을 전제로 함.)
control methods
- 우리는 action-value prediction methods 와 쌍을 이루는 policy improvement 와 action selection 기술이 필요하다.
- 이산적이지 않은 연속적인 actions 와 거대한 이산 action sets 환경에서의 기술은 아직 논의 중이다.
- 반면 action 이 이산적이고 크지 않은 집합이라면 이미 개발된 기술들을 사용할 수 있다.
- 가령 현 상태 $S_t$ 에서 각각의 가능한 행동 $a$ 가 있다면 우리는 $\hat{q} (S_t, a, \textbf{w}_t )$ 를 계산해 낼 수 있고
- greedy action $A^*_t = \arg\max_a \hat{q}(S_t,a, \textbf{w}_t)$ 를 찾을 수 있다.
- 정책 개선은 이 예측 정책을 탐욕 정책의 soft approximation (예를 들어 $\epsilon$-greedy policy) 로 변경하는 것으로 끝나며, 행동 또한 동일 정책으로 선택되면 된다.

10.3 Average Reward: A New Problem Setting for Continuing Tasks

average reward settings
- Markov decision problems (MDPs) 에서 에피소드와 할인 설정 외의 고전적인 세팅 방법
- continuing problems - 종료 혹은 시작상태 없이 환경과 에이전트가 계속 상호작용 하는 문제 에 적용된다.
- 할인이 없이 에이전트는 지연된 보상을 즉각적인 보상과 같이 생각한다.
- dynamic programming 에서는 고전적인 이론으로 여겨지고, 강화학습에서는 덜 사용한다.
- 다음 섹션에서 우리는 discounted setting 이 근사 함수와 문제가 있고, 그렇기에 average-reward setting 이 그것을 대체함을 논의할 것이다.
- average-reward setting 에서 정책 $\pi$ 은 보상의 평균으로 평가되며, 이것을 $r(\pi)$ 로 표기한다.
Ergodicity (에르고딕성)
- 기대값은 초기 상태 $S_0$ 와 이후의 행동 $A_0,A_1,…,A_{t-1}$ 가 정책 $\pi$ 에 따라 선택된다는 조건 하에 계산된다.
- $\mu_\pi$ 는 안정 상태 분포 (steady-state distribution) 으로 정의되며, 다음과 같이 나타낼 수 있다.
- $\mu_\pi(s) \doteq \lim_{t \to \infty} Pr [ S_t=s | A_{0:t-1} \sim \pi ]$
- 이는 주어진 $\pi$ 에 대해 항상 존재하며 초기 상태 $S_0$ 에 독립적이라고 가정한다.
- MDP 에 대한 이러한 가정을 에르고딕성 (ergodicity) 라 한다.
- 이는 MDP 가 어디에서 시작하든지 또는 에이전트가 초기에 어느 결정을 내리든지 간에, 이러한 결정들은 일시적 효과만을 가질수 있다는 것을 의미한다.
- 장기적으로 한 상태에 있을 확률의 기대값은 오직 정책과 MDP 의 전이 확률에 의존하게 된다.
- 그렇기에 위의 수식이 안정적으로 수렴함을 보장할 수 있다.
평균 보상 접근법을 통한 정책의 최적성 평가
- 할인되지 않은 지속적인 경우에서 최적성의 종류 간에는 미묘한 차이점이 있다.
- 그러나 대부분의 실용적인 목적을 위해서는 정책들을 시간 단계당 평균 보상, 즉 $r(\pi)$ 에 따라 순서를 매기는 것만으로도 충분할 수 있다.
- 이는 정책 $\pi$ 하의 평균 보상으로 다음과 같이 제안된다.
  - $\lim_{t \to \infty} \mathbb{E} [ R_t | S_0, A_{0:t-1} \sim \pi ]$
- 특히, $r(\pi)$ 의 최대 값을 달성하는 모든 정책을 최적이라고 간주한다.
Average-reward setting 에서 안정적 상태 분포와 차분 가치 함수
- 안정적 상태 분포 (steady state distribution) : 정책 $\pi$ 를 따라 행동을 선택하였을 때, 같은 분포가 되는 상태
- average-reward setting 에서 보상값은 보상과 평균 보상의 차로 정의된다.
- 이는 differential return (차분 보상) 이라 하고, 이에 상응하는 가치 함수는 differential value function (차분 가치 함수) 라 한다.
- 같은 방식의 표현을 사용한다.
  - $v_\pi(s) \doteq \mathbb{E}_\pi [G_t | S_t=s]$
  - $q_\pi (s,a) \doteq \mathbb{E}_\pi [G_t | S_t=s, A_t=a]$
- Differential value function 또한 Bellman equations 를 가지고 있다.
- 이는 간단히 $\gamma$ 를 제거하고, 보상 대신 보상과 true average reward 의 차를 사용하는 차이점이 있다.
- 또한 TD error 에 대한 differential form 도 있다.
- $\bar{R}_t$ : 시간 t 에서의 평균 보상 $r(\pi)$ 의 추정치
- 이러한 변형된 정의에서 평균보상 세팅을 통한 대부분의 알고리즘과 많은 이론적 결과는 변화 없이 적용이 된다.
- 예를 들어 semi-gradient Sarsa 의 average reward 버전은. 위의 변형된 TD error 를 사용한다.
- 이에 대한 pseudo code 는 아래와 같다.

Episodic Sarsa with Function Approximation

학습목표
- 어떻게 행동-가치 근사를 위해 행동 종속적인 feature 를 구성하는지 이해
- 어떻게 episodic tasks 에서 함수 근사를 이용한 Sarsa 를 적용하는지 이해
State-values to action-values
- value function approximation 은 weight vector 와 feature vector, 2개의 구성요소를 가지고 있다.
- State-value function approximation 에서는 주어진 상태에 대해 이 2개의 요소의 내적 연산을 통해 가치 추정을 한다.
- TD 에서 Sarsa 로 전환하기 위해 우리는 action value function 을 사용해야 한다.
- 따라서 feature 의 표현에서 action 또한 표현이 되어야 한다.
Representing actions
- feature 의 표현에 action 이 포함되는 하나의 방법으로 각 행동에 대응하도록 function approximator 를 분리하는 것이다.
  - stacking the features
  - 즉, 각각의 행동에 대해 같은 상태 feature 를 사용하며, 단 해당하는 행동에 대응하는 feature 만 활성화 하는 것
Computing action-values
- 4개의 요소를 가진 상태 feature 와 3개의 action 이 있다고 가정
- action 에 해당하는 상태 feature 만 활성화
- stacking features : 상태와 행동을 함께 포함하는 특성을 표현하는 방식
Computing Action-values with a Neural Network
- 위의 Stacking feature 방식으로 action value 를 계산하는 것이 선형 함수 근사에 특화된 것으로 생각할 수 있으나 그렇지 않다.
- 신경망의 경우
  - 상태를 입력으로 받음
  - 마지막 은닉층에서 상태 특성을 생성
  - 위 상태 특성에 각 행동 가치에 해당하는 별개의 가중치를 연산, 별도의 출력을 생성
  - 한 행동 가치의 가중치는 다른 행동 가치의 가중치와 상호작용하지 않음 (Stacking 과 동일)
- 즉 신경망에서 각 행동 가치가 독립적인 가중치 집합으로 계산되는 방식이 Stacking 과 동일한 개념이다.
- 둘 다 행동 가치를 독립적으로 계산하기 때문에 한 행동 가치의 가중치는 다른 행동 가치에 영향을 미치지 않는다.
- 단 상태와 마찬가지로 행동 또한 일반화시키고 싶은 경우 행동 또한 상태와 포함하여 feature 로 구성해야 한다.
Episodic Sarsa with function approximation

Episodic Sarsa in Mountain Car

학습목표
- approximate TD control method 의 성능 분석에 대한 경험
The Mountain Car environment
- episodic task
- 목표 : 동력이 부족한 (중력이 자동차의 엔진보다 강함) 자동차를 산의 우측 경사 위의 목적지에 도달하게 만드는 것
  - 자동차가 바로 올라갈 수 없고, 반대방향 등으로 이동하여 모멘텀을 얻어 목적지에 도달하여야 함.
- 초기 상태 : 계곡 밑바닥의 근처 랜덤한 장소에서 시작
- 종료 상태 : 언덕 꼭대기위 깃발 위치에 도달
- 빠른 시간 내에 목표 달성을 위해 각 시간 스텝마다 보상 수치에 -1을 적용
- 할인 : 없음
- 상태값 : 자동차의 위치, 자동차의 속도 (2차원 연속 공간)
- 행동값 : 전진, 후진, 가속없음
Feature representation
- feature 는 위치와 속도로 이루어짐
- tile coding 기법을 사용하며, 8x8 그리드(타일)을 8 타일링 사용
- action 은 개별적으로 다루며, stacked feature 표현법을 사용한다.
- 보상 초기 값은 0으로 세팅 (이는 매우 긍정적인 세팅으로, 실제 보상값이 -1씩 줄기 때문에 보상이 0보다 커질 수 없음)
  - 위의 세팅으로 시스템적인 탐험을 일으킴
  - 위의 세팅으로 타 탐험정책 없이 그리드 정책을 운영할 수 있음
Learned values
- 상태의 값을 샘플링하여 시각화함 (상태의 값이 연속적이어서, 모든 상태의 탐험이 불가능함)
- $- \max_a Q(s,a, \textbf{w})$ 수치 사용 : step 마다 -1 의 보상이 적용되는데, 이 값으로 몇 스텝 후에 종료될지를 예상함
- 화살표 포인트가 시작점이며, 초록색 점선이 최적의 trajetory 를 가리킨다.
- learning curve 는 학습의 속도에 더 나은 insight 를 제공한다.
- $\alpha$ (step size) 값이 작을수록 학습 속도가 느렸음
- 모든 $\alpha$ 값이 8로 나누어짐
  - step size vector 를 사용하지 않을 경우 보편적으로 feature vector의 norm (길이) 값을 사용
  - 여기서는 8개의 타일링을 사용하였으므로, 1의 feature vector 의 길이는 8이 된다.
- 위의 부연설명 (Chat-GPT)
  - tiling 한 숫자만큼 하나의 상태가 여러 타일에 속하게 되고, 여러 가중치가 업데이트되어 이것이 과도한 영향을 주는 요인이 될 수 있다.
  - tiling 의 수만큼 나누어줌으로서, 학습과정의 안정성을 높이게 된다. (normalization)

Expected Sarsa with Function Approximation

학습목표
- 함수 근사를 이용한 Expected Sarsa 업데이트에 대해 설명하기
- 함수 근사를 이용한 Q-learning 에 대해 설명하기
From Sarsa to Expected Sarsa
- Sarsa : 업데이트 할 때 다음 상태와 행동을 선택하여 업데이트한다. (On-policy)
- Expected Sarsa : 정책에 따른 다음 상태의 모든 행동예측값을 이용해 업데이트한다. (Off-policy)
- On-policy
  - 장점 : 정책 일관성, 안정성, 탐험-이용 균형 유지
  - 단점 : 학습 효율성 낮음, 로컬최적화 위험
- Off-policy
  - 장점 : 학습 효율성 높음, 데이터 재사용 가능, 전역 최적화 탐색 가능
  - 단점 : 불안정성, 수렴 문제, 정책 일관성 부족
Expected Sarsa with Function Approximation
- 위의 식과 같이 $\textbf{w}$ 를 TD error 값을 이용해 업데이트 해 나아간다.
Expected Sarsa to Q-learning
- Q-learning 은 Expected-Sarsa 의 특이 케이스 중 하나이다. (학습하려는 정책이 Greedy policy 인 Expected Sarsa)

Exploration under Function Approximation

학습목표
- 함수 근사에서의 낙관적 초기값을 통한 탐색-이용과 $\epsilon$-greedy 방식을 통한 탐색-이용 방식에 대한 설명
Optimitic Initial Values in the Tabular Setting
- agent 가 실제 보상값보다 더 큰 보상값을 얻을 것이라고 상상하는 것
- 이는 에이전트로 하여금 상태-행동 공간에서 시스템적인 탐색을 유도한다.
- 이는 Tabular Setting 에서 하나의 상태-행동 쌍이 다른 상태-행동 쌍의 값에 영향을 미치지 않기에 가능하다.
How to Initialize Values Optimistically under Function Approximation
- 함수 근사에서 낙관적인 초기값을 세팅한다는 것은, 낙관적 결과값을 위해 가중치 벡터를 세팅한다는 것과 같은 의미이다.
  - 이는 특수한 환경에서는 쉽게 가능한데, 이를테면 binary feature 일 경우이다.
  - binary feature : 모든 상태-행동 쌍에 대응하는 하나의 가중치가 존재하며, feature 값은 1과 0으로 표현됨.
- 대부분의 문제에서는 낙관적인 초기값을 세팅하는 것이 불가능하다.
  - 신경망에서는 가중치를 조절하여 낙관적인 결과값을 유도하는 것은 꽤 복잡한 문제이다.
  - 예를 들어 tanh 활성화 함수를 사용할 경우 초기 가중치가 양수여도 음수의 결과값이 나올 수도 있다.
How Optimism Interacts with Generalization
- 어떻게 feature 값을 일반화하였느냐에 따라, 낙관적 초기값은 tabular case 와 같은 시스템적 탐색을 하지 못할 수도 있다.
  - 방문하지 않은 영향을 받는 상태까지도 다 같이 업데이트가 됨.
$\epsilon$-greedy
- $\epsilon$-greedy 는 광범위하게 사용되며, Non-linear 함수 근사에서도 쉽게 사용될 수 있다.
- 어떻게 초기화되고 근사화되었냐에 무관하게 행동 가치 추정만 필요하다.
- 그러나 $\epsilon$-greedy 는 직접적인 탐험 방법이 아니며, 해당 상태에서 할 수 있는 행동에 대한 랜덤한 확률에 의존하여 더 나은 정책을 찾는 방법이다.
  - 낙관성에 의존한 시스템 적인 탐색방법이 아니다.
- 함수 근사에서 탐색방법의 발전은 아직 열린 질문이며 이 과정에서는 이 심플한 방법에 의존한다.

Average Reward

Average Reward : A New Way of Formulating Control Problems

개요
- Continuing tasks 에서 우리는 엄청나게 긴 흐름의 성능에 관심이 있을 수 있다.
- 지금까지 우리는 discounting 을 사용해 단기 성과와 장기 이익의 균형을 맞춰왔다.
- 위의 방식과 다른 average reward 공식을 이용한 방법에 대해 살펴본다.
학습목표
- average reward setting 에 대해 서술
- Average reward optimal policies 와 discounting 을 통해 얻은 policies 간의 차이에 대한 설명
- 차분 가치 함수의 이해
A simple example
- 근시안적인 MDP 문제 (Continuing tasks)
- 대부분의 상태에서는 하나의 행동만이 존재하여 결정할 것이 없고, 오직 하나의 상태 (교차점) 에서만 정책 결정이 이루어진다.
  - 이 지점에서 어떠한 ring 으로 순환할 지 결정할 수 있다. (두 개의 결정론적인 정책이 존재)
- 위의 표기된 보상 외에 타 전이에서의 보상은 0이다.
- Discounting 을 사용하는 경우
  - $\gamma$ = 0.5
    - $v_L (S) \approx 1$
    - $v_R (S) \approx 0.1$
  - $\gamma$ = 0.9
    - $v_L (S) \approx 2.4$
    - $v_R (S) \approx 3.2$
  - 즉, 할인율 (0.841) 과 상태의 수 (100개의 상태일 경우 0.99)에 따라 최적 정책이 달라지게 된다.
  - continuing task 에서 할인율을 1로 하였을 경우 반환값이 무한대가 될 수 있다.
  - 할인율 값이 크면, 더해야 할 변수가 늘어 학습이 어렵게 된다.
The Average Reward objective
- 하나의 정책에서 위의 average reward 를 최대화 하는 목표는 장단기 보상을 동일하게 생각한다는 의미이다.
  - 위의 값을 $r(\pi)$ 로 표현한다.
- 또한 특정 상태에 있을 확률값을 나타내는 $\mu$ 를 이용하여 식을 위와같이 변형할 수 있다.
Returns for Average Reward
- average reward 정의는 어떤 정책이 더 나은지에 대해 직관적으로 표현된다.
- 그렇다면 우리는 어떻게 특정 상태의 행동이 더 나은 것인지 판단할 수 있을까?
  - 즉 행동가치가 필요함
- average reward setting 에서 리턴값은 보상값과 average reward $r(\pi)$ 의 차로 정의된다.
- 좌측으로 도는 정책의 Cesaro Sum 을 이용하여 average reward setting 의 리턴값을 계산해보면 0.4가 된다.
  - n-1 바퀴까지 0으로 상쇄, n 번째에서 누적합의 평균을 구함
- 이를 이용해 우측 한바퀴를 돈뒤 좌측으로 도는 정책을 생각해보면 값은 1.4가 되고, 우측으로 도는 행동이 더 나은 행동임을 알 수 있다.
- 오른쪽으로 도는 정책을 기준으로 왼쪽으로 도는 정책과 비교한 경우
- 차등 수익 (differential return) 은 후속 시간 단계에서 동일한 정책을 따르는 경우에만 행동에 대해 비교할 수 있다.
- 정책을 비교할 경우 average reward 값을 비교한다.
- 차등 수익의 경우 차감된 상수가 실제 평균 보상과 동일한 경우에만 수렴하고 그외의 경우 양수 또는 음수 무한대로 발산한다.
Value Functions for Average Reward
- 위와 같이 Average reward 에 대한 리턴값이 정의됨.
- 가치함수는 일반적인 방식대로 예상 리턴값으로 정의할 수 있음
- 이 값은 에이전트가 고정된 정책을 따랐을 때 모든 상태에 대한 평균 보상값이 아닌 특정상태에서 행동함으로써 에이전트가 얼마나 더 많은 보상을 얻는지를 시사함
- discount 세팅처럼 average reward 또한 bellman 방정식에 사용할 수 있으며, 다른 점은 즉각적 보상에서 $r(\pi)$ 를 차감한다는 점과 discount 가 없다는 점이다.
Differential Sarsa

Satinder Singh - On the Optimal Reward Problem (Where do Rewards Come From?)

보상함수의 출처
- 일반적인 강화학습은 보상이 환경으로부터 주어지는 것으로 가정
- 하지만 실제로 이 보상은 설계자가 정하는 것 (설계자가 에이전트의 행동에 대한 선호도를 반영)
- 보상함수는 에이전트 설계자의 선호도를 반영하는 동시에 에이전트의 목표나 목적을 설정하는 매개변수 역할을 함
- 따라서 설계자의 선호도와 에이전트의 목표를 구분하여 두 개의 보상함수를 상정하는 것이 바람직하다.
두 개의 보상함수 상정
- 외적 보상 함수 (Extrinsic Reward)
  - 설계자의 선호도를 반영한 외부 환경과의 상호작용을 통해 얻는 보상
  - 예 : 방에 얼마나 깨끗한지, 방의 청결도를 최대화하고자 하는 것
- 내적 보상 함수 (Intrinsic Reward)
  - 에이전트 내부에 설정된 보상
  - 에이전트의 목표나 학습 과정을 효율적으로 유도하는 것
  - 예 : 에이전트가 청소 작업을 효율적으로 하기 위해 새로운 장소를 탐색하거나 장애물을 피하고자 하는 것
- 위 두가지의 보상 함수를 조합하여 사용한다.
보상 함수 기술
- 역강화 학습 (Inverse Reinforcement Learning, IRL)
  - 목적: 전문가의 행동 데이터를 통해 외부 보상 함수를 추정하는 방법.
  - 과정: 전문가의 행동을 관찰하여 그들이 어떤 보상 함수를 최대화하려고 하는지를 역으로 추정함.
  - 상관관계: IRL은 주로 외부 보상 함수를 추정하는 데 사용될 수 있음. 전문가의 행동을 통해 설계자의 선호도를 반영한 보상 함수를 도출한다.
- 보상 셰이핑 (Reward Shaping)
  - 목적: 에이전트의 학습을 가속화하고 효율적으로 만들기 위해 내부 보상 함수를 조정하는 방법.
  - 과정: 기존의 보상 함수에 추가적인 보상이나 페널티를 부여하여 학습을 용이하게 한다.
  - 상관관계: 내부 보상 함수를 설계할 때 유용. 에이전트의 행동을 보다 효율적으로 유도하기 위해 보상 함수를 조정한다.
- 선호 추출 (Preference Elicitation)
  - 목적: 설계자의 선호도를 직접적으로 추출하여 보상 함수에 반영하는 방법.
  - 과정: 설계자가 특정 행동이나 결과에 대해 선호도를 명시하면, 이를 기반으로 보상 함수를 설정한다.
  - 상관관계: 선호 추출은 외부 보상 함수를 설정하는 데 직접적으로 사용될 수 있으며, 설계자의 명시적인 선호도를 보상 함수에 반영한다.
보상 함수 설계 방법
- 외부 보상 함수 (Extrinsic Reward Function) : 역강화 학습과 선호 추출을 통해 주로 설정됨.
- 내부 보상 함수 (Intrinsic Reward Function) : 보상 셰이핑을 통해 주로 설정됨
최적 보상 프레임워크 (optimal reward framework)
- 개요
  - 주어진 보상 함수 공간에서 에이전트의 행동을 최적화하는 보상 함수를 찾는 접근법
  - 설계자의 목정을 달성하기 위해 에이전트가 학습하는 과정에서 최적의 보상 함수를 발견하는 것을 목표로 함
- 설명
  - 보상 함수 공간 탐색 : 주어진 보상 함수 공간 (설계자가 정의한 여러 후보 보상 함수로 구성) 에서 다양한 보상 함수를 탐색함
  - 다양한 알고리즘을 사용하여 보상 함수 공간을 탐색하고 최적의 보상 함수를 찾는 것
- 목표
  - 에이전트가 특정 보상 함수를 학습하여 행동을 최적화할 때, 설계자의 목적(외적 보상 함수)을 최적으로 달성할 수 있는 보상함수를 찾는 것
  - 즉, 외적 보상 함수를 최적화하는 내적 보상 함수를 찾는 것
- 메타 학습 접근법
  - 학습을 학습하는 기법. 모델이 새로운 작업을 빠르게 배우고 적응할 수 있도록 하는 방법을 개발하는 것
  - 내부 학습 (Inner-loop learning)
    - 특정 작업에 대해 에이전트가 학습하는 단계로, 모델은 주어진 작업에 대해 최적의 성능을 내기 위해 학습한다.
  - 외부 학습 (Outer-loop learning)
    - 여러 작업에서의 학습 경험을 통해 모델의 학습 능력을 향상시키는 단계로, 메타 학습모델이 새로운 작업을 더 잘배우도록 하는 과정이다.
  - 초매개변수 (Hyperparameters)
    - 모델의 학습과정을 조정하는 매개변수로, 메타학습에서는 이 매개변수를 학습한다.
    - 이는 모델이 새로운 작업에 빠르게 적응할 수 있도록 도와준다.
  - 최적 보상 프레임워크는 메타 학습 접근법으로, 외부 루프에서는 보상 함수를 최적화하고, 내부 루프에서는 주어진 보상 함수에 따라 에이전트의 행동을 최적화한다.
정책 경사도 보상 설계(PGRD)
- 개요
  - 정책 경사도 방법을 사용하여 내적 보상 함수를 최적화하는 접근법
- 설명
  - 정책 경사도 방법: 정책의 매개변수를 조정하여 기대 보상을 최대화하는 방법
  - 내적 보상 함수 최적화: 내적 보상 함수의 매개변수를 조정하여 에이전트의 행동을 개선
- PGRD 알고리즘 (절차):
  - 초기 정책 및 보상 함수 설정
  - 정책 경사도를 계산하여 정책을 업데이트
  - 내적 보상 함수의 매개변수를 업데이트
  - 반복
결론
- 강화 학습에서 보상 함수는 단순히 주어지는 것이 아니라, 효과적으로 설계되어야 하는 요소임
- 상 함수는 설계자의 선호도와 에이전트의 목표를 구분하여 설정해야 하며, 이를 통해 에이전트가 더 나은 성능을 발휘할 수 있도록 해야함.
- 두 접근법 모두 에이전트의 행동을 개선하기 위해 보상 함수를 학습하고 최적화하는 데 중점을 두며, 최적 보상 프레임워크는 더 넓은 범위의 메타 학습 문제로, PGRD는 구체적인 알고리즘으로 작동함.

Prediction and Control with Function Approximation - 02. Week 2. Constructing Features for Prediction

2024-01-23T18:00:00+00:00

Feature Construction for Linear Methods

가치 측정을 위한 feature 의 선정은 강화학습 에이전트의 가장 중요한 요소 중 하나이다.

Coarse coding

학습목표
- 거친 코딩에 대해 설명하기
- 거친 코딩이 state aggregation 과 어떠한 연관이 있는지 설명하기
선형 가치함수 근사
- $v_\pi (s) \approx \hat{v}(s, \textbf{w} ) = \textbf{w}^{\top} \textbf{x} (s)$
  - feature vector $\textbf{x} (s)$ 생성
  - 가중치 벡터와 내적 계산
선형 가치함수 근사의 특수 케이스로서의 표 형식 표현 (tabular case)
- tabular case 는 선형 가치함수 근사의 특수 케이스로 위 그림과 같이 하나의 상태를 binary one-hot encoding 방식으로 표현할 수 있다.
- 하지만 상태가 많아질 경우, 위 방식은 한계가 있다.
State Aggregation
- 2차원 상태에서의 상태값을 생각해보면, 아래 물고기는 무한한 위치에 있을 수 있고, 이것을 유한한 테이블 형태로 표현이 불가능하다.
- 위 그림과 같이 그룹으로 묶어 해당 구역에서는 같은 값으로 표현한다.
- 위 구역의 모양은 반드시 그리드 형태일 필요는 없다. (불규칙적이어도 상관없음)
- 상태값이 2차원일 필요는 없음
Coarse coding
- 영역의 중복을 허용
- 각 영역에 포함되는지 안되는지를 표현
- 상태값이 2차원일 필요는 없음
- coarse coding 은 state aggreagtion 을 일반화한 표현방식이다.

Generalization Properties of Coarse Coding

학습목표
- coarse coding 의 파라미터가 어떻게 차별 (discrimination) 과 일반화 (generalization) 에 영향을 주는지 이해
- 위의 구분 (discrimination) 과 일반화 (generalization) 가 어떻게 학습 속도와 정확도에 영향을 주는지 이해
Coarse Coding 의 요소
- active feature 에 대응하는 영역의 집합이 클수록 특징 표현은 더 일반화된다.
- 영역의 형태에 따라 일반화를 하는 방향이 달라진다.
- 위의 독립된 영역의 크기가 상태 구분의 정도를 나타낸다.
- 완벽한 상태의 구분은 할 수가 없는데, 하나의 상태 값의 업데이트가 다른 상태 값 또한 업데이트 시키기 떄문
- 위의 같은 색으로 표현된 상태들은 동일한 feature vector 값을 가지게 된다.
- 즉, 위의 구역이 더 세분화 될수록 더 높은 상태의 구분도를 가지게 된다.
1D Example
- interval 이 짧은 경우
- interval 이 긴 경우
- 위의 예제에서 10240 샘플을 학습할 경우 interval 이 긴 경우가 학습속도나 결과가 더 좋았음
- 위의 예제에서는 interval 이 긴 경우가 구분과 일반화의 측면에서 더 좋은 결과를 가져왔음

Tile Coding

학습목표
- Tile Coding 이 어떻게 일반화와 구분을 달성할 수 있는지 설명
- Tile Coding 의 이점과 한계에 대해 이해
타일 코딩에 대해서
- Tile Coding 은 Coarse Coding 의 한 종류로, 그리드 (Tiling) 를 중복해서 상태 공간을 전체적으로 철저히 분할한다.
- 하나의 Tiling 은 State aggregation 과 같다.
- 위의 예제에서는 Tiling 간 동일한 offset 을 사용하여 대각의 영역이 생성되었으나, offset 이 랜덤할 경우 좀 더 구형으로 형성된다.
- 일반화에 대한 제어가 필요한 경우 상태 공간을 스케일링 하거나, 그리드의 크기를 변경시킨다.
타일 코딩의 이점
- 그리드가 균일 (uniform) 하다면, 어느 타일에 속해있는지 계산하기 쉽다.
- 계산 상의 이점으로, 저 차원의 환경에서 타일코딩을 이용해 선행 실험을 할 수 있다.
타일 코딩의 한계
- 상태 공간의 차원이 늘어날 수록, 필요한 타일의 수도 지수적으로 증가한다.
- 따라서 입력 차원을 독립적으로 처리할 수 있는지를 고려해야 하는데, 이는 문제에 따라 다르다.

Using Tile Coding in TD

학습목표
- Tile Coding 을 TD learning 에 적용하는 방법을 설명
- Tile Coding 표현방식에서 중요한 요소를 식별
Tile Coding 의 계산 상 이점
- Tile Coding 으로 표현 시, 특정 상태를 표현할 때, 적은 영역의 활성화로 표현된다.
- 이는 feature vector 가 sparse binary vector (희소 이진 벡터) 로 표현된다는 의미이다.
- 이 때, 계산은 단순히 몇몇 가중치의 합으로 표현되며 이는 행렬곱을 계산하는 것보다 훨씬 비용이 작다.
Tile Coding 계산의 간단한 예시
1000-steps random walk 문제에서 Tile coding 과 State aggregation 의 비교
- 상태 500에서 시작하여 좌, 혹은 우로 200 스텝 범위 안으로 랜덤하게 움직일 수 있다고 가정
- 상태 1 또는 1000을 벗어나면 Terminal State 로 진입
- 상태 200개를 묶은 state aggregation 은 5개의 영역으로 표현됨
- 상태 200개를 묶은 tile coding 은 좌, 우의 미표현 영역으로 인해 6개의 영역을 생성해야 함
  - 50개의 tiling 을 사용하여 학습한다고 가정
- step-size 의 경우 tile coding 은 사용된 tiling 의 수 만큼 더 나눈 값을 사용
- 결과적으로 Tile coding 이 State aggregation 보다 상태를 더 구분하고, 큰 성능저하 없이 더 정확한 결과를 보여줌

Neural Networks

What is a Neural Network?

학습목표
- feed forward neural networks 에 대해 이해하기
- 활성화 함수 (activation function) 에 대해 이해하기
- neural network 가 파라미터화된 함수라는 점을 이해하기
Simple neural networks
- Neural network 란 입력, 은닉, 출력 층의 구성요소인 노드와 각 층간의 연결을 통해 최종 값을 출력하는 네트워크를 말함
- 각각의 노드와 연결은 일련의 연산과정을 가진다.
- 층과 층의 이동으로 출력 층까지 일방향으로 데이터가 이동하는 network 를 feed forward network 라 한다.
- 가령 출력 값이 다시 층을 거슬러 올라가거나, 본인의 입력값에 영향을 주는 경우 이를 recurrent network 라 한다.
- 노드의 연결은 가중치와 입력값의 곱의 합에 활섬함수를 적용한 형태의 연산을 한다.
- Sigmoid function : s 자 형태의 함수로 tanh 가 여기에 속함
- logistic function : ReLU ($f(x) = x$ if $x>0$ or 0), thresholding units ($f(x) = 1$ if $x>0$ or 0)
- Neural network 의 연산을 함수로 표현하면 위와 같다.
- 다음 층이 최종 출력층이 아니라면, 위의 값은 다시 입력 층이 된다.

Non-linear Approximation with Neural Networks

개요
- Tile coding 은 예측을 위해 고정된 feature 의 집합을 생성하는 하나의 방법이다.
- 신경망은 유용한 feature 의 집합을 학습하기 위한 전략을 제공한다.
학습목표
- 신경망이 어떻게 feature 를 생성하는지 이해하기
- 신경망은 상태에 대한 비선형 함수임을 이해하기
Non-linear representations
- 신경망을 생성할 때, 초기 가중치 값을 설정하는 작업이 필요하다.
  - $\textbf{w}_{\it{init}} \sim \mathscr{N} (\mu, \sigma)$
  - 이 작업은 중요한 작업이고 추후에 다룬다.
- 하나의 노드에서는 아래와 같은 연산이 이루어진다.
  - $f(w_1 x_1 + w_2 x_2)$
  - 노드로 향하는 입력값(노드) : $x_1, x_2$
  - 입력값과 노드를 연결하는 가중치(화살표) : $w_1, w_2$
  - 위 곱연산의 합계 이후 적용되는 활성화(비선형) 함수 : $f()$
  - 위 활성화 함수 적용 이전의 연산은 행렬곱의 연산으로 표현된다.
- 이러한 연산이 적용된 하나의 층은 다음 층의 feature 가 된다.
- 위 프로세스는 Tile coding 의 것과 크게 다르지 않다.
  - 상태의 값을 feature 로 재표현 하는 것
  - 신경망과 Tile coding 모두 non-linear mapping 을 하게 된다.
- Tile coding 과 신경망의 차이
  - Tile coding 의 경우 학습 이전에 타일의 크기, 타일의 형태, 타일링 수 등의 초기 고정 파라미터가 설정 된다.
  - 신경망의 경우 층의 수, 노드의 수, 활성화 함수와 같은 초기 고정 파라미터가 있다.
  - 하지만 신경망의 경우 학습 중에 바뀌는 파라미터도 있다. (가중치와 편향)
- 위의 이미지는 신경망에서 기학습된 노드의 출력값을 시각화한 것이다.
- 위와 같이, 각 영역(x,y 좌표)이 활성화 정도가 0,1 로만 표현되는 것이 아니고 (정도의 차이), 비선형으로 표현됨을 볼 수 있다.

Deep Neural Networks

개요
- 신경망 아키텍쳐의 선택은 성능에 큰 영향을 준다.
  - 노드 수, 활성화 함수, 노드 배열, 연결 방식 등
- 신경망의 깊이가 학습에 어떠한 영향을 주는지 알아본다.
학습목표
- 심층신경망이 여러 개의 층(layer) 으로 구성되어있다는 점을 이해하기
- 위의 층의 깊이가 구성과 추상화를 통해 특징을 학습하는 데 도움이 된다는 점을 이해하기
Modular architecture
- 신경망 아키텍쳐에서 각 층을 모듈로 이해할 수 있다. 이 층은 추가되거나 제거될 수 있다.
- 신경망에서의 깊이란 이 은닉층의 숫자를 가리킨다.
Universal approximation
- 이론 상으로 신경망은 깊을 필요가 없다.
- 단 하나의 은닉층이 많은 노드를 가짐으로서 (넓이가 넓음) 모든 연속함수를 근사할 수 있다.
- 이를 범용 근사 속성 (Universal approximation property) 이라 한다.
- 하지만 실제경험과 이론에 따르면 깊은 은닉층이 복잡한 함수의 근사를 더 쉽게 해준다는 결과가 있다.
Compositional features
- 신경망의 깊이는 구성상의 특성을 허용한다.
- 모듈식 구성 요소를 결합하여 보다 전문화된 기능을 생성할 수 있다.
- 위 그림과 같이, raw data 에서 바로 올빼미를 추출하는 것보다, raw 한 요소에서 보다 복합적인 요소를 거처 식별하는 것이 더 효율적이다.
- 층을 겹치거나 노드를 추가함으로써, 더 복잡한 함수를 표현해낼 수 있다.
Levels of abstraction
- 신경망의 층은 특징의 추상화에도 도움을 준다.
- 예를 들어 위의 그림이 올뺴미임을 식별함에 있어서, 뒷 배경의 요소는 중요한 요소가 아니다.
- 즉, 불필요한 세부 정보를 제거하도록 네트워크를 명시적으로 설계할 수 있다.
- 예를 들어 병목 계층이 그러한데, 연속적인 레이어에서 이전 레이어보다 노드 수를 줄여 핵심적인 요소만 파악하는 것이다.

Training Neural Networks

Gradient Descent for Training Neural Networks

개요
- 알고리즘의 업데이트는 매우 간단하며, 대부분의 경우 경사하강법에 기반을 둔다.
- 신경망의 경우에도 위와 동일하다.
- 역전파 알고리즘은 실제로 복잡하지 않으며, 실제로 그냥 경사하강법이다.
- 그러나 경사가 조금 더 복잡한데 이는 내재함수 떄문이다.
학습목표
- 신경망에서의 경사 유도
- 신경망에서 경사하강법을 구현
Recap on Gradient Descent
- 선형함수근사에서 첫 단계는 목표와 출력값 간의 차이인 손실을 정의하는 것이다.
- 그 다음 위 손실을 최소화 하는 기울기를 도출한다.
- 즉, 기울기의 반대방향으로 이동하여, 손실을 최소화한다. (변수가 기울기임을 주목)
- 그렇다면 신경망에서 손실함수의 기울기를 어떻게 계산할까?
Notation
- 네트워크의 입력을 $s$, 출력을 $\hat{y}$ 로 정의한다.
- 은닉층의 학습된 특성(learned features) 을 $x$ 로 정의한다.
- 가중치 $a$ 는 특성을 생성하고, 가중치 $b$ 는 결과값을 생성한다.
- 여기에서 $x$ 와 $\hat{y}$ 와 같은 값들은 벡터로 표현될 수 있다.
  - (하지만 엄밀히 말하면 행렬로 표현된다고 보는 것이 맞을 것 같음.)
  - (벡터간의 내적 연산은 두 벡터의 유사성을 판단하는 연산이라고 생각할 때…)
- Loss $L$ : $L(hat{y}_k, y_k) = (\hat{y}_k - y_k)^2$
  - 위의 손실함수는 이 예에서 쓰이는 예시이다.
Goal
- 위 식은 업데이트 식의 유도 전 원형의 형태이다.
- 업데이트 식과 유사한 부분이 있다.
  - $\delta$ : 오류항
  - 각각의 입력값과 오류항 관련 값(델타) 를 곱한 값에 대한 업데이트를 진행한다.
  - 추후 우리는 델타 A 가 델타 B 를 통해 효율적으로 구해질 수 있다는 것을 볼 것이다.
    - 역전파로 A의 에러를 생성하는 것에 도움을 준다.
Deriving the gradient
- Chain Rule 을 활용하여 식을 변형한다.
- 최종적으로 위 식에서 델타 B 를 정의하면 식은 단순한 형태로 표현이 될 수 있다.
- 위의 식은 Loss 를 squared error, 활성홤수를 선형함수로 정의했을 때의 예시이다.
- 위 B의 방식과 동일하지만 x 항이 미분하려는 A 항을 포함하고 있다는 점을 반영해야 한다.
The backprop algorithm
- 계산량을 줄이기 위해 출력층에서부터 계산해온 값을 활용하는 것이 역전파의 주요 아이디어이다.
- 위는 ReLu 를 활성화함수로 사용하고, 출력에 선형 유닛을 사용한 신경망의 예시이다.

Optimization Strategies for NNs

개요
- 심층망 지도학습은 이미지 식별, 음성인식, 자연어 생성 등의 영역에서 현재 쓰이고 있다.
- 이러한 발전의 원인은 학습데이터와 계산량의 증가에 있다.
- 그러나 위의 발전의 이점을 가져가려면, 학습의 개선 또한 필요하다.
학습목표
- 신경망에서의 초기화의 중요성 이해
- 신경망 학습을 위한 최적화 기술에 대한 서술
학습 시작점의 문제
- 학습 시작점은 학습 전반에 매우 큰 영향을 준다.
- 가령 평평한 손실함수 기울기의 지점에서 시작한 경우 학습이 거의 진행되지 않는다.
- 기울기가 있는 지점에서 시작한 경우 지역 최소값을 찾을 수 있다.
- 전역 최저점 근처에서 학습을 시작한 경우 빠르게 최고의 결과를 얻을 수 있다.
Weight initialization
- 가중치를 분산이 작은 정규분포로 초기화하는 기법
- 이것은 잠재적 features 의 집합에 더 많은 다양성을 부여한다.
- 분산이 작다는 전제가 있다면, 각 신경의 출력값이 이웃 신경망과 동일한 범위에 있음을 보장한다.
- 이 전략의 약점은, 입력 뉴런이 추가되면 출력값의 분산이 커진다는 점이다.
- 우리는 위 단점을 입력값의 수에 대한 제곱군으로 스케일링 하여 극복할 수 있다.
Update momentum (heavy-ball method)
- 일반적인 확률적 경사하강 업데이트에 모멘텀 M 항을 더한 것
- 모멘텀은 $\lambda$ 와 함께 점점 감쇠된다.
- 최근 업데이트 방향이 모두 같다면, 모멘텀이 증가한다.
- 최근 업데이트 방향이 서로 상충되면, 모멘텀이 감소한다.
Vector step sizes
- $W_{t+1} = W_t - \eta \nabla J(W_t)$
  - $W_t$ 와 $W_{t+1}$ 은 각각 현재와 업데이트된 가중치를 나타냄
  - $\eta$ 는 학습률(learning rate) 벡터이며, 각 매개변수에 대해 다른 값을 가질 수 있음
  - $\nabla J(W_t)$ 는 현재의 그래디언트 값 (Loss 함수에 대한 각 매개변수의 편미분)
- 벡터 스텝 사이즈 기법은 네트워크가 복잡하거나 데이터가 불균형한 경우에 유용하며, 경사하강법의 수렴속도를 향상시킬 수 있음
- 그러나 올바른 학습률 벡터를 선택하는 것이 중요하며, 이를 위한 다양한 최적화 기법이 개발되고 연구되고 있음

David Silver on Deep Learning + RL = AI?

About reinforcement learning
- 강화학습은 모든 종류의 다른 의사결정 문제에 대한 광범위한 목적의 프레임워크이다.
  - agent 가 있고, agent 가 world 에서 actions 를 행한다.
  - agent 의 action 이 world 에 영향을 주고, 관측 값을 agent 에 준다.
  - agent 는 world 에서 performance 를 최대로 할 수 있는 action을 택한다.
  - 위 performance 는 reward signal 로 측정된다.
- 강화학습은 표현 학습에 대해 매우 일반적인 방식으로 생각하는 방법이다.
About deep learning
- 우리가 어떤 목적을 가지고 있을 때 deep learning 은 목적을 달성하기 위한 표현을 만드는 방법을 제공한다.
  - 입력값을 시스템 내 어떠한 필터를 거쳐 표현을 만드는 방법
  - 어떠한 종류의 특성을 생성하여, 입력 값으로 문제를 해결하는데 도움을 주는 방법
  - 최소한의 도메인 지식을 활용
About deep reinforcement learning 1
- 위의 reinforcement learning 과 deep learning 을 합친 형태
- 문제와 목표는 reinforcement learning 으로 정의될 수 있다.
- deep learning 은 메커니즘을 제공한다.
About deep neural network
- multi-layered function
- a compositional function
  - a function of a function of a function
- 예시
  - 어떠한 입력값이 시스템에 들어온다. (예를 들어 강아지나 고양이 이미지)
  - 한 묶음의 다양한 함수를 통과한다. (이 함수는 내부 상태나 특징을 제공하게 된다.)
  - 위의 내부상태, 특징들은 가중치 $w$ 와 작용하게 된다.
  - 위의 다양한 층의 계산을 거쳐, 어떠한 형태의 출력물을 제공한다. (예를 들어 이것이 강아지인지 고양이인지)
  - 결과적으로 위의 것으로 목적을 정의하게 되는데, 이것을 loss 라 칭한다.
  - loss 는 시스템이 얼마나 잘했는지를 알려준다.
- 계산을 정방향이 아닌 역방향으로 하는 점
- Chain rule 을 이용한 역전파
- 결국 심층신경망의 훈련은 loss 함수의 관련 파라미터에 대한 기울기를 토대로, 파라미터의 값을 조율해 에러 값을 줄이는 것이 목표이다.
Anatomy of an RL Agent
- RL 에서 에이전트의 구성 요소에 무엇이 포함되어 있는지는 중요한 문제이다.
  - 이는 무엇을 학습하고자 하는 것인가에 대한 문제이다.
- 에이전트에 정책이 포함되어 있는 경우 : 에이전트의 행동을 결정 (a policy-based approach to RL) - 정책이 확률론적임
- 에이전트에 가치함수가 포함되어 있는 경우 : 에이전트의 보상에 대한 예측을 함 (a value-based RL agent) - 각 상태/행동의 가치를 고려하여 최적의 행동을 수행함
- 에이전트에 모델이 포함되어 있는 경우 : 에이전트가 환경이 어떻게 작용할지를 예측 (a model-based approach to RL) - 다음 상태 및 보상을 예측하여 다음 동작을 계획함
About deep reinforcement learning
- 심층 신경망은 근사함수로서 사용
  - Policy, Value function, Model 중 어느 하나에 대한 표현을 한다.
- 위에 대한 loss function 을 고려한다. (아래는 예시이다.)
  - Policy-based RL : Policy Gradient
  - Value-based RL : TD error
  - Model-based RL : Next-step prediction error
학습목표
- 단일 은닉층 신경망의 기울기 계산
- 임의의 심층 네트워크에 대한 기울기를 계산하는 방법 이해
- 신경망 초기화의 중요성 이해
- 신경망 초기화 전략 설명
- 신경망 훈련을 위한 최적화 기술 설명

강의 개요 (과정 로드맵)

가치함수를 테이블로 표현할 수 있는 경우

가치함수를 테이블로 표현할 수 없는 경우

Estimating Value Functions as Supervised Learning

Moving to Parameterized Functions

Tabular Methods
- 모든 가능 상태를 표현하는 테이블 형태의 저장공간에 각각의 학습 값을 저장하는 형태
- 하지만 실제 세계의 문제들의 경우 이 테이블 저장공간이 추적불가능할 정도로 커지게 된다.
  - 로봇이 카메라를 통해 세계를 관찰하는 경우, 모든 가능한 이미지를 저장할 수는 없음.
학습목표
- 파라미터화된 함수를 사용하여 근사값을 구하는 법 이해하기
- 선형 가치함수근사의 의미를 설명하기
- tabular 케이스 또한 선형 가치함수근사의 특별한 케이스임을 이해하기
- 가치함수근사를 파라미터화 하는 많은 방법이 있음에 대해 이해하기
다양한 형태로 표현가능한 가치 함수
- 좌측은 tabular 형태로 각각의 가치함수값을 가지고 있는 형태
  - 각각의 상태에 따라 독립된 값을 테이블에 저장하는 형태 (지금까지 학습한 방식)
  - 학습이 진행됨에 따라 테이블에 저장된 값을 업데이트한다.
- 우측은 X 와 Y 좌표 값에 따라 X + Y 가치함수를 가진 형태
  - 이론적으로 우리는 상태를 제공받아 실수를 출력하는 어떠한 함수도 사용할 수 있다.
  - 하지만 이러한 형태를 가치함수로 사용하기를 원치 않음.
    - 이 예측치를 수정할 방법이 없음 (학습할 방법이 없음)
Parameterized function
- $\hat{v}(s,\textbf{w}) \approx v_\pi (s)$
  - $\textbf{w}$ : weights (가중치) - 함수에 변화를 주기 위한 조정이 가능해짐.
- $\hat{v}$ : 참 가치함수 값을 근사하는 함수의 의미
- $\textbf{w}$ : 함수근사에 대하여 모든 가중치를 파라미터화 한 벡터 값
- 여기에서 우리는 모든 상태에 대한 가치함수 값을 저장하는 것이 아닌, 2개의 가중치만을 저장하게 된다.
가중치(Weight) 의 변화가 가치함수에 주는 영향
- tabular case 의 경우 하나의 상태값에 영향을 주지만
- Parameterized function 의 경우 가중치 하나를 변경할 경우 복수 개의 상태에 변화를 준다.
Linear Value Function Approximation
- 가중치와 어떠한 고정된 속성 (feature) 간의 곱의 합
- 위의 식일 간단하게 weight vector $\textbf{w}$ 와 feature vector $\textbf{x} (s)$ 간의 내적 (inner product) 으로 표현한다.
Limitations of Linear Value Function Approximation
- 위의 linear value function approximation 을 살펴보면 X, Y feature 에 대해서 선형적인 표현만 할 수 있다.
- 만약 참 값이 위의 그림과 같다면 X, Y feature 에 대한 선형 함수로는 표현할 방법이 없다.
  - 외각의 0 을 표현하기 위해서는 $W_1$ 과 $W_2$ 가 0이 되어야만 한다.
  - 그렇게 된다면 내부의 5를 표현할 방법이 없다.
- 그러나 우리가 반드시 X, Y 값을 features 로 사용할 필요는 없다.
  - 즉, Linear value function 은 좋은 특징(features) 값을 가지는 것이 중요하다.
    - 특징(features) 을 정의하는 데 다양한 효과적인 방법들이 있다.
Tabular case 를 linear function 으로 표현하는 방법
- 각각의 상태를 feature 로 정의한다.
- 이에 대응하는 가중치 값과의 내적을 구하면, 왼쪽의 Tabular case 와 동일한 연산이 된다.
Nonlinear Function Approximation
- 신경망 방식 또한 비선형 가치근사 방법 중 하나이다.
- 이 또한 parameterized function 중 하나이다.
- 상태 S 가 실제 가중치 값들 $\textbf{w}$ 를 통과하며 $\hat{v}(s, \textbf{w})$ 의 연산을 하게 된다.

Generalization and Discrimination

Generalization 에 대해
- 함수 근사에서 가장 중요한 고려사항은 어떻게 상태들을 일반화 (Generalize) 할 것인지 이다.
- Generalization 의 예
  - 어떤 사람이 특정한 자동차를 운전하는 방법을 배울 경우, 다른 자동차의 운전 방법을 배울 때 처음부터 배우지 않는다.
  - 혹은 다른 도로에서 운전하거나, 비 오는 도로에서 운전한다고 처음부터 배우지 않는다.
학습목표
- generalization (일반화) 와 discrimination (차별) 의 의미 이해하기
- generalization (일반화) 의 혜택 이해하기
- 가치 근사에서 왜 generalization (일반화) 와 discrimination (차별) 모두가 필요한지 설명하기
Generalization
- 직관적 의미 : 특정한 상황에서의 지식을 적용하여 광범위한 상황에서의 결론을 도출하는 것
- 정책 평가에서의 의미 : 하나의 상태에서 추정값의 업데이트가 다른 상태의 값에도 영향을 주는 것
- 위의 그림처럼 가령 비슷한 시간이 소요되는, 비슷한 거리의 캔을 수거하러 가는 경우 센서에 의해 다른 값이 읽히더라도 비슷한 값이 도출될 수 있다.
  - 이러한 경우 위의 두 상태에 대해 가치함수의 일반화를 하길 원한다.
- 일반화를 통해 더 빠른 학습의 진행이 가능하다. (아직 방문하지 않은 상태에 대해서도 업데이트가 가능함)
Discrimination
- 두 개의 상태를 구분하여 두 개의 상태가 다르도록 만드는 능력
- 거리가 같더라도 벽 뒤에 있는지, 벽이 없는지에 따라 상태를 구분해야 한다.
- 따라서 비슷한 거리에 있는 캔에 대해 상태를 일반화하는 것도 중요하나, 다른 정보에 따라 상태를 구분하는 것도 중요하다.
일반화와 구분에 따른 카테고리화
- Tabular Methods : 구분은 뛰어나나 일반화는 전혀 못함. 각 상태에 대해 독립적인 학습을 진행함.
- Aggregate All States : 모든 상태를 똑같은 상태로 판단. 상태에 대한 학습이 불가함
- $*$ (●:현실적인 목표) : 좋은 구분과 좋은 일반화를 달성한 상태로, 비슷한 상태끼리 학습을 같이 진행하여 빠른 학습을 하고, 상태간 구분을 하여 정확히 근사를 하는 상태
  - 예를 들어 비슷한 상태그룹을 나타내는 feature 를 표기한다.
Generalize 방법에 대해
- 좌측은 극단적인 Generalize 로 모든 체스게임 상태를 동일한 상태로 보고, 승률을 0.5 로 책정한 경우 (안좋은 예측값)
- 우측은 Tabular Case 의 경우로 모든 경우의 수에 대해 승률을 책정한 경우 (경우의 수가 너무 많아 불가능)
- 우리는 이 사이의 무언가를 원한다.
  - 비슷한 승률 (비슷한 상태) 끼리의 그룹화는 어려운 질문이다.
  - 이것은 우리의 알고리즘 성능에 지대한 영향을 미치며, 머신러닝과 강화학습의 중심 화제이다.

Framing Value Estimation as Supervised Learning

학습목표
- 어떻게 가치 측정이 지도학습 문제에 포함될 수 있는지 이해하기
- 모든 가치근사방식이 강화학습에 잘 적용될 수 없다는 점을 식별하기
Supervised learning
- 지도학습도 입력 값과 목표 값을 이용해 함수를 근사시키는 과정은 동일하다.
- 학습 세트에 없는 입력값에 대해서, 일반화를 통해 실 가치와 유사한 값을 얻길 원한다.
- 이러한 parameterized function 은 여러 형태로 표현될 수 있는데, 그 중 하나가 신경망이다.
Monte Carlo 방식과 Supervised Learning 의 유사성
- Policy Evaluation 에 있어서, Monte Carlo 는 샘플의 리턴값을 이용하여 가치 함수를 추정하는 방식이다.
  - 이 또한 입력값이 상태, 목표 값이 리턴 값인 지도학습의 일환으로 볼 수 있다.
  - 또한 모든 상태에서 함수가 참 값과 유사한 예측값을 출력하기를 원한다.
  - 이는 TD 또한 마찬가지이다.
모든 가치근사 방식이 강화학습에 잘 적용될 수 없는 이유
- 온라인 업데이트
  - 에이전트가 환경과 상호작용을 하면서 계속 새 데이터를 만드는 경우 (즉, 처음부터 전체데이터에 접근 가능한 Offline Learning 과 차이가 있음)
  - 함수 근사를 사용할 때, 해당 방식이 온라인 환경에서 잘 적용될 수 있는지를 생각해 봐야 한다.
  - 어떠한 근사 방법은 고정된 배치 데이터를 사용해야 하거나, 시간적으로 상관된 데이터 (강화학습은 언제나 상관되어 있다.) 에 맞지 않는 경우가 있다.
- 부트스트래핑
  - 타겟 값이 현재의 추측값과 연관이 있을 경우
  - 계속적으로 타겟 값이 변동되는 경우

The Objective for On-policy Prediction

The Value Error Objective

학습목표
- 정책 평가를 위한 평균제곱오차 (mean squared value error) 의 목표 이해
- 목표에서 상태 분포 (state distribution) 의 역할을 설명하기
An Idealized Scenario
- 예를 들어 모든 상태에 대한 참 값을 알 수 있는 상태라고 가정하자.
  - ${(S_1, v_\pi(S_1)), (S_2, v_\pi(S_2)), (S_3, v_\pi(S_3)), …}$
- 우리는 이 참 값과 최대한 유사한 값을 출력할 수 있는 근사 함수를 찾아야 한다.
  - $\hat{v}(s,\textbf{w}) \approx v_\pi(s)$
- 하지만 위 근사함수가 모든 상태에서 참 값과 동일한 값을 출력할 수는 없다.
  - 우리는 가중치 $\textbf{w}$ 값을 조절하여 최대한 좋은 결과를 얻고자 한다.
  - 우리는 어떠한 측정치를 이용하여 우리의 예측을 보다 정확하게 조절할 필요가 있다.
The Mean Squared Value Error Objective
- 문제의 가정
  - 선형 가치근사함수 $\hat{v}$
  - 상태는 1차원에 연속적이라고 가정
- Squared Value Error
  - $[v_\pi(s) - \hat{v}(s, \textbf{w} )]^2$
  - 참 값과 추정 값 간의 오차를 측정할 수 있는 전통적인 방법
  - 문제는 하나의 상태에서 오차가 준다면, 다른 상태에서 오차가 늘어날 수도 있다는 점이다.
- Sum of Squared Value Error
  - $\sum_s [v_\pi(s) - \hat{v}(s, \textbf{w}) ]^2$
  - 모든 상태에서의 오차 합을 측정
  - 하지만 과연 모든 상태가 서로 같은 중요도를 가진다고 볼 수 있을까?
- Sum of Mean Squared Value Error
  - $\sum_s \mu(s) [v_\pi(s) - \hat{v}(s, \textbf{w}) ]^2$
  - $\mu(s)$ : 해당 정책 하에 s 상태에 방문한 빈도 수를 전체 빈도수 대비 분수로 나타낸 것
    - 많이 방문한 상태의 에러 값에 더 많이 집중하고, 드물게 방문한 상태의 에러값에 덜 신경 쓰는 것
    - 해당 값은 확률분포 값이다.
Adapting the Weights to Minimize the Mean Squared Value Error Objective
- $\overline{VE} = \sum_s \mu(s) [v_\pi(s) - \hat{v}(s, \textbf{w})]^2$
- 우리는 가중치 $\textbf{w}$ 를 조정하여 Mean Squared Value Error 값을 최대한 작게 만드는 것이 목적이다.
- 이 Objective 를 VE bar 라고 한다.
- 함수 근사를 이용한 정책의 평가는 특정한 목표값을 정의해야 한다.
- Mean Squared Value Error 는 이러한 목표값 중 하나이다.

Introducing Gradient Descent

학습목표
- 경사하강법의 개념을 이해한다.
- 경사하강법이 고정된 한 지점으로 수렴하는 것을 이해한다.
Recap : Learning Parameterized Value Functions
- 가중치 $\textbf{w}$ 는 실제 실수 값들로 이루어져 있다.
- 위의 연산을 보면, 가중치의 변화는 많은 상태에 영향을 줄 수 있다.
- 우리의 목표는 전체 에러값 (Overall value error) 의 최소화이다.
Understanding Derivatives (미분 이해하기)
- $f$ : function, 여기에서는 위 value error 로 이해
- $W$ : 가중치의 스칼라 파라미터로 이해
- 여기에서 미분 값으로 $W$ 값의 지역적 변화에 대해 $f$ 값을 증가시킬지 감소시킬지를 알 수 있다.
  - 미분 값의 음수, 양수의 여부로 $W$ 포인트에서 $f$ 증가, 감소에 대해 판단
  - 미분 값의 절대값 크기로 $W$ 포인트에서의 경사 (얼마나 급변하는지) 에 대해 판단
  - 여기에서 미분 값의 기울기 방향으로 $W$ 를 이동시키는 것은 $f$ 의 값을 증가시키는 방향으로 이동하는 것임
- $\textbf{w}$ 의 벡터 요소의 수 (차원) 에 따라 여러 차원의 미분값이 존재한다.
  - 이 각각의 차원들에 대해서도 위의 규칙이 통용된다.
Example : Gradient of a Linear Value Function
- 이전에 다뤘듯, 선형가치근사함수에서의 가치함수값은 단순 가중치와 상태 feature vector의 내적이었다.
- 이 때, feature vector 는 가중치와는 독립적인 값이므로, 미분 값이 해당 상태의 feature vector 그 자체가 되게 된다.
- 목표 값은 $\textbf{w}$ 에 대한 함수이다.
  - $\hat{v}$ 가 $\textbf{w}$ 에 대한 함수이기 때문
  - 우리의 목표는 이 함수 값을 최소화 하는 것이다.
- $\alpha$ : 얼마나 움직일지 (step-size) 를 정의. 미분 값은 지역적인 영역에서의 증감만을 보장하기 때문
- 적은 양으로 가중치를 조절하다 보면 Gradient 값이 0이 되는 부분이 있는데 이 부분을 지역최소값 (local minumim) 이라 한다.
  - 해당 가중치 $\textbf{w}$ 가 당장의 근처 값보다 낫다는 것을 보여줌. (하지만 최적의 값은 아닐 수 있음)
Global Minima and Solution Quality
- 전역최적값 (global minimum) $\textbf{w}_*$ 에서의 $\hat{v}$ 값이 반드시 참 값일 필요는 없음. (충족하지 않음)
  - $\hat{v} \ne v_\pi$
  - 이것은 function parameterization 의 한계이기도 하고, 목표값(objective)의 설정에도 영향을 받는다고 볼 수 있음
- 만약 feature vector 값이 상태와 무관하게 언제나 1이라면, Mean Squared Value Error 목표값을 최소화 하는 근사가치함수 (모든 상태에 대해 평균 값을 제공) 를 찾을 수는 있겠지만 이것이 좋은 가치함수라고 볼 수는 없다. (이 경우는 feature vector 가 잘못 설정된 경우)

Gradient Monte for Policy Evaluation

학습목표
- 경사하강법과 확률적 경사하강법을 사용하여 오차값을 최소화 하는 방법 이해하기
- 가치 추정을 위한 Gradient Monte Carlo 알고리즘의 이해
Gradient of the Mean Squared Value Error Objective
- 첫번째로 목표값 (Objective) 의 Gradient 를 찾아야 한다.
  - 위의 경우 Mean Squared Value Error 의 Gradient 를 찾아야 한다.
  - Mean Squared Value Error : A weighted sum of the squared error over all states.
- Mean Squared Value Error 에 대한 Gradient 를 계산하는 것은 모든 상태에 대한 합, 모든 상태의 확률분포에 대한 계산을 의미
  - 일반적으로 실현이 불가능하다.
  - 대부분의 경우 분포값 $\mu$ 를 알지 못한다.
- 이상적인 설정 - $v_\pi$ 에 접근이 가능한 경우
  - 명시적으로 $\mu$ 가 없더라도, 정책을 따름으로서 상태를 샘플링할 수 있다.
  - 정책을 따르면서 얻은 상태에 대한 가중치의 즉각적인 업데이트가 가능하다.
  - 하나의 차원으로 볼 때, 상태 샘플에 따라 에러값이 늘어날 수도 있지만 점진적으로 개선되어간다.
- 위와 같은 업데이트 접근법을 확률적 경사하강법 (Stochastic Gradient Descent) 이라 한다.
  - 즉, 확률적이란 모든 상태에 대한 업데이트가 아닌, 정책을 따라 얻은 샘플링된 상태에 대한 업데이트를 한다는 뜻
  - 이 확률적 경사하강법은 경사에 대한 노이즈가 있는 근사라고 볼 수 있다.
    - 계산비용이 훨씬 저렴함
    - 최소값까지 꾸준한 발전을 이룰 수 있음
Gradient Monte Carlo
- 위의 Stochastic Gradient Descent 에는 한계점이 있다.
  - 우리는 $v_\pi$ 에 접근할 수 없다.
  - 이 $v_\pi$ 값을 정책을 따라 얻은 리턴값으로 대체한다. (Monte Carlo 방식)
  - 생성된 에피소드 샘플에 대하여 가중치 업데이트를 진행한다.

State Aggregation with Monte Carlo

학습목표
- 가치함수의 근사를 위한 state aggregation (상태 집합) 기법 사용법 이해
- state aggregation (상태 집합) 과 함께 Gradient Monte Carlo 방식 적용
Random Walk Example
- 문제의 정의
  - 좌, 우측에 종료상태, 그리고 1 부터 1000 까지의 상태가 있다.
  - 좌측 종료상태에서 보상 -1, 우측 종료상태에서 보상 +1, 그 외의 상태는 보상 0
  - 동작은 좌측 혹은 우측으로 100칸까지 이동 가능하며 좌,우 1~100 칸 이동 확률은 uniform random policy 를 따른다.
  - 첫 시작 지점은 상태 500에서 시작한다.
  - discount gamma 값은 1이다. (할인 없음)
State Aggregation
- 몇몇 상태를 같은 상태로 취급하는 기법
- 위의 예시에서 상태가 8개 있는데, 4개의 상태를 같은 상태로 묶어 2개의 상태로 취급하는 기법임.
  - 즉, 위의 묶음 중 아무 상태가 업데이트 되어도 나머지 3개의 상태가 같이 업데이트된다.
- State Aggregation 은 linear function approximation 의 일종이다.
- 상태가 많은 경우 학습의 속도가 느려질 수 있는데, 위 기법을 통해 빠르게 학습할 수 있음.
How to Compute the Gradient for Monte Carlo with State Aggregation
Constructing a State Aggregation for the Random Walk
- 어떻게 집합으로 묶을 것인가?
  - State Aggregation 은 상태를 동일 그룹 군으로 묶어 같은 가치 추정을 하도록 만든다.
  - 즉, 우리는 상태를 묶을 때 그들의 값이 유사할 것이라고 생각되는 상태들을 그룹군으로 묶어야 한다.
  - 그룹이 작다면 보다 더 정확한 결과를 얻을 것이나, 학습 시간이 더 오래 걸린다.
  - Random Walk 문제에서는 1부터 1000까지의 상태를 100개 단위의 그룹 군으로 묶어본다.
- 첫 에피소드에 대한 해석
  - 첫 번째 에피소드는 종료 결과 보상 1을 얻었고, 할인이 없기 때문에 모든 상태에 대한 리턴값은 1이 된다.
  - 속하는 그룹의 가중치 값이 모두 업데이트 된다.
  - 여러 상태를 오간 뒤 첫번째 에피소드에 대한 가치 추정의 결과는 위 그림과 같다.
- 최종 에피소드 이후 가치 추정 결과
  - 각 상태그룹에 따라 동일한 근사 값을 가지는 것을 볼 수 있음
  - 참 값이 근사 값의 중앙을 관통하는 것은, 상태의 확률분포 (극단지점의 상태보다 그렇지 않은 상태의 분포가 더 크다) 의 영향이다.

The Objective for TD

Semi-Gradient TD for Policy Evaluation

학습목표
- 함수 근사를 위한 TD update 의 이해
- 가치 추정을 위한 Semi-gradient TD(0) 알고리즘의 개요
Gradient Monte Carlo 와의 비교
- Gradient Monte Carlo 에서는 리턴값 $G_t$ 를 사용하며 이는 편향되지 않은 값이기에 가중치가 지역 최적값에 수렴한다.
  - 꼭 리턴값이 아니더라도 다른 타겟을 사용할 수 있으며, 이 값이 편향되지 않다면 수렴을 보장한다.
- TD 방식에서는 현재 가치 추정값을 타겟으로 하기에 값이 편향된다.
  - 추정값이기에 참 가치함수와는 값이 다름.
  - 그렇기에 해당 알고리즘은 에러 값이 지역 최소값에 수렴한다고 보장할 수 없다.
TD target 의 이점
- 샘플의 리턴 값보다 분산이 작아 더 빠르게 수렴한다.
TD target 의 이점 (Chat GPT)
- 계산 효율성: 함수 근사를 사용한 TD 업데이트는 매우 큰 상태 공간에서도 적용할 수 있다. 대규모의 상태 공간을 전체적으로 계산하는 것보다 훨씬 효율적임.
- 활용 가능한 데이터: 실제 상황에서는 종종 완벽한 정보가 제공되지 않는다. 편향된 추정값이라도 현재 사용 가능한 정보를 기반으로 한 업데이트는 여전히 유용할 수 있다.
- 탐색적인 측면: 편향된 추정값을 사용하는 것은 다양한 상황을 탐색하고 경험하는 데 도움을 줄 수 있다. 이는 종종 실제 환경에서 더 나은 행동을 선택하는 데 도움이 될 수 있다.
- 일반화 가능성: 함수 근사를 사용한 TD 업데이트는 일반화 가능성을 가질 수 있다. 이는 일부 편향된 추정값이라도 일반적인 상황에서 적용 가능한 모델을 생성할 수 있다는 것을 의미함.
TD is a semi-gradient method
- TD 의 경우 업데이트의 목표 타겟값이 TD target ($R_{t+1} + \gamma \hat{v} (S_{t+1}, \textbf{w})$) 이다.
- 목표 타겟값에 가중치 $\textbf{w}$ 가 포함되어 있어, 미분식이 기존의 TD Update 식과 다르게 된다.
  - The TD Update : $-(U_t - \hat{v}(S_t, \textbf{w})) \nabla \hat{v}(S_t, \textbf{w})$
  - 여기에서 TD Update 란 시간차 학습에 의한 실제값과 기대값의 차이를 줄이기 위한 방법을 의미한다.
  - 함수 근사에서 사용될 경우 위와같은 형태가 됨.
- 즉, 실제 값과 기대값의 차이가 아닌 기대값과 기대값 사이 TD 오차에 비례하는 위의 식은 gradient descent 방법과는 다르다.
- 위의 차이에도 불구하고, TD 는 많은 케이스에서 수렴한다.
- Semi-Gradient TD(0) 의 psuedocode
  - TD(0) 는 에피소드가 끝날 때 까지 기다리지 않고, 매 스텝마다 업데이트를 진행한다.

Comparing TD and Monte Carlo with State Aggregation

학습목표
- TD 가 편항된 가치 추정으로 수렴하는 점을 이해
- TD 가 Gradient Monte Carlo 보다 훨씬 빠르게 수렴하는 점을 이해
Gradient Monte Carlo 의 경우
- 더 많은 샘플들로 최적화 할 수록 Mean Squared Value Error 의 지역최소값에 수렴한다.
- 이는 value error의 경사로 편향되지 않은 추정값을 사용하기 때문이다.
- 이론대로라면, 우리는 이 알고리즘을 긴 시간동안, step-size 파라미터를 decay 하며 진행해야 수렴값을 얻을 수 있다.
  - 예제에서 상수 step-size 를 사용하여, 지역 최소값에서 계속 진동하는 것을 볼 수 있다.
Semi-Gradient TD 의 경우
- Target 값이 예측값 (정확하지 않은 값) 이므로, 업데이트 값에 편향이 생길 수 있다.
- 우리의 가치 근사가 경계값 내에서도 완벽할 수 없으므로, Target 은 편향된 상태로 남게 된다.
- 따라서 Semi-Gradient TD 의 Mean Squared Value Error 가 지역 최소값으로 수렴한다는 것을 보장할 수 없다.
- 물론 이 편향은 추정이 개선될 수록 줄게 된다.
State Aggregation 을 이용한 1000 State Random Walk 문제에서 MC 방식과 TD 방식의 결과 비교
- 1000 State Random Walk 를 값이 수렴할 때까지 진행 (1000 Episodes)
- Value Estimate 값의 변화가 멈추었을 때의 결과를 도식화함.
- Monte Carlo 와 비교하여 값이 정확하지 않다. (편향값 때문)
- 위 문제를 30 Episodes 만 진행
- TD 와 MC 의 $\alpha$ 값에 큰 차이가 있으므로, 0과 1 사이의 100개 구간으로 시험하여 가장 좋은 결과의 $\alpha$ 를 선택
  - TD : 0.22
  - MC : 0.01

Doina Precup : Building Knowledge for AI Agents with Reinforcement Learning

강화학습 에이전트가 습득해야 하는 지식의 종류
- 절차적 지식 (일을 수행하는 방법) - 정책은 이에 해당하는 기본적인 예
- 우리가 알고 싶어할 수도 있는 다른 지식 - 특정 물체와 상호작용하는 방법, 다른 장소로 이동하는 방법
- 기술, 옵션, 혹은 목표 지향적인 행동
- 에이전트의 행동에 따라 어떤 일이 일어날 수 있는지를 의미하는 예측 지식, 경험적 지식
  - 이것은 가치 함수일 뿐만 아니라 모델 예시와 같은 다른 것이기도 하다.
이러한 종류의 지식에 대해 우리가 갖고 싶은 특정 특성
- 배울만한 지식을 알게 되어, 데이터로부터 그것을 얻고, 표현할 수 있기를 원함
- 에이전트가 다양한 것, 다양한 상황에 대해 알수 있기를 원하며 이미 가지고 있는 지식 조각을 더 큰 조각으로 구성할 수 있기를 바람
지식 표현의 요소
- 타임 스케일에 따른 에이전트의 행동 측면에서의 일반화
- 세상에 대해 인식, 추론하는 에이전트의 능력에서의 일반화
상태 추상화와 함수 근사 (위의 필요성에서 등장)
- 다른 타임 스케일에서의 절차적 지식의 일반화
  - 에이전트가 생성될 때, 할 수 있는 행동은 제한적이고 이러한 행동들은 항상 한 번의 time step 동안 지속된다.
  - 이는 MDP (Markov Decision Process) 프레임워크와 일치시키기 위한 것이다.
  - 강화학습에서 상태, 행동, 보상 등은 시간 단게에 따라 발생하며 에이전트가 처음 생성될 때 행동의 다양성이나 지속 시간 등이 제한될 수 있다.
에이전트의 행동의 기간을 단일 단계가 아닌 여러 단계로 확장하는 방법
- 옵션이라는 개념의 사용
  - 초기화 단계 : 옵션이 시작될 수 있는 조건
  - 내부 정책 단계 : 옵션 실행 중 취할 행동
  - 종료 단계 : 언제 종료되는지 결정하는 조건
추상화의 개념으로 본 옵션
- MDP : 에이전트가 단일 행동에 대한 보상과 상태 전이에 대한 정보를 가지고 있음
- 옵션 : 일련의 행동들에 대한 일종의 전략이며 각 행동마다 보상과 상태 전이 확률을 내재하고 있는 개념 (행동의 집합, 패턴)
  - 시간의 추상화 : 옵션이 언제 시작되고 언제 종료되는지는 가변적이다. 또한 이를 통해 고정된 time step 에서 벗어나게 된다. (Semi-MDP)
  - 상태의 추상화 : 구체적인 좌표값이 아닌 공항에 대한 추론을 한다.
  - 행동의 추상화 : 각 근육의 조절이 아닌 공항으로 가는 행동에 대해 생각한다.
  - 이는 MDP에서의 행동보다는 더 큰 시간적, 행동적, 그리고 상태적인 추상화 수준을 제공한다.
  - 위의 추상 항목들은 모두 별개이며 함께 잘 작동하도록 조율하는 방법은 연구가 필요한 문제이다.
옵션을 학습하는 강화학습 방법
- 어떤 옵션을 사용할지 또한 선택이며, 이 또한 학습의 대상이다.
- 옵션을 학습하는 강화학습 방법 중 하나, “Option-Critic Architecture”
  - 옵션 선택기 (Option Selector): 에이전트가 주어진 상태에서 어떤 옵션을 선택할지 결정하는 부분. 이 선택기는 가능한 옵션들의 가치를 추정하여 가치가 높은 옵션을 선택하도록 학습됨
  - 옵션 평가자 (Option Evaluator): 선택된 옵션이 얼마나 좋은지, 즉 해당 옵션의 예상 보상이 어떤지를 평가하는 부분. 이 평가자는 선택된 옵션의 가치를 추정하고, 이를 통해 선택된 옵션이 잘 수행될 것인지를 예측함.
  - 이 아키텍처를 통해 옵션 선택과 평가를 결합하여 옵션을 효과적으로 학습하고 발전시킬 수 있다. 이러한 접근 방식은 여러 상황에서의 옵션 선택과 실행에 대한 전략을 효과적으로 학습하고 조정할 수 있도록 돕는다.

Linear TD

The Linear TD Update

학습목표
- 선형 함수 근사 를 사용하여 TD-update 도출
- tabular TD(0) 가 linear semi-gradient TD(0) 의 특별한 케이스인 것을 이해하기
- 왜 linear TD 를 특수 케이스로 취급하는지 이해하기
TD Update with Linear Function Approximation
- 가중치를 해당 가중치에 해당하는 TD error 와 근사가치함수의 경사값의 곱의 값에 따라 조절한다.
- 이 때, 근사가치함수의 경사값은 선형 가치근사함수에 의해 feature vector 의 값이 된다.
  - feature 값이 크면 큰 영향을 주게 되고, feature 값이 0이면, 아무런 영향을 주지 않는다.
- 즉 선형가치근사함수의 경우 feature 값이 잘 선택되면 효율적으로 작동한다.
Tabular TD is a special case of linear TD
- 위의 식과 같이 모든 상태에 대해 각각의 대응하는 가중치값이 존재한다면, 이는 tabular td 와 동일한 형태가 된다.
선형함수근사의 유용성
- 선형 방식은 이해하기 쉽고 수학적으로 분석이 가능하다.
- 좋은 feature 가 있으면 선형 방식은 학습도 빠르고 좋은 예측 정확도를 보여줄 수 있다.

The True Objective for TD

학습목표
- linear TD 학습의 고정점 (fixed point) 에 대해 이해
- TD 고정점에서 평균 제곱 오차의 이론적 보증에 대한 설명
The Expected TD Update
- 위 Expected TD Update 식은 아래의 연산규칙에 의해 변형이 가능하다.
  - 위 식에 사칙연산 중 분배법칙이 성립한다.
  - 스칼라 값 (벡터간 내적곱) 은 전치해도 식이 변형되지 않는다.
- 위의 규칙에 의해 변형된 식에 대해서
  - Matrix A : feature 에 대한 기대값
  - vector b : feature 와 보상에 대한 항
The TD Fixed Point
- TD 업데이트가 선형인 경우
  - 테이블 설정에서 벨만 방정식을 해결하는 것이 아닌 (샘플데이터 사용)
  - 해(solution)를 수식으로 구하는 방식인 선형 TD에 대해 설명하고 있음.
  - 선형 TD는 TD 업데이트를 선형 함수로 근사하며, 이를 사용하여 벨만 방정식의 해를 직접 구한다.
- 여기서 해(solution)는 TD 고정점(TD fixed point)을 의미한다.
  - 이 해는 평균 제곱 오차(Mean Squared Value Error)의 최소값으로 수렴하지는 않지만
  - TD의 목적 함수에 기반한 원칙적인 최소값으로 수렴한다는 것을 설명하고 있다.
  - 따라서 TD의 학습 목표는 평균 제곱 오차의 최소값이 아닌, 벨만 방정식과 관련된 목적 함수의 최소값을 찾는 것이 된다.
TD Fixed Point 와 Minimum of the Value Error 의 관계
- 그럼에도 불구하고, 우리는 여전히 TD에 의해 찾아진 해와 오류를 최소 값으로 만드는 해 사이의 관계를 알고 싶음.
  - 위 방정식과 같이 $\gamma$ 가 0에 매우 가깝다면, TD Fixed Point 는 Minimum of the Value Error 의 해와 매우 가까워짐
- Feature 의 품질과도 연관이 있는데, Feature 가 제한적이라면 TD Fixed Point 나 Minimum of the Value Error 또한 커지게 됨.
  - 만약 가치함수를 완벽하게 나타낼 수 있다면, $\gamma$ 와 무관하게 TD Fixed Point 는 Minimum of the Value Error 와 동일하게 됨.
  - 양쪽 모두가 0 가 되기 때문
- TD Fixed Point 와 Minimum of the Value Error 의 해와 차이가 발생하는 이유
  - 함수 근사값의 부트스트래핑 목표를 사용하기 때문
  - 다음 상태에 대한 추정이 함수 근사로 인해 지속적으로 부정확하다면, 부정확한 대상을 향해 업데이트 됨.
  - 만약 함수 근사가 좋다면 다음 상태에 추정값은 매우 정확해짐.

Prediction and Control with Function Approximation - 01. Week 1. On-policy Prediction with Approximation

2023-08-31T10:00:00+00:00

강의 개요 (과정 로드맵)

가치함수를 테이블로 표현할 수 있는 경우

가치함수를 테이블로 표현할 수 없는 경우

Estimating Value Functions as Supervised Learning

Moving to Parameterized Functions

Tabular Methods
- 모든 가능 상태를 표현하는 테이블 형태의 저장공간에 각각의 학습 값을 저장하는 형태
- 하지만 실제 세계의 문제들의 경우 이 테이블 저장공간이 추적불가능할 정도로 커지게 된다.
  - 로봇이 카메라를 통해 세계를 관찰하는 경우, 모든 가능한 이미지를 저장할 수는 없음.
학습목표
- 파라미터화된 함수를 사용하여 근사값을 구하는 법 이해하기
- 선형 가치함수근사의 의미를 설명하기
- tabular 케이스 또한 선형 가치함수근사의 특별한 케이스임을 이해하기
- 가치함수근사를 파라미터화 하는 많은 방법이 있음에 대해 이해하기
다양한 형태로 표현가능한 가치 함수
- 좌측은 tabular 형태로 각각의 가치함수값을 가지고 있는 형태
  - 각각의 상태에 따라 독립된 값을 테이블에 저장하는 형태 (지금까지 학습한 방식)
  - 학습이 진행됨에 따라 테이블에 저장된 값을 업데이트한다.
- 우측은 X 와 Y 좌표 값에 따라 X + Y 가치함수를 가진 형태
  - 이론적으로 우리는 상태를 제공받아 실수를 출력하는 어떠한 함수도 사용할 수 있다.
  - 하지만 이러한 형태를 가치함수로 사용하기를 원치 않음.
    - 이 예측치를 수정할 방법이 없음 (학습할 방법이 없음)
Parameterized function
- $\hat{v}(s,\textbf{w}) \approx v_\pi (s)$
  - $\textbf{w}$ : weights (가중치) - 함수에 변화를 주기 위한 조정이 가능해짐.
- $\hat{v}$ : 참 가치함수 값을 근사하는 함수의 의미
- $\textbf{w}$ : 함수근사에 대하여 모든 가중치를 파라미터화 한 벡터 값
- 여기에서 우리는 모든 상태에 대한 가치함수 값을 저장하는 것이 아닌, 2개의 가중치만을 저장하게 된다.
가중치(Weight) 의 변화가 가치함수에 주는 영향
- tabular case 의 경우 하나의 상태값에 영향을 주지만
- Parameterized function 의 경우 가중치 하나를 변경할 경우 복수 개의 상태에 변화를 준다.
Linear Value Function Approximation
- 가중치와 어떠한 고정된 속성 (feature) 간의 곱의 합
- 위의 식일 간단하게 weight vector $\textbf{w}$ 와 feature vector $\textbf{x} (s)$ 간의 내적 (inner product) 으로 표현한다.
Limitations of Linear Value Function Approximation
- 위의 linear value function approximation 을 살펴보면 X, Y feature 에 대해서 선형적인 표현만 할 수 있다.
- 만약 참 값이 위의 그림과 같다면 X, Y feature 에 대한 선형 함수로는 표현할 방법이 없다.
  - 외각의 0 을 표현하기 위해서는 $W_1$ 과 $W_2$ 가 0이 되어야만 한다.
  - 그렇게 된다면 내부의 5를 표현할 방법이 없다.
- 그러나 우리가 반드시 X, Y 값을 features 로 사용할 필요는 없다.
  - 즉, Linear value function 은 좋은 특징(features) 값을 가지는 것이 중요하다.
    - 특징(features) 을 정의하는 데 다양한 효과적인 방법들이 있다.
Tabular case 를 linear function 으로 표현하는 방법
- 각각의 상태를 feature 로 정의한다.
- 이에 대응하는 가중치 값과의 내적을 구하면, 왼쪽의 Tabular case 와 동일한 연산이 된다.
Nonlinear Function Approximation
- 신경망 방식 또한 비선형 가치근사 방법 중 하나이다.
- 이 또한 parameterized function 중 하나이다.
- 상태 S 가 실제 가중치 값들 $\textbf{w}$ 를 통과하며 $\hat{v}(s, \textbf{w})$ 의 연산을 하게 된다.

Generalization and Discrimination

Generalization 에 대해
- 함수 근사에서 가장 중요한 고려사항은 어떻게 상태들을 일반화 (Generalize) 할 것인지 이다.
- Generalization 의 예
  - 어떤 사람이 특정한 자동차를 운전하는 방법을 배울 경우, 다른 자동차의 운전 방법을 배울 때 처음부터 배우지 않는다.
  - 혹은 다른 도로에서 운전하거나, 비 오는 도로에서 운전한다고 처음부터 배우지 않는다.
학습목표
- generalization (일반화) 와 discrimination (차별) 의 의미 이해하기
- generalization (일반화) 의 혜택 이해하기
- 가치 근사에서 왜 generalization (일반화) 와 discrimination (차별) 모두가 필요한지 설명하기
Generalization
- 직관적 의미 : 특정한 상황에서의 지식을 적용하여 광범위한 상황에서의 결론을 도출하는 것
- 정책 평가에서의 의미 : 하나의 상태에서 추정값의 업데이트가 다른 상태의 값에도 영향을 주는 것
- 위의 그림처럼 가령 비슷한 시간이 소요되는, 비슷한 거리의 캔을 수거하러 가는 경우 센서에 의해 다른 값이 읽히더라도 비슷한 값이 도출될 수 있다.
  - 이러한 경우 위의 두 상태에 대해 가치함수의 일반화를 하길 원한다.
- 일반화를 통해 더 빠른 학습의 진행이 가능하다. (아직 방문하지 않은 상태에 대해서도 업데이트가 가능함)
Discrimination
- 두 개의 상태를 구분하여 두 개의 상태가 다르도록 만드는 능력
- 거리가 같더라도 벽 뒤에 있는지, 벽이 없는지에 따라 상태를 구분해야 한다.
- 따라서 비슷한 거리에 있는 캔에 대해 상태를 일반화하는 것도 중요하나, 다른 정보에 따라 상태를 구분하는 것도 중요하다.
일반화와 구분에 따른 카테고리화
- Tabular Methods : 구분은 뛰어나나 일반화는 전혀 못함. 각 상태에 대해 독립적인 학습을 진행함.
- Aggregate All States : 모든 상태를 똑같은 상태로 판단. 상태에 대한 학습이 불가함
- $*$ (●:현실적인 목표) : 좋은 구분과 좋은 일반화를 달성한 상태로, 비슷한 상태끼리 학습을 같이 진행하여 빠른 학습을 하고, 상태간 구분을 하여 정확히 근사를 하는 상태
  - 예를 들어 비슷한 상태그룹을 나타내는 feature 를 표기한다.
Generalize 방법에 대해
- 좌측은 극단적인 Generalize 로 모든 체스게임 상태를 동일한 상태로 보고, 승률을 0.5 로 책정한 경우 (안좋은 예측값)
- 우측은 Tabular Case 의 경우로 모든 경우의 수에 대해 승률을 책정한 경우 (경우의 수가 너무 많아 불가능)
- 우리는 이 사이의 무언가를 원한다.
  - 비슷한 승률 (비슷한 상태) 끼리의 그룹화는 어려운 질문이다.
  - 이것은 우리의 알고리즘 성능에 지대한 영향을 미치며, 머신러닝과 강화학습의 중심 화제이다.

Framing Value Estimation as Supervised Learning

학습목표
- 어떻게 가치 측정이 지도학습 문제에 포함될 수 있는지 이해하기
- 모든 가치근사방식이 강화학습에 잘 적용될 수 없다는 점을 식별하기
Supervised learning
- 지도학습도 입력 값과 목표 값을 이용해 함수를 근사시키는 과정은 동일하다.
- 학습 세트에 없는 입력값에 대해서, 일반화를 통해 실 가치와 유사한 값을 얻길 원한다.
- 이러한 parameterized function 은 여러 형태로 표현될 수 있는데, 그 중 하나가 신경망이다.
Monte Carlo 방식과 Supervised Learning 의 유사성
- Policy Evaluation 에 있어서, Monte Carlo 는 샘플의 리턴값을 이용하여 가치 함수를 추정하는 방식이다.
  - 이 또한 입력값이 상태, 목표 값이 리턴 값인 지도학습의 일환으로 볼 수 있다.
  - 또한 모든 상태에서 함수가 참 값과 유사한 예측값을 출력하기를 원한다.
  - 이는 TD 또한 마찬가지이다.
모든 가치근사 방식이 강화학습에 잘 적용될 수 없는 이유
- 온라인 업데이트
  - 에이전트가 환경과 상호작용을 하면서 계속 새 데이터를 만드는 경우 (즉, 처음부터 전체데이터에 접근 가능한 Offline Learning 과 차이가 있음)
  - 함수 근사를 사용할 때, 해당 방식이 온라인 환경에서 잘 적용될 수 있는지를 생각해 봐야 한다.
  - 어떠한 근사 방법은 고정된 배치 데이터를 사용해야 하거나, 시간적으로 상관된 데이터 (강화학습은 언제나 상관되어 있다.) 에 맞지 않는 경우가 있다.
- 부트스트래핑
  - 타겟 값이 현재의 추측값과 연관이 있을 경우
  - 계속적으로 타겟 값이 변동되는 경우

The Objective for On-policy Prediction

The Value Error Objective

학습목표
- 정책 평가를 위한 평균제곱오차 (mean squared value error) 의 목표 이해
- 목표에서 상태 분포 (state distribution) 의 역할을 설명하기
An Idealized Scenario
- 예를 들어 모든 상태에 대한 참 값을 알 수 있는 상태라고 가정하자.
  - ${(S_1, v_\pi(S_1)), (S_2, v_\pi(S_2)), (S_3, v_\pi(S_3)), …}$
- 우리는 이 참 값과 최대한 유사한 값을 출력할 수 있는 근사 함수를 찾아야 한다.
  - $\hat{v}(s,\textbf{w}) \approx v_\pi(s)$
- 하지만 위 근사함수가 모든 상태에서 참 값과 동일한 값을 출력할 수는 없다.
  - 우리는 가중치 $\textbf{w}$ 값을 조절하여 최대한 좋은 결과를 얻고자 한다.
  - 우리는 어떠한 측정치를 이용하여 우리의 예측을 보다 정확하게 조절할 필요가 있다.
The Mean Squared Value Error Objective
- 문제의 가정
  - 선형 가치근사함수 $\hat{v}$
  - 상태는 1차원에 연속적이라고 가정
- Squared Value Error
  - $[v_\pi(s) - \hat{v}(s, \textbf{w} )]^2$
  - 참 값과 추정 값 간의 오차를 측정할 수 있는 전통적인 방법
  - 문제는 하나의 상태에서 오차가 준다면, 다른 상태에서 오차가 늘어날 수도 있다는 점이다.
- Sum of Squared Value Error
  - $\sum_s [v_\pi(s) - \hat{v}(s, \textbf{w}) ]^2$
  - 모든 상태에서의 오차 합을 측정
  - 하지만 과연 모든 상태가 서로 같은 중요도를 가진다고 볼 수 있을까?
- Sum of Mean Squared Value Error
  - $\sum_s \mu(s) [v_\pi(s) - \hat{v}(s, \textbf{w}) ]^2$
  - $\mu(s)$ : 해당 정책 하에 s 상태에 방문한 빈도 수를 전체 빈도수 대비 분수로 나타낸 것
    - 많이 방문한 상태의 에러 값에 더 많이 집중하고, 드물게 방문한 상태의 에러값에 덜 신경 쓰는 것
    - 해당 값은 확률분포 값이다.
Adapting the Weights to Minimize the Mean Squared Value Error Objective
- $\overline{VE} = \sum_s \mu(s) [v_\pi(s) - \hat{v}(s, \textbf{w})]^2$
- 우리는 가중치 $\textbf{w}$ 를 조정하여 Mean Squared Value Error 값을 최대한 작게 만드는 것이 목적이다.
- 이 Objective 를 VE bar 라고 한다.
- 함수 근사를 이용한 정책의 평가는 특정한 목표값을 정의해야 한다.
- Mean Squared Value Error 는 이러한 목표값 중 하나이다.

Introducing Gradient Descent

학습목표
- 경사하강법의 개념을 이해한다.
- 경사하강법이 고정된 한 지점으로 수렴하는 것을 이해한다.
Recap : Learning Parameterized Value Functions
- 가중치 $\textbf{w}$ 는 실제 실수 값들로 이루어져 있다.
- 위의 연산을 보면, 가중치의 변화는 많은 상태에 영향을 줄 수 있다.
- 우리의 목표는 전체 에러값 (Overall value error) 의 최소화이다.
Understanding Derivatives (미분 이해하기)
- $f$ : function, 여기에서는 위 value error 로 이해
- $W$ : 가중치의 스칼라 파라미터로 이해
- 여기에서 미분 값으로 $W$ 값의 지역적 변화에 대해 $f$ 값을 증가시킬지 감소시킬지를 알 수 있다.
  - 미분 값의 음수, 양수의 여부로 $W$ 포인트에서 $f$ 증가, 감소에 대해 판단
  - 미분 값의 절대값 크기로 $W$ 포인트에서의 경사 (얼마나 급변하는지) 에 대해 판단
  - 여기에서 미분 값의 기울기 방향으로 $W$ 를 이동시키는 것은 $f$ 의 값을 증가시키는 방향으로 이동하는 것임
- $\textbf{w}$ 의 벡터 요소의 수 (차원) 에 따라 여러 차원의 미분값이 존재한다.
  - 이 각각의 차원들에 대해서도 위의 규칙이 통용된다.
Example : Gradient of a Linear Value Function
- 이전에 다뤘듯, 선형가치근사함수에서의 가치함수값은 단순 가중치와 상태 feature vector의 내적이었다.
- 이 때, feature vector 는 가중치와는 독립적인 값이므로, 미분 값이 해당 상태의 feature vector 그 자체가 되게 된다.
- 목표 값은 $\textbf{w}$ 에 대한 함수이다.
  - $\hat{v}$ 가 $\textbf{w}$ 에 대한 함수이기 때문
  - 우리의 목표는 이 함수 값을 최소화 하는 것이다.
- $\alpha$ : 얼마나 움직일지 (step-size) 를 정의. 미분 값은 지역적인 영역에서의 증감만을 보장하기 때문
- 적은 양으로 가중치를 조절하다 보면 Gradient 값이 0이 되는 부분이 있는데 이 부분을 지역최소값 (local minumim) 이라 한다.
  - 해당 가중치 $\textbf{w}$ 가 당장의 근처 값보다 낫다는 것을 보여줌. (하지만 최적의 값은 아닐 수 있음)
Global Minima and Solution Quality
- 전역최적값 (global minimum) $\textbf{w}_*$ 에서의 $\hat{v}$ 값이 반드시 참 값일 필요는 없음. (충족하지 않음)
  - $\hat{v} \ne v_\pi$
  - 이것은 function parameterization 의 한계이기도 하고, 목표값(objective)의 설정에도 영향을 받는다고 볼 수 있음
- 만약 feature vector 값이 상태와 무관하게 언제나 1이라면, Mean Squared Value Error 목표값을 최소화 하는 근사가치함수 (모든 상태에 대해 평균 값을 제공) 를 찾을 수는 있겠지만 이것이 좋은 가치함수라고 볼 수는 없다. (이 경우는 feature vector 가 잘못 설정된 경우)

Gradient Monte for Policy Evaluation

학습목표
- 경사하강법과 확률적 경사하강법을 사용하여 오차값을 최소화 하는 방법 이해하기
- 가치 추정을 위한 Gradient Monte Carlo 알고리즘의 이해
Gradient of the Mean Squared Value Error Objective
- 첫번째로 목표값 (Objective) 의 Gradient 를 찾아야 한다.
  - 위의 경우 Mean Squared Value Error 의 Gradient 를 찾아야 한다.
  - Mean Squared Value Error : A weighted sum of the squared error over all states.
- Mean Squared Value Error 에 대한 Gradient 를 계산하는 것은 모든 상태에 대한 합, 모든 상태의 확률분포에 대한 계산을 의미
  - 일반적으로 실현이 불가능하다.
  - 대부분의 경우 분포값 $\mu$ 를 알지 못한다.
- 이상적인 설정 - $v_\pi$ 에 접근이 가능한 경우
  - 명시적으로 $\mu$ 가 없더라도, 정책을 따름으로서 상태를 샘플링할 수 있다.
  - 정책을 따르면서 얻은 상태에 대한 가중치의 즉각적인 업데이트가 가능하다.
  - 하나의 차원으로 볼 때, 상태 샘플에 따라 에러값이 늘어날 수도 있지만 점진적으로 개선되어간다.
- 위와 같은 업데이트 접근법을 확률적 경사하강법 (Stochastic Gradient Descent) 이라 한다.
  - 즉, 확률적이란 모든 상태에 대한 업데이트가 아닌, 정책을 따라 얻은 샘플링된 상태에 대한 업데이트를 한다는 뜻
  - 이 확률적 경사하강법은 경사에 대한 노이즈가 있는 근사라고 볼 수 있다.
    - 계산비용이 훨씬 저렴함
    - 최소값까지 꾸준한 발전을 이룰 수 있음
Gradient Monte Carlo
- 위의 Stochastic Gradient Descent 에는 한계점이 있다.
  - 우리는 $v_\pi$ 에 접근할 수 없다.
  - 이 $v_\pi$ 값을 정책을 따라 얻은 리턴값으로 대체한다. (Monte Carlo 방식)
  - 생성된 에피소드 샘플에 대하여 가중치 업데이트를 진행한다.

State Aggregation with Monte Carlo

학습목표
- 가치함수의 근사를 위한 state aggregation (상태 집합) 기법 사용법 이해
- state aggregation (상태 집합) 과 함께 Gradient Monte Carlo 방식 적용
Random Walk Example
- 문제의 정의
  - 좌, 우측에 종료상태, 그리고 1 부터 1000 까지의 상태가 있다.
  - 좌측 종료상태에서 보상 -1, 우측 종료상태에서 보상 +1, 그 외의 상태는 보상 0
  - 동작은 좌측 혹은 우측으로 100칸까지 이동 가능하며 좌,우 1~100 칸 이동 확률은 uniform random policy 를 따른다.
  - 첫 시작 지점은 상태 500에서 시작한다.
  - discount gamma 값은 1이다. (할인 없음)
State Aggregation
- 몇몇 상태를 같은 상태로 취급하는 기법
- 위의 예시에서 상태가 8개 있는데, 4개의 상태를 같은 상태로 묶어 2개의 상태로 취급하는 기법임.
  - 즉, 위의 묶음 중 아무 상태가 업데이트 되어도 나머지 3개의 상태가 같이 업데이트된다.
- State Aggregation 은 linear function approximation 의 일종이다.
- 상태가 많은 경우 학습의 속도가 느려질 수 있는데, 위 기법을 통해 빠르게 학습할 수 있음.
How to Compute the Gradient for Monte Carlo with State Aggregation
Constructing a State Aggregation for the Random Walk
- 어떻게 집합으로 묶을 것인가?
  - State Aggregation 은 상태를 동일 그룹 군으로 묶어 같은 가치 추정을 하도록 만든다.
  - 즉, 우리는 상태를 묶을 때 그들의 값이 유사할 것이라고 생각되는 상태들을 그룹군으로 묶어야 한다.
  - 그룹이 작다면 보다 더 정확한 결과를 얻을 것이나, 학습 시간이 더 오래 걸린다.
  - Random Walk 문제에서는 1부터 1000까지의 상태를 100개 단위의 그룹 군으로 묶어본다.
- 첫 에피소드에 대한 해석
  - 첫 번째 에피소드는 종료 결과 보상 1을 얻었고, 할인이 없기 때문에 모든 상태에 대한 리턴값은 1이 된다.
  - 속하는 그룹의 가중치 값이 모두 업데이트 된다.
  - 여러 상태를 오간 뒤 첫번째 에피소드에 대한 가치 추정의 결과는 위 그림과 같다.
- 최종 에피소드 이후 가치 추정 결과
  - 각 상태그룹에 따라 동일한 근사 값을 가지는 것을 볼 수 있음
  - 참 값이 근사 값의 중앙을 관통하는 것은, 상태의 확률분포 (극단지점의 상태보다 그렇지 않은 상태의 분포가 더 크다) 의 영향이다.

The Objective for TD

Semi-Gradient TD for Policy Evaluation

학습목표
- 함수 근사를 위한 TD update 의 이해
- 가치 추정을 위한 Semi-gradient TD(0) 알고리즘의 개요
Gradient Monte Carlo 와의 비교
- Gradient Monte Carlo 에서는 리턴값 $G_t$ 를 사용하며 이는 편향되지 않은 값이기에 가중치가 지역 최적값에 수렴한다.
  - 꼭 리턴값이 아니더라도 다른 타겟을 사용할 수 있으며, 이 값이 편향되지 않다면 수렴을 보장한다.
- TD 방식에서는 현재 가치 추정값을 타겟으로 하기에 값이 편향된다.
  - 추정값이기에 참 가치함수와는 값이 다름.
  - 그렇기에 해당 알고리즘은 에러 값이 지역 최소값에 수렴한다고 보장할 수 없다.
TD target 의 이점
- 샘플의 리턴 값보다 분산이 작아 더 빠르게 수렴한다.
TD target 의 이점 (Chat GPT)
- 계산 효율성: 함수 근사를 사용한 TD 업데이트는 매우 큰 상태 공간에서도 적용할 수 있다. 대규모의 상태 공간을 전체적으로 계산하는 것보다 훨씬 효율적임.
- 활용 가능한 데이터: 실제 상황에서는 종종 완벽한 정보가 제공되지 않는다. 편향된 추정값이라도 현재 사용 가능한 정보를 기반으로 한 업데이트는 여전히 유용할 수 있다.
- 탐색적인 측면: 편향된 추정값을 사용하는 것은 다양한 상황을 탐색하고 경험하는 데 도움을 줄 수 있다. 이는 종종 실제 환경에서 더 나은 행동을 선택하는 데 도움이 될 수 있다.
- 일반화 가능성: 함수 근사를 사용한 TD 업데이트는 일반화 가능성을 가질 수 있다. 이는 일부 편향된 추정값이라도 일반적인 상황에서 적용 가능한 모델을 생성할 수 있다는 것을 의미함.
TD is a semi-gradient method
- TD 의 경우 업데이트의 목표 타겟값이 TD target ($R_{t+1} + \gamma \hat{v} (S_{t+1}, \textbf{w})$) 이다.
- 목표 타겟값에 가중치 $\textbf{w}$ 가 포함되어 있어, 미분식이 기존의 TD Update 식과 다르게 된다.
  - The TD Update : $-(U_t - \hat{v}(S_t, \textbf{w})) \nabla \hat{v}(S_t, \textbf{w})$
  - 여기에서 TD Update 란 시간차 학습에 의한 실제값과 기대값의 차이를 줄이기 위한 방법을 의미한다.
  - 함수 근사에서 사용될 경우 위와같은 형태가 됨.
- 즉, 실제 값과 기대값의 차이가 아닌 기대값과 기대값 사이 TD 오차에 비례하는 위의 식은 gradient descent 방법과는 다르다.
- 위의 차이에도 불구하고, TD 는 많은 케이스에서 수렴한다.
- Semi-Gradient TD(0) 의 psuedocode
  - TD(0) 는 에피소드가 끝날 때 까지 기다리지 않고, 매 스텝마다 업데이트를 진행한다.

Comparing TD and Monte Carlo with State Aggregation

학습목표
- TD 가 편항된 가치 추정으로 수렴하는 점을 이해
- TD 가 Gradient Monte Carlo 보다 훨씬 빠르게 수렴하는 점을 이해
Gradient Monte Carlo 의 경우
- 더 많은 샘플들로 최적화 할 수록 Mean Squared Value Error 의 지역최소값에 수렴한다.
- 이는 value error의 경사로 편향되지 않은 추정값을 사용하기 때문이다.
- 이론대로라면, 우리는 이 알고리즘을 긴 시간동안, step-size 파라미터를 decay 하며 진행해야 수렴값을 얻을 수 있다.
  - 예제에서 상수 step-size 를 사용하여, 지역 최소값에서 계속 진동하는 것을 볼 수 있다.
Semi-Gradient TD 의 경우
- Target 값이 예측값 (정확하지 않은 값) 이므로, 업데이트 값에 편향이 생길 수 있다.
- 우리의 가치 근사가 경계값 내에서도 완벽할 수 없으므로, Target 은 편향된 상태로 남게 된다.
- 따라서 Semi-Gradient TD 의 Mean Squared Value Error 가 지역 최소값으로 수렴한다는 것을 보장할 수 없다.
- 물론 이 편향은 추정이 개선될 수록 줄게 된다.
State Aggregation 을 이용한 1000 State Random Walk 문제에서 MC 방식과 TD 방식의 결과 비교
- 1000 State Random Walk 를 값이 수렴할 때까지 진행 (1000 Episodes)
- Value Estimate 값의 변화가 멈추었을 때의 결과를 도식화함.
- Monte Carlo 와 비교하여 값이 정확하지 않다. (편향값 때문)
- 위 문제를 30 Episodes 만 진행
- TD 와 MC 의 $\alpha$ 값에 큰 차이가 있으므로, 0과 1 사이의 100개 구간으로 시험하여 가장 좋은 결과의 $\alpha$ 를 선택
  - TD : 0.22
  - MC : 0.01

Doina Precup : Building Knowledge for AI Agents with Reinforcement Learning

강화학습 에이전트가 습득해야 하는 지식의 종류
- 절차적 지식 (일을 수행하는 방법) - 정책은 이에 해당하는 기본적인 예
- 우리가 알고 싶어할 수도 있는 다른 지식 - 특정 물체와 상호작용하는 방법, 다른 장소로 이동하는 방법
- 기술, 옵션, 혹은 목표 지향적인 행동
- 에이전트의 행동에 따라 어떤 일이 일어날 수 있는지를 의미하는 예측 지식, 경험적 지식
  - 이것은 가치 함수일 뿐만 아니라 모델 예시와 같은 다른 것이기도 하다.
이러한 종류의 지식에 대해 우리가 갖고 싶은 특정 특성
- 배울만한 지식을 알게 되어, 데이터로부터 그것을 얻고, 표현할 수 있기를 원함
- 에이전트가 다양한 것, 다양한 상황에 대해 알수 있기를 원하며 이미 가지고 있는 지식 조각을 더 큰 조각으로 구성할 수 있기를 바람
지식 표현의 요소
- 타임 스케일에 따른 에이전트의 행동 측면에서의 일반화
- 세상에 대해 인식, 추론하는 에이전트의 능력에서의 일반화
상태 추상화와 함수 근사 (위의 필요성에서 등장)
- 다른 타임 스케일에서의 절차적 지식의 일반화
  - 에이전트가 생성될 때, 할 수 있는 행동은 제한적이고 이러한 행동들은 항상 한 번의 time step 동안 지속된다.
  - 이는 MDP (Markov Decision Process) 프레임워크와 일치시키기 위한 것이다.
  - 강화학습에서 상태, 행동, 보상 등은 시간 단게에 따라 발생하며 에이전트가 처음 생성될 때 행동의 다양성이나 지속 시간 등이 제한될 수 있다.
에이전트의 행동의 기간을 단일 단계가 아닌 여러 단계로 확장하는 방법
- 옵션이라는 개념의 사용
  - 초기화 단계 : 옵션이 시작될 수 있는 조건
  - 내부 정책 단계 : 옵션 실행 중 취할 행동
  - 종료 단계 : 언제 종료되는지 결정하는 조건
추상화의 개념으로 본 옵션
- MDP : 에이전트가 단일 행동에 대한 보상과 상태 전이에 대한 정보를 가지고 있음
- 옵션 : 일련의 행동들에 대한 일종의 전략이며 각 행동마다 보상과 상태 전이 확률을 내재하고 있는 개념 (행동의 집합, 패턴)
  - 시간의 추상화 : 옵션이 언제 시작되고 언제 종료되는지는 가변적이다. 또한 이를 통해 고정된 time step 에서 벗어나게 된다. (Semi-MDP)
  - 상태의 추상화 : 구체적인 좌표값이 아닌 공항에 대한 추론을 한다.
  - 행동의 추상화 : 각 근육의 조절이 아닌 공항으로 가는 행동에 대해 생각한다.
  - 이는 MDP에서의 행동보다는 더 큰 시간적, 행동적, 그리고 상태적인 추상화 수준을 제공한다.
  - 위의 추상 항목들은 모두 별개이며 함께 잘 작동하도록 조율하는 방법은 연구가 필요한 문제이다.
옵션을 학습하는 강화학습 방법
- 어떤 옵션을 사용할지 또한 선택이며, 이 또한 학습의 대상이다.
- 옵션을 학습하는 강화학습 방법 중 하나, “Option-Critic Architecture”
  - 옵션 선택기 (Option Selector): 에이전트가 주어진 상태에서 어떤 옵션을 선택할지 결정하는 부분. 이 선택기는 가능한 옵션들의 가치를 추정하여 가치가 높은 옵션을 선택하도록 학습됨
  - 옵션 평가자 (Option Evaluator): 선택된 옵션이 얼마나 좋은지, 즉 해당 옵션의 예상 보상이 어떤지를 평가하는 부분. 이 평가자는 선택된 옵션의 가치를 추정하고, 이를 통해 선택된 옵션이 잘 수행될 것인지를 예측함.
  - 이 아키텍처를 통해 옵션 선택과 평가를 결합하여 옵션을 효과적으로 학습하고 발전시킬 수 있다. 이러한 접근 방식은 여러 상황에서의 옵션 선택과 실행에 대한 전략을 효과적으로 학습하고 조정할 수 있도록 돕는다.

Linear TD

The Linear TD Update

학습목표
- 선형 함수 근사 를 사용하여 TD-update 도출
- tabular TD(0) 가 linear semi-gradient TD(0) 의 특별한 케이스인 것을 이해하기
- 왜 linear TD 를 특수 케이스로 취급하는지 이해하기
TD Update with Linear Function Approximation
- 가중치를 해당 가중치에 해당하는 TD error 와 근사가치함수의 경사값의 곱의 값에 따라 조절한다.
- 이 때, 근사가치함수의 경사값은 선형 가치근사함수에 의해 feature vector 의 값이 된다.
  - feature 값이 크면 큰 영향을 주게 되고, feature 값이 0이면, 아무런 영향을 주지 않는다.
- 즉 선형가치근사함수의 경우 feature 값이 잘 선택되면 효율적으로 작동한다.
Tabular TD is a special case of linear TD
- 위의 식과 같이 모든 상태에 대해 각각의 대응하는 가중치값이 존재한다면, 이는 tabular td 와 동일한 형태가 된다.
선형함수근사의 유용성
- 선형 방식은 이해하기 쉽고 수학적으로 분석이 가능하다.
- 좋은 feature 가 있으면 선형 방식은 학습도 빠르고 좋은 예측 정확도를 보여줄 수 있다.

The True Objective for TD

학습목표
- linear TD 학습의 고정점 (fixed point) 에 대해 이해
- TD 고정점에서 평균 제곱 오차의 이론적 보증에 대한 설명
The Expected TD Update
- 위 Expected TD Update 식은 아래의 연산규칙에 의해 변형이 가능하다.
  - 위 식에 사칙연산 중 분배법칙이 성립한다.
  - 스칼라 값 (벡터간 내적곱) 은 전치해도 식이 변형되지 않는다.
- 위의 규칙에 의해 변형된 식에 대해서
  - Matrix A : feature 에 대한 기대값
  - vector b : feature 와 보상에 대한 항
The TD Fixed Point
- TD 업데이트가 선형인 경우
  - 테이블 설정에서 벨만 방정식을 해결하는 것이 아닌 (샘플데이터 사용)
  - 해(solution)를 수식으로 구하는 방식인 선형 TD에 대해 설명하고 있음.
  - 선형 TD는 TD 업데이트를 선형 함수로 근사하며, 이를 사용하여 벨만 방정식의 해를 직접 구한다.
- 여기서 해(solution)는 TD 고정점(TD fixed point)을 의미한다.
  - 이 해는 평균 제곱 오차(Mean Squared Value Error)의 최소값으로 수렴하지는 않지만
  - TD의 목적 함수에 기반한 원칙적인 최소값으로 수렴한다는 것을 설명하고 있다.
  - 따라서 TD의 학습 목표는 평균 제곱 오차의 최소값이 아닌, 벨만 방정식과 관련된 목적 함수의 최소값을 찾는 것이 된다.
TD Fixed Point 와 Minimum of the Value Error 의 관계
- 그럼에도 불구하고, 우리는 여전히 TD에 의해 찾아진 해와 오류를 최소 값으로 만드는 해 사이의 관계를 알고 싶음.
  - 위 방정식과 같이 $\gamma$ 가 0에 매우 가깝다면, TD Fixed Point 는 Minimum of the Value Error 의 해와 매우 가까워짐
- Feature 의 품질과도 연관이 있는데, Feature 가 제한적이라면 TD Fixed Point 나 Minimum of the Value Error 또한 커지게 됨.
  - 만약 가치함수를 완벽하게 나타낼 수 있다면, $\gamma$ 와 무관하게 TD Fixed Point 는 Minimum of the Value Error 와 동일하게 됨.
  - 양쪽 모두가 0 가 되기 때문
- TD Fixed Point 와 Minimum of the Value Error 의 해와 차이가 발생하는 이유
  - 함수 근사값의 부트스트래핑 목표를 사용하기 때문
  - 다음 상태에 대한 추정이 함수 근사로 인해 지속적으로 부정확하다면, 부정확한 대상을 향해 업데이트 됨.
  - 만약 함수 근사가 좋다면 다음 상태에 추정값은 매우 정확해짐.

Sample-based Learning Methods - 04. Week 4. Planning, Learning & Acting

2023-07-16T10:00:00+00:00

What is a model?

What is a Model?
- 개요
  - 실 생활에서의 결정의 예
    - 결정할 때 많은 생각을 하지 않는 경우 - 직장에 어떻게 운전해서 가는지?
    - 결정을 할 때 많은 가능한 시나리오를 생각하는 경우 - 한손으로 취약한 물건을 운반할 때 벌어질 수 있는 시나리오들을 상상하는 것
  - 이전에 배운 학습법의 경우
    - TD : 샘플링된 경험으로부터만 학습함
    - DP : 완성된 정보를 이용하여 계획함 (결정이 불필요)
  - 위 두 방법의 중간에 해당하는 방법을 통해 양 방법의 이점을 모두 활용할 방법 찾기
    - 이번 장에서 다룰 Dyna 구조도 그러한 형태 중 하나임
- 학습목표
  - 모델이 무엇인지와 어떻게 쓰이는지 설명
  - 모델을 분포모델 (distribution models) 또는 샘플모델 (sample models) 로 분류
  - 언제 분포모델을 쓸지 샘플모델을 쓸지 식별하기
- 모델에 대하여
  - 모델은 역학에 대한 지식을 저장한다.
  - 이 장에서 모델은 상태전이와 보상에 대한 역학을 저장한다.
    - 이것은 실제 행동을 하지 않고도 행동에 대한 결과를 살펴볼 수 있게 해줌
  - 모델은 계획(Planning) 을 가능하게 한다.
    - 계획 (Planning) 이란 모델을 이용하여 정책을 개선하는 프로세스를 말한다.
    - 모델을 이용하여 계획하는 하나의 방법은 모델을 활용해 가상의 경험을 생성하여 가치함수와 정책을 개선하는 것이다.
      - 가상의 경험을 이용한다는 것은 최적 정책에 도달하기 위해 실제 환경과 상호작용이 덜 필요하다는 것을 의미함
  - 모델의 종류
    
    sample_models
    - Sample model (샘플모델)
      - 기본 확률에서 도출된 실제 결과를 생성한 것
      - 예를 들어 하나의 코인을 던져 앞면인지 뒷면인지에 대한 무작위 시퀀스를 생성하는 것
      - 샘플 모델은 일련의 규칙에 따라 무작위 결과를 생성할 수 있기 때문에 저렴하다.
        
        예를 들어 5개의 동전을 던지기 위해 임의로 하나의 동전을 독립적으로 5번 던져서 하나의 결과를 생성
        
        CloudFlare 사의 라바램프(불규칙한 자연적 무작위성)를 활용(샘플)한 암호화
    - Distribution model (분포모델)
      - 모든 결과의 가능성 또는 확률을 완전히 지정한 것
      - 예를 들어 하나의 코인을 던졌을 때 앞면일 확률은 50% 이고 뒷면인 확률은 50% 인 것, 이 정보를 이용해 특정 시퀀스가 발생할 확률을 생성할 수 있음
      - 분포모델은 더 많은 정보가 포함되어 있지만, 특정하기 어렵고 비용도 비싸다.
        
        예를 들어 5개의 동전을 던질 때 가능한 앞면과 뒷면의 시퀀스 32개의 결과를 완전히 설명
        
        결과의 명시 확률에 따라 결과를 샘플 모델로 사용할 수 있다. (분포모델이 더 많은 정보를 포함하고 있다.)
Comparing Sample and Distribution Models
- 학습목표
  - 샘플모델과 분포모델의 장단점 설명
  - 왜 샘플모델이 분포모델보다 간결하게 표현될 수 있는지 이유 설명
- 12개의 주사위 문제
  - 의도
    - 12개의 주사위를 던지는 행위에 대한 샘플모델과 분포모델의 접근방식에 대해 알아보고자 함
  - 샘플모델
    - 하나의 주사위를 12번 던져보는 것
    - 프로그램으로 생각하면 1-6 사이의 무작위 수를 12번 생성하는 것
    - 간결하고, 공동의 확률을 생각하지 않는다.
    - 적은 메모리를 차지한다.
    - 많은 샘플을 평균화 함으로써 예측되는 결과를 근사할 수 있다.
  - 분포모델
    - 12개의 주사위가 가질 수 있는 모든 경우의 수와 그것에 대한 확률을 고려해야 한다.
    - 12개의 주사위는 $6^{12}$ 의 경우의 수 (2176782336 가지) 를 가진다.
    - 결과에 대한 정확한 확률을 생산한다는 장점이 있다.
      - 예상하는 결과를 직접 계산하거나 결과의 변동성을 정량화할 수 있음
    - 확률로 가중치를 부여한 모든 결과를 합산하여 정확한 예상결과를 계산할 수 있다.
    - 위험을 평가할 수 있는 유연성이 있다.
      - 예를 들어 의사가 약을 처방할 때 가능한 많은 부작용과 발생할 가능성을 고려할 경우

Planning

Random Tabular Q-planning
- 학습목표
  - 정책 개선을 위해 계획이 어떻게 쓰이는지 설명
  - random-sample one-step tabular Q-planning 설명
- 계획 (Planning)
  - 모델을 강화학습에 적용 : 환경과의 상호작용 없이 모델을 활용하여 더 나은 의사결정을 할 수 있도록 하는 것
    - 이 과정을 모델 경험을 통한 계획이라 한다.
  - 계획 (Planning) 의 정의
    - 모델을 입력값으로 개선된 정책을 생성하는 과정
    - 계획에 대한 한 가지 접근 방식은 먼저 모델에서 경험을 샘플링하는 것임
      - 세상이 어떻게 돌아가는지에 대한 이해를 바탕으로 세상에서 가능한 시나리오를 상상하는 것과 같음.
    - 이 생성된 경험은 마치 실제 상호작용이 발생한 것처럼 가치함수에 대한 업데이트를 수행하는 데 사용할 수 있음.
    - 이러한 개선된 가치에 탐욕 행동을 선택하면 정책이 개선됨.
- Random-sample one-step tabular Q-planning
  - Q-learning 과 Q-planning 에 대해
    - Q-learning 은 환경에서 경험한 것을 사용하여 정책을 개선하기 위해 업데이트를 수행함.
    - Q-planning 은 모델의 경험을 사용하고, 유사한 업데이트를 수행하여 정책을 개선함.
  - Random-sample one-step tabular Q-planning
    - 가정
      - 전이 역학에 대한 샘플 모델을 가지고 있다고 가정한다.
      - 샘플에 상응하는 상태, 행동 쌍을 가지고 있다고 가정한다.
    - 하나의 선택지는 상태와 행동을 균일하게 샘플링하는 것이다.
      - 전체 상태, 행동 집합에서 랜덤하게 상태, 행동 쌍을 선택한다.
      - 그 뒤로 샘플 모델을 이용해 상태, 행동값에 대한 다음 상태와 보상을 질의한다.
    - 위의 입력값과 결과값을 이용해 Q-learning update 를 진행한다.
    - 탐욕화를 이용해 정책을 개선한다.
  - Planning 의 특징
    - Planning 은 환경과 에이전트의 상호작용 결과가 아닌, 가상의 (상상의) 경험을 사용한다.
    - 환경과 에이전트의 상호작용 없이 진행하거나, 상호작용을 하는 중에 동시에 진행되기도 한다.
      - 행동이 특정 시간대에 일어나면서, 학습 업데이트가 상대적으로 더 빠를 경우 시간적 공백이 생긴다.
      - 예를 들면, 이 공백 시간에 계획을 업데이트 할 수 있다.
      - 예를 들어 로봇이 절벽 쪽에 다가갔을때의 결과가 모델에 있고, 가치함수나 정책에 아직 반영이 되지 않은 경우 가상의 경험을 생성하여 계획을 진행해 볼 수 있다.

Dyna as formalism for planning

The Dyna Architecture
- 개요
  - Direct RL : World (환경) 와 직접적인 상호작용을 하고, Q-learning 을 통해 학습하는 것
  - Planning : 모델로부터 생성된 가상 경험을 통해 학습하는 것
  - Dyna 구조 : Direct RL + Planning
- 학습목표
  - 모델로부터의 가상경험과 환경으로부터의 상호작용 간의 차이점을 이해
  - Dyna 구조를 통해 직접 RL(direct RL) 과 계획 (planning) 업데이트를 결합하는 방법 이해
- Q-learning 과 Q-planning 의 결합
  - Q-learning update: 환경으로부터의 경험을 통해 정책과 가치함수 업데이트
  - Q-planning update: 모델에서 생성한 경험을 통해 정책과 가치함수 업데이트
  - Dyna 구조를 통한 Q-learning 과 Q-planning 의 결합
- Dyna 구조
  - (중간부분) 환경과의 상호작용을 통해 경험의 흐름을 생성한다.
  - (왼쪽부분) 위 경험을 직접적으로 이용해 정책/가치함수를 업데이트 하는 것을 direct RL update 라 한다.
  - (오른쪽 부분) Planning 을 위해서는 모델이 필요하다. 환경과의 상호작용을 통해 얻은 경험으로 모델을 학습시킬 수 있다.
    - 모델은 model experience 를 생성한다.
    - 위 경험을 생성할 때, 어떠한 가상 경험을 생성하여 계획을 구성할지 제어하는 것을 search control 이라 한다.
    - planning update 는 모델로부터 생성된 경험으로 정책/가치함수를 업데이트 하는 것을 말한다.
- Dyna 의 예시 : simple maze
  - 문제의 설명
    - 로봇이 미로를 탈출하는 문제
    - 로봇은 Goal 에서 +1 의 보상을 얻고, 그렇지 않은 부분에서는 0의 보상을 얻는다.
    - 로봇은 첫 시도에 헤메게 되며, 결국 골에 도착하고 보상 1 을 획득, 에피소드를 종료하게 된다.
      - 노랗게 표시된 부분은 로봇에 실제 한번 이상 방문한 상태이다.
      - 로봇은 행동가치함수를 업데이트 하는데, 실제 영향을 받는 부분은 보라색 상태 뿐이다.
        
        $Q(s,a) \gets Q(s,a) + \alpha (r + \gamma \max_{a’} Q(s’,a’) - Q(s,a))$
        
        보상값이 존재하는 상태가 종료 상태 뿐이기 때문
        
        위의 업데이트가 direct RL 을 통해 이루어진 업데이트이다.
    - Dyna 는 첫 번째 에피소드 동안 생성된 모든 경험을 이용하여 모델을 학습한다.
      - 노랗게 표시된 부분이 첫 에피소드 동안 방문한 상태이다. 로봇은 전체 상태를 방문하지 않았지만, 대부분의 상태를 이미 방문하였다.
      - Dyna 는 모든 타임스텝에 대해 planning 을 진행한다.
        
        하지만, planning 은 첫 에피소드 동안에는 정책에 영향을 주지 않는다. (비록 모델이 각 타입스텝마다 점점 정확해지더라도…)
        
        첫 에피소드가 끝나면, planning 이 작동하기 시작한다.
        
        모델을 통해 노랗게 표시된 부분에서 어떠한 반환값이 나올 지 이미 알고 있다.
        
        Dyna 는 이미 방문한 상태-행동 쌍에 대한 전이를 시뮬레이션 할 수 있다. (World 의 모방)
        
        Planning 의 각 타임스텝 동안 가상의 경험을 통해 Q-learning 업데이트를 진행할 수 있다.
    - 충분한 Planning 단계를 거쳐, 에이전트는 모든 방문한 상태에 대한 정책을 업데이트 할 수 있다.
      - Dyna 는 더 많은 계산을 하지만, 제한된 경험을 보다 효율적으로 활용한다.
      - 이것은 Cartoon 의 예시일 뿐, 실제로 에이전트는 위 정책보다 더 탐색적으로 행동하게 되고, Planning 단계에서 정책은 계속 수정되게 된다.
The Dyna Algorithm
- 학습목표
  - Tabular Dyna-Q 알고리즘 설명
  - Tabular Dyna-Q 내에서 직접RL과 계획 업데이트 식별
  - Tabular Dyna-Q 내에서 모델학습과 탐색제어 요소를 식별
- Tabular Dyna-Q 에서의 모델 학습
  - 우선 Tabular Dyna-Q 는 결정론적 전이를 가정한다.
    - 위 그림에서 토끼가 A 상태에서 오른쪽으로 움직이기로 결정하였다면, 오직 한 종류의 결과만이 발생한다. (B, 0)
    - 에이전트가 위 세 가지 상태-행동을 경험하였다면, 모델은 위 세 가지 상태-행동에 따르는 결과를 알게 된다.
- Tabular Dyna-Q psuedo code
  - 에이전트가 환경과 상호작용 하며, $\varepsilon$-greedy 정책을 따르고 있다.
  - 위 정책에 따른 행동을 하면, 결과 보상과 다음 상태를 관측할 수 있다.
  - 위 값들도 Q-learning update 를 진행한다. (여기까지가 direct-RL)
  - (여기에서 멈춘다면, Q-learning 알고리즘이 된다.)
  - Dyna-Q는 이 전이를 이용해 model learning step 을 진행한다. (Model-free method 와 차이)
    - 모델은 위의 전이를 기억, 저장한다. (환경이 결정론적이라는 가정)
  - Dyna-Q는 planning 을 n-step 진행한다.
    - 각각의 planning step 은 3가지 단계를 포함한다.
      - search control : 이전 방문한 상태, 행동 쌍을 랜덤하게 결정한다.
      - model query : 위 선택된 상태, 행동 쌍을 이용, 모델에 다음 상태와 보상을 질의한다.
      - value update : Q-learning update 를 진행한다.
  - Dyna-Q는 각 전이에 대해 많은 planning update 를 수행한다.
    - 첫 에피소드 184 step 이후 (이 때의 결과를 Model learning 에 활용)
    - 두 번째 에피소드 1 step 당 100 회의 planning 을 진행함으로서 많은 정책이 개발되었음을 확인할 수 있음.
Dyna & Q-learning in a Simple Maze
- 학습목표
  - 작은 GridWorld 내에서 Model-free Q-learning 학습과 Dyna-Q 학습을 비교
  - 환경의 경험과 모델의 가상경험으로부터의 학습이 성능에 어떤 영향을 주는지 확인
  - 정확한 모델이 에이전트가 환경과의 상호작용의 요구도를 낮추는 방법을 설명
- 미로 환경에서의 실험
  - 문제의 설정
    - 행동 : 4가지 방향으로 이동
    - 보상 : 목표 상태로 전이시 +1, 그 외의 경우 0
    - 에피소딕 문제
    - 할인율 0.95
    - $\alpha = 0.1$, $\varepsilon = 0.1$
    - 행동 가치의 초기값은 모두 0으로 세팅
  - 의도
    - 3 개의 에이전트를 비교 (n=0, n=5, n=50)
    - 각각의 실험을 50 에피소드, 30번 실행하고 결과의 평균을 구함
  - 결과해석
    - 각 에이전트가 에피소드를 완료하는 데 걸린 평균 단계 수 (30번 수행의 평균) 를 표현. 즉, 에이전트가 잘 수행한다면 단계의 수가 감소 (y 값이 낮을 수록 좋음)
    - Dyna-Q 를 0 계획 단계로 수행하면 Q-러닝 알고리즘과 정확히 동일한 결과이다.
      - 14 에피소드 정도에서 수렴을 함
    - Dyna-Q 를 5 계획 단계로 수행하면 더 빠르게 수렴함.
    - Dyna-Q 를 50 계획 단계로 수행하면 3번째 에피소드에서 수렴함.
      - 즉, 샘플을 더 효율적으로 사용함 (모델이 정확한 경우 환경 경험을 더 잘 활용함)
  - 다른 미로에서의 진행상황 해석
    - 하나의 에피소드 후 Q-러닝은 목표 옆 상태에서 위 동작에 해당하는 하나의 동작 값만 업데이트 됨 (0이 아닌 보상이 발생한 유일한 전환)
    - 이 상태의 값을 다른 인접 상태로 부트스트랩 하는 데는 몇 에피소드가 더 필요함
    - search control 이 계획에 미치는 영향을 살펴본다. (Dyna-Q와 조금 다른 방식으로 작동하나, 포인트를 더 강조할 수 있음)
      - 계획 단계를 10개로 설정하고, 계획 루프를 10번 연속 호출 (총 100개의 계획 단계)
      - 보다시피, 많은 계획 업데이트가 가치함수를 변경하지 못하고, 단 2개의 상태 행동 쌍만 업데이트하였음.
      - 계속 진행 (각 호출마다 100개의 계획 단계를 시도)
      - 몇 번의 호출은 소수의 동작 값만 업데이트 한다.
        
        검색 제어 (Search Control) 가 상태-행동 쌍을 무작위로 샘플링하기 때문. 즉, 샘플 상대-행동 쌍이 T 오류를 0 으로 생성한다면 업데이트는 아무런 효과가 없음.
        
        모든 보상도 0이고, 초기값도 0이기 때문에 이 환경에서 자주 발생한다.
        
        검색 제어의 주제에 대해서는 교재의 8.4 섹션을 확인.

Dealing with inaccurate models

What if the model is inaccurate?
- 학습목표
  - 어떠한 모델이 부정확한건지 식별하는 방법
  - 부정확한 모델에서 계획이 어떤 효과를 주는지 설명
  - 부분적으로 부정확한 모델에서 Dyna 가 성공적으로 계획하는 방법 서술
- 부정확한 모델이란?
  - 모델이 저장한 전이가 환경에서 일어난 전이와 다를 때 발생
  - 불완전한 모델 : 학습 초기에 에이전트가 일부의 상태에서 일부의 행동만 시도했을 경우, 모델에 누락된 전이 정보가 생기게 됨.
  - 부정확한 모델 : 모든 상태에서 모든 행동을 수행했더라도, 환경이 변화하여 실제 환경과 모델간 전이 정보가 다를 경우.
- 부정확한 모델로 계획을 세울 떄 발생할 수 있는 일
  - 불완전한 모델로 계획을 세울 때 전이 정보가 없는 상태에서 계획을 세울 수 없음. 그러나 에이전트가 환경과 상호작용하면서 더 많은 전이를 경험하면 학습이 가능해진다.
  - 부정확한 모델일 경우 계획 업데이트 시 가치 함수나 정책이 잘못된 방향으로 변경될 수 있음.
- 불완전한 모델로 성공적인 계획을 하는 방법
  - Dyna-Q 의 경우에서 처럼, 계획 단계에서 모델이 어떤 상태-행동 쌍을 쿼리할지 결정
    - Dyna-Q 는 이미 방문한 상태-행동 쌍에 대해서만 계획 업데이트를 수행한다. (이미 모델에 전이 정보가 존재)
    - 초기에는 이미 방문한 상태-행동에 대해서만 반복적으로 업데이트를 수행할 수 있으나, 에이전트가 점점 더 많은 상태-행동 쌍을 방문하면 계획 업데이트가 상태-행동 공간 전체에 더 고르게 진행됨.
  - 부정확한 모델로 계획을 세울 때 계획은 모델을 기준으로 정책이나 가치함수를 개선함 (환경을 기준으로 개선되지 않음)
In-depth with changing environments
- 학습목표
  - 모델의 부정확성이 또다른 탐색-이용 trade-off 를 생성하는지 설명
  - 위의 trade-off 를 Dyna-Q+ 가 해결하는 방법 설명
- 모델이 부정확한 경우
  - 모델이 부정확하면 계획은 환경을 기준으로 정책이나 가치함수를 악화시킬 수 있음.
    - 이는 에이전트가 모델이 정확한지 확인하기 위해 노력해야 한다는 것을 의미한다.
    - 즉, 에이전트가 환경에서 전이를 경험한 후 모델을 수정해야 함
  - 일반적으로 에이전트는 자신의 모든 모델 전이가 올바른지 다시 확인하려고 할 것임.
    - 그러나 낮은 가치의 행동 전이를 다시 확인하면, 낮은 보상을 얻게 됨.
    - 변화하는 환경에서는 언제든지 에이전트의 모델이 부정확해질 수 있음.
    - 에이전트는 선택을 해야 한다.
      - 모델이 정확한 것으로 가정하여, 최적의 정책 계산을 위해 환경 탐사
      - 모델이 정확한지 확인
    - 환경이 변화하면, 모델은 부정확해진다.
      - 환경이 변경된 부분을 재방문하고 모델을 업데이트 하기 전까지 모델은 부정확한 상태로 유지된다.
      - 즉, 오랜 기간 동안 방문하지 않은 장소를 탐사해야 한다는 것
- Dyna-Q+ 에서의 해결 방법
  - 모델은 에이전트가 오랫동안 방문하지 않은 상태에서 더욱 잘못될 가능성이 높음.
  - 에이전트가 주기적으로 상태를 다시 방문하도록 유도하기 위해 계획에 사용되는 보상에 보너스를 추가할 수 있다.
  - 이것을 탐사 보너스라고 한다.
    - 이 보너스는 단순히 $\kappa$ (Kappa) 에 $\tau$ (Tau) 의 제곱근을 곱한 것이다.
    - $r$ : 모델에서의 보상
    - $\tau$ : 환경에서 해당 상태 행동 쌍을 마지막으로 방문한 시간.
      - 계획 루프에서 업데이트되지 않음. (실제 방문이 아님.)
    - $\kappa$ : 보너스가 계획 업데이트에 미치는 영향을 조절하는 작은 상수.
      - 0이면 보너스를 완전히 무시함.
  - 탐사 보너스를 계획 업데이트에 추가하면 Dyna-Q+ 알고리즘이 생성됨.
    - 계획에 사용되는 보상을 인위적으로 증가시킴으로써, 최근에 방문하지 않은 상태 행동 쌍의 가치를 증가시킨다.
      - 오랫동안 방문하지 않은 상태 행동 쌍에 대한 $\tau$ 가 큰 상태 : $\tau$ 가 커질수록 보너스가 점점 커진다는 것을 의미
      - 결국 계획은 큰 보너스 때문에 해당 상태 $S$ 로 직접 가도록 정책을 변경하게 된다.
        
        에이전트가 상태 $S$ 에 방문하면 큰 보상을 볼 수도 있고, 실망을 할 수도 있다. 어떤 경우든 모델은 환경의 역학을 반영하도록 업데이트된다.
- Dyna-Q 와 Dyna-Q+ 간 비교
  - 문제의 설정
    - 기본적인 미로 문제이며, 시작 상태에서 목표 상태까지 빠르게 도달하는 것이 목표임.
      - 보상은 목표 지점을 제외하고 0이며, 목표 지점에서 +1의 보상을 제공
      - 할인율은 1보다 작음
    - $\varepsilon$-greedy 정책을 사용
  - 결과의 해석
    - 실험의 절반에서는 Dyna-Q 와 Dyna-Q+ 가 매우 유사하게 작동
      - 이 경우 Dyna-Q+ 의 증가된 탐사는 더 빨리 좋은 정책을 찾는데 도움이 됨. (실제로 라인이 위에 있음)
    - 실험이 절반 쯤 진행되었을 때 벽의 오른쪽에 지름길을 제공
      - 환경이 변화된 후 Dyna-Q+ 는 지름길을 찾아냈음.
      - Dyna-Q는 시간 내에 지름길을 찾지 못하였음.
        
        결국 Dyna-Q도 $\varepsilon$-greedy 정책에 의해 전체 상태-행동 공간을 탐사함으로써 지름길을 찾을 것이다.
        
        그러나 위의 경우 많은 탐사가 필요하게 된다.
    - 에이전트는 모델이 정확한지 확인하기 위해 탐사를 해야하며, Dyna-Q+ 가 환경을 탐사하기 위해 탐사 보너스를 활용하는 방법에 대해 알아보았다.
Drew Bagnell: self-driving, robotics, and Model Based RL
- 자율주행, 로보틱스, 모델기반 강화학습에 대해
  - 자율주행에 대해
    - 거리의 복잡성을 기계학습을 통해 인식함.
    - 의사결정이 필요
      - 타 주체들의 행동에 따른 복잡성, 간단한 규칙 (좌회전 신호에 좌회전을 한다 등) 의 조정 등의 어려움
      - 연속된 상태와 동작
      - 즉, 연속된 상태 및 동작의 모델이 필요함.
  - 모델
    - 현재 상태와 동작을 다음 상태로 매핑하는 전환함수 혹은 동역학
    - 특정상태의 동작을 평가할 수 있는 함수
  - 의사결정 문제
    - 의사결정이 필요한 로봇 학습은 모두 모델기반이다.
      - 로봇들 간의 상호작용에 따르는 효율, 비용적 측면에서 지수적인 차이가 발생
  - 연속된 상태 동작 모델의 활용법
    - 제곱근 가치 함수 근사법 (Quadratic Value Function Approximation)
      - 환경이 선형이거나 선형으로 근사 가능한 경우 사용 가능
      - 여기에서는 다루지 않음
    - Differential Dynamic Programming (DDP)
      - 최적 제어 정책을 추정
      - 여기에서는 다루지 않음
Week 4 Summary (Planning, Learning, Acting)
- Types of models (distribution vs sample)
  - Distribution models : 모든 전이확률을 모델 데이터로 가지고 있음, 많은 메모리 필요, Sample model 생성 가능
  - Sample models : 전이확률을 따로 저장하지 않음, 많은 메모리 불필요
- One-step Q-planning
  - Q-learning 과 동일하나, 모델에서 생성한 경험을 이용하여 업데이트함.
- Dyna architecture
  - Planning 과 Learning 을 Single agent 에서 수행
  - 많은 planning update 를 통해 학습을 더 빠르게 진행할 수 있음 (환경과의 상호작용을 덜 하게 됨)
  - 불완전한 모델의 경우 상호작용을 통해 모델이 점점 완성되게 된다.
- Dyna-Q+
  - 부정확한 모델의 경우 탐색 보너스를 통해 오랫동안 방문하지 않은 상태를 방문하도록 정책을 유도하여 모델을 업데이트하도록 한다.
Summary (생각해볼 점)
- Part 1 에서 배운 강화학습의 종류
- 생각해볼 점
  - 반환(리턴)의 정의: 과제는 에피소드식인지 계속적인지, 할인 적용 여부에 따라 다름.
  - 행동 가치 vs 상태 가치 vs 후상태 가치: 어떤 종류의 가치를 추정해야 하는지? 상태 가치만 추정하는 경우, 행동 선택을 위해 모델이나 별도의 정책(액터-크리틱 방법과 같은)이 필요함.
  - 행동 선택/탐사: 탐사와 활용 사이의 적절한 균형을 유지하기 위해 어떻게 행동을 선택해야 하는지? 우리는 이를 위한 가장 간단한 방법만 고려해봄: e-greedy, 낙관적 초기화, 소프트 맥스 및 상한 신뢰 구간.
  - 동기화 vs 비동기화: 모든 상태의 업데이트는 동시에 수행되어야 하는가, 또는 어떤 순서로 하나씩 수행되어야 하는가?
  - 실제 vs 모의: 실제 경험 또는 모의 경험을 기반으로 업데이트. 둘 다 하는 경우, 각각 어느 정도씩 해야하는지?
  - 업데이트 위치: 어떤 상태나 상태-행동 쌍을 업데이트해야하는지? Model-free 방법은 실제로 만난 상태와 상태-행동 쌍 중에서만 선택할 수 있지만, Model-based 방법은 임의로 선택할 수 있음. 이 부분에는 여러 가지 가능성이 있음.
  - 업데이트 시점: 업데이트는 행동 선택의 일부로 수행되어야 할지, 아니면 그 후에만 수행되어야 할지?
  - 업데이트 기억: 업데이트된 값은 얼마나 오래 유지되어야 할지? 영구적으로 유지, 아니면 휴리스틱 탐색과 같이 행동 선택을 계산하는 동안만 유지
- 앞으로 살펴볼 점
  - 이러한 차원들은 절대적이거나 상호배반적인 것이 아님.
    - 각각의 알고리즘은 다양한 방식으로 차이가 있으며, 많은 알고리즘들은 여러 차원에서 여러 위치에 위치한다.
    - 예를 들어, Dyna 방법은 실제 경험과 모의 경험을 모두 사용하여 동일한 가치 함수에 영향을 미칩니다.
    - 서로 다른 방식이나 다른 상태 및 행동 표현에 걸쳐 계산된 여러 가치 함수를 유지하는 것도 합리적인 방법임.
  - 그러나 이러한 차원들은 다양한 가능한 방법의 넓은 공간을 묘사하고 탐구하기 위한 일관된 아이디어의 집합을 형성한다.
  - 여기에 언급되지 않은 가장 중요한 차원은 함수 근사의 차원이다.
    - 함수 근사는 한쪽 끝에서는 테이블 기반 방법을 통해 상태 집합, 다양한 선형 방법 및 다양한 비선형 방법으로 이어지는 여러 가지 가능성의 스펙트럼으로 볼 수 있다. 이 차원은 제 2부에서 탐구한다.

Sample-based Learning Methods - 03. Week 3. Temporal Difference Learning Methods for Control

2023-07-12T10:00:00+00:00

TD for Control

Sarsa: GPI with TD
- 학습목표
  - GPI (generalized policy iteration) 을 TD 와 함께 사용하여 개선된 정책을 찾는 법 설명하기.
  - Sarsa 제어 알고리즘 서술하기.
- GPI (generalized policy iteration) 에 대한 복기
  - GPI : policy iteration (policy evaluation $\to$ policy improvement)
  - GPI in Monte-carlo : 에피소드 진행 후 policy evaluation $\to$ policy improvement)
    - 몬테카를로의 경우 정책개선 이전에 완전한 정책평가를 하지 않는다. (에피소드마다 정책평가, 정책개선을 한다.)
- TD within GPI
  - GPI 에 TD 를 적용하기 위해서는 행동가치함수를 학습해야 한다.
    - 이전 섹션에서 TD 를 상태가치함수로 학습 (상태-상태)
      - 여기에서는 행동가치함수 (상태,행동-상태,행동) 의 값을 학습 : 이것을 Sarsa 예측이라고 함.
- Sarsa
  - Sarsa 의 약어는 업데이트에 쓰인 데이터 요소를 뜻함
    - $S_t$ : state
    - $A_t$ : action
    - $R_{t+1}$ : reward
    - $S_{t+1}$ : next state
    - $A_{t+1}$ : next action
  - Sarsa 의 업데이트식은 상태가치함수를 업데이트하는 TD 식과 유사
    - 단, Sarsa 는 상태-행동 쌍에 대한 행동가치함수 $Q(S_t,A_t)$ 에 대해 업데이트함.
  - 위의 그림은 정책평가에 대한 내용만 담겨 있다. (고정된 정책에 대한 행동가치함수의 학습)
    - 그러나 GPI 의 요소를 이용, 제어 알고리즘으로 변환할 수 있다. (예: $\varepsilon$-greedy)
      - Sarsa 제어 : TD 학습을 적용한 GPI 의 한 예
Sarsa in the Windy GridWorld
- 학습목표
  - Sarsa 제어 알고리즘이 예제 MDP 에서 작동하는 방식 이해하기.
  - 학습 알고리즘의 성능 분석 방법을 경험하기
- The Windy Gridworld
  - 문제의 정의
    - State : 각각 하나의 시작과 종료상태가 존재
      - 열에 따라 바람이 위쪽 방향으로 불어, 의도한 행동의 결과와 다른 상태전이가 일어남
        
        예를 들어 위 그림에서 에이전트는 왼쪽으로 움직이는게 아니라 좌측 상단 (대각선) 으로 움직임
      - 가장자리에 부딪힐 경우 아무 일도 일어나지 않음
    - Action : 에이전트는 4개의 방향으로 이동이 가능
    - Reward : 모든 상태에서 -1
      - 에이전트가 최대한 빨리 종료상태에 도달하도록 동기부여함
    - Discount factor $\gamma$ : 1 (에피소딕)
  - 문제에 Sarsa 를 적용하고 그 결과를 해석
    - Sarsa 설정값
      - 정책 : $\varepsilon$-greedy action selection
        
        $\varepsilon = 0.1$
      - $\alpha = 0.5$
      - 초기값 = 0
        
        optimistic initial values : 초기 탐색 장려
    - 결과 해석
      - 그래프 : 각 스텝 별로 몇 번의 에피소드를 끝냈는지를 의미
        
        위 결과는 각각 100번의 시행의 평균 값임
        
        첫 몇 번의 에피소드는 2000 스텝을 진행하고 종료됨
        
        그래프의 기울기는 점점 가파르게 상승하고 이는 짧은 스텝으로 에피소드를 종료함을 뜻함
        
        7000 스텝 즈음 기울기는 더이상 상승하지 않는다. (탐욕 정책의 개선 종료-최적화)
      - 몬테카를로 방법은 위 방식에 맞지 않다.
        
        많은 정책이 종료상태까지 도달하지 못함
        
        몬테카를로 방식은 에피소드가 종료되어야 학습을 시작함
        
        따라서 결정론적 정책은 함정에 빠지고, 좋은 정책을 배우지 못하게 됨
        
        예를 들어 초기 정책이 왼쪽으로 이동하는 것이라면 에피소드가 영원히 끝나지 않게 됨
      - Sarsa 는 에피소드를 진행하며 현재의 정책이 안좋은 정책이라는 것을 학습하고, 정책을 바꾸게 된다.

Off-policy TD Control : Q-learning

What is Q-learning?
- 학습목표
  - Q-learning 알고리즘 서술하기.
  - Q-learning 과 벨만 최적 방정식 (Bellman Optimality equations) 간 관계 설명하기.
- The Q-learning algorithm
  - Q 러닝은 1989년에 개발되었고, 강화학습 알고리즘 중 첫번째 메인 온라인 학습 알고리즘이다.
  - 위 그림은 Q-learning 알고리즘의 psuedo code 이다.
    - 에이전트는 상태에서 행동을 선택하고, 다음 상태와 보상을 관측한다.
    - 이후 업데이트를 진행하고 사이클이 반복된다.
    - 타 알고리즘과의 차이점은 업데이트 규칙에 있다.
  - 위 그림은 벨만방정식과 Sarsa, Q-learning 간의 수식 비교이다.
    - Sarsa : 벨만방정식의 행동가치 식과 유사
      - Sarsa 는 벨만방정식의 행동가치 식을 풀기 위한 샘플기반의 알고리즘이다.
      - Sarsa 는 샘플기반의 정책 반복 (policy iteration) (벨만 방정식 행동가치함수 사용)
    - Q-learning : 벨만최적방정식의 행동가치 식과 유사
      - Q-learning 또한 환경으로부터의 샘플을 이용해 벨만 방정식을 풀지만, 벨만 방정식 대신 벨만 최적 방정식을 사용한다.
      - 즉, $q_*$ 를 바로 학습함으로서, 정책평가와 정책개선 단계를 번갈아 가며 진행할 필요가 없게 된다.
      - Q-learning 은 샘플 기반의 가치 반복 (value iteration) (벨만 최적 방정식 행동가치함수 사용)
  - Q-learning 은 Value iteration 과 마찬가지로 최적가치함수에 수렴한다. (에이전트가 모든 상태-행동 쌍에 대해 지속적으로 탐색한다는 가정)
Q-learning in the Windy Grid World
- 학습목표
  - Q-learning 이 예제 MDP 에서 작동하는 방식 이해
  - 단일 MDP 에서 여러 학습 알고리즘의 성능을 비교하는 방식 경험
  - Q-learning 과 Sarsa 의 차이점 이해하기.
- The Windy Gridworld
  - Sarsa 와 Q-learning 간 비교 ($\alpha = 0.5$)
    - Q-learning 이 Sarsa 보다 뛰어난 결과를 보여준 이유를 명확히 설명할 수 없지만, 아마 update target 이 더 stable 했기 때문으로 추정함.
      - Sarsa 의 경우 탐색에 해당하는 샘플의 업데이트가 큰 영향을 줬을 수도 있음. (탐색적인 행동을 할 때마다 update target 이 변경될 수 있음)
      - Q-learning 의 경우 max 값을 이용해 업데이트 하기 때문에, 한 행동이 이전 행동보다 더 낫다는 것을 학습할 때에 update target 이 변경됨.
  - Sarsa 와 Q-learning 간 비교 (Salsa : $\alpha = 0.1$)
    - 더 나은 Sarsa 의 결과를 위한 파라미터의 변경
      - $\alpha = 0.1$
      - 더 많은 Time Steps 의 진행
    - Sarsa 와 Q-learning 모두 동일한 정책으로 수렴함
- 강화학습은 파라미터의 값에 따라 다른 결과물을 보여줌.
  - $\alpha$, $\varepsilon$, initial values, length of the experiments
How is Q-learning off-policy?
- 학습목표
  - Q-learning 이 importance sampling 없이 off-policy 로 동작할 수 있는 이유를 이해하기.
  - On-policy 기반과 Off-policy 기반 학습이 각각 제어 성능에 어떤 영향을 주는지 서술하기.
- On-policy 와 Off-policy 관점에서 Sarsa 와 Q-learning 비교
  - On-policy 와 Off-policy 복습
    - 에이전트는 목표정책(target policy) 의 예상 리턴값을 토대로 가치함수를 추측한다.
    - 에이전트는 행동정책(behavior policy) 에 따라 실제 행동한다.
    - 목표정책과 행동정책이 같다면, 에이전트가 On-policy 학습을 한다 고 한다.
    - 목표정책과 행동정책이 다르다면, 에이전트는 Off-policy 학습을 한다 고 한다.
  - Sarsa : On-policy algorithm
    - 에이전트가 다음에 수행할 작업의 값을 부트스트래핑 한다.
      - 다음 수행할 작업의 값은 행동정책 ($\pi$) 에 의해 샘플링한 값이다.
    - 즉 Sarsa 는 On-policy 학습이다.
  - Q-learning : Off-policy algorithm
    - 에이전트의 다음상태에 해당하는 행동값 중 가장 큰 값을 부트스트래핑한다.
      - 다음상태의 행동값 중 가장 큰 값은 탐욕정책(최적정책) ($\pi_* \noteq \pi$) 에 의해 샘플링된 값이다.
    - 즉 Q-learning 은 Off-policy 학습이다.
- Q-learning 의 Behavior policy 와 Target policy
  - 강화학습에서의 자연스러운 질문 : 목표정책(target policy) 과 행동정책(behavior policy)은 무엇인가?
    - Q-learning 에서의 Target policy : 현재 값에 대한 탐욕 정책
    - Q-learning 에서의 Behavior policy : 모든 상태-행동 쌍에 접근할 수 있는 어떠한 정책도 될 수 있음 (예: $\varepsilon$-greedy)
  - 위에서 볼 수 있듯 Target policy 와 Behavior policy 가 다르므로 Off-policy 라 할 수 있다.
- Q-learning with No importance sampling
  - Q-learning 이 importance sampling 이 필요없는 이유
    - 에이전트가 정해지지 않은 정책으로부터 행동값을 추정하고 있기 때문
      - importance sampling ratio 로 행동 선택의 차이를 수정할 필요가 없다.
  - 상태가치함수 추정의 예시
    - 행동가치함수는 주어진 상태에서 각 행동의 리턴값을 나타낸다.
    - 에이전트의 target policy 는 주어진 상태에서 각각의 행동을 할 확률을 나타낸다.
    - 즉 에이전트는 주어진 상태에서 target policy 를 따를 때 예상되는 리턴을 위 2개의 항목을 결합하여 나타낼 수 있다.
  - Q-learning 의 target policy - greedy policy
    - 가장 큰 리턴값을 가지는 행동을 선택. 즉, 다른 행동은 확률 0 을 가지게 됨.
    - 해당 상태에서의 리턴 예상값은 행동값의 최대 값과 동일하다.
- Q-learning 이 성능에 영향을 주는 경우
  - Q-learning 은 정책반복 (정책평가와 정책개선) 을 하지 않고 바로 최적값을 직접 학습한다.
  - 최적가치함수와 정책을 직접 학습하는 것은 효율적으로 보이나, 가끔 미묘한 경우가 존재한다.
    - 예 : $\varepsilon$-greedy 정책의 Q-learning 의 경우 Cliff walking 문제에서 Sarsa 보다 안좋은 결과를 보여준다.

Expected Sarsa

Expected Sarsa
- 학습목표
  - Expected Sarsa 알고리즘 설명
- 벨만방정식 (action-values) 과 Sarsa 알고리즘
  - 위 벨만방정식을 살펴보면, 해당 상태-행동 쌍의 온전한 값을 구하기 위해 상태전이에 의한 다음상태의 합계와 정책에 의한 행동에 대한 합계를 구하는 것을 알 수 있다.
  - Sarsa 의 업데이트 식의 경우 Error 를 구하는 부분에서 다음 상태의 값을 샘플링하여 계산하는데, 이 샘플링 데이터는 상태전이와 정책에 의한 행동 요소가 들어가 있다.
    - 이 때, 에이전트는 이미 정책을 알고 있으므로, 이 부분을 샘플링 데이터에 의지하지 않고 계산을 하면 어떻게 될까?
- Expected Sarsa 알고리즘
  - 명시적으로 다음 행동의 예측값을 계산하는 것이 Expected Sarsa 의 핵심 아이디어이다.
  - Expected Sarsa 또한 벨만 방정식 (action-values) 에 기반을 두고 있기에 업데이트식의 형식은 타 알고리즘과 유사하다.
    - 차이점은 TD error 값을 샘플링을 통한 부트스트래핑 값이 아닌 다음 행동의 예측값으로서 정책과 부트스트래핑 값을 이용해 계산을 해낸다는 점이다.
      - 이것의 의미는 매 타임스텝 마다 정책 하의 예측 값(부트스트래핑)을 계산해야 한다는 의미이다.
  - Expected Sarsa 는 Sarsa 에 비해 더 안정적인 update target 을 가지게 된다.
    - Sarsa 의 경우 샘플에 따라 잘못된 방향 (target) 으로 업데이트가 될 수 있다.
      - 물론 많은 업데이트를 통해 참 값으로 수렴하게 된다.
    - Expected Sarsa 의 경우 곧바로 참 값 (target) 으로 업데이트가 이루어진다.
      - 이는 분산이 작아지는 효과를 가져온다.
  - Expected Sarsa 의 단점은 컴퓨팅 리소스 부분이다.
    - 행동의 가지수가 늘어날 수록 계산 가격이 비싸진다. (특히 매 타임스텝마다 계산되는 부분이므로 더 부담스럽다.)
Expected Sarsa in the Cliff World
- 학습목표
  - Expected Sarsa 의 행동을 예시 MDP에서 설명
  - Expected Sarsa 와 Sarsa 의 경험적 비교
- Cliff Walking 환경에서의 Sarsa 와 Expected Sarsa 비교 ($\varepsilon = 0.1$, 100회 학습, 50000회 독립시행 평균결과)
  - Expected Sarsa 는 Sarsa 에 비해 더 큰 $\alpha$ 값을 사용할 수 있다.
    - 정책의 무작위성을 명시적 평균을 통해 해결
    - 이 문제에서의 상태이동은 결정론적이기에 다른 무작위성이 없다.
    - 즉 위 두 조건으로 Expected Sarsa 의 업데이트는 결정론적인 값이 된다.
  - Sarsa 의 업데이트의 경우 다음 행동에 크게 영향을 받게 된다.
- Cliff Walking 환경에서의 Sarsa 와 Expected Sarsa 비교 ($\varepsilon = 0.1$, 100000회 학습, 50000회 독립시행 평균결과)
  - Expected Sarsa 는 $\alpha$ 값에 영향 없이 같은 결과를 보여줌
    - 업데이트가 결정론적이기 때문
    - 위 경우 step size 는 얼마나 목표 값에 빠르게 수렴하는지에만 영향을 줌
  - Sarsa 의 경우 $\alpha$ 값에 큰 영향을 받음
    - $\alpha$ 값이 크면 수렴에 실패하며, $\alpha$ 값이 작으면 오랜 시간 학습 끝에 Expected Sarsa 와 거의 동일한 결과를 보여줌
Generality of Expected Sarsa
- Sarsa, Q-learning, Expected Sarsa 간 비교 (도입부)
  - Sarsa 와 Expected Sarsa 는 동일한 벨만 방정식으로부터 유도되었다는 점에서 유사성이 있음.
  - Q-learning 과 Expected Sarsa 간에는 어떠한 관계가 있을까?
- 학습목표
  - Expected Sarsa 가 importance sampling 없이 off-policy 학습을 할 수 있는 이유 설명
  - Expected Sarsa 가 Q-learning 의 일반화 버전인 이유
- Off-policy Expected Sarsa
  - (On-policy 의 경우를 가정) On-policy 의 경우에도 Expected Sarsa 는 실제 다음 선택된 행동 관련 업데이트를 하는 것이 아닌 정책 $\pi$ 에 관한 업데이트를 진행함
    - 즉, $\pi$ 가 behavior policy 와 같을 필요가 없다고 볼 수 있음.
    - 위의 관점은 Expected Sarsa 가 Q-learning 과 같이 importance sampling 없이 Off-policy 학습이 가능함을 보여줌.
- Greedy Expected Sarsa
  - 만약 학습할 target policy 가 탐욕정책이라면 어떻게 될까?
    - 이는 다음 상태에서 최대값을 이끌어내는 행동을 수행하는 것이고, Q-learning 과 동일한 방식이다.
    - 즉, Q-learning 은 Expected Sarsa 의 특별한 케이스이다.
Week 3 Summary
- TD control and Bellman equations
  - TD 제어는 벨만 방정식에 기반을 둔다.
    - Sarsa
      - 벨만 방정식의 샘플 기반 버전
      - $q_\pi$ 를 학습
      - On-policy 알고리즘 (현재 정책의 action value 를 학습)
    - Q-learning
      - 벨만 최적 방정식을 이용
      - $q_*$ 를 학습
      - Off-policy 알고리즘 (현재 정책과 무관하게 optimal action value 를 학습)
    - Expected Sarsa
      - Sarsa 와 동일한 벨만 방정식을 이용
      - 그래나 Sarsa 와 샘플링을 하는 방식이 다름
        
        다음 행동가치의 예측값 (Sum) 을 활용함.
      - On-policy, Off-policy 둘다 가능
        
        behavior policy 가 deterministic 하다면 On-policy 가 된다.
        
        behavior policy 가 탐욕정책이라면 Q-learning 과 동일한 알고리즘이 되어버린다. (Q-learning 은 Expected Sarsa 의 특이 케이스)
- Subtleties with off-policy control (Off-policy control 의 미묘함)
  - Online 학습에서 Q-learning 은 Sarsa 보다 값이 안좋게 나오는데, 이는 탐색정책의 랜덤성 때문이다.
  - Expected Sarsa 의 경우 Online 학습에서 Sarsa 와 동일한 결과를 보여주면서, 동시에 더 좋은 학습률을 보여준다.
    - 학습한 정책이 동일하다.
    - 다음 행동가치의 예측값으로 학습하기 때문에, behavior policy 에 학습의 영향을 받는 Sarsa 보다 더 안정적인 학습을 한다.
Chapter summary
- TD learning
  - 예측 : TD 방식은 예측 문제 해결을 위한 Monte Carlo 방법의 대안임.
  - 제어 : 두 경우 모두 제어 문제에 대한 확장은 동적 프로그래밍에서 추상화한 일반화된 정책 반복(GPI)의 아이디어를 통해 이루어짐
    - 근사 정책과 가치 함수가 둘 다 최적을 향해 움직이는 방향으로 상호 작용해야 한다는 아이디어임
    - 가치 함수를 구동하여 현재 정책의 수익을 정확하게 예측 (예측의 문제)
    - 현재 가치 함수와 관련하여 정책을 국지적으로 개선(예: e-greedy)하도록 유도 (정책개선)
- TD 제어 방법의 분류
  - 경험을 기반으로 하는 경우에서의 탐색 문제가 발생한다.
  - On-policy : Sarsa
  - Off-policy : Q-learning, Expected Sarsa
  - 이 외에 행위자 비평 방법 (Actor-Critic) 이 있는데 이러한 방법은 13장에서 다룸.
- TD learning 의 장점
  - 가장 널리 사용되는 강화학습 방법
    - 매우 단순
      - 최소한의 계산으로 환경과의 상호 작용에서 생성된 경험에 온라인으로 적용할 수 있음
      - 작은 컴퓨터 프로그램으로 구현할 수 있는 단일 방정식으로 거의 완벽하게 표현
    - 단순한 알고리즘을 확장하여 약간 더 복잡하고 훨씬 강력하게 만들 수 있음
      - 본질은 TD 의 것 그대로임.
        
        적은 계산으로 온라인경험 처리 가능
        
        TD 오류에 의해 구동됨
- 이 장에서 다룬 TD 학습법의 특징
  - 1 Step
  - Tabular
  - 모델이 없는 TD 방법
- 앞으로 배울 내용
  - n단계 형식(Monte Carlo 방법 관련)과 환경 모델을 포함하는 형식(계획 및 동적 프로그래밍 관련)으로 확장
  - 테이블(딥 러닝 및 인공 신경망 관련)이 아닌 다양한 형태의 함수 근사치로 확장
- 일반적인 방법으로서의 TD
  - 강화 학습의 문제 맥락에서 TD 방법에 대해 살펴보았지만 실제로 TD 방법은 이보다 더 일반적임
    - 동적 시스템에 대한 장기 예측을 학습하기 위한 일반적인 방법
    - 강화학습이 아닌 순수한 예측의 방법으로 분석
      - 재무 데이터, 수명, 선거 결과, 날씨 패턴, 동물 행동, 발전소에 대한 수요, 고객 구매 예측 등의 문제에도 쓰일 수 있음
  - 아직 TD 학습 방법의 잠재적 응용은 광범위하게 탐색되지 않음.

Sample-based Learning Methods - 02. Week 2. Temporal Difference Learning Methods for Prediction

2023-07-07T10:00:00+00:00

Introduction to Temporal Difference Learning

What is Temporal Difference (TD) learning?
- 학습목표
  - temporal-difference learning 정의하기
  - temporal-difference error 정의하기
  - TD(0) 알고리즘 이해하기
- Review : Estimating Values from Returns
  - 예측 문제에서 우리의 목표는 주어진 상태에서 반환값을 유추하는 가치함수를 배우는 것이다.
  - $v_\pi (s) \doteq E_\pi [ G_t | S_t = s]$
  - 밴딧 문제와 동일하게, 몬테카를로 방식에서도 상수를 이용해 가치함수를 업데이트할 수 있으며, 이는 반환값 리스트를 저장할 필요가 없음을 의미한다.
  - $V(S_t) \gets V(S_t) + \alpha [G_t - V(S_t)]$
    - 몬테카를로 방식에서 리턴값 $G_t$ 를 구하기 위해서 우리는 전체 궤적에 대한 샘플이 필요하다.
    - 이것은 우리가 에피소드 내에서 학습을 할 수 없음을 의미한다.
    - 하지만 우리는 에피소드가 끝나기 전에 증분의 방식으로 학습하기를 원하고, 이는 새로운 업데이트 목표가 필요함을 의미한다.
- Bootstrapping
  - value function
  - Temporal Difference
    - 위의 표기된 부분은 TD error 값임
  - DP 와의 차이점
    - DP 의 경우 환경역학을 알고있어, 다음 단계의 총 합을 구해 값을 업데이트 하는 반면, TD의 경우 환경과 상호작용한 다음단계의 결과값만을 이용해 TD error 의 일부분만큼 업데이트 한다.
- 1-Step TD
  - 1-Step TD
  - TD(0) psuedo code
Rich Sutton : The Importance of TD Learning
- Temporal Difference Learning : 예측 학습 (Prediction learning) 에 특화되어 있음.
  - Prediction learning : 기다림으로서 목표를 확보. 즉, 별도의 라벨링이 필요없는 unsupervised supervised learning 이다.
- TD는 추측으로부터의 추측을 통해 배운다. TD error 는 두 예측 사이의 차이 값이다.
  - 위의 컨셉이 없으면 TD 학습은 supervised learning, backpropagating the error 와 동일하다.
- multi-step predictions
  - multi-step 을 큰 one-step 으로 생각하고 one-step 메서드를 사용할 수 있지 않을까?
  - one-step prediction 을 배우고, 그것을 반복하여 multi-step prediction을 생산할 수 있지 않을까?
  - 둘 다 불가하며, 그렇게 되길 원치 않는다.
- one-step trap
  - long-term prediction 을 시뮬레이션을 통해 만들 수 있다.
    - 이론에서는 가능하지만 실제로는 불가함.
      - long-term prediction 을 시뮬레이션으로 만드는 것은 지수적으로 복잡하다.
      - one-step prediction 에서의 작은 에러 또한 증폭된다.
  - 이 함정에 빠지는 경우는 매우 흔하다.
    - POMDPs, Bayesians, control theory, compression enthusiasts.
- 유명한 one-step supervised learning 방식을 이용할 수 있을까?
  - 목표를 추측값이 아닌 관측된 결과로 확정한 뒤 one-step 메서드를 사용? (게임이 끝날때 까지 기다린 뒤 결과값 회귀)
    - 엄청난 컴퓨팅 자원이 필요함.
    - 목표 값을 모르는 경우도 존재 (off-policy)
- TD 의 중요성
  - 보편적이며, 중요한 학습
  - 예측을 학습하는 것이며, 확장 가능한 유일한 학습 형태일 수도 있음.
  - 일반적이고 다단계의 예측에 특화된 학습이며, 인식, 의미부여 및 세계 모델링에 중요한 개념일 수 있음.
  - 상태 속성을 활용하여 빠르고, 데이터 효율적으로 학습함.
  - 점진적으로 편향되는 특성이 있음.
  - 계산적으로 적합하며, 보상 이외의 다른 목적으로 활용을 시작함.

Advantages of TD

지난 내용 복습 (About temporal difference learning)
- TD (Temporal Difference learning) 는 Dynamic Programming 과 Monte Carlo 의 핵심 아이디어를 채용한 방식이다.
  - DP : Bootstrapping
  - MC : learn directly from experience
The advantages of temporal difference learning
- 학습목표
  - TD 방식으로 실시간 학습의 장점 이해하기
  - DP 와 몬테카를로 방식과 관련하여 TD 방식이 가지는 핵심 이점 식별하기
- 예제 : Driving Home
  - 문제의 정의
    - 매일, 당신은 집에 오기까지 얼마나 걸릴지를 예측한다.
    - 시간, 요일, 날씨, 그 외의 요인 등을 관측한다.
    - 이미 예전부터 많은 예측을 해왔었다.
  - 해석
    - 원 안의 값은 남은 운전시간에 대한 예측치이다.
    - 원가 원 사이의 값은 보상 값으로, 다음 단계까지의 실제 걸린 시간을 의미한다.
    - 하단의 시간은 실제 걸린 누적 시간을 의미한다.
    - 몬테카를로 (Constant-$\alpha$ MC) 의 경우
      - $G_t$ 의 값은 에피소드가 끝날 때 (집에 도착했을 때) 알수 있다.
      - 위의 표기된 $G_1$ 의 값은 38이며, 업데이트 식에 의해 35의 값은 38의 값으로 업데이트 되어야 한다.
    - TD 의 경우
      - 에피소드가 끝날 때까지 기다리는 것이 아닌, 다음 스텝까지만 진행하면 학습을 할 수 있음. (TD(0) 의 경우)
      - 위에 표기된 목표값은 할인($\gamma = 1$)된 다음 스텝의 예측값(35)과 보상(5)의 합인 40이 되며, TD error 는 10이 된다.
      - 상수 값($\alpha = 1$)을 적용한 업데이트가 이루어져, 30은 40으로 업데이트 된다.
  - TD 의 이점
    - DP 와 달리 환경 모델을 필요로 하지 않는다. (경험으로부터 배움)
    - MC 와 달리 TD 는 매 스텝마다 학습한다. (부트스트래핑 사용)
    - TD 는 점근적으로 올바른 예측에 수렴한다.
    - TD 는 보편적으로 MC 보다 더 빠른 수렴이 가능하다.
Comparing TD and Monte Carlo
- 학습목표
  - TD 학습의 경험적 이점을 식별하기
- 예제 : Random Walk
  - A, B, C, D, E 의 Nonterminal 상태
  - left, right 의 deterministic actions
  - 정책 : uniform random policy
  - 모든 에피소드는 C 에서 초기화 (시작)
  - 극좌, 극우의 상태에서 에피소드는 종료됨
  - 극우의 상태에서 보상 1, 그 외에는 0
  - 위의 설정 상, 결국 가치함수의 값은 해당 상태에서 우측으로 진행되어 종료될 확률과 같다.
  - C, D, E 의 상태를 거쳐 우측에서 종료했을 경우
    - TD 에이전트의 경우 E 의 상태만 업데이트됨 (업데이트 식에서 그 이유를 알 수 있음)
    - 몬테카를로 에이전트의 경우 C, D, E 가 다 같이 업데이트됨.
  - 위 에피소드를 진행 후 두 번째 에피소드를 진행
    - TD 의 경우 매 스텝마다 값이 업데이트되나, 몬테카를로의 경우 Terminate 상태가 되지 않는 한 값이 업데이트되지 않는다.
  - 위의 그래프는 TD 학습의 에피소드 학습 횟수별로 실제 값에 근사하는 모습을 보여줌 (constant-$\alpha$ = 0.1)
    - 보다 작은 learning rate 나 decaying learning rate 를 사용하면 더 좋은 결과값을 얻을 수 있음.
  - 위의 그래프는 TD 학습과 몬테카를로 학습 간의 결과치를 비교한 것임.
    - TD 가 몬테카를로 보다 전반적으로 좋은 결과를 보여줌
      - learning rate 가 크면, 학습 초반에 더 빠른 결과를 보여주나, learning rate 가 작은 학습이 최종적으로 에러율이 적게 나타남.

Sample-based Learning Methods - 01. Week 1. Monte Carlo Methods for Prediction & Control

2023-06-12T15:00:00+00:00

Introduction to Monte Carlo Methods

What is Monte Carlo?
- 소개
  - 몬테카를로 라는 용어는 반복적으로 무작위 샘플링에 의지하는 추측방식을 광범위하게 일컷는 용어로 많이 쓰임.
  - 강화학습에서는 상태의 시퀀스, 행동, 보상등의 경험으로부터 직접적으로 추정값에 접근하는 방식임.
    - 경험으로부터 직접 학습한다는 것은 강력한 이점인데, 환경역학에 대한 사전지식 없이 정확한 가치함수를 추정할 수 있기 때문
- 학습 목표
  - 몬테카를로 방식이 샘플링된 상호작용을 통한 가치함수 예측에 어떻게 쓰이는지 이해하기
  - 몬테카를로 방식을 통해 풀 수 있는 문제 식별하기
- 강화학습에서 DP 학습의 한계점
  - 에이전트는 환경의 상태변이확률을 알고 있어야 함.
    - 예를 들어, 기상학자가 미래의 기상 예측을 할 때, 환경의 상태변이확률을 알 수가 없음.
  - 상태변이확률을 계산하는 것도 어렵고 에러 발생이 큰 지루한 작업임.
    - 12개의 주사위를 던지는 문제일 때, DP의 계산은 코딩 혹은 계산 정확성에서 지루하고 오류가 발생하기 쉬운 작업임.
      - 합계 12가 나올 확률, … , 합계 72가 나올 확률을 계산하는 것
      - 몬테카를로 방식에서는 많은 무작위 샘플을 이용해 평균을 구하고, 값을 추정함.
      - 12개의 주사위의 기대 합 42와 근접한 수치의 추측
- 몬테카를로 방식
  - 몬테카를로 방식을 이용한 가치함수 추정
  - 동일한 상태에서 여러 리턴값을 관찰
  - 이 다수의 리턴값의 평균을 구해 해당 상태의 추정 리턴값을 구함.
  - 샘플의 수가 많아질수록, 실제 값에 가까워짐.
  - 이러한 리턴 값은 에피소드가 끝나야 알 수 있음. (Episodic Tasks 라 가정)
  - 몬테카를로 방식과 bandit 방식
  - 몬테카를로와 bandit 방식은 유사한데, badnit 에서도 arm 을 여러번 당겨 평균값을 구해 추정값을 구했었음.
  - 몬테카를로의 차이점은 arm 이 아닌 정책을 고려한다는 점이다.
  - 몬테카를로 방식의 리턴 값 계산
  - 효율적인 계산을 위해 에피소드 종료시점 부터 거꾸로 계산해야 함.
  - 평균을 구할 때, 이전의 값들을 모두 저장하는 것이 아닌 증분 업데이트의 사용이 가능하다.
    - $NewEstimate \gets OldEstimate + StepSize [Target - OldEstimate]$
Using Monte Carlo for Prediction
- 학습 목표
  - 몬테카를로 예측을 통해 주어진 정책의 가치 함수를 예측하기

Monte Carlo for Control

Using Monte Carlo for Action Values
학습 목표
- 몬테카를로 방식을 통해 행동 가치함수 (action value function) 추정하기
- 몬테카를로 알고리즘에서 탐색의 유지의 중요성을 이해하기
Learning Action Values
- 상태의 값을 추정하는 방식과 동일 (특정 상태에서 행동을 선택했을 때의 리턴값의 평균을 구함)\
- 행동 가치를 학습하는 이유
  - 하나의 상태에서 각 행동이 가지는 가치비교를 할 수 있음.
  - 더 나은 행동으로의 정책 변경이 가능
    - 이는 다른 행동을 하여 가치를 추정했을 때 가능함.
    - 이 부분이 어려운 부분인데, 결정론적인 정책을 따를 경우 다른 행동을 탐색하지 않는다. (정책을 따름)
- 탐색의 유지 문제
  - 에이전트는 값들을 학습을 위해 각 상태의 모든 행동을 시도해봐야 한다.
  - exploring starts (탐색 시작)
    - 모든 상태-행동 쌍에서 첫 시작을 해보는 것을 보증해야한다.
    - 그 뒤로 에이전트는 정책을 따라 움직인다.
Using Monte Carlo methods for generalized policy iteration
- 학습 목표
  - 몬테카를로 방식을 사용하여 GPI (Generalized Policy Iteration) 알고리즘 구현하는 방법 이해하기
- Monte Carlo Generalized Policy Iteration
  - 정책 평가를 Monte Carlo Prediction 으로 진행 (샘플링된 에피소드의 평균을 통한 행동가치함수의 추정)
    - 탐색 유지를 위한 여러 방법 중 하나를 사용 (여기에서는 탐색시작 방법을 사용한다.)
  - 정책 개선을 $q_{\pi_k}$ 의 $\arg\max$ 함수를 이용해 탐욕적으로 개선
Solving the Blackjack Example
- 학습 목표
  - MDP 해결을 위한 탐색 시작과 함께 몬테 카를로의 적용
- 몬테카를로 방식의 블랙잭 적용 예시
  - 문제의 정의
    - 각 블랙잭 게임을 하나의 에피소드로 보고, 할인되지않은 MDP 를 적용한다.
    - 보상 : 패배시 -1, 비길 시 0, 이길 시 1
    - 행동 : 힛, 스틱
    - 상태 : 에이스가 있는지 여부, 플레이어 카드의 총합, 딜러의 카드 1장
      - 위의 경우 총 200개의 상태가 존재한다.
    - 덱의 모든 카드를 교체나 버리는 것 없이 사용한다고 가정한다. (카드카운팅 불가 : 현 상태로 마르코브 속성을 가짐.)
  - 몬테카를로 적용
    - 에이전트는 하나의 에피소드가 끝나고 학습이 가능
    - Discount factor 가 1이기 때문에, 승리했을 경우 해당 에피소드의 각 상태에서의 보상값은 1이다.
  - 몬테카를로의 장점
    - 환경의 거대한 모델을 저장할 필요가 없음
    - 특정 상태에 대한 값을 개별적으로 측정할 수 있다. (타 상태의 값과 관계없이)
    - 값의 업데이트 계산에 MDP의 상태집합의 크기가 영향을 주지 않는다. (에파소드의 길이에 영향을 받음)
- 블랙잭의 조건
  - Exploring Starts 를 사용하기 좋은 조건 (에피소드 시작을 무작위 상태에서 무작위 행동을 하는 것으로 시작한다.)
    - 현재의 블랙잭 게임 조건은 자연스럽게 랜덤한 상태에서 시작하게 된다. (플레이어 손패 카드 2장 (에이스 유무와 합계), 딜러 패 2장중 1장 오픈)
    - 즉, 첫 행동을 무작위로 선택하면 되는데, 정책을 따르는 것은 그 이후에 하게 됨. (합이 20이 넘으면 스틱)

Exploration Methods for Monte Carlo

Epsilon-soft Policy
- 학습 목표
  - 왜 탐색 시작이 실 문제에서 적용이 어려운지 이해하기
  - 몬테카를로 제어를 위한 대안적 탐색유지 방법의 설명
- 탐색 시작을 사용할 수 없는 경우
  - 탐색 시작 알고리즘은 모든 가능한 상태와 행동 쌍에서 시작할 수 있어야 한다.
    - 그렇지 않은 경우 충분한 탐색을 하지 못하므로, 최적 정책이 아닌 차선의 다른 정책에 수렴하게 될 수 있다.
  - 대부분의 문제는 시작 상태-행동 쌍으로 무작위 샘플을 구할 수 없다.
    - 예를 들어 자율주행 문제의 경우 초기 상태-행동 쌍을 무작위 샘플링할 수 없다. (닥칠 수 있는 모든 상황-행동으로 초기화 시작)
- e-Greedy 탐색
  - $\varepsilon-Greedy$ 정책
    - Bandits 에서 사용했던 $\varepsilon-Greedy$ 을 몬테카를로에 적용
    - $\varepsilon-Greedy$ 정책은 확률론적인 정책임
      - 보통 탐욕적인 행동을 취하나 때로는 무작위 행동을 선택함.
  - $\varepsilon-Soft$ 정책
    - $\varepsilon-Greedy$ 정책 을 포괄하는 정책
    - 각 행동에 $\frac{\epsilon}{ | \mathcal{A} |}$ (nonzero) 이상의 확률을 부여
      - 필연적으로 모든 행동을 시도하게
    - $\varepsilon-Soft$ 정책은 에이전트로 하여금 계속 탐색하도록 강제한다.
      - 즉, 탐색 시작의 요구사항을 제거 (탐색 시작을 대체) 할 수 있음.
- $\varepsilon-Soft$ 정책의 한계
  - 결정론적 최적 정책에 수렴할 수 없다.
    - 탐색 시작의 방식은 최적 정책에 도달함과 다르게, 최적 $\varepsilon-Soft$ 정책 에만 도달할 수 있음.
  - 위 코드는 몬테카를로 $\varepsilon-Soft$ 정책에 대한 내용으로, 탐색시작과 차이가 생기는 부분을 표시한 것이다.

Off-policy Learning for Prediction

Why does off-policy learning matter?
- 학습 목표
  - off-policy learning 이 탐색 문제를 해결하는 데 어떻게 도움이 되는지 이해하기
  - 목표 정책의 예시 및 행동 정책의 예시를 생성
- $\varepsilon - soft$ 정책의 한계점
  - 탐색에도, 행동에도 최적 정책이 아니다.
  - 학습을 통해 차선의 최적 정책으로 수렴함.
- On-Policy 와 Off-Policy
  - On-Policy Learning: 에이전트가 학습할 데이터의 생성에 기여한 정책을 발전시킴.
  - Off-Policy Learning: 에이전트가 다른 정책으로부터 학습할 데이터를 생성하여 이와 별개의 정책을 학습
    - 예를들어 uniform random 정책으로 생성한 데이터로 최적 정책을 학습함.
    - 대상정책(target policy) : 에이전트가 개선해나아가며 최종적으로 획득하길 원하는 정책 + 에이전트가 학습할 가치 함수는 대상정책(target policy) 를 기반으로 함.
      - 행동정책(behavior policy) : 에이전트가 행동을 선택하는 기준이 되는 정책
- Off-Policy 를 사용하는 이유
  - 지속 탐색의 또다른 전략을 제공하기 때문
    - 대상정책을 따라 학습하게 되면, 전체 상태가 아닌 소수의 상태만을 탐색하게 된다.
  - Off-policy 에 대한 몇가지 유효한 어플리케이션이 존재함 (참고용 자료)
    - learning from demonstartion
      - 따라하기 학습
      - 전문가의 행동을 따라하거나 전문가가 제공한 상태-행동 쌍 데이터를 이용하여 학습을 진행
      - 초기에 정확한 행동을 배우기 위해 유용함
      - 전문ㅏ의 경험을 통해 학습 과정을 가속화, 좋은 품질의 행동을 습득
    - parallel learning
      - 여러 에이전트가 동시에 병렬로 학습을 수행하는 방법 (여러 에이전트가 동시에 다른 환경 또는 다른 부분 문제를 처리)
      - 학습 속도를 높이고 효율성을 향상시키는 데 도움이 됨
      - 다양한 경험을 공유하고 전체 학습 성능을 향상
      - 분산 시스템에서 사용되는 경우가 많으며, 학습 속도와 성능 향상을 위해 활용될 수 있음
- Off-Policy 의 중요 요건
  - 행동정책 (behavior policy) 이 대상정책 (target policy) 을 포괄해야 함.
    - 즉, $\pi (a | s) > 0$ 이면 $b(a | s ) > 0$ 이어야 한다.
      - 수학적인 이유는 다음 섹션에서 살펴봄
      - 직관적인 이유는 아래의 그림과 같을 경우, 우측으로 가는 행동에 대한 행동 가치를 알 수가 없기 때문
Importance Sampling
- 학습 목표
  - 중요도 샘플링을 이용하여 다른 분포의 샘플을 통한 대상 분포도에 대한 예상 값을 추정한다.
- Importance Sampling 유도
  - 개요
    - Sample : $x \sim b$
      - ~ : 분포에 의해 생성되는 것을 의미함.
      - x : 생성된 데이터
      - b : 정책
    - Estimate : $\mathbb{E}_\pi [X]$
      - target 정책에 의해 추정되어지는 예측값
    - $b$ 에서 유도된 데이터 $x$ 이므로, 이 값을 간단히 평균내어 $\pi$ 에 대한 예측치를 구할 수 없다.
  - 기대값에 대한 정의
    - $E_\pi [X] \doteq \sum_{x \in X} x \pi (x)$
      - 모든 가능한 출력값 $x$ 에 대해 $\pi$ 에 따른 확률값을 곱해 합계를 구함.
    - $=\sum_{x \in X} x \pi (x) \frac{b(x)}{b(x)}$
      - 뒤의 $\frac{b(x)}{b(x)}$ 는 값이 1이므로 수식에 곱할 수 있다.
      - $b(x)$ : b 정책 하의 관측된 결과값 $x$ 에 대한 확률값
    - $=\sum_{x \in X} x \frac{\pi (x)}{b(x)} b(x)$
      - 여기에서 $\frac{\pi (x)}{b(x)}$ 를 Importance Sampling Ratio 라고 한다.
      - 우리는 보통 Importance Sampling Ratio 를 $\rho (x)$ 로 표기한다.
      - 즉, $\sum_{x \in X} x \rho (x) b(x)$
  - 기대값을 $b$ 정책에 대한 식으로 치환
    - 위 공식에서 유도된 $E_\pi [X] = \sum_{x \in X} x \rho (x) b(x)$
    - $= E_b [X \rho (X)]$ : $\pi$ 에 대한 식을 $b$ 에 대한 식으로 치환함.
    - $\mathbb{E} [X] \approx \frac{1}{n} \sum_{i=1}^n x_i$
      - $\approx$ : 거의 동일
      - 위 식은 몬테카를로에서 기대값을 구하는 방식으로 평균을 취한 값임.
    - $\approx \frac{1}{n} \sum_{i=1}^n x_i \rho (x_i)$
      - 즉, 위 식을 풀기 위해 weighted sample average 를 구하면 되는데, 이는 importance sampling ratio 를 weightings 로 사용한 수식이다.
    - 우리는 식에서 $\pi$ 가 아닌 $b$ 의 분포를 이용하여 계산하고, 실제로 이 값은 sample average 를 이용해 $\pi$ 의 분포 아래 값을 구하는 식이 된다.
  - 샘플링을 이용한 예측치를 구하는 예시
    - 위의 예시는 $b$ 의 확률분포 내에서 몬테카를로 방식으로 진행했을 때 보상값이 1, 3, 1 이 나왔을 시 importance sampling ratio 를 이용해 $\pi$ 의 분포도로 치환하여 계산한 식을 의미하며 $\pi$ 의 실제 예측값인 2.2 에 가까운 근사값이 나오는 것을 볼 수 있다.
Off-policy Monte Carlo Prediction
- 학습 목표
  - 중요도 샘플링을 이용하여 리턴값을 수정하는 방법을 이해하기
  - 몬테카를로 예측 알고리즘을 변형하여 off-policy learning 에 적용하는 방법 이해하기.
- 몬테카를로 방식에 대한 복기
  - 상태 $s$ 에서 수집된 리턴값의 평균을 구하는 방식
- Off-Policy Monte Carlo
  - 정책 $b$ 로부터 수집된 리턴값에 importance sampling ratio weight ($\rho$) 값을 곱한 값으로 평균을 구함.
  - $\rho = \frac{\mathbb{P} ( \texttt{trajectory under } \pi )}{\mathbb{P} ( \texttt{trajectory under } b )}$
  - 여기에서 $\rho$ 는 전체 궤적의 분포도를 수정하여 리턴값의 분포를 수정한다.
  - 위 수정 방식을 이용해 $\pi$ 의 기대 리턴값을 구한다.
  - $V_\pi (s) = \mathbb{E}_b [ \rho G_t | S_t = s ]$
  - 궤적의 확률 값은 시점 $t$ 에서 종료상태 $T$ 까지의 정책 상 행동 $a$ 의 선택 확률과 상태 $s$ 로의 전이확률 (환경역학) 값의 연속이다.
    - $b(A_t | S_t) p (S_{t+1} | S_t, A_t) b(A_{t+1} | S_{t+1}) p (S_{t+2} | S_{t+1}, A_{t+1}) \cdots p (S_T | S_{T-1}, A_{T-1} )$
    - 위의 식을 $\Pi_{k=t}^{T-1} b(A_k | S_k) p (S_{k+1} | S_k, A_k)$ 로 표기할 수 있다.
  - 위의 식에서 환경역학 $p$ 는 동일한 값이기에 상쇄 (약분) 된다.
  - 위의 식에서 남은 앞 부분은 importance sampling ratio 인 $\rho$ 이다.
    - $\rho_{t:T-1} \doteq \Pi_{k=t}^{T-1} \frac {\pi (A_k | S_k)} {b (A_k | S_k)}$
  - Off-Policy Value : $E_b [ \rho_{t:T-1} G_t | S_t = s] = v_\pi (s)$
- Off-Policy Monte Carlo 의 구현
  - Off-policy every-visit MC
    - 에피소드를 생성할 때 $\pi$ 가 아닌 $b$ 를 통해 생성한다.
    - 에피소드의 리턴 값이 $G \gets \gamma G + R_{t+1}$ 이 아닌 $G \gets \gamma W G + R_{t+1}$ 로 계산된다.
    - $W \gets W \frac {\pi (A_t | S_t)}{b (A_t | S_t)}$ 로 매 스텝마다 누적곱이 된다.
  - $\rho_{t:T-1}$ 의 증분계산
    - 몬테카를로 알고리즘 루프가 마지막 타임스텝에서부터 거꾸로 계산을 누적하는 방식이므로, $\rho$ 의 계산 또한 동일하다.
    - 위의 식과 같이 이전 단계의 값의 누적 곱을 구하는 방식이기에, 이전 단계의 모든 $\rho$ 값을 따로 저장할 필요가 없다.
Emma Brunskill - Batch Reinforcement Learning
- 배치 강화학습의 개요
  - 현재 강화학습의 놀라운 성공에 대해 생각해보면 로봇 공학이나 게임플에이와 같은 영역이며, 시뮬레이터에서 액세스 할 수 있는 케이스임
  - 에이전트가 오랫동안 학습에 실패하더라도 결국 학습하게 됨.
  - 반대로 사람과 상호작용하는 영역의 경우 사람들이 학습하거나 행동하는 방식에 대한 훌륭한 시뮬레이터를 얻을 수 없음
    - 실제 데이터에 의존해야 함 (실제 인간과 상호작용 하는 것과 관련이 있기에 어려운 일임)
    - 에이전트가 학습해야 하는 데이터의 양을 최소화하기 위한 기술과 학습량의 근본적인 한계는 무엇일까?
- 실 생활 데이터의 활용 어려움
  - 실제 행하지 않은 행동의 결과 추론 문제
  - 과거에 행했던 하나의 행동이 아닌 일련의 행동에 대한 조합 가능성
- 실 생활 데이터의 활용 가능성
  - 특정한 행동순서로 진행하는 것의 결과값을 알고 싶을 때, 데이터가 10만건이라면 이 중 해당 행동순서를 가지는 경우는 100건이 될 수 있다.
- 중요도 샘플링의 문제점
  - 중요도 샘플링은 편향되지 않은 추정량을 제공하지만 일반적으로 분산이 매우 높을 수 있음
    - 즉, 데이터가 많지 않거나 에피소드가 길면 열악한 근사값을 구할 확률이 큼
- 중요도 샘플링의 대안 : MDP 의 Parametric Models
  - 상태 전이확률과 보상 함수를 파라미터화한 모델
    - 파라미터를 사용하여 상태 전이 확률과 보상함수를 추정하거나 근사하는 방식으로 동작
  - 실제 환경의 동작을 정확히 모델링하지 않고도 예측과 학습이 수행 가능, 복잡한 환경에서도 효율적인 학습을 할 수 있음.
  - 하지만 실제 환경과 다름 - 편향을 가질 수 있음
  - 그러나 약간의 편향에 대한 대가로 낮은 분산을 가질 수 있음
- Doubly Robust Estimator 방법
  - 이 방법은 오프-폴리시(Off-Policy) 학습에서 사용되며, 동일한 데이터를 사용하여 가치 함수를 추정하는 데에 효과적
  - Doubly Robust Estimators의 핵심 개념은 두 가지 보정 요소를 조합하는 것
    - 가치 함수 추정에 사용되는 모델 또는 추정기(estimator) : Parametric Models
    - 가치 함수 추정에서 발생하는 편향을 보정하는 가중치 : Importance Sampling
  - 첫 번째 방법은 모델 또는 추정기를 사용하여 행동 가치 함수 또는 상태 가치 함수를 추정하는 것. 이 추정은 일부 편향을 가질 수 있지만, 적은 데이터에서도 추정이 가능.
  - 두 번째 방법은 경험 데이터를 사용하여 행동 가치 함수 또는 상태 가치 함수를 보정하는 것. 이 보정은 가중치를 사용하여 편향을 보정하는 것으로, 정책 평가의 불일치 문제를 해결하는 데 도움이 됨.

Chapter Summary

몬테카를로 방식의 장점
- 본 장의 몬테카를로 방식 : 샘플 에피소드의 형태에서의 경험으로 가치함수와 최적의 정책을 학습
- 환경 역학의 모델 없이, 환경과의 상호작용에서 직접 최적의 정책을 학습함.
- 시뮬레이션 또는 샘플 모델과 함께 사용할 수 있음.
  - 많은 응용프로그램의 경우 DP 방식에서 요구하는 전환 확률의 명시적 모델을 구성하는 것은 어렵지만, 샘플 에피소드를 시뮬레이션 하는 것은 쉬움.
- 몬테카를로 방식을 상태 중 작은 하위 집합에 집중시킬 수 있다.
  - 나머지 상태 집합을 정확하게 평가하는 데 비용을 들이지 않고 특별한 관심 영역을 정확히 평가 가능 (8장에서 살펴볼 내용)
- Markov 속성 위반으로 인한 피해가 적음 (이후에 다룰 내용)
  - 이는 후속 상태의 가치 추정치를 기반으로 가치 추정치를 업데이트 하지 않기 때문 (부트스트랩을 하지 않기 때문)
몬테카를로의 제어 방법 설계
- 이 장에서는 일반화된 정책 반복 (Generalized Policy Iteration, GPI) 의 전체 스키마를 따랐음.
  - GPI는 정책 평가 및 정책 개선의 상호 작용 프로세스를 포함함.
  - 몬테카를로 방식은 정책 평가 프로세스를 대체함
    - 모델을 사용하여 각 상태의 가치를 계산하는 대신, 상태에서 시작되는 많은 샘플의 리턴값 평균을 구함.
  - 제어 방법에서 행동가치함수를 근사화 하는데 집중함. (환경의 전환 역학 모델을 요구하지 않고 정책을 개선하는데 사용 가능)
충분한 탐색을 유지하기 위한 몬테카를로 제어 방법의 문제
- 현재 최선이라고 추정되는 행동만을 선택하는 것으로는 다른 행동을 선택했을 때의 리턴값을 알 수 없고 실제로 더 나은 조치를 학습할 수 없게 됨.
- 한가지 접근 방식은 에피소드가 모든 가능성을 다루기 위해 무작위로 선택된 상태-행동 쌍으로 시작한다고 가정하여 이 문제를 무시하는 것
  - 탐색 시작은 시뮬레이션된 에피소드가 있는 응용프로그램에서 사용될 수 있지만, 실제 경험에서 학습할 가능성은 낮음.
- On-Policy 방식
  - 에이전트는 항상 탐색하고, 탐색이 포함된 최상의 정책을 찾으려고 노력함.
- Off-Policy 방식
  - 에이전트는 탐색하지만 탐색 정책과 관련이 없을 수 있는 결정론적 최적 정책을 학습함.
    - 중요도 샘플링의 일부 형태를 기반으로 함.
    - 두 정책에서 관찰된 행동을 취할 확률의 비율로 구해, 리턴값에 가중치를 부여하여 행동정책에서 대상정책으로 기대치를 변환함.
  - 일반 중요도 샘플링 : 가중 수익율의 단순 평균을 사용
    - 편향되지 않은 추정치를 생성하지만 분산이 더 크고 무한할 수 있음
  - 가중 중요도 샘플링 : 가중 평균을 사용
    - 유한한 분산을 가짐
- 개념적 단순성에도 불구하고 예측 및 제어 모두에 대한 정책 외 몬테카를로 방법은 여전히 불안정하며 지속적인 연구 대상임
몬테카를로 방식과 DP 방식의 차이점
- 샘플 경험을 기반으로 작동하므로 모델 없이 직접 학습에 사용할 수 있음
- 부트스트랩을 수행하지 않음 (다른 가치 추정치를 기반으로 가치 추정치를 업데이트하지 않음)
- 다음 장에서는 몬테카를로 방법과 같이 경험에서 배우는 방법과 DP 방법과 같은 부트스트랩 방법을 고려함.

Sample-based Learning Methods - 00. 강좌소개

2023-06-09T14:00:00+00:00

강좌에 대한 설명

환경과의 trial and error 상호작용을 통한 최적정책

Fundamentals of Reinforcement Learning - 04. Week 4. Dynamic Programming

2023-04-20T15:00:00+00:00

Policy Evaluation (Prediction)

Policy Evaluation vs. Control
- 학습 목표
  - 정책 평가 (policy evaluation) 와 제어 (control) 의 구분
  - 동적 프로그래밍 (Dynamic Programming) 이 적용될 수 있는 설정(환경) 과 제한을 이해
- Policy Evaluation 과 Control 의 정의
  - Policy Evaluation : 주어진 정책에 대한 stable 한 가치 함수를 구하는 것 (얼마나 좋은지 평가)
    - $\pi \to v_\pi$
    - $v_\pi (s) \doteq E_\pi [ G_t | S_t = s]$
    - $G_t \doteq \sum_{k=0}^\infty \gamma^k R_{t+k+1}$
      - 리턴 값은 미래의 보상에 대한 할인된 합계이다.
  - Control : 가치 함수를 통해 가장 많은 보상을 얻는 정책을 찾는 것 (정책을 발전시키는 것)
    - 모든 상태에서의 가치가 같거나 더 나은 정책을 찾는 것
    - 반복적으로 찾다 보면 최적의 정책을 찾게 됨.
- Dynamic Programming Algorithms
  - 벨만 방정식을 사용해 가치 평가와 제어의 반복적인 알고리즘을 정의하는 것
- Linear equations 와 Dynamic Programming 비교
  - Linear equations
    - 가치함수 $v_\pi$ 를 찾기 위해, 각 상태별로 위의 하나의 방정식을 갖게 된다.
  - Dynamic Programming
    - 통상 MDP 의 문제에서 DP 방식이 보다 더 적절한 방식이다.
    - DP 에서는 다양한 형태의 벨만 방정식을 사용한다.
    - 위의 경우 환경역학 $p$ 에 대한 지식을 기반으로 한다.
    - 고전적인 DP 에서는 환경과의 상호작용을 포함하지 않는다. (대신 주어진 MDP 모델을 활용 / 함수 $p$ 에 접근할 수 있다는 가정.)
    - 대부분의 강화학습 알고리즘은 모델이 없는 DP 의 근사화된 프로그래밍이라고 볼 수 있다.
    - (이러한 특징은 이후에 소개할 Temporal different space dynamic planning algorithm 에서 두드러진다.)
Iterative Policy Evaluation
- 학습목표
  - 주어진 정책에서 상태값 평가를 위한 반복 정책 평가 (iterative policy evaluation) 알고리즘의 개요
  - 반복 정책 평가 (iterative policy evaluation) 를 적용하여 가치함수 계산
- 벨만 방정식과 Iterative Policy Evaluation 간의 관계
  - DP 알고리즘은 벨만 방정식을 업데이트 룰로 변경함으로써 얻을 수 있다.
  - iterative policy evaluation 알고리즘 또한 이러한 알고리즘 중 하나이다.
  - 벨만 방정식 중 $v_\pi$ 에 대핸 재귀적 표현을 활용한다.
  - 업데이트 룰에서는 참 가치함수가 아닌 예측 값을 활용한다.
    - 이 방식은 점진적으로 보다 나은 대략적인 가치 함수를 제공하게 된다.
    - 각각의 반복은 모든 상태 집합에 대해 업데이트를 적용하는데, 이를 스윕 (sweep) 이라고 한다.
    - 만약 모든 상태에 대해, 가치 함수 근사값 $v_k$ 와 $v_{k+1}$ 의 값이 같을 경우 정책에 대한 참 가치 함수를 찾았다고 한다.
    - ${v_0}$ 가 어떤 값이여도, $k$ 가 무한대에 수렴하면, $v_k$ 또한 $v_\pi$ 로 수렴하게 된다.
- 구현의 방식
  - 2개의 배열 사용
    - 모든 상태 세트에 대해 업데이트를 진행한다.
    - Old value V 를 이용해 New value V’ 를 갱신한다.
    - Old value V 는 업데이트 중에 변동이 없다.
    - 모든 상태를 순회, 업데이트 후에 V’ 를 V 에 할당하고, V’ 에 다시 업데이트를 진행한다.
  - 1개의 배열 사용
    - V 배열만을 이용해 업데이트를 진행한다.
    - 경우에 따라 특정 상태의 값을 참조할 때, Old value 가 아닌 New value 를 참조하기도 한다.
    - 이러한 한 개의 배열 버전 또한 수렴을 보장하며, 사실 보통의 경우 최신 값을 사용하기에 더 빠르게 수렴한다.
  - 여기에서는 단순성을 위해 2개의 배열 버전에 집중한다.
- Iterative Policy Evaluation 의 예시
  - 4 x 4 의 grid world 를 가정
  - 좌측 상단과 우측 하단에 Terminate State 가 있는 Episodic MDP 로 정의
  - 모든 상태이동의 보상은 -1
  - 할인 값은 없다고 가정 ($\gamma = 1$)
  - 각 상태별로 4개의 방향으로 이동할 수 있음 (up, down, left, right). 각 행동은 결정론적임 (확률=100%)
  - 그리도 밖으로의 이동은 에이전트가 해당 상태에 그대로 머물도록 함
  - 정책은 uniform random policy (각 확률 25%).
  - 스윕은 좌에서 우로, 위에서 아래로 진행된다.
  - 첫 스윕 결과는 위의 식에 의해 Terminal State 를 제외하고 모두 -1 이 된다.
  - 첫 풀 스윕 이후 V’ 을 V 로 카피하고, 위 과정을 반복한다.
  - 위는 iterative policy evaluation 의 전체 알고리즘이다.
  - 각 상태의 이전과 이후의 차이 ($\delta$) 가 정의한 작은 숫자 ($\theta$) 보다 작을 경우 루프를 중지한다.
  - $\theta$ 가 충분히 작을 경우, V 는 $v_\pi$ 에 가까운 값이라 할 수 있다.

Policy Iteration (Control)

Policy Improvement
- 학습목표
  - 정책 개선 이론 (policy improvement theorem) 이해하기
  - 주어진 MDP 에서 더 나은 정책의 생성을 위해 정책에 가치함수 적용하기
- Policy Improvement
  - 최적 가치함수 $v_*$ 에 대해 greedy action 을 취한 정책을 최적 정책 (Optimal Policy) 이라 한다.
  - 임의의 정책 $\pi$ 를 따르는 가치 함수 $v_\pi$ 에 대해 greedy action 을 $v_\pi$ 에 대한 탐욕 정책이라 했을 때…
  - 현재의 정책 $\pi$ 와 위의 정책이 차이가 없을 경우 $\pi$ 는 이미 $v_\pi$ 에 대한 탐욕 정책이며,
  - 이 경우 $v_\pi$ 가 벨만 최적성 방정식을 따른다면, $\pi$ 는 최적 정책이다.
- Policy Improvement Theorem
  - $\pi$ 가 최적정책이 아니라면, $\pi$ 보다 엄격한 개선이 이루어진 새로운 정책이 존재한다.
  - $q_\pi (s, \pi’(s)) \geq q_\pi (s, \pi (s))$ for all $s \in S$ $\to \pi’ \geq \pi$
  - uniform random policy 를 따르는 $v_\pi$ 가치함수에 대해, greedy policy $\pi’$ 이 Policy Improvement Theorem 에 의해 더 개선된 정책임.
  - Policy Improvement Theorem 은 새로운 정책이 이전 정책보다 개선된 정책임 만을 보장한다.
    - 개선된 정책이 최적 정책임은 보장하지 않음 (가치함수가 최적 가치함수가 아님)
Policy Iteration
- 학습목표
  - 최적 정책을 찾기 위한 정책 반복 알고리즘 (policy iteration algorithm) 을 정의하기
  - “the dance of policy and value” (평가와 개선을 반복하여 최적 정책을 찾는 것) 이해하기
  - 정책 반복 (policy iteration) 을 적용하여 최적 정책과 최적 가치 함수 계산하기
- Policy Iteration
  - 더 이상 가치 함수를 통한 정책이 변경되지 않으면 그것이 최적 정책이다.
  - 결정론적 정책을 사용하기에, 필연적으로 최적 정책에 도달한다.
  - $\pi_1$ 에 대한 가치함수 $v_{\pi_1}$ 을 구하면, $\pi_1$ 은 더이상 greedy policy 가 아니게 되고…
  - greedy policy $\pi_2$ 를 구하면 더 이상 가치함수 $v_{\pi_1}$ 이 정확한 가치함수가 아니게 된다.
  - 위의 과정을 반복하면 필연적으로 변하지 않는 정책 $\pi_*$ 와 정확한 가치함수 $v_*$ 를 구하게 된다.
  - 4x4 gridworld 예제의 정의
  - $\pi_0$
  - $v_{\pi_0}$
  - $\pi_1$
  - $v_{\pi_1}$
  - $\pi_2$
  - $v_{\pi_2}$
  - $\pi_3$
  - $\pi_*$
  - The Power of Policy Iteration
  - 최적 정책에 도달하기 전까지, 계속적으로 정책이 개선됨을 볼 수 있다.
  - 최적 정책이 선형적이지 않을 때도 정책에 도달할 수 있다.

Generalized Policy Iteration

Flexibility of the Policy Iteration Framework
- 학습목표
  - 일반화된 정책 반복 프레임워크 (framework of generalized policy iteration) 이해하기
  - 가치 반복 (value iteration) 과 일반화된 정책 반복 (generalized policy iteration) 의 주요 예시
  - 동기 (synchronous) / 비동기 (asynchronous) 동적 프로그래밍 방법 간 차이점을 이해하기
- 유연한 Policy Iteration
  - 현 정책에 가까운 가치 함수 예측치를 사용
  - 좀 더 탐욕적인 정책을 사용하나, 완전히 탐욕적인 정책은 아닌 정책을 사용
  - 이러한 진행 또한 최적 정책과 최적 가치함수를 향해 나아간다.
  - 이러한 Policy Iteration 을 Generalized Policy Iteration 이라고 함.
- Value Iteration
  - Generalized Policy Iteration 중 하나
  - 모든 상태를 sweep 하고, 현 가치 함수에 대해 탐욕 정책을 사용하는 것은 같음.
  - 그러나, 완전한 정책 평가를 하는 것은 아님
    - 모든 상태에 대해 단 한번의 스윕만을 진행
    - 스윕 진행 후 다시 탐욕 정책을 사용함.
  - 이러한 업데이트 룰을 상태 가치함수에 바로 적용한다.
    - $V(s) \gets \max_a \sum_{s’,r} p(s’,r|s,a) [r + \gamma V(s’) ]$
    - 업데이트가 어떠한 특정 정책을 참조하지 않기 때문에, 이 방식을 value iteration 이라 한다.
  - 이 방식은 iterative policy evaluation 과 매우 유사한데, 고정된 정책을 이용해 업데이트 하는 것이 아닌, 현재의 추정 값을 이용해 최대화 하는 것이 특징이다.
  - value iteration 또한 극한 값에서 $v_*$ 에 수렴한다.
  - 우리는 극한으로 진행될 때까지 기다릴 수 없으므로, 종료 조건을 둔다.
  - 최종적으로 구해진 최적 가치 함수에 대해 $\arg\max$ 를 취함으로서 최적 정책을 얻게 된다.
- Avoiding full sweeps
  - Synchronous DP
    - value iteration 또한 policy evaluation iteration 과 마찬가지로 모든 상태를 (순차적으로) 스윕한다.
    - 시스템 적으로 스윕을 하는 방식을 synchronus (동기 방식) 라 한다.
    - 만약 상태공간이 크다면, 이러한 방식은 문제가 된다.
      - 모든 스윕 단계에 매우 긴 시간을 소모함
  - Asynchronous DP
    - 상태의 값을 특정 순서 없이 업데이트 한다. (시스템 적인 스윕이 아님).
    - 다른 상태값이 한번 업데이트 되는 동안 특정 상태값을 여러 번 업데이트 할 수 있음.
    - 수렴을 보장하기 위해서는, 계속하여 모든 상태의 값을 업데이트 해야함.
      - 예를 들어 다른 상태를 무시하고 3개의 상태값만 계속 업데이트 한다면, 다른 상태의 값이 옳을 리가 없기 때문에 수렴할 수가 없음.
    - 이러한 선택적 업데이트 덕분에, 값 정보를 빠르게 전파할 수 있음.
      - 어떠한 경우에서는 시스템적인 스윕보다 더 효율적일 수 있음.
        
        예를 들어 최근 값이 변한 상태의 주변 값들을 집중적으로 업데이트.
Efficiency of Dynamic Programming
- 학습목표
  - 최적 정책을 찾기 위한 대안으로서의 무작위 탐색 방법 (brute force search) 설명
  - 가치 함수 학습을 위한 대안으로서의 몬테카를로 (Monte Carlo) 방식 설명
  - 최적 정책 탐색에 있어서 동적 프로그래밍 (Dynamic programming) 과 부트스트래핑 (bootstrapping) 방식이 대안 전략과 비교하여 가지는 이점을 이해하기
- A Sampling Alternative for Policy Evaluation (Monte Carlo)
  - Dynamic Programming 의 policy evaluation iteration 의 대안
  - Monte Carlo 방식
    - 정책 $\pi$ 에 대한 많은 리턴값을 수집하여 평균 값을 구하는 방식
    - 결국 값에 수렴하게 됨
    - 수렴을 위해서는 각 상태에 대한 많은 리턴 수집값이 필요
      - 이 값들은 $\pi$ 에 의해 선택된 random action, 환경 역학에 의한 random state transition 등 많은 random 성을 띄게 됨.
    - 이러한 과정을 모든 상태에 대해 별개로 진행해야 함.
  - Dynamic Programming 의 이점
    - Dynamic Programming 의 핵심은 각 상태의 평가를 별개의 문제로 취급할 필요가 없다는 점이다.
      - 이미 계산해 놓은 다른 상태의 값을 이용할 수 있음.
    - 이렇게 이후 상태의 추측값을 사용해 현재의 추측값을 개선하는 것을 부트스르래핑 (bootstrapping) 이라 한다.
      - 이 방식이 각각의 상태를 별개로 계산하는 몬테카를로 방식보다 훨씬 효율적임.
- Brute-Force Search
  - Dynamic Programming 의 policy iteration 의 대안
  - Brute-Force Search 방식
    - 이 방식은 단순히 모든 결정론적인 정책을 하나하나 평가하여 가장 높은 값의 정책을 선택하는 것임.
    - 정책의 수는 유한하고, 언제나 최적 결정론적 정책은 존재함으로 최적 정책을 찾을 수 있음.
    - 그러나 결정론적인 정책의 수가 너무 많을 수도 있음.
      - 각각의 상태에 대해 하나의 행동을 선택해야 함.
        
        $| \mathscr{A} | * | \mathscr{A} | * \cdots * | \mathscr{A} |$
      - 즉, 결정론적 정책의 수는 지수적이다.
        
        ${| \mathscr{A} |}^{| \mathscr{S} |}$
    - 따라서 이 프로세스는 시간이 매우 오래 걸린다.
  - Policy Improvement Theorem 의 이점
    - 점점 더 나은 정책을 찾게 된다.
    - 이 점은 모든 정책에 대한 검색보다 훨씬 효율적이다.
- Efficiency of Dynamic Programming
  - Policy Iteration : $| \mathscr{S} |$ 와 $| \mathscr{A}|$ 에 대한 다항식 곱의 복잡도
  - Brute-Force Search : ${| \mathscr{A} |}^{| \mathscr{S} |}$ 개의 정책
  - Dynamic Programming 은 Brute-Force Search 에 비해 지수적으로 빠름
    - 예를 들어 4x4 Grid World 의 경우 DP 는 위의 예시에서 약 5번의 스윕을 통해 최적 정책을 찾아냈으나, Brute-Force Search 의 경우 $4^{16}$ 개의 정책을 확인해야 함.
- The Curse of Dimensionality (차원의 저주)
  - 관계된 요소의 수가 늘어날 수록 상태 공간의 크기가 지수적으로 늘어남
  - MDP 문제는 상태의 크기가 커질 수록 풀기 어려워짐
  - 하나의 에이전트가 Grid World 를 탐험하는 것은 괜찮지만, 대중교통을 설계하기 위해 몇천 명의 운전자가 수백 개의 지역을 돌아다니는 상태를 가정하면 어떻게 될까?
  - 사실 이는 Dynamic Programming 의 문제가 아닌 문제 자체의 내제된 복잡성이다.
Warren Powell: Approximate Dynamic Programming for Fleet Management(Short)
Warren Powell: Approximate Dynamic Programming for Fleet Management(Long)
Week 4 Summary
- Policy evaluation : 특정한 정책 $\pi$ 로부터 상태가치함수 $v_\pi$ 를 구하는 것
  - Iterative Policy Evaluation
    - $v_\pi (s) = \sum_a \pi (a|s) \sum_{s’} \sum_r p(s’,r | s,a) [ r+\gamma v_\pi (s’) ]$
    - $v_{k+1} (s) \gets \sum_a \pi (a|s) \sum_{s’} \sum_r p(s’,r | s,a) [ r+\gamma v_k (s’) ]$
    - $v_\pi$ 에 대한 벨만 방정식을 업데이트 룰로 바꾼 것
    - 반복 과정을 거치며 점점 더 근사하는 가치함수를 찾을 수 있음
- Control : 정책을 발전시키는 과정
  - Policy improvement theorem
    - $\pi’ (s) \doteq \arg\max_a \sum_{s’} \sum_r p(s’,r | s,a) [ r+\gamma v_\pi (s’) ]$
    - 새로운 정책 $\pi’$ 는 현 가치함수에서 단순히 탐욕화한 정책이다.
    - $\pi’$ 은 $\pi$ 보다 엄격히 개선된 정책임을 보장한다. ($\pi$ 가 최적정책이 아닐 경우)
  - Policy Iteration
    - $E \to I \to \cdots \to E \to I \to v_* , \pi_*$
  - Generalized Policy Iteration
    - Policy Iteration 과 달리 Evaluation 과 Improvement step 을 끝까지 진행하지 않고 반복하는 것
      - value iteration : Generalized Policy Iteration 의 한 종류로, 모든 상태를 단 한번 스윕하고 정책을 개선시키는 것
    - asynchronous DP
      - 모든 상태를 시스템적으로 스윕하는 것이 아닌, 불규칙적인 방식으로 상태를 업데이트 하는 것
      - 모든 상태를 지속적으로 업데이트한다는 가정 하에 최적 정책으로 수렴하게 됨
      - 특정 상황에서 더 빠르게 수렴할 수 있으며, 상태 공간이 큰 문제에 효율적임
Chapter Summary (RLbook2018 Pages 88-89)

Weekly Assessment

Course Wrap-up

Bandits
- 각 레버의 보상의 분포를 모르기 때문에, 각각의 arm 을 많이 시도하여 평균을 구해야 했었음.
- Exploration - Exploitation Trade-Off
  - 지금 당장의 최선의 arm 을 당길 것인지, 다른 arm 을 탐험할 것인지?
- Bandit 문제는 늘 같은 state 에서 action 을 선택하는 문제였음.
  - 불변하는 하나의 최상의 action 이 존재
  - 보상은 지연되지 않고 즉시 지급되었음
MDP
- Bandits 보다 복잡한 현실 문제를 더 잘 반영한 모델
- 환경은 action 을 선택하였을 때 즉각적인 보상 뿐만 아니라 다음의 상태도 제공해 줌
  - 이 상태는 미래의 보상에 잠재적인 영향을 준다.
- 보상은 미래에 받을 잠재적 보상값의 할인된 합계이다.
Basic Concepts of Reinforcement learning
- 정책 (policy) : 에이전트가 각 상태 (state) 에서 어떤 action 을 취할 것인지를 말함
- 가치함수 (value function)
  - $v_\pi (s) \doteq E_{\pi} [ G_t | S_t = s ]$
  - 특정 정책 하에 각 상태에 대해 미래의 예상되는 리턴 값을 측정해줌
  - 혹은 특정 정책 하에 상태-행동 쌍에 대한 미래의 예상되는 리턴 값을 측정해줌
- 벨만 방정식
  - 각 상태 혹은 상태-행동 쌍의 값을 가능한 다음 값과 연결 시켜주는 방정식 (부트스트래핑)
Dynamic Programming
- prediction (Policy Evaluation)
- control (Policy Improvement)
- Dynamic Programming 의 경우 환경 역학 (Environment dynamics) 에 접근할 수 있어야 한다.
- 강화학습 문제, 혹은 현실의 문제에서는 이 환경역학에 접근할 수 없다. (시도해 보기 전엔 어떤 영향을 줄 지 알 수 없음.)
- Dynamic Programming 은 강화학습 알고리즘의 핵심 기초가 된다.

Fundamentals of Reinforcement Learning - 03. Week 3. Value Functions & Bellman Equations

2023-03-16T15:00:00+00:00

Policies and Value Functions

Specifying Policies

학습목표
- 정책 (Policy) 은 각 가능한 상태 (State)에 대한 행동 (Action) 의 분포임을 인지한다.
- 확률론적 정책 (Stochastic Policies) 과 결정론적 정책 (Deterministic Policies) 의 유사점과 차이점을 설명한다.
- 잘 정의된 정책의 특성을 식별한다.
- 주어진 MDP 에 유효한 정책의 예시

Deterministic policy (결정론적 정책)

각 상태에 하나의 행동을 매핑
$\pi(s) = a$

테이블로 표현 가능

State	Action
$s_0$	$a_1$
$s_1$	$a_0$
$s_2$	$a_0$

예시

Stochastic policy (확률론적 정책)
- 각 상태에서 행동이 가지는 확률을 표현
- 하나의 상태에서도 각각 다른 행동이 선택될 수 있음 (확률이 0이 아닐 경우)
- $\pi(a|s)$
- 확률 그래프로 표현 가능
- 예시
정책은 오직 현재 상태에만 영향을 받는 것이 중요함.
- 시간이나 이전 상태와 같은 요소에 영향을 받지 않아야 함.
  - 50% : 50% 의 행동 확률이라고 번갈아 가며 행동하지 않음 (이것은 현 상태 외의 영향을 받은 정책임.)
  - 이런 면을 상태의 요구사항이며, 에이전트의 제한은 아닌 것으로 여기는 편이 좋음.
- 현재 상태에 현재 행동을 결정할 모든 요소가 포함되어 있어야 함.
MDP 에서는 상태가 결정을 위한 모든 정보를 포함한 것으로 가정한다.
- 만약 번갈아 가며 하는 행동이 높은 보상값을 제공한다면, 상태값에 마지막 행동값이 포함되어야 한다.

Value Functions
- 학습목표
  - 강화학습에서 상태가치함수 (state-value functions) 와 행동가치함수 (action-value functions) 의 역할에 대한 설명
  - 가치 함수 (value function) 와 정책 (policy) 간의 관계 설명
  - 주어진 MDP 에 대해 유효한 가치함수 생성
- 개념 설명
  - 가치함수는 지연된 보상을 나타낸다.
  - 강화학습에서는 장기적으로 최대의 보상을 얻는 정책을 학습하는 것을 목표로 한다.
- State-value functions
  - $G_t = \sum_{k=0}^\infty \gamma^k R_{t+k+1}$
  - $v(s) \doteq E [G_t|S_t=s]$
  - 주어진 환경에 대해 기대되는 보상 값을 의미
  - 이 의미에 의해 value function 은 주어진 policy (agent 가 어떤 action을 취할 것인지) 에 영향을 받는다는 것을 의미
  - $v_\pi (s) \doteq E_\pi [G_t|S_t=s]$
  - 주어진 정책 하에 현 상태에 기대되는 리턴값
- Action-value functions
  - $q_\pi (s,a) \doteq E_\pi [G_t|S_t=s,A_t=a]$
  - s에서 a를 선택한 후 정책을 따랐을 시 기대되는 리턴값
- Value function 의 의미
  - 장기적인 결과를 관찰하기 위해 기다리는 대신
  - 현재 상황의 품질을 질의할 수 있음
  - 이 리턴 값은 즉시 사용할 수 없음
  - 정책 및 환경 역학의 확률로 인해 리턴 값이 무작위일 수 있음
  - Value function 은 미래의 모든 기대되는 리턴값을 평균값으로 요약함
  - 이를 토대로 다른 정책들의 질을 판단할 수 있게 됨.
- Value function 의 예시 : Chess
  - 체스는 episodic MDP 이다.
  - State : 모든 말의 현 위치
  - Action : 합법적인 이동
  - Reward : 게임의 승리(+1), 패배 또는 무승부(0)
  - 위의 보상으로 경기 중 에이전트가 얼마나 잘 플레이하는지에 대해 알 수 없음.
  - 또한 보상을 보려면 에피소드가 끝날 때 까지 기다려야 함.
  - 이 때 가치함수는 훨씬 더 많은 것을 알려줄 수 있음.
    - 상태 가치함수 값은 단순히 현 Policy 를 따랐을 경우 이길 확률을 말함.
    - 상대방의 움직임은 상태 전이이다.
    - action value function 은 policy 를 따랐을 경우 현 동작을 통해 이길 확률을 나타낸다.
Rich Sutton and Andy Barto : A brief History of RL

Bellman Equations

Bellman Equation Derivation
- 학습목표
  - 상태가치함수 (state-value function) 에 대한 Bellman 방정식 유도
  - 행동가치함수 (action-value function) 에 대한 Bellman 방정식 유도
  - Bellman 방정식이 현재와 미래 가치를 연관시키는 방법을 이해
- State-value Bellman equation
  - $G_t = \sum_{k=0}^\infty \gamma^k R_{t+k+1}$
  - $v_\pi (s) \doteq E_\pi [G_t|S_t=s]$
  - $=E_\pi [R_{t+1} + \gamma G_{t+1}|S_t=s]$
  - $=\sum_a \pi(a|s) \sum_{s’} \sum_r p(s’,r|s,a)[r+\gamma E_\pi [G_{t+1}|S_{t+1}=s’]]$
  - $=\sum_a \pi(a|s) \sum_{s’} \sum_r p(s’,r|s,a)[r+\gamma v_\pi (s’)]$
- Action-value Bellman equation
  - $q_\pi (s,a) \doteq E_\pi [G_t|S_t=s,A_t=a]$
  - $=\sum_{s’} \sum_r p(s’,r|s,a)[r+\gamma E_\pi [G_{t+1}|S_{t+1}=s’]]$
  - $=\sum_{s’} \sum_r p(s’,r|s,a)[r+\gamma \sum_{a’} \pi(a’|s’)E_\pi[G_{t+1}|S_{t+1}=s’,A_{t+1}=a’]]$
  - $=\sum_{s’} \sum_r p(s’,r|s,a)[r+\gamma \sum_{a’} \pi(a’|s’)q_\pi (s’,a’)]$
- 현 state value 혹은 state/action value 는 미래의 state value 혹은 state/action value 표현법으로 재귀적 표현이 가능하다.
Why Bellman Equations?
- 학습목표
  - Bellman 방정식을 이용해 가치함수 (value functions) 를 계산
- 예제 : Gridworld
  - 벨만 방정식은 가능한 모든 미래의 값을 무한히 더해가는 과정을 선형대수 문제로 치환시켜 준다.
- 벨만 방정식의 한계
  - 체스게임과 같이 가능한 상태의 양이 많은 경우
  - 위의 예시의 경우 상태가 4개이기 때문에 4개의 선형 방정식을 풀면 되지만..
  - 체스 게임의 경우 $10^{45}$ 개의 선형 방정식을 풀어야 함.

Optimality (Optimal Policies & Value Functions)

Optimal Policies
- 개요
  - 정책 : 에이전트가 어떻게 행동할지를 나타내는 것
  - 정책이 결정된 후 value function 을 찾아볼 수 있다.
  - 강화학습의 목표는 특정 정책을 평가하는 것이 아닌 최적의 정책을 찾는 것이다.
- 학습목표
  - Optimal policy 에 대한 정의
  - 특정 정책이 어떻게 모든 상태에서 다른 모든 정책만큼 좋을 수 있는 것인지를 이해
  - 주어진 MDP 에 대한 최적의 정책 식별
- Optimal Policy 란?
  - 어떠한 상태에서도 타 정책과 같거나 더 좋은 경우
  - 최소한 하나 이상의 Optimal Policy 가 존재
    - 특정 상황에 $\pi_2$ 가 $\pi_1$ 보다 결과가 좋을 경우
    - 해당 상황에서는 $\pi_2$ 정책을 사용하고 그 외의 경우 $\pi_1$ 을 사용하는 정책 $\pi_3$ 를 사용
  - 작은 MDP 의 경우 직접적으로 풀 수 있지만…
    - 2개의 결정론적 정책이 있을 경우 Brute-Force Search 로 문제 해결
    - 하지만 일반적인 MDP 의 경우 $|A|^{|S|}$ 개의 결정론적 정책이 존재하여 Brute-Force Search 로 문제 해결이 불가함.
    - 위의 경우 Bellman Optimality Equations 로 문제에 접근해야 함.
Optimal Value Functions
- 학습목표
  - 상태가치함수 (state-value functions) 에 대한 Bellman 최적 방정식 유도
  - 행동가치함수 (action-value functions) 에 대한 Bellman 최적 방정식 유도
  - Bellman 최적 방정식이 이전에 소개된 Bellman 방정식과 어떻게 관련되는지 이해
- Optimal Value Functions
  - $v_*$ : $v_{\pi_*} (s) \doteq E_{\pi_*} [G_t|S_t=s] = \underset{\pi}{\max} v_\pi (s)$ for all $s \in S$
  - $v_* (s) = \sum_a \pi_* (a|s) \sum_{s’} \sum_r p(s’,r|s,a)[r+\gamma v_*(s’)]$
  - $v_* (s) = \underset{a}{\max} \sum_{s’} \sum_r p(s’,r|s,a)[r+\gamma v_*(s’)]$
    - 언제나 하나 이상의 결정론적인 최적 정책이 존재한다.
    - 모든 상태에서 하나의 최적 행동을 선택한다.
    - 즉, 가장 높은 리턴값을 가지는 하나의 행동의 확률이 1이고, 나머지 행동의 확률은 0이 된다.
    - Bellman Optimality Equation for $v_*$
  - $q_*$ : $q_{\pi_*} (s,a) = \underset{\pi}{\max} q_\pi (s,a)$ for all $s \in S$ and $a \in A$
  - $q_* (s,a) = \sum_{s’} \sum_r p(s’,r|s,a) [r+ \gamma \sum_{a’} \pi_{*} (a’|s’) q_* (s’,a’)]$
  - $q_* (s,a) = \sum_{s’} \sum_r p(s’,r|s,a) [r+ \gamma \underset{a’}{\max} q_{*} (s’,a’)]$
    - Bellman Optimality Equation for $q_*$
  - 위의 벨만 최적 방정식으로는 $v_{*}$ 를 풀어낼 수가 없는데, $\max$ 함수가 선형이 아니기 때문이다.
  - $\pi_{*}$ 값을 이용해 같은 방식으로 $v_{*}$ 를 구할 수도 없는데, $\pi_{*}$ 값을 모를 뿐더러, $\pi_{*}$ 를 구하는 것 자체가 목적이기 때문이다.
Using Optimal Value Functions to Get Optimal Policies
- 학습목표
  - 최적가치함수 (Optimal value function) 과 최적정책 (Optimal Policy) 의 연관성 이해
  - 주어진 MDP 에 대한 최적가치함수 (Optimal value function) 확인
- Optimal Policy 와 Optimal Value Function 의 관계
  - $p$ 와 $v_*$ 에 접근할 수 있다고 가정
  - 한 단계 진행 시의 값을 구할 수 있을 경우, $A_2$ 가 최대의 값을 가짐을 알 수 있다.
  - $\max$ 는 최대의 값을, $\arg\max$ 는 박스가 최대의 값을 가지게 하는 $a$ 값 자체를 나타낸다.
  - $p$ 와 $v_*$ 에 접근할 수 있을 때 계산법
  - $p$ 는 확률적 요소여서 알기 힘들지만, 충분히 많이 접근하면 위의 수식에 따라 최적 정책을 구할 수 있게 된다.
  - $q_*$ 를 알 경우 최적 정책을 구하기 훨씬 쉬워지는데, 다음 스텝의 계산을 할 필요가 없기 때문이다.
Week 3 Summary
Chapter Summary (RLbook2018 Pages 68-69)
- Reinforcement learning : Learning from interaction how to behave in order to achieve a goal.
  - interaction : 에이전트와 환경이 이산 스텝의 시퀀스에 따라 상호작용하는 것
  - actions : 에이전트에 의해 이루어지는 선택
  - states : 선택에 영향을 주는 요소
  - rewards : 선택을 평가하는 요소
  - 모든 agent 내의 요소들은 완전히 알고 있고, 에이전트에 의해 컨트롤된다.
  - 모든 agent 밖의 요소는 불완전하게 제어되며, 완전히 알고 있는 것일수도, 그렇지 않은 것일수도 있다.
  - policy : 에이전트가 상태값을 인자로 한 함수를 통해 행동을 선택하는 확률적 규칙
  - agent 의 목적 : 전체 시간 동안 받을 수 있는 보상을 최대화 하는 것
- Markov Decision Process (MDP)
  - 위의 강화학습 설정이, 잘 정의된 전환 확률로 공식화되면 Markov Decision Process (MDP) 로 정의됨
  - 유한 MDP : 유한한 상태, 행동 및 보상 세트가 있는 MDP
  - 강화학습 이론의 대부분은 유한 MDP 로 제한하지만, 방법과 아이디어는 더 일반적으로 적용됨.
- return : 미래의 보상에 대한 함수로 agent 가 최대화 하려는 기대값
  - 작업의 특성과 지연된 보상의 할인 정도에 따라 다른 정의를 가질 수 있음
  - 할인이 적용되지 않은 return 식은 episodic tasks 에 맞는 방식
    - episodic tasks : 상호작용이 에피소드에 따라 자연스럽게 중지되는 형태
  - 할인이 적용된 return 식은 continuing tasks 에 맞는 방식
    - continuing tasks : 상호작용이 자연스럽게 중단되지 않고 제한 없이 계속 이어지는 형태
- value functions and optimal value functions
  - 정책의 가치함수는 에이전트가 해당 정책을 사용하는 경우, 각 상태 혹은 상태-행동 쌍과 그에 예상되는 수익을 할당함
  - 최적 정책의 가치함수는 각 상태 혹은 상태-행동 쌍에 모든 정책 중 달성할 수 있는 최대의 기대 수익을 할당함
  - 최적 가치함수를 사용하는 정책을 최적 정책이라 한다.
    - 최적 정책은 하나이거나 하나 이상일 수 있다. (예: 50 : 50 의 확률론적 최적 정책)
    - 최적 가치 함수와 관련하여 탐욕적인 모든 정책은 최적 정책임.
- Bellman optimality equations
  - 최적 가치 함수을 만족하는 특별한 일관성 조건
  - 이론적으로 최적 가치 함수를 풀 수 있는 방정식
  - 최적 정책을 상대적으로 쉽게 결정할 수 있음
- 강화학습은 주어진 조건에 따라 다양한 방식으로 제기될 수 있음
  - 에이전트의 지식
    - 환경의 역학 (역학 함수 $p$ 의 4개의 인자) 을 아는 경우와 모르는 경우
  - 계산 퍼포먼스 및 메모리 이슈
    - 테이블 방식의 접근을 할지, 근사함수를 사용할 지에 대한 사항
- 강화학습 문제는 최적 솔루션을 찾는 것 보다, 어떻게 근사해야 할지에 더 집중하는 것이 바람직하다.

Bluesplatter

Prediction and Control with Function Approximation - 03. Week 3. Control with Approximation

관련 자료 (RLbook Pages 243-246, 249-252)

Chap.10 On-policy Control with Approximation

10.1 Episodic Semi-gradient Control

10.3 Average Reward: A New Problem Setting for Continuing Tasks

Episodic Sarsa with Function Approximation

Episodic Sarsa with Function Approximation

Episodic Sarsa in Mountain Car

Expected Sarsa with Function Approximation

Exploration under Function Approximation

Exploration under Function Approximation

Average Reward

Average Reward : A New Way of Formulating Control Problems

Satinder Singh - On the Optimal Reward Problem (Where do Rewards Come From?)

Prediction and Control with Function Approximation - 02. Week 2. Constructing Features for Prediction

관련 자료 (RLbook Pages 204-210, 215-222, 223-228)

Linear Methods

Feature Construction for Linear Methods

Feature Construction for Linear Methods

Coarse coding

Generalization Properties of Coarse Coding

Tile Coding

Using Tile Coding in TD

Neural Networks

What is a Neural Network?

Non-linear Approximation with Neural Networks

Deep Neural Networks

Training Neural Networks

Gradient Descent for Training Neural Networks

Optimization Strategies for NNs

David Silver on Deep Learning + RL = AI?

강의 개요 (과정 로드맵)

관련 자료 (RLbook Pages 197-209)

Estimating Value Functions as Supervised Learning

Moving to Parameterized Functions

Generalization and Discrimination

Framing Value Estimation as Supervised Learning

The Objective for On-policy Prediction

The Value Error Objective

Introducing Gradient Descent

Gradient Monte for Policy Evaluation

State Aggregation with Monte Carlo

The Objective for TD

Semi-Gradient TD for Policy Evaluation

Comparing TD and Monte Carlo with State Aggregation

Doina Precup : Building Knowledge for AI Agents with Reinforcement Learning

Linear TD

The Linear TD Update

The True Objective for TD

Prediction and Control with Function Approximation - 01. Week 1. On-policy Prediction with Approximation

강의 개요 (과정 로드맵)

관련 자료 (RLbook Pages 197-209)

Estimating Value Functions as Supervised Learning

Moving to Parameterized Functions

Generalization and Discrimination

Framing Value Estimation as Supervised Learning

The Objective for On-policy Prediction

The Value Error Objective

Introducing Gradient Descent

Gradient Monte for Policy Evaluation

State Aggregation with Monte Carlo

The Objective for TD

Semi-Gradient TD for Policy Evaluation

Comparing TD and Monte Carlo with State Aggregation

Doina Precup : Building Knowledge for AI Agents with Reinforcement Learning

Linear TD

The Linear TD Update

The True Objective for TD

Sample-based Learning Methods - 04. Week 4. Planning, Learning & Acting

관련 자료 (RLbook Pages 159-166)

What is a model?

Planning

Dyna as formalism for planning

Dealing with inaccurate models

Sample-based Learning Methods - 03. Week 3. Temporal Difference Learning Methods for Control

관련 자료 (RLbook Pages 129-134)

TD for Control

Off-policy TD Control : Q-learning

Expected Sarsa