Arx
ARX 모델에서 두 벡터를 내적의 의미 ARX 모델에서 두 벡터의 내적(Scalar Product)은, 기하학적인 방향을 따지는 것이 아니라 → 과거 데이터($\varphi$)에 각각의 중요도($\theta$)를 곱해 하나의 깔끔한 미래 예측값을 만들어내는 계산법
궁극적인 목표는 이 비용 함수 $V_N$을 가장 작게(최소로) 만드는 최적의 파라미터 $\hat{\theta}_N$을 찾는 것
1. 오차(Error)정의
시간 $t=1$부터 $N$까지 수집된 측정 데이터 세트 $Z_N = {u(1), y(1), \dots, u(N), y(N)}$ 에 대해서 모델이 예측한 값 $y(t|\theta) = \varphi^T(t)\theta$가 실제 측정된 출력값 $y(t)$와 최대한 비슷해지는 값을 알고 싶음. 이 때, 예측값과 실제값의 차이(오차)를 수식으로 정의한 비용 함수(Cost Function) $V_N$
\[V_N(\theta, Z_N) = \frac{1}{N} \sum_{t=1}^{N} (y(t) - \varphi^T(t)\theta)^2\]왜 하필 제곱인가
- 오차가 $+2$도 날 수 있고 $-2$도 날 수 있는데, 그냥 더하면 $0$이 되어 오차가 없는 것처럼 보임.
- 제곱을 하면 모든 오차가 양수가 되어 서로 상쇄되는 것을 막고, 오차가 클수록 더 큰 벌점을 주어 모델이 큰 실수를 피할 수 있음.
2. 최솟값 찾기
2차 함수에서 오차가 가장 작은 맨 밑바닥(최솟값)의 특징은 바로 기울기(미분값)가 0이 되는 지점. 비용 함수를 $\theta$에 대해 미분하고, 그 값이 0이 되도록 방정식을 세움
\[\frac{d}{d\theta} V_N(\theta, Z_N) = -\frac{2}{N} \sum_{t=1}^{N} \varphi(t)(y(t) - \varphi^T(t)\theta) = 0\]3. 정규 방정식(Normal Equations)과 최종 해답
미분한 식이 0이 된다는 성질을 이용하여, 식을 분배법칙으로
\(\sum_{t=1}^{N} \varphi(t)y(t) = \sum_{t=1}^{N} \varphi(t)\varphi^T(t)\theta\) 좌변에 구하고 싶은 $\theta$만 남겨 역행렬(역수 개념, $^{-1}$)을 양변에 곱해줌.
\[\hat{\theta}_N = \left[ \sum_{t=1}^{N} \varphi(t)\varphi^T(t) \right]^{-1} \sum_{t=1}^{N} \varphi(t)y(t)\]This line appears after every note.
Notes mentioning this note
There are no notes linking to this note.