손실함수 vs 비용함수
손실함수 (Loss Function)
[!info] 정의 단일 학습 샘플에 대한 예측 오차
수식 \(L(y_i, \hat{y}_i)\)
예시: 제곱 오차 손실
\(L(y_i, \hat{y}_i) = (y_i - \hat{y}_i)^2\)
여기서:
- $y_i$: i번째 샘플의 실제값
- $\hat{y}_i = f(x_i)$: i번째 샘플의 예측값
비용함수 (Cost Function)
[!info] 정의 전체 학습 데이터셋에 대한 손실함수의 평균 모델의 전체 성능을 정량화
수식 \(J(\theta) = \frac{1}{m}\sum_{i=1}^{m}L(y_i, \hat{y}_i)\)
여기서:
- $m$: 전체 학습 샘플 개수
- $\theta$: 모델 파라미터 (예: $\beta_0, \beta_1$)
예시: 평균 제곱 오차 (MSE)
\(J(\theta) = \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2\)
목적
[!note] 손실함수
- 개별 샘플의 오차 측정
- 각 데이터 포인트별 예측 성능 파악
[!note] 비용함수
- 전체 모델 성능 측정
- 최적화 대상 (경사하강법으로 최소화)
- $\min_{\theta} J(\theta)$
선형회귀에서의 적용
선형회귀
목적
- X변수와 Y변수 사이의 관계를 수치로 설명
- 미래의 반응변수 (Y) 값을 예측 → 입력변수(X)와 출력변수(Y) 평균과의 관계를 설명하는 선형식 찾기
확률오차 가정
- (각 점에 대하여)오차항 i는 평균 ‘0’, 분산 $\sigma$^2인 정규분포 → $\epsilon$i~N(0, $\sigma$), i = 1, 2, …, n
- 잔차(Residual)와 확률오차
- 잔차 e 는 확률 오차 $\epsilon$가 실제로 구현된 값
선형회귀의 목적
모델 \(f(X) = \beta_0 + \beta_1X_1\) → $\beta_0 ,\beta_1$ 라는 파라메터를 찾는 것.
손실함수 (i번째 샘플) \(L_i = (y_i - (\beta_0 + \beta_1x_i))^2\) → 어떤 파라미터가 “좋은지” 측정하는 척도로 모델의 예측값과 실제값 간의 차이를 정량화
비용함수 (MSE) \(J(\beta_0, \beta_1) = \frac{1}{m}\sum_{i=1}^{m}(y_i - (\beta_0 + \beta_1x_i))^2\) → 비용함수를 최소화 시키는 $\beta_0$ , $\beta_1$ 을 구하는 것
최적화 \(\frac{\partial J}{\partial \beta_0} = 0, \quad \frac{\partial J}{\partial \beta_1} = 0\)
→ 기울기 값이 0이 되는 지점.
파라미터에 대한 점추정 (Point Estimator)
\(Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad \varepsilon_i \sim N(0, \sigma^2), \quad i = 1,2,...,n\) $\beta_0$에 대한 점추정 식: \(\hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{X}\) $\beta_1$에 대한 점추정 식: \(\hat{\beta_1} = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2}\) $\sigma^2$에 대한 점추정 식: \(\hat{\sigma^2} = \left(\frac{1}{n-2}\right)\sum_{i=1}^{n}e_i^2\)
최소제곱법 추정량의 성질
Gauss-Markov 정리: 최소제곱법(OLS) 추정량 → 분산이 작다 = 추정량이 더 안정적/정확하다
(1) unbiased estimator \(E(\hat{\beta_0}) = \beta_0 , E(\hat{\beta_1}) = \beta_1\)
기댓값 $E()$ 는 샘플링을 무한히 반복했을 때의 평균 → 이 평균이 진짜 모수 $\beta_1$과 같다 = 불편추정량
(2) smallest variance estimator
\(V(a\hat{\beta_0}) \leq V(b\tilde{\theta}), \quad V(a\hat{\beta_1}) \leq V(b\tilde{\theta})\) $\tilde{\theta}$ : any other unbiased estimators → 어떤 선형 결합을 해도, OLS 추정량의 분산이 항상 다른 불편추정량보다 작거나 같음
파라미터에 대한 구간추정
- $\theta$ 에 대한 구간추정 기본 형태 → 점 하나가 아니라 범위로 추정 : 이 범위 안에 있을 거다!
-
장점: 불확실성을 표현, 얼마나 확신하는지 알 수 있음 \(\hat{\theta} - 상수값{\cdot}표준편차(\hat{\theta}) \leq \theta \leq \hat{\theta} +상수값{\cdot}표준편차(\hat{\theta})\) $\hat{\theta}$ : point estimators of $\theta$
- $\hat{\theta}$ : 중심값 (점추정값)
- 표준편차: 추정량이 얼마나 흔들리는지 (분산의 제곱근)
-
상수값: 신뢰수준에 따라 결정 (95% → 1.96, 99% → 2.58)
기울기에 대한 신뢰구간 n = 관측치 수
구조: 중심값 ± (t값 × 표준편차) $\beta_1$에 대한 100(1-α)% 신뢰구간, n=관측치 수
\[\hat{\beta_1} - t_{\alpha/2,n-2} \cdot sd\{\hat{\beta_1}\} \leq \beta_1 \leq \hat{\beta_1} + t_{\alpha/2,n-2} \cdot sd\{\hat{\beta_1}\}\]① $\hat{\beta_1}$: $\beta_1$의 point estimator OLS로 구한 기울기 (중심) \(\hat{\beta_1} = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2}\)
② $t_{\alpha/2,n-2}$: 유의수준 1-α하에서 자유도가 n-2인 t 분포의 값 신뢰수준에 따른 배수 (95% → 약 2, 데이터 많으면 1.96에 수렴)
③ $sd{\hat{\beta_1}}$: $\hat{\beta_1}$의 표준편차 ${\hat{\sigma}^2}$크면 → 오차 커서 불확실 $\sum(X_i - \bar{X})^2$크면 → X 분산 커서 더 확실
\[sd\{\hat{\beta_1}\} = \sqrt{\frac{\hat{\sigma}^2}{\sum_{i=1}^{n}(X_i - \bar{X})^2}}\]→ 데이터 많고(n↑), 오차 작고(σ²↓), X 분산 크면(분모↑) → 구간이 좁아짐 (더 정확)
기울기에 대한 가설 검정
목적: 알려지지 않은 파라미터에 대한 가설을 세우고 이를 검정
일종 오류 α 하에서 기울기가 0인지 아닌지 검정
가설 설정
\(H_0: \beta_1 = 0 \quad \text{vs.} \quad H_1: \beta_1 \neq 0\) → X와 Y 사이에 진짜 관계가 있나?
- $H_0:{\beta_1}=0$: X가 Y에 영향 없음 (관계 없다)
- $H_1:{\beta_1}=0$: X가 Y에 영향 있음 (관계 있다)
검정통계량
\(t^* = \frac{\hat{\beta_1} - 0}{sd\{\hat{\beta_1}\}}\) → 귀무가설 $H_0: \beta_1 = 0$이 참이라고 가정했을 때, 관찰된 ${\hat{\beta_1}}$(데이터로부터 구한 점추정값)이 얼마나 극단적인가?
- 귀무가설 가정: 진짜 기울기는 0이다$(\beta_1 = 0)$
- 실제 관찰: 그런데 데이터로 계산하니 ${\hat{\beta_1}} = 3.5$가 나옴
- 표준화: 이 차이(3.5 - 0)를 표준편차로 나눔 → $t^*$
- 판단: $∣t^∗∣$가 너무 크면 → “귀무가설 하에서는 이런 값이 나올 가능성이 거의 없다”
→ $H_0$ 기각
기각 규칙
\(|t^*| > t_{\alpha/2,n-2}, 기각 H_0\) → 기울기가 0에서 멀리 떨어짐 → $H0$ 기각
P-value
\(\text{P-value} = 2 \cdot P(T > |t^*|) \quad \text{where } T \sim t(n-2)\) p-value < 0.05면 관계가 유의미하다
선형회귀 모델 예제
회귀식 \(\text{Appraised Value (집가격)} = -29.6 + 0.0779 \times \text{Area (집크기)}\)
회귀 출력 결과
| Predictor | Coef | SE Coef | T | P |
|---|---|---|---|---|
| Constant | -29.59 | 10.66 | -2.78 | 0.016 |
| Area | 0.077939 | 0.004370 | 17.83 | 0.000 |
S = 16.9065
각 항목 해설
1. What are the parameters?
파라미터 (모수): $\beta_0$ (절편), $\beta_1$ (기울기)
- 모집단에서의 진짜 값 (알 수 없음)
2. What are the point estimates of the parameters? 파라메터에 대한 점추정값은?
최소 제곱법을 통해서 구한 점추정(량)값 (Coef):
- $\hat{\beta_0} = -29.59$ (Constant의 Coef)
- $\hat{\beta_1} = 0.077939$ (Area의 Coef)
- 의미: 집 면적 1 단위 증가 → 집값 0.078 단위 증가
estimator : 특정 함수
estimates : 함수를 통해 나온 값
3. What is the standard deviation (standard error) of the parameter?
표준오차 (SE Coef): 추정량의 표준편차
- $sd{\hat{\beta_0}} = 10.66$
- $sd{\hat{\beta_1}} = 0.004370$
- 의미: 샘플링 반복 시 추정값이 얼마나 흔들리는지
- 추정 불확실성을 나타내는 지표이고, 이 값이 신뢰구간 계산에도 쓰임.
- 표준오차는 추정량의 근본적인 속성 (얼마나 안정적인가)
- 신뢰구간과 가설검정은 이 속성을 활용한 응용
4. What is the T in the above table?
검정통계량 (T): $t^* = \frac{\hat{\beta} - 0}{SE}$
- Constant: $t^* = \frac{-29.59}{10.66} = -2.78$
- Area: $t^* = \frac{0.077939}{0.004370} = 17.83$
- 의미: 파라미터가 0인지 검정 ($H_0: \beta = 0$)
5. What is the P in the above table?
P-value: 귀무가설 하에서 이 정도 극단적인 결과가 나올 확률 면적 \(\text{P-value} = 2 \cdot P(T > |17.83|) \quad \text{where } T \sim t(n-2)\)
- Area: p = 0.000 → 매우 유의미 절편 \(\text{P-value} = 2 \cdot P(T > |-2.78|) \quad \text{where } T \sim t(n-2)\)
-
Constant: p = 0.016 → 유의미 (5% 수준)
- 의미:
- Area의 p ≈ 0 → “면적은 확실히 집값에 영향을 준다”
- Constant의 p = 0.016 → “절편도 통계적으로 유의미”
6. What is the S in the above table?
잔차 표준편차 (S): $\hat{\sigma} = 16.9065$
- 의미: 회귀선 주변 데이터 점들의 평균적 흩어짐 정도
- 실무: 예측 오차가 평균적으로 ±17 정도 모델 가정:
- ${\sigma^2}$: 진짜 오차의 표준편차 (모수, 알 수 없음)
- S = ${\sigma^2}$: 오차 표준편차의 점추정값 (데이터로 계산) 계산 방법: \(\hat{\sigma} = \sqrt{\frac{1}{n-2}\sum_{i=1}^{n}(Y_i - \hat{Y_i})^2} = S\) → 잔차들의 제곱 평균에 루트 = 흩어진 정도
“에러에 대한”의 의미
회귀모델에서 여러 분산이 있음:
- Y의 분산: 종속변수 자체의 흩어짐
- 에러의 분산: 회귀선으로부터의 흩어짐 $({\sigma^2})$
- 추정량의 분산: 예를 들어 $Var({\hat{\beta_1}})$
S는 2번을 의미: “회귀선 주변에서 데이터가 얼마나 흩어지는가”
정리
- $S$ = 잔차(에러)의 표준편차 ← 표에 나오는 값
- $S^2$ = 잔차(에러)의 분산 ← 제곱한 값
- 둘 다 “에러의 변동성”을 측정
결정계수 (Coefficient of Determination: R²)
제곱합 분해
SST (Total Sum of Squares): 총 변동 \(SST = \sum_{i=1}^{n}(Y_i - \bar{Y})^2\)
SSR (Regression Sum of Squares): 회귀로 설명되는 변동 \(SSR = \sum_{i=1}^{n}(\hat{Y_i} - \bar{Y})^2\)
SSE (Error Sum of Squares): 오차 변동 \(SSE = \sum_{i=1}^{n}(Y_i - \hat{Y_i})^2\)
관계식
\(SST = SSR + SSE\)
결정계수
\(R^2 = \frac{SSR}{SST}\)
극단값:
- $\frac{SSR}{SST} = 1$ → 완벽한 적합
-
$\frac{SSR}{SST} = 0$ → 회귀 설명력 없음
- $R^2$ 는 0과 1사이에 존재
- $R^2 =1$ 현재 가지고 있는 $X$ 변수로 $Y$ 를 100% 설명. 모든 관측치가 회귀직선 위에 있다.
- $R^2 = 0$ 현재 가지고 있는 $X$ 변수로 $Y$ 를 설명할 수 없다.
- 사용하고 있는 $X$ 변수가 $Y$ 변수의 분산을 얼마나 줄였는지 정도
- 단순히 $Y$의 평균값을 사용했을 때 대비 $X$정보를 사용함으로써 얻는 성능향상 정도
- 사용하고 있는 $X$변수의 품질
SST, SSR, SSE 의미
SST (Total Sum of Squares): 총 변동
- 의미: $Y$값이 평균에서 얼마나 흩어져 있는가
- 계산: 각 $Y$와 평균 $\bar{Y}$ 차이의 제곱합
- 직관: “전체 데이터의 변동성”
-
적용: 온도가 평균 온도(22.3°C)에서 얼마나 흩어져 있나?
일부 23.5°C, 일부 21.0°C → 큰 변동
—
SSR (Regression Sum of Squares): 회귀 설명 변동
- 의미: 회귀선이 설명하는 변동
- 계산: 예측값 $\hat{Y_i}$와 평균 $\bar{Y}$ 차이의 제곱합
- 직관: “모델이 잡아낸 패턴”
-
적용: 전력으로 설명되는 온도 변동
“전력 높으면 온도 높다”는 패턴을 모델이 잡아냄
—
SSE (Error Sum of Squares): 오차 변동
- 의미: 회귀선이 설명 못하는 변동 (잔차)
- 계산: 실제값 $Y_i$와 예측값 $\hat{Y_i}$ 차이의 제곱합
- 직관: “모델이 놓친 변동”
-
적용: 전력으로 설명 안 되는 온도 변동
센서 노이즈, 냉각 불균일 등
—
시각적 이해
Yi (실제값) │ ├─ (Yi - Ȳ) = SST 구성 요소 (총 변동) │ │ │ ├─ (Ŷi - Ȳ) = SSR 구성 요소 (회귀 설명) │ └─ (Yi - Ŷi) = SSE 구성 요소 (오차) │ Ȳ (평균)
잔차: $e_i = Y_i−\hat{Y_i} = 23.1−22.8=0.3°C$
[!tip] 문제 $R^2$는 유의하지 않은 변수가 추가되어도 항상 증가함
수정 결정계수
수정 결정계수 $R^2_adj$
- 앞에 특정 계수를 곱해줌으로써 (보정) 유의하지 않은 변수가 추가 될 경우 증가하지 않게 함
- 설명 변수가 서로 다른 회귀 모형의 설명력을 비교할 때 사용
\(R^2_adj\)
회귀 출력 결과 (다중회귀)
CIMS 적용: 온도 ~ 전력(X₁) + 습도(X₂)
| Variable | 추정치 | T | P-value | 해석 |
|---|---|---|---|---|
| (Constant) | 18.245 | 2.156 | .045 | 절편 (유의미) |
| 전력, $X_1$ | 0.048 | 1.854 | .106 | 약한 영향 (유의 X) |
| 습도, $X_2$ | 0.125 | 3.025 | .019 | 강한 영향 (유의 O) |
분산분석(ANOVA)
궁극적으로 가설검정을 행하는 용도
$SST = \sum_{i=1}^{n}(Y_i - \bar{Y_i})^2$ : $Y$의 총 변동량 $SSR = \sum_{i=1}^{n}(\hat{Y_i} - \bar{Y_i})^2$ : $X$변수에 의해 설명된 양 $SSE = \sum_{i=1}^{n}(Y_i - \hat{Y_i})^2$ : 에러에 의해 설명된 양
\(\frac{SSR}{SSE} > 1\)
- $X$ 변수에 의해 설명된 양 > 에러에 의해 설명된 양
- $X$ 변수가 $Y$설명(예측)에 유의미한 영향
- $X$변수의 계수 (기울기)가 $0$ 이 아님
\(0 \leq \frac{SSR}{SSE} \leq 1\)
- $X$ 변수에 의해 설명된 양 < 에러에 의해 설명된 양
- $X$ 변수가 $Y$설명(예측)에 영향을 미치지 못함
- $X$변수의 계수 (기울기)가 $0$
$SSR/SSE$ 자체가 아닌 F-통계량을 함께 봐야 하는 이유
- 얼마나 커야 큰 값인지? → F값은 상대적이므로 데이터 개수(n), 독립변수 개수(p)에 따라 다름
- 분포를 알면 통계적으로 판단할 수 있음 → 만약 F-통계량의 확률 분포를 안다면 F = 2.83이 이 분포에서 어느 위치인지 확인 가능, “극단적인 값인가?”를 판단하여 p-value 계산 → 통계적 의사결정가능
- 안타깝게도 직접적으로 분포를 정의할 수 없음
- SSR과 SSE는 독립적이지 않음 (SST = SSR + SSE 관계)
- 각각의 스케일이 다름 (자유도가 다름)
- 단순 비율로는 확률 분포 유도 불가
- 하지만 $SSR$과 $SSE$가 각각 카이제곱 분포 (파라미터:자유도)를 따름(정규분포 가정 하에서)
- $v_1 =p$
- $v_2 = n - p - 1$
- 직접 못 구하는 분포를
- 알려진 분포(χ²)를 이용해
- 간접적으로 유도!
F-통계량 기본 개념
$SSR$(회귀 설명): 모델이 잡아낸 변동 $SSE$ (오차): 모델이 못 잡은 변동 \(F= \frac{SSR/v1}{SSE/v2}\) $v1$ : $SSR$의 자유도 (독립변수 개수), 회귀선이 설명하는 “자유로운” 방향 1개 (기울기) $v2$ : $SSE$의 자유도 ($n-p$, $p=$독립변수 수 ), 오차가 “자유롭게 변할 수 있는” 개수 → 자유도당 평균으로 표준화해야 공정 비교가능
MS = Mean Square = 평균 제곱 \(F^*= \frac{SSR/1}{SSE/n-2}=\frac{MSR}{MSE}=\frac{회귀선이 설명하는 평균 변동}{설명못하는 평균 변동}\)
\(MSR = \frac{SSR}{v1} = \frac{SSR}{독립변수 개수}, MSE = \frac{SSE}{v2} = \frac{SSE}{n-p-1}\)
- MSR (Mean Square Regression): 회귀 평균 제곱 “회귀가 설명하는 평균적 변동”
- MSE (Mean Square Error): 오차 평균 제곱 “오차의 평균적 크기”
| 항목 | SSR/SSE | F-통계량 |
|---|---|---|
| 정의 | $\frac{SSR}{SSE}$ | $\frac{SSR/v1}{SSE/v2}$ |
| 값 | 1.414 | 2.83 |
| 분포 | ❓ 모름 | ✅ F(v₁, v₂) |
| 판단 | ❌ 불가 | ✅ 가능 |
| p-value | ❌ 계산 불가 | ✅ 계산 가능 |
| 표준화 | ❌ 없음 | ✅ 자유도 고려 |
CIMS 실전 예시
| 기호 | 이름 | 의미 | CIMS 예 |
|---|---|---|---|
| $Yi$ | 실제값 | 센서가 측정한 온도 | 23.1°C |
| $\bar{Y}$ | 평균값 | 모든 측정값의 평균 | 22.3°C |
| $\hat{Y_i}$ | 예측값 | 회귀선이 예측한 온도 | 22.8°C |
핵심차이 요약
| 구분 | 손실함수 | 비용함수 |
|---|---|---|
| 범위 | 단일 샘플 (i번째) | 전체 데이터셋 (m개) |
| 표기 | $L(y_i, \hat{y}_i)$ | $J(\theta) = \frac{1}{m}\sum L_i$ |
| 용도 | 개별 오차 측정 | 모델 최적화 목표 |
[!tip] 실무 팁 실무에서는 두 용어를 혼용하나, 개념적으로는 스케일의 차이를 이해하는 것이 중요
graph TD
A[전체 데이터셋<br/>m개 샘플] --> B[샘플 1]
A --> C[샘플 2]
A --> D[샘플 i]
A --> E[샘플 m]
B --> B1["손실함수 L₁<br/>(y₁ - ŷ₁)²"]
C --> C1["손실함수 L₂<br/>(y₂ - ŷ₂)²"]
D --> D1["손실함수 Lᵢ<br/>(yᵢ - ŷᵢ)²"]
E --> E1["손실함수 Lₘ<br/>(yₘ - ŷₘ)²"]
B1 --> F["비용함수 J(θ)<br/>= 1/m × Σ Lᵢ"]
C1 --> F
D1 --> F
E1 --> F
F --> G[경사하강법<br/>최적화]
G --> H[최적 파라미터 θ*]
style B1 fill:#e1f5ff
style C1 fill:#e1f5ff
style D1 fill:#e1f5ff
style E1 fill:#e1f5ff
style F fill:#ffe1e1
style H fill:#e1ffe1
모델별 수식과 최적화 알고리즘
1. 다중선형회귀 모델 (Multiple Linear Regression)
실제 모델 \(f(X) = w_0 + w_1X_1 + w_2X_2\)
추정 모델 (Least square estimation algorithm) \(\hat{f}(X) = \hat{w}_0 + \hat{w}_1X_1 + \hat{w}_2X_2\)
[!note] 최적화 알고리즘 Least Square Estimation Algorithm (최소제곱법)
2. 로지스틱회귀 모델 (Logistic Regression)
실제 모델 \(f(X) = \frac{1}{1 + e^{-(w_0 + w_1X_1 + w_2X_2)}}\)
추정 모델 (Conjugate gradient algorithm) \(\hat{f}(X) = \frac{1}{1 + e^{-(\hat{w}_0 + \hat{w}_1X_1 + \hat{w}_2X_2)}}\)
[!note] 최적화 알고리즘 Conjugate Gradient Algorithm (켤레 경사 알고리즘)
3. 뉴럴네트워크 모델 (Neural Network)
실제 모델 \(f(X) = \frac{1}{1 + \exp\left(-\left(w_0 + w_1\left(\frac{1}{1+e^{-(w_{01}+w_{11}X_1+w_{21}X_2)}}\right) + w_2\left(\frac{1}{1+e^{-(w_{02}+w_{12}X_1+w_{22}X_2)}}\right)\right)\right)}\)
추정 모델 (Backpropagation algorithm) \(\hat{f}(X) = \frac{1}{1 + \exp\left(-\left(\hat{w}_0 + \hat{w}_1\left(\frac{1}{1+e^{-(\hat{w}_{01}+\hat{w}_{11}X_1+\hat{w}_{21}X_2)}}\right) + \hat{w}_2\left(\frac{1}{1+e^{-(\hat{w}_{02}+\hat{w}_{12}X_1+\hat{w}_{22}X_2)}}\right)\right)\right)}\)
[!note] 최적화 알고리즘 Backpropagation Algorithm (역전파 알고리즘)
요약 비교표
| 모델 | 복잡도 | 최적화 알고리즘 | 특징 |
|---|---|---|---|
| 다중선형회귀 | 낮음 | Least Square | 선형 관계, 해석 용이 |
| 로지스틱회귀 | 중간 | Conjugate Gradient | 분류 문제, 시그모이드 활성화 |
| 뉴럴네트워크 | 높음 | Backpropagation | 은닉층 포함, 비선형 모델링 |
뉴럴네트워크 구조 설명
graph LR
X1[X₁] --> H1[Hidden 1]
X2[X₂] --> H1
X1 --> H2[Hidden 2]
X2 --> H2
H1 --> O[Output]
H2 --> O
style H1 fill:#e1f5ff
style H2 fill:#e1f5ff
style O fill:#ffe1e1
은닉층 1 \(h_1 = \frac{1}{1+e^{-(w_{01}+w_{11}X_1+w_{21}X_2)}}\)
은닉층 2 \(h_2 = \frac{1}{1+e^{-(w_{02}+w_{12}X_1+w_{22}X_2)}}\)
출력층 \(f(X) = \frac{1}{1 + e^{-(w_0 + w_1h_1 + w_2h_2)}}\)
궁금한 점 선형회귀 모델에서 확률오차의 가정이 맞다고 가정하는 이유는 뭘까?
This line appears after every note.
Notes mentioning this note
There are no notes linking to this note.