손실함수 vs 비용함수

Last updated on February 21, 2026

손실함수 (Loss Function)

[!info] 정의 단일 학습 샘플에 대한 예측 오차

수식 $L(y_i, \hat{y}_i)$

예시: 제곱 오차 손실

$L(y_i, \hat{y}_i) = (y_i - \hat{y}_i)^2$

여기서:

$y_i$: i번째 샘플의 실제값
$\hat{y}_i = f(x_i)$: i번째 샘플의 예측값

비용함수 (Cost Function)

[!info] 정의 전체 학습 데이터셋에 대한 손실함수의 평균 모델의 전체 성능을 정량화

수식 $J(\theta) = \frac{1}{m}\sum_{i=1}^{m}L(y_i, \hat{y}_i)$

여기서:

$m$: 전체 학습 샘플 개수
$\theta$: 모델 파라미터 (예: $\beta_0, \beta_1$)

예시: 평균 제곱 오차 (MSE)

$J(\theta) = \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2$

목적

[!note] 손실함수

개별 샘플의 오차 측정

각 데이터 포인트별 예측 성능 파악

[!note] 비용함수

전체 모델 성능 측정

최적화 대상 (경사하강법으로 최소화)

$\min_{\theta} J(\theta)$

선형회귀에서의 적용

선형회귀

목적

X변수와 Y변수 사이의 관계를 수치로 설명
미래의 반응변수 (Y) 값을 예측 → 입력변수(X)와 출력변수(Y) 평균과의 관계를 설명하는 선형식 찾기

확률오차 가정

(각 점에 대하여)오차항 i는 평균 ‘0’, 분산 $\sigma$^2인 정규분포 → $\epsilon$i~N(0, $\sigma$), i = 1, 2, …, n
잔차(Residual)와 확률오차
잔차 e 는 확률 오차 $\epsilon$가 실제로 구현된 값

선형회귀의 목적

모델 $f(X) = \beta_0 + \beta_1X_1$ → $\beta_0 ,\beta_1$ 라는 파라메터를 찾는 것.

손실함수 (i번째 샘플) $L_i = (y_i - (\beta_0 + \beta_1x_i))^2$ → 어떤 파라미터가 “좋은지” 측정하는 척도로 모델의 예측값과 실제값 간의 차이를 정량화

비용함수 (MSE) $J(\beta_0, \beta_1) = \frac{1}{m}\sum_{i=1}^{m}(y_i - (\beta_0 + \beta_1x_i))^2$ → 비용함수를 최소화 시키는 $\beta_0$ , $\beta_1$ 을 구하는 것

최적화 $\frac{\partial J}{\partial \beta_0} = 0, \quad \frac{\partial J}{\partial \beta_1} = 0$

→ 기울기 값이 0이 되는 지점.

파라미터에 대한 점추정 (Point Estimator)

$Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad \varepsilon_i \sim N(0, \sigma^2), \quad i = 1,2,...,n$ $\beta_0$에 대한 점추정 식: $\hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{X}$ $\beta_1$에 대한 점추정 식: $\hat{\beta_1} = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2}$ $\sigma^2$에 대한 점추정 식: $\hat{\sigma^2} = \left(\frac{1}{n-2}\right)\sum_{i=1}^{n}e_i^2$

최소제곱법 추정량의 성질

Gauss-Markov 정리: 최소제곱법(OLS) 추정량 → 분산이 작다 = 추정량이 더 안정적/정확하다

(1) unbiased estimator $E(\hat{\beta_0}) = \beta_0 , E(\hat{\beta_1}) = \beta_1$

기댓값 $E()$ 는 샘플링을 무한히 반복했을 때의 평균 → 이 평균이 진짜 모수 $\beta_1$과 같다 = 불편추정량

(2) smallest variance estimator

$V(a\hat{\beta_0}) \leq V(b\tilde{\theta}), \quad V(a\hat{\beta_1}) \leq V(b\tilde{\theta})$ $\tilde{\theta}$ : any other unbiased estimators → 어떤 선형 결합을 해도, OLS 추정량의 분산이 항상 다른 불편추정량보다 작거나 같음

파라미터에 대한 구간추정

$\theta$ 에 대한 구간추정 기본 형태 → 점 하나가 아니라 범위로 추정 : 이 범위 안에 있을 거다!
장점: 불확실성을 표현, 얼마나 확신하는지 알 수 있음 $\hat{\theta} - 상수값{\cdot}표준편차(\hat{\theta}) \leq \theta \leq \hat{\theta} +상수값{\cdot}표준편차(\hat{\theta})$ $\hat{\theta}$ : point estimators of $\theta$
$\hat{\theta}$ : 중심값 (점추정값)
표준편차: 추정량이 얼마나 흔들리는지 (분산의 제곱근)
상수값: 신뢰수준에 따라 결정 (95% → 1.96, 99% → 2.58)
기울기에 대한 신뢰구간 n = 관측치 수

구조: 중심값 ± (t값 × 표준편차) $\beta_1$에 대한 100(1-α)% 신뢰구간, n=관측치 수

\[\hat{\beta_1} - t_{\alpha/2,n-2} \cdot sd\{\hat{\beta_1}\} \leq \beta_1 \leq \hat{\beta_1} + t_{\alpha/2,n-2} \cdot sd\{\hat{\beta_1}\}\]

① $\hat{\beta_1}$: $\beta_1$의 point estimator OLS로 구한 기울기 (중심) $\hat{\beta_1} = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2}$

② $t_{\alpha/2,n-2}$: 유의수준 1-α하에서 자유도가 n-2인 t 분포의 값 신뢰수준에 따른 배수 (95% → 약 2, 데이터 많으면 1.96에 수렴)

③ $sd{\hat{\beta_1}}$: $\hat{\beta_1}$의 표준편차 ${\hat{\sigma}^2}$크면 → 오차 커서 불확실 $\sum(X_i - \bar{X})^2$크면 → X 분산 커서 더 확실

\[sd\{\hat{\beta_1}\} = \sqrt{\frac{\hat{\sigma}^2}{\sum_{i=1}^{n}(X_i - \bar{X})^2}}\]

→ 데이터 많고(n↑), 오차 작고(σ²↓), X 분산 크면(분모↑) → 구간이 좁아짐 (더 정확)

기울기에 대한 가설 검정

목적: 알려지지 않은 파라미터에 대한 가설을 세우고 이를 검정

일종 오류 α 하에서 기울기가 0인지 아닌지 검정

가설 설정

$H_0: \beta_1 = 0 \quad \text{vs.} \quad H_1: \beta_1 \neq 0$ → X와 Y 사이에 진짜 관계가 있나?

$H_0:{\beta_1}=0$: X가 Y에 영향 없음 (관계 없다)
$H_1:{\beta_1}=0$: X가 Y에 영향 있음 (관계 있다)
검정통계량

$t^* = \frac{\hat{\beta_1} - 0}{sd\{\hat{\beta_1}\}}$ → 귀무가설 $H_0: \beta_1 = 0$이 참이라고 가정했을 때, 관찰된 ${\hat{\beta_1}}$(데이터로부터 구한 점추정값)이 얼마나 극단적인가?

귀무가설 가정: 진짜 기울기는 0이다$(\beta_1 = 0)$
실제 관찰: 그런데 데이터로 계산하니 ${\hat{\beta_1}} = 3.5$가 나옴
표준화: 이 차이(3.5 - 0)를 표준편차로 나눔 → $t^*$
판단: $∣t^∗∣$가 너무 크면 → “귀무가설 하에서는 이런 값이 나올 가능성이 거의 없다” → $H_0$ 기각
기각 규칙

$|t^*| > t_{\alpha/2,n-2}, 기각 H_0$ → 기울기가 0에서 멀리 떨어짐 → $H0$ 기각

P-value

$\text{P-value} = 2 \cdot P(T > |t^*|) \quad \text{where } T \sim t(n-2)$ p-value < 0.05면 관계가 유의미하다

선형회귀 모델 예제

회귀식 $\text{Appraised Value (집가격)} = -29.6 + 0.0779 \times \text{Area (집크기)}$

회귀 출력 결과

Predictor	Coef	SE Coef	T	P
Constant	-29.59	10.66	-2.78	0.016
Area	0.077939	0.004370	17.83	0.000

S = 16.9065

각 항목 해설

1. What are the parameters?

파라미터 (모수): $\beta_0$ (절편), $\beta_1$ (기울기)

모집단에서의 진짜 값 (알 수 없음)

2. What are the point estimates of the parameters? 파라메터에 대한 점추정값은?

최소 제곱법을 통해서 구한 점추정(량)값 (Coef):

$\hat{\beta_0} = -29.59$ (Constant의 Coef)
$\hat{\beta_1} = 0.077939$ (Area의 Coef)
의미: 집 면적 1 단위 증가 → 집값 0.078 단위 증가 estimator : 특정 함수 estimates : 함수를 통해 나온 값
3. What is the standard deviation (standard error) of the parameter?

표준오차 (SE Coef): 추정량의 표준편차
$sd{\hat{\beta_0}} = 10.66$
$sd{\hat{\beta_1}} = 0.004370$
의미: 샘플링 반복 시 추정값이 얼마나 흔들리는지
추정 불확실성을 나타내는 지표이고, 이 값이 신뢰구간 계산에도 쓰임.
- 표준오차는 추정량의 근본적인 속성 (얼마나 안정적인가)
- 신뢰구간과 가설검정은 이 속성을 활용한 응용

4. What is the T in the above table?

검정통계량 (T): $t^* = \frac{\hat{\beta} - 0}{SE}$

Constant: $t^* = \frac{-29.59}{10.66} = -2.78$
Area: $t^* = \frac{0.077939}{0.004370} = 17.83$
의미: 파라미터가 0인지 검정 ($H_0: \beta = 0$)

5. What is the P in the above table?

P-value: 귀무가설 하에서 이 정도 극단적인 결과가 나올 확률 면적 $\text{P-value} = 2 \cdot P(T > |17.83|) \quad \text{where } T \sim t(n-2)$

Area: p = 0.000 → 매우 유의미 절편 $\text{P-value} = 2 \cdot P(T > |-2.78|) \quad \text{where } T \sim t(n-2)$
Constant: p = 0.016 → 유의미 (5% 수준)
의미:
- Area의 p ≈ 0 → “면적은 확실히 집값에 영향을 준다”
- Constant의 p = 0.016 → “절편도 통계적으로 유의미”

6. What is the S in the above table?

잔차 표준편차 (S): $\hat{\sigma} = 16.9065$

의미: 회귀선 주변 데이터 점들의 평균적 흩어짐 정도
실무: 예측 오차가 평균적으로 ±17 정도 모델 가정:

\[Yi={\beta_0}+{\beta_1}Xi+εi, εi∼N(0,{\sigma^2})\]

${\sigma^2}$: 진짜 오차의 표준편차 (모수, 알 수 없음)
S = ${\sigma^2}$: 오차 표준편차의 점추정값 (데이터로 계산) 계산 방법: $\hat{\sigma} = \sqrt{\frac{1}{n-2}\sum_{i=1}^{n}(Y_i - \hat{Y_i})^2} = S$ → 잔차들의 제곱 평균에 루트 = 흩어진 정도

“에러에 대한”의 의미

회귀모델에서 여러 분산이 있음:

Y의 분산: 종속변수 자체의 흩어짐
에러의 분산: 회귀선으로부터의 흩어짐 $({\sigma^2})$
추정량의 분산: 예를 들어 $Var({\hat{\beta_1}})$

S는 2번을 의미: “회귀선 주변에서 데이터가 얼마나 흩어지는가”

정리

$S$ = 잔차(에러)의 표준편차 ← 표에 나오는 값
$S^2$ = 잔차(에러)의 분산 ← 제곱한 값
둘 다 “에러의 변동성”을 측정

결정계수 (Coefficient of Determination: R²)

제곱합 분해

SST (Total Sum of Squares): 총 변동 $SST = \sum_{i=1}^{n}(Y_i - \bar{Y})^2$

SSR (Regression Sum of Squares): 회귀로 설명되는 변동 $SSR = \sum_{i=1}^{n}(\hat{Y_i} - \bar{Y})^2$

SSE (Error Sum of Squares): 오차 변동 $SSE = \sum_{i=1}^{n}(Y_i - \hat{Y_i})^2$

관계식

$SST = SSR + SSE$

결정계수

$R^2 = \frac{SSR}{SST}$

극단값:

$\frac{SSR}{SST} = 1$ → 완벽한 적합
$\frac{SSR}{SST} = 0$ → 회귀 설명력 없음
$R^2$ 는 0과 1사이에 존재
$R^2 =1$ 현재 가지고 있는 $X$ 변수로 $Y$ 를 100% 설명. 모든 관측치가 회귀직선 위에 있다.
$R^2 = 0$ 현재 가지고 있는 $X$ 변수로 $Y$ 를 설명할 수 없다.
사용하고 있는 $X$ 변수가 $Y$ 변수의 분산을 얼마나 줄였는지 정도
단순히 $Y$의 평균값을 사용했을 때 대비 $X$정보를 사용함으로써 얻는 성능향상 정도
사용하고 있는 $X$변수의 품질

SST, SSR, SSE 의미

SST (Total Sum of Squares): 총 변동

의미: $Y$값이 평균에서 얼마나 흩어져 있는가
계산: 각 $Y$와 평균 $\bar{Y}$ 차이의 제곱합
직관: “전체 데이터의 변동성”
적용: 온도가 평균 온도(22.3°C)에서 얼마나 흩어져 있나? 일부 23.5°C, 일부 21.0°C → 큰 변동 —
SSR (Regression Sum of Squares): 회귀 설명 변동
의미: 회귀선이 설명하는 변동
계산: 예측값 $\hat{Y_i}$와 평균 $\bar{Y}$ 차이의 제곱합
직관: “모델이 잡아낸 패턴”
적용: 전력으로 설명되는 온도 변동 “전력 높으면 온도 높다”는 패턴을 모델이 잡아냄 —
SSE (Error Sum of Squares): 오차 변동
의미: 회귀선이 설명 못하는 변동 (잔차)
계산: 실제값 $Y_i$와 예측값 $\hat{Y_i}$ 차이의 제곱합
직관: “모델이 놓친 변동”

적용: 전력으로 설명 안 되는 온도 변동 센서 노이즈, 냉각 불균일 등 —

시각적 이해

Yi (실제값)
 │ 
 ├─ (Yi - Ȳ) = SST 구성 요소 (총 변동) 
 │   │ 
 │   ├─ (Ŷi - Ȳ) = SSR 구성 요소 (회귀 설명) 
 │   └─ (Yi - Ŷi) = SSE 구성 요소 (오차) 
 │ 
 Ȳ (평균)

잔차: $e_i = Y_i−\hat{Y_i} = 23.1−22.8=0.3°C$

[!tip] 문제 $R^2$는 유의하지 않은 변수가 추가되어도 항상 증가함

수정 결정계수

수정 결정계수 $R^2_adj$

앞에 특정 계수를 곱해줌으로써 (보정) 유의하지 않은 변수가 추가 될 경우 증가하지 않게 함
설명 변수가 서로 다른 회귀 모형의 설명력을 비교할 때 사용 $R^2_adj$
회귀 출력 결과 (다중회귀)

CIMS 적용: 온도 ~ 전력(X₁) + 습도(X₂)

Variable	추정치	T	P-value	해석
(Constant)	18.245	2.156	.045	절편 (유의미)
전력, $X_1$	0.048	1.854	.106	약한 영향 (유의 X)
습도, $X_2$	0.125	3.025	.019	강한 영향 (유의 O)

분산분석(ANOVA)

궁극적으로 가설검정을 행하는 용도

$SST = \sum_{i=1}^{n}(Y_i - \bar{Y_i})^2$ : $Y$의 총 변동량 $SSR = \sum_{i=1}^{n}(\hat{Y_i} - \bar{Y_i})^2$ : $X$변수에 의해 설명된 양 $SSE = \sum_{i=1}^{n}(Y_i - \hat{Y_i})^2$ : 에러에 의해 설명된 양

$\frac{SSR}{SSE} > 1$

$X$ 변수에 의해 설명된 양 > 에러에 의해 설명된 양
$X$ 변수가 $Y$설명(예측)에 유의미한 영향
$X$변수의 계수 (기울기)가 $0$ 이 아님

$0 \leq \frac{SSR}{SSE} \leq 1$

$X$ 변수에 의해 설명된 양 < 에러에 의해 설명된 양
$X$ 변수가 $Y$설명(예측)에 영향을 미치지 못함
$X$변수의 계수 (기울기)가 $0$

$SSR/SSE$ 자체가 아닌 F-통계량을 함께 봐야 하는 이유

얼마나 커야 큰 값인지? → F값은 상대적이므로 데이터 개수(n), 독립변수 개수(p)에 따라 다름
분포를 알면 통계적으로 판단할 수 있음 → 만약 F-통계량의 확률 분포를 안다면 F = 2.83이 이 분포에서 어느 위치인지 확인 가능, “극단적인 값인가?”를 판단하여 p-value 계산 → 통계적 의사결정가능
안타깝게도 직접적으로 분포를 정의할 수 없음
- SSR과 SSE는 독립적이지 않음 (SST = SSR + SSE 관계)
- 각각의 스케일이 다름 (자유도가 다름)
- 단순 비율로는 확률 분포 유도 불가
하지만 $SSR$과 $SSE$가 각각 카이제곱 분포 (파라미터:자유도)를 따름(정규분포 가정 하에서)
- $v_1 =p$
- $v_2 = n - p - 1$

직접 못 구하는 분포를
알려진 분포(χ²)를 이용해
간접적으로 유도!
F-통계량 기본 개념

$SSR$(회귀 설명): 모델이 잡아낸 변동 $SSE$ (오차): 모델이 못 잡은 변동 $F= \frac{SSR/v1}{SSE/v2}$ $v1$ : $SSR$의 자유도 (독립변수 개수), 회귀선이 설명하는 “자유로운” 방향 1개 (기울기) $v2$ : $SSE$의 자유도 ($n-p$, $p=$독립변수 수 ), 오차가 “자유롭게 변할 수 있는” 개수 → 자유도당 평균으로 표준화해야 공정 비교가능

MS = Mean Square = 평균 제곱 $F^*= \frac{SSR/1}{SSE/n-2}=\frac{MSR}{MSE}=\frac{회귀선이 설명하는 평균 변동}{설명못하는 평균 변동}$

$MSR = \frac{SSR}{v1} = \frac{SSR}{독립변수 개수}, MSE = \frac{SSE}{v2} = \frac{SSE}{n-p-1}$

MSR (Mean Square Regression): 회귀 평균 제곱 “회귀가 설명하는 평균적 변동”
MSE (Mean Square Error): 오차 평균 제곱 “오차의 평균적 크기”

항목	SSR/SSE	F-통계량
정의	$\frac{SSR}{SSE}$	$\frac{SSR/v1}{SSE/v2}$
값	1.414	2.83
분포	❓ 모름	✅ F(v₁, v₂)
판단	❌ 불가	✅ 가능
p-value	❌ 계산 불가	✅ 계산 가능
표준화	❌ 없음	✅ 자유도 고려

CIMS 실전 예시

기호	이름	의미	CIMS 예
$Yi$	실제값	센서가 측정한 온도	23.1°C
$\bar{Y}$	평균값	모든 측정값의 평균	22.3°C
$\hat{Y_i}$	예측값	회귀선이 예측한 온도	22.8°C

핵심차이 요약

구분	손실함수	비용함수
범위	단일 샘플 (i번째)	전체 데이터셋 (m개)
표기	$L(y_i, \hat{y}_i)$	$J(\theta) = \frac{1}{m}\sum L_i$
용도	개별 오차 측정	모델 최적화 목표

[!tip] 실무 팁 실무에서는 두 용어를 혼용하나, 개념적으로는 스케일의 차이를 이해하는 것이 중요

graph TD
    A[전체 데이터셋<br/>m개 샘플] --> B[샘플 1]
    A --> C[샘플 2]
    A --> D[샘플 i]
    A --> E[샘플 m]
    
    B --> B1["손실함수 L₁<br/>(y₁ - ŷ₁)²"]
    C --> C1["손실함수 L₂<br/>(y₂ - ŷ₂)²"]
    D --> D1["손실함수 Lᵢ<br/>(yᵢ - ŷᵢ)²"]
    E --> E1["손실함수 Lₘ<br/>(yₘ - ŷₘ)²"]
    
    B1 --> F["비용함수 J(θ)<br/>= 1/m × Σ Lᵢ"]
    C1 --> F
    D1 --> F
    E1 --> F
    
    F --> G[경사하강법<br/>최적화]
    G --> H[최적 파라미터 θ*]
    
    style B1 fill:#e1f5ff
    style C1 fill:#e1f5ff
    style D1 fill:#e1f5ff
    style E1 fill:#e1f5ff
    style F fill:#ffe1e1
    style H fill:#e1ffe1

모델별 수식과 최적화 알고리즘

1. 다중선형회귀 모델 (Multiple Linear Regression)

실제 모델 $f(X) = w_0 + w_1X_1 + w_2X_2$

추정 모델 (Least square estimation algorithm) $\hat{f}(X) = \hat{w}_0 + \hat{w}_1X_1 + \hat{w}_2X_2$

[!note] 최적화 알고리즘 Least Square Estimation Algorithm (최소제곱법)

2. 로지스틱회귀 모델 (Logistic Regression)

실제 모델 $f(X) = \frac{1}{1 + e^{-(w_0 + w_1X_1 + w_2X_2)}}$

추정 모델 (Conjugate gradient algorithm) $\hat{f}(X) = \frac{1}{1 + e^{-(\hat{w}_0 + \hat{w}_1X_1 + \hat{w}_2X_2)}}$

[!note] 최적화 알고리즘 Conjugate Gradient Algorithm (켤레 경사 알고리즘)

3. 뉴럴네트워크 모델 (Neural Network)

실제 모델 $f(X) = \frac{1}{1 + \exp\left(-\left(w_0 + w_1\left(\frac{1}{1+e^{-(w_{01}+w_{11}X_1+w_{21}X_2)}}\right) + w_2\left(\frac{1}{1+e^{-(w_{02}+w_{12}X_1+w_{22}X_2)}}\right)\right)\right)}$

추정 모델 (Backpropagation algorithm) $\hat{f}(X) = \frac{1}{1 + \exp\left(-\left(\hat{w}_0 + \hat{w}_1\left(\frac{1}{1+e^{-(\hat{w}_{01}+\hat{w}_{11}X_1+\hat{w}_{21}X_2)}}\right) + \hat{w}_2\left(\frac{1}{1+e^{-(\hat{w}_{02}+\hat{w}_{12}X_1+\hat{w}_{22}X_2)}}\right)\right)\right)}$

[!note] 최적화 알고리즘 Backpropagation Algorithm (역전파 알고리즘)

요약 비교표

모델	복잡도	최적화 알고리즘	특징
다중선형회귀	낮음	Least Square	선형 관계, 해석 용이
로지스틱회귀	중간	Conjugate Gradient	분류 문제, 시그모이드 활성화
뉴럴네트워크	높음	Backpropagation	은닉층 포함, 비선형 모델링

뉴럴네트워크 구조 설명

graph LR
    X1[X₁] --> H1[Hidden 1]
    X2[X₂] --> H1
    X1 --> H2[Hidden 2]
    X2 --> H2
    H1 --> O[Output]
    H2 --> O
    
    style H1 fill:#e1f5ff
    style H2 fill:#e1f5ff
    style O fill:#ffe1e1

은닉층 1 $h_1 = \frac{1}{1+e^{-(w_{01}+w_{11}X_1+w_{21}X_2)}}$

은닉층 2 $h_2 = \frac{1}{1+e^{-(w_{02}+w_{12}X_1+w_{22}X_2)}}$

출력층 $f(X) = \frac{1}{1 + e^{-(w_0 + w_1h_1 + w_2h_2)}}$

궁금한 점 선형회귀 모델에서 확률오차의 가정이 맞다고 가정하는 이유는 뭘까?

This line appears after every note.

Notes mentioning this note

There are no notes linking to this note.

Here are all the notes in this garden, along with their links, visualized as a graph.