손실함수 vs 비용함수

손실함수 (Loss Function)

[!info] 정의 단일 학습 샘플에 대한 예측 오차

수식 \(L(y_i, \hat{y}_i)\)

예시: 제곱 오차 손실

\(L(y_i, \hat{y}_i) = (y_i - \hat{y}_i)^2\)

여기서:

  • $y_i$: i번째 샘플의 실제값
  • $\hat{y}_i = f(x_i)$: i번째 샘플의 예측값

비용함수 (Cost Function)

[!info] 정의 전체 학습 데이터셋에 대한 손실함수의 평균 모델의 전체 성능을 정량화

수식 \(J(\theta) = \frac{1}{m}\sum_{i=1}^{m}L(y_i, \hat{y}_i)\)

여기서:

  • $m$: 전체 학습 샘플 개수
  • $\theta$: 모델 파라미터 (예: $\beta_0, \beta_1$)
예시: 평균 제곱 오차 (MSE)

\(J(\theta) = \frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2\)


목적

[!note] 손실함수

  • 개별 샘플의 오차 측정
  • 각 데이터 포인트별 예측 성능 파악

[!note] 비용함수

  • 전체 모델 성능 측정
  • 최적화 대상 (경사하강법으로 최소화)
  • $\min_{\theta} J(\theta)$

선형회귀에서의 적용

선형회귀

목적

  • X변수와 Y변수 사이의 관계를 수치로 설명
  • 미래의 반응변수 (Y) 값을 예측 → 입력변수(X)와 출력변수(Y) 평균과의 관계를 설명하는 선형식 찾기

확률오차 가정

  • (각 점에 대하여)오차항 i는 평균 ‘0’, 분산 $\sigma$^2인 정규분포 → $\epsilon$i~N(0, $\sigma$), i = 1, 2, …, n
  • 잔차(Residual)와 확률오차
  • 잔차 e 는 확률 오차 $\epsilon$가 실제로 구현된 값

선형회귀의 목적

모델 \(f(X) = \beta_0 + \beta_1X_1\) → $\beta_0 ,\beta_1$ 라는 파라메터를 찾는 것.

손실함수 (i번째 샘플) \(L_i = (y_i - (\beta_0 + \beta_1x_i))^2\) → 어떤 파라미터가 “좋은지” 측정하는 척도로 모델의 예측값과 실제값 간의 차이를 정량화

비용함수 (MSE) \(J(\beta_0, \beta_1) = \frac{1}{m}\sum_{i=1}^{m}(y_i - (\beta_0 + \beta_1x_i))^2\) → 비용함수를 최소화 시키는 $\beta_0$ , $\beta_1$ 을 구하는 것

최적화 \(\frac{\partial J}{\partial \beta_0} = 0, \quad \frac{\partial J}{\partial \beta_1} = 0\)

→ 기울기 값이 0이 되는 지점.

파라미터에 대한 점추정 (Point Estimator)

\(Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i, \quad \varepsilon_i \sim N(0, \sigma^2), \quad i = 1,2,...,n\) $\beta_0$에 대한 점추정 식: \(\hat{\beta_0} = \bar{Y} - \hat{\beta_1}\bar{X}\) $\beta_1$에 대한 점추정 식: \(\hat{\beta_1} = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2}\) $\sigma^2$에 대한 점추정 식: \(\hat{\sigma^2} = \left(\frac{1}{n-2}\right)\sum_{i=1}^{n}e_i^2\)

최소제곱법 추정량의 성질

Gauss-Markov 정리: 최소제곱법(OLS) 추정량 → 분산이 작다 = 추정량이 더 안정적/정확하다

(1) unbiased estimator \(E(\hat{\beta_0}) = \beta_0 , E(\hat{\beta_1}) = \beta_1\)

기댓값 $E()$ 는 샘플링을 무한히 반복했을 때의 평균 → 이 평균이 진짜 모수 $\beta_1$​과 같다 = 불편추정량

(2) smallest variance estimator

\(V(a\hat{\beta_0}) \leq V(b\tilde{\theta}), \quad V(a\hat{\beta_1}) \leq V(b\tilde{\theta})\) $\tilde{\theta}$ : any other unbiased estimators → 어떤 선형 결합을 해도, OLS 추정량의 분산이 항상 다른 불편추정량보다 작거나 같음

파라미터에 대한 구간추정
  • $\theta$ 에 대한 구간추정 기본 형태 → 점 하나가 아니라 범위로 추정 : 이 범위 안에 있을 거다!
  • 장점: 불확실성을 표현, 얼마나 확신하는지 알 수 있음 \(\hat{\theta} - 상수값{\cdot}표준편차(\hat{\theta}) \leq \theta \leq \hat{\theta} +상수값{\cdot}표준편차(\hat{\theta})\) $\hat{\theta}$ : point estimators of $\theta$

  • $\hat{\theta}$ : 중심값 (점추정값)
  • 표준편차: 추정량이 얼마나 흔들리는지 (분산의 제곱근)
  • 상수값: 신뢰수준에 따라 결정 (95% → 1.96, 99% → 2.58)
    기울기에 대한 신뢰구간 n = 관측치 수

구조: 중심값 ± (t값 × 표준편차) $\beta_1$에 대한 100(1-α)% 신뢰구간, n=관측치 수

\[\hat{\beta_1} - t_{\alpha/2,n-2} \cdot sd\{\hat{\beta_1}\} \leq \beta_1 \leq \hat{\beta_1} + t_{\alpha/2,n-2} \cdot sd\{\hat{\beta_1}\}\]

① $\hat{\beta_1}$: $\beta_1$의 point estimator OLS로 구한 기울기 (중심) \(\hat{\beta_1} = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sum_{i=1}^{n}(X_i - \bar{X})^2}\)

② $t_{\alpha/2,n-2}$: 유의수준 1-α하에서 자유도가 n-2인 t 분포의 값 신뢰수준에 따른 배수 (95% → 약 2, 데이터 많으면 1.96에 수렴)

③ $sd{\hat{\beta_1}}$: $\hat{\beta_1}$의 표준편차 ${\hat{\sigma}^2}$크면 → 오차 커서 불확실 $\sum(X_i - \bar{X})^2$크면 → X 분산 커서 더 확실

\[sd\{\hat{\beta_1}\} = \sqrt{\frac{\hat{\sigma}^2}{\sum_{i=1}^{n}(X_i - \bar{X})^2}}\]

→ 데이터 많고(n↑), 오차 작고(σ²↓), X 분산 크면(분모↑) → 구간이 좁아짐 (더 정확)

기울기에 대한 가설 검정

목적: 알려지지 않은 파라미터에 대한 가설을 세우고 이를 검정

일종 오류 α 하에서 기울기가 0인지 아닌지 검정

가설 설정

\(H_0: \beta_1 = 0 \quad \text{vs.} \quad H_1: \beta_1 \neq 0\) → X와 Y 사이에 진짜 관계가 있나?

  • $H_0​:{\beta_1}​=0$: X가 Y에 영향 없음 (관계 없다)
  • $H_1​:{\beta_1}​=0$: X가 Y에 영향 있음 (관계 있다)
    검정통계량

    \(t^* = \frac{\hat{\beta_1} - 0}{sd\{\hat{\beta_1}\}}\) → 귀무가설 $H_0: \beta_1 = 0$이 참이라고 가정했을 때, 관찰된 ${\hat{\beta_1}}$​(데이터로부터 구한 점추정값)이 얼마나 극단적인가?

  1. 귀무가설 가정: 진짜 기울기는 0이다$(\beta_1 = 0)$
  2. 실제 관찰: 그런데 데이터로 계산하니 ${\hat{\beta_1}} = 3.5$가 나옴
  3. 표준화: 이 차이(3.5 - 0)를 표준편차로 나눔 → $t^*$
  4. 판단: $∣t^∗∣$가 너무 크면 → “귀무가설 하에서는 이런 값이 나올 가능성이 거의 없다” → $H_0$ 기각
    기각 규칙

    \(|t^*| > t_{\alpha/2,n-2}, 기각 H_0\) → 기울기가 0에서 멀리 떨어짐 → $H0​$ 기각

    P-value

    \(\text{P-value} = 2 \cdot P(T > |t^*|) \quad \text{where } T \sim t(n-2)\) p-value < 0.05면 관계가 유의미하다

선형회귀 모델 예제

회귀식 \(\text{Appraised Value (집가격)} = -29.6 + 0.0779 \times \text{Area (집크기)}\)

회귀 출력 결과
Predictor Coef SE Coef T P
Constant -29.59 10.66 -2.78 0.016
Area 0.077939 0.004370 17.83 0.000

S = 16.9065


각 항목 해설
1. What are the parameters?

파라미터 (모수): $\beta_0$ (절편), $\beta_1$ (기울기)

  • 모집단에서의 진짜 값 (알 수 없음)
2. What are the point estimates of the parameters? 파라메터에 대한 점추정값은?

최소 제곱법을 통해서 구한 점추정(량)값 (Coef):

  • $\hat{\beta_0} = -29.59$ (Constant의 Coef)
  • $\hat{\beta_1} = 0.077939$ (Area의 Coef)
  • 의미: 집 면적 1 단위 증가 → 집값 0.078 단위 증가 estimator : 특정 함수 estimates : 함수를 통해 나온 값
    3. What is the standard deviation (standard error) of the parameter?

    표준오차 (SE Coef): 추정량의 표준편차

  • $sd{\hat{\beta_0}} = 10.66$
  • $sd{\hat{\beta_1}} = 0.004370$
  • 의미: 샘플링 반복 시 추정값이 얼마나 흔들리는지
  • 추정 불확실성을 나타내는 지표이고, 이 값이 신뢰구간 계산에도 쓰임.
    • 표준오차는 추정량의 근본적인 속성 (얼마나 안정적인가)
    • 신뢰구간과 가설검정은 이 속성을 활용한 응용
4. What is the T in the above table?

검정통계량 (T): $t^* = \frac{\hat{\beta} - 0}{SE}$

  • Constant: $t^* = \frac{-29.59}{10.66} = -2.78$
  • Area: $t^* = \frac{0.077939}{0.004370} = 17.83$
  • 의미: 파라미터가 0인지 검정 ($H_0: \beta = 0$)
5. What is the P in the above table?

P-value: 귀무가설 하에서 이 정도 극단적인 결과가 나올 확률 면적 \(\text{P-value} = 2 \cdot P(T > |17.83|) \quad \text{where } T \sim t(n-2)\)

  • Area: p = 0.000 → 매우 유의미 절편 \(\text{P-value} = 2 \cdot P(T > |-2.78|) \quad \text{where } T \sim t(n-2)\)
  • Constant: p = 0.016 → 유의미 (5% 수준)

  • 의미:
    • Area의 p ≈ 0 → “면적은 확실히 집값에 영향을 준다”
    • Constant의 p = 0.016 → “절편도 통계적으로 유의미”
6. What is the S in the above table?

잔차 표준편차 (S): $\hat{\sigma} = 16.9065$

  • 의미: 회귀선 주변 데이터 점들의 평균적 흩어짐 정도
  • 실무: 예측 오차가 평균적으로 ±17 정도 모델 가정:
\[Yi={\beta_0}+{\beta_1}Xi+εi, εi​∼N(0,{\sigma^2})\]
  • ${\sigma^2}$: 진짜 오차의 표준편차 (모수, 알 수 없음)
  • S = ${\sigma^2}$: 오차 표준편차의 점추정값 (데이터로 계산) 계산 방법: \(\hat{\sigma} = \sqrt{\frac{1}{n-2}\sum_{i=1}^{n}(Y_i - \hat{Y_i})^2} = S\) → 잔차들의 제곱 평균에 루트 = 흩어진 정도

“에러에 대한”의 의미

회귀모델에서 여러 분산이 있음:

  1. Y의 분산: 종속변수 자체의 흩어짐
  2. 에러의 분산: 회귀선으로부터의 흩어짐 $({\sigma^2})$
  3. 추정량의 분산: 예를 들어 $Var({\hat{\beta_1}})$

S는 2번을 의미: “회귀선 주변에서 데이터가 얼마나 흩어지는가”


정리
  • $S$ = 잔차(에러)의 표준편차 ← 표에 나오는 값
  • $S^2$ = 잔차(에러)의 분산 ← 제곱한 값
  • 둘 다 “에러의 변동성”을 측정

결정계수 (Coefficient of Determination: R²)

제곱합 분해

SST (Total Sum of Squares): 총 변동 \(SST = \sum_{i=1}^{n}(Y_i - \bar{Y})^2\)

SSR (Regression Sum of Squares): 회귀로 설명되는 변동 \(SSR = \sum_{i=1}^{n}(\hat{Y_i} - \bar{Y})^2\)

SSE (Error Sum of Squares): 오차 변동 \(SSE = \sum_{i=1}^{n}(Y_i - \hat{Y_i})^2\)

관계식

\(SST = SSR + SSE\)

결정계수

\(R^2 = \frac{SSR}{SST}\)

극단값:

  • $\frac{SSR}{SST} = 1$ → 완벽한 적합
  • $\frac{SSR}{SST} = 0$ → 회귀 설명력 없음

  • $R^2$ 는 0과 1사이에 존재
  • $R^2 =1$ 현재 가지고 있는 $X$ 변수로 $Y$ 를 100% 설명. 모든 관측치가 회귀직선 위에 있다.
  • $R^2 = 0$ 현재 가지고 있는 $X$ 변수로 $Y$ 를 설명할 수 없다.
  • 사용하고 있는 $X$ 변수가 $Y$ 변수의 분산을 얼마나 줄였는지 정도
  • 단순히 $Y$의 평균값을 사용했을 때 대비 $X$정보를 사용함으로써 얻는 성능향상 정도
  • 사용하고 있는 $X$변수의 품질

SST, SSR, SSE 의미

SST (Total Sum of Squares): 총 변동
  • 의미: $Y$값이 평균에서 얼마나 흩어져 있는가
  • 계산: 각 $Y$와 평균 $\bar{Y}$ 차이의 제곱합
  • 직관: “전체 데이터의 변동성”
  • 적용: 온도가 평균 온도(22.3°C)에서 얼마나 흩어져 있나? 일부 23.5°C, 일부 21.0°C → 큰 변동 —
    SSR (Regression Sum of Squares): 회귀 설명 변동
  • 의미: 회귀선이 설명하는 변동
  • 계산: 예측값 $\hat{Y_i}$와 평균 $\bar{Y}$ 차이의 제곱합
  • 직관: “모델이 잡아낸 패턴”
  • 적용: 전력으로 설명되는 온도 변동 “전력 높으면 온도 높다”는 패턴을 모델이 잡아냄 —
    SSE (Error Sum of Squares): 오차 변동
  • 의미: 회귀선이 설명 못하는 변동 (잔차)
  • 계산: 실제값 $Y_i$와 예측값 $\hat{Y_i}$ 차이의 제곱합
  • 직관: “모델이 놓친 변동”
  • 적용: 전력으로 설명 안 되는 온도 변동 센서 노이즈, 냉각 불균일 등 —
    시각적 이해
    Yi (실제값)
     │ 
     ├─ (Yi - Ȳ) = SST 구성 요소 (총 변동) 
     │   │ 
     │   ├─ (Ŷi - Ȳ) = SSR 구성 요소 (회귀 설명) 
     │   └─ (Yi - Ŷi) = SSE 구성 요소 (오차) 
     │ 
     Ȳ (평균)
    

잔차: $e_i = Y_i−\hat{Y_i} = 23.1−22.8=0.3°C$

[!tip] 문제 $R^2$는 유의하지 않은 변수가 추가되어도 항상 증가함

수정 결정계수

수정 결정계수 $R^2_adj$

  • 앞에 특정 계수를 곱해줌으로써 (보정) 유의하지 않은 변수가 추가 될 경우 증가하지 않게 함
  • 설명 변수가 서로 다른 회귀 모형의 설명력을 비교할 때 사용 \(R^2_adj\)
    회귀 출력 결과 (다중회귀)

    CIMS 적용: 온도 ~ 전력(X₁) + 습도(X₂)

Variable 추정치 T P-value 해석
(Constant) 18.245 2.156 .045 절편 (유의미)
전력, $X_1$ 0.048 1.854 .106 약한 영향 (유의 X)
습도, $X_2$ 0.125 3.025 .019 강한 영향 (유의 O)

분산분석(ANOVA)

궁극적으로 가설검정을 행하는 용도

$SST = \sum_{i=1}^{n}(Y_i - \bar{Y_i})^2$ : $Y$의 총 변동량 $SSR = \sum_{i=1}^{n}(\hat{Y_i} - \bar{Y_i})^2$ : $X$변수에 의해 설명된 양 $SSE = \sum_{i=1}^{n}(Y_i - \hat{Y_i})^2$ : 에러에 의해 설명된 양

\(\frac{SSR}{SSE} > 1\)

  • $X$ 변수에 의해 설명된 양 > 에러에 의해 설명된 양
  • $X$ 변수가 $Y$설명(예측)에 유의미한 영향
  • $X$변수의 계수 (기울기)가 $0$ 이 아님

\(0 \leq \frac{SSR}{SSE} \leq 1\)

  • $X$ 변수에 의해 설명된 양 < 에러에 의해 설명된 양
  • $X$ 변수가 $Y$설명(예측)에 영향을 미치지 못함
  • $X$변수의 계수 (기울기)가 $0$

$SSR/SSE$ 자체가 아닌 F-통계량을 함께 봐야 하는 이유

  • 얼마나 커야 큰 값인지? → F값은 상대적이므로 데이터 개수(n), 독립변수 개수(p)에 따라 다름
  • 분포를 알면 통계적으로 판단할 수 있음 → 만약 F-통계량의 확률 분포를 안다면 F = 2.83이 이 분포에서 어느 위치인지 확인 가능, “극단적인 값인가?”를 판단하여 p-value 계산 → 통계적 의사결정가능
  • 안타깝게도 직접적으로 분포를 정의할 수 없음
    • SSR과 SSE는 독립적이지 않음 (SST = SSR + SSE 관계)
    • 각각의 스케일이 다름 (자유도가 다름)
    • 단순 비율로는 확률 분포 유도 불가
  • 하지만 $SSR$과 $SSE$가 각각 카이제곱 분포 (파라미터:자유도)를 따름(정규분포 가정 하에서)
    • $v_1 =p$
    • $v_2 = n - p - 1$
  1. 직접 못 구하는 분포를
  2. 알려진 분포(χ²)를 이용해
  3. 간접적으로 유도!
    F-통계량 기본 개념

$SSR$(회귀 설명): 모델이 잡아낸 변동 $SSE$ (오차): 모델이 못 잡은 변동 \(F= \frac{​SSR/v1}{SSE/v2}​​\) $v1​​$ : $SSR$의 자유도 (독립변수 개수), 회귀선이 설명하는 “자유로운” 방향 1개 (기울기) $v2$ : $SSE$의 자유도 ($n-p$, $p=$독립변수 수 ), 오차가 “자유롭게 변할 수 있는” 개수 → 자유도당 평균으로 표준화해야 공정 비교가능

MS = Mean Square = 평균 제곱 \(F^*= \frac{​SSR/1}{SSE/n-2}=\frac{MSR}{MSE}​​=\frac{회귀선이 설명하는 평균 변동}{설명못하는 평균 변동}\)

\(MSR = \frac{SSR}{v1} = \frac{SSR}{독립변수 개수}, MSE = \frac{SSE}{v2} = \frac{SSE}{n-p-1}\)

  • MSR (Mean Square Regression): 회귀 평균 제곱 “회귀가 설명하는 평균적 변동”
  • MSE (Mean Square Error): 오차 평균 제곱 “오차의 평균적 크기”
항목 SSR/SSE F-통계량
정의 $\frac{SSR}{SSE}$ $\frac{​SSR/v1}{SSE/v2}​​$
1.414 2.83
분포 ❓ 모름 ✅ F(v₁, v₂)
판단 ❌ 불가 ✅ 가능
p-value ❌ 계산 불가 ✅ 계산 가능
표준화 ❌ 없음 ✅ 자유도 고려

CIMS 실전 예시

기호 이름 의미 CIMS 예
$Yi$​ 실제값 센서가 측정한 온도 23.1°C
$\bar{Y}$ 평균값 모든 측정값의 평균 22.3°C
$\hat{Y_i}$ 예측값 회귀선이 예측한 온도 22.8°C

핵심차이 요약

구분 손실함수 비용함수
범위 단일 샘플 (i번째) 전체 데이터셋 (m개)
표기 $L(y_i, \hat{y}_i)$ $J(\theta) = \frac{1}{m}\sum L_i$
용도 개별 오차 측정 모델 최적화 목표

[!tip] 실무 팁 실무에서는 두 용어를 혼용하나, 개념적으로는 스케일의 차이를 이해하는 것이 중요

graph TD
    A[전체 데이터셋<br/>m개 샘플] --> B[샘플 1]
    A --> C[샘플 2]
    A --> D[샘플 i]
    A --> E[샘플 m]
    
    B --> B1["손실함수 L₁<br/>(y₁ - ŷ₁)²"]
    C --> C1["손실함수 L₂<br/>(y₂ - ŷ₂)²"]
    D --> D1["손실함수 Lᵢ<br/>(yᵢ - ŷᵢ)²"]
    E --> E1["손실함수 Lₘ<br/>(yₘ - ŷₘ)²"]
    
    B1 --> F["비용함수 J(θ)<br/>= 1/m × Σ Lᵢ"]
    C1 --> F
    D1 --> F
    E1 --> F
    
    F --> G[경사하강법<br/>최적화]
    G --> H[최적 파라미터 θ*]
    
    style B1 fill:#e1f5ff
    style C1 fill:#e1f5ff
    style D1 fill:#e1f5ff
    style E1 fill:#e1f5ff
    style F fill:#ffe1e1
    style H fill:#e1ffe1

모델별 수식과 최적화 알고리즘

1. 다중선형회귀 모델 (Multiple Linear Regression)

실제 모델 \(f(X) = w_0 + w_1X_1 + w_2X_2\)

추정 모델 (Least square estimation algorithm) \(\hat{f}(X) = \hat{w}_0 + \hat{w}_1X_1 + \hat{w}_2X_2\)

[!note] 최적화 알고리즘 Least Square Estimation Algorithm (최소제곱법)


2. 로지스틱회귀 모델 (Logistic Regression)

실제 모델 \(f(X) = \frac{1}{1 + e^{-(w_0 + w_1X_1 + w_2X_2)}}\)

추정 모델 (Conjugate gradient algorithm) \(\hat{f}(X) = \frac{1}{1 + e^{-(\hat{w}_0 + \hat{w}_1X_1 + \hat{w}_2X_2)}}\)

[!note] 최적화 알고리즘 Conjugate Gradient Algorithm (켤레 경사 알고리즘)


3. 뉴럴네트워크 모델 (Neural Network)

실제 모델 \(f(X) = \frac{1}{1 + \exp\left(-\left(w_0 + w_1\left(\frac{1}{1+e^{-(w_{01}+w_{11}X_1+w_{21}X_2)}}\right) + w_2\left(\frac{1}{1+e^{-(w_{02}+w_{12}X_1+w_{22}X_2)}}\right)\right)\right)}\)

추정 모델 (Backpropagation algorithm) \(\hat{f}(X) = \frac{1}{1 + \exp\left(-\left(\hat{w}_0 + \hat{w}_1\left(\frac{1}{1+e^{-(\hat{w}_{01}+\hat{w}_{11}X_1+\hat{w}_{21}X_2)}}\right) + \hat{w}_2\left(\frac{1}{1+e^{-(\hat{w}_{02}+\hat{w}_{12}X_1+\hat{w}_{22}X_2)}}\right)\right)\right)}\)

[!note] 최적화 알고리즘 Backpropagation Algorithm (역전파 알고리즘)


요약 비교표
모델 복잡도 최적화 알고리즘 특징
다중선형회귀 낮음 Least Square 선형 관계, 해석 용이
로지스틱회귀 중간 Conjugate Gradient 분류 문제, 시그모이드 활성화
뉴럴네트워크 높음 Backpropagation 은닉층 포함, 비선형 모델링

뉴럴네트워크 구조 설명
graph LR
    X1[X₁] --> H1[Hidden 1]
    X2[X₂] --> H1
    X1 --> H2[Hidden 2]
    X2 --> H2
    H1 --> O[Output]
    H2 --> O
    
    style H1 fill:#e1f5ff
    style H2 fill:#e1f5ff
    style O fill:#ffe1e1

은닉층 1 \(h_1 = \frac{1}{1+e^{-(w_{01}+w_{11}X_1+w_{21}X_2)}}\)

은닉층 2 \(h_2 = \frac{1}{1+e^{-(w_{02}+w_{12}X_1+w_{22}X_2)}}\)

출력층 \(f(X) = \frac{1}{1 + e^{-(w_0 + w_1h_1 + w_2h_2)}}\)


궁금한 점 선형회귀 모델에서 확률오차의 가정이 맞다고 가정하는 이유는 뭘까?

This line appears after every note.

Notes mentioning this note

There are no notes linking to this note.


Here are all the notes in this garden, along with their links, visualized as a graph.

1년 동안 llm과 함께 구축하며 배운 점Ai 산업정책 비판, ai 국가주의Abc lab 수업준비차근차근 시퀀스Cors 교차 출처 리소스 공유Darttaxonomy20230925.xlsxJs find() vs some()Markdown 또는 md강한결합Three.js dashboard당근 인프라의 gcp 활용법러스트로 json 파싱하기 implementing json parsing (rust)로지스틱 회귀Erp 회계 공공기관Dbrain+감사시스템 공공기관 나라장터Ai trismMicrosoft’s copilot app is now available on ios웹기반 3d 개발 프레임워크 조사Esg 중대성 평가Eu esg 정보공시(csrd) 대응 세미나R&d 시각화 분석 k2baseSap s4hanaSw기술로진화하고있는금융kb감사위원회 역할과 내부통제내부회계관리제도 의견변형디지털 금융 산업 동향 및 시사점삼정 kpmg2024 국내 주요 산업 전망생성형 ai의 부상과 미・중 경쟁 현황 및 시사점지배구조 관련 법률의 최근 동향과 시사점책무구조도하나은행 금융산업 전망엔터프라이즈 ai 아키텍처의 미래를 위한 설계 원칙Seo 관리영림원 it 예산 수립 전략컴플라이언스 서비스 테이렌톰슨로이터플렉스 스튜디오미들웨어비전공자 스터디 로드맵Rfp 읽는 법‘사기를 떨어뜨리지 않고’ it 성과를 개선하는 방법 10가지경쟁사 분석보고서 포맷성과 생산성 측정신진연구인력제안서 디자인 예시제안서 작성한국공항공사 전문 감사인 제안서 프롬프트한장 보고서(one page report)선형회귀예산을 알아야 지역이 바뀐다2025 지리산예산학교제 1강 예산서 살펴보기제 2강 결산서 살펴보기제 3강Bolildown saas 통합 생산성 도구Offlight 목표 중심 생산성 도구앱스 기능업무 기능업무일지 기능외부메일 불러오기Think with me 브레인 스토밍 툴연구인력지원사업정의로운 반도체 산업은 가능한가 feat.포킹룸존잘국회 아이데이션토스페이먼츠 개발문서JwtWebserver vs wasData business intelligence dayMct day 01 introMct day 01 lesson 1Mct day 01 lesson 2Mct day 01 lesson 3Mct day 06 lesson 1Mct day02 lesson 1Mct day02 lesson 2Mct day02 lesson 3Mct day03 lesson 1Mct day05 lesson 1Mct day07 lesson 1Partition (파티션) vs view (뷰)Three.js 고양이SassApiDate()JsSpa에서의 라우팅This기본문법동기 vs 비동기모듈화배열상태관리원시 타입 vs 비 원시 타입질문들함수React 세미나React viteStorybook 세미나프론트엔드Modal 구현 $,dispatch,writable,use 4가지StoreSvelte 개요Rollup.jsDialog vs modal실행방식 html Js vs spa(svelte, reate...)BigdecimalClassJdk jre jvmJava datetypeJava 정수, 부동 소수MethodReplString, 참조Java coding test강한결합연산자의존성조건문, 반복문형변환Eda exploratory data analysisModelSqlTcp ip 서버를 처음부터 코딩하기클러스터링 vs 로드밸런싱Event Driven architectureNodejs lifecycle event loopNodejs 환경설치 nvm 버전관리Node js 세미나Single thread중첩모달 nested modalAi semantic kernal workshopAws al ml 구축Cascade classirier 캐스캐이드 분류기Chat with llama 2 70bFew ShotFine tuningFinetune vs rlhfGptsGpt에서 자체 모델로 전환한 분들, 경험은 어땠나요Hog hisotrgams of oriented garientsKorquad 2.0Llm mockup 용 데이터 생성기Llm temperature 예측 확인Llm 모델 개발 참고자료Llm 모델 리서치 (테스트 포함)Mlops vs aiopsMlops부터llmops까지생성형 ai 운영마스터하기RlhfTransformerUpstage 검증 세션Meta llama 2 70b ChatWord2vec.kr랭체인(langchain)멀티 턴 대화 feat. azure모델과 에이전트문서검색(passage retrielval)손실함수 vs 비용함수스케일링 법칙 친칠라의 규칙아키텍쳐어텐션 메커니즘토크나이저파운데이션 모델의 파인 튜닝 및 대규모 모델 훈련 클러스터인 amazon sagemaker...파운데이션모델파운데이션모델서빙을쉽고 빠르고저렴하게수행하기파이토치 (pytorch) 모델의 gpu memory 사용량 알아보기한국어 데이터셋AnsibleKafka sparkKafkaHttp rewriteBcbs 은행 지배구조 원칙 13 발췌Coso(committee of sponsoring organizaions)거버넌스고위 경영진내부통제 vs 내부감사리스크 관리리스크 성향리스크 지도(재무, 비즈니스, 프로젝트 및 컴플라이언스)리스크 프로필리스크(risk)리스크모니터링 시나리오와 rcm의 차이세계내부감사인협회 iia(institute of internal auditors)수검수동적인 이해관계자어슈어런스연결제도외부감사 미리 대비하기운영 리스크이사회(board of directors)자점감사자체평가(control self Assessment)재무상태표재무회계적극적 이해관계자전략 리스크전사 리스크 관리(erm, enterprise rise management)제척회피컴플라이언스회계기준Aml 평가지표BloomberggptDlf, dls (파생결합상품)Ifrs 국제회계기준그래프 데이터베이스그래프 이상탐지금융도메인 llm 벤치마크 기준금융도메인 데이터 프롬프트금융언어모델다우존스db신한 ai 투자마이크로서비스Bi(business intelligence, 비즈니스 인텔리전스)DmDwEdi(electronic data interchange)Xbrl(extensible business reporting language ; 확장성...니어쇼어링엔시트화Elsi(ethical, legal, and social implications)Olap(on Line analytical processing)Raaml(risk analysis and assessment modeling...Rba (risk based approach)에코시스템엔티티 추출 ner오픈소스 웹 애플리케이션 보안 프로젝트(owasp)CsrdDma(digital markets act)Dsa(digital services act)Artillery ReportJmeterSso login test성능테스트 개념Css gradient animatorHeatmap matplotlib방문길이실패율표편집Apache tomcat , 이클립스 프로젝트, 서버 생성 연결 , 환경설정Git 프로젝트 설정 readme.txt gitIntellij settingLicense idSvn 설정Server setupWsl 설치그 외 설정(sql, log)서버 기동설치 전 준비Pasted image 20240122143426.png프록시 서버, nginx(리버스 프록시, ssl)