평균에는 산술 평균, 기하 평균, 조화 평균 등이 있습니다.
우리가 흔히 사용하는 평균은 산술 평균이며, 모든 데이터의 값을 더한 후 데이터 개수로 나누는 것을 의미합니다.
분산(variance)은 변량이 얼마나 퍼져 있는지를 수치화한 것으로, 편차 제곱의 평균으로 계산됩니다.
여기서 편차란 관측 데이터 값에 평균을 뺀 값입니다.
표준 편차(standard deviation)는 분산의 양의 제곱근입니다.
표준 편차가 필요한 이유는 분산에 있습니다. 분산을 계산할 때 편차를 제곱하게 되는데, 이것은 분산 값 자체를 분석하는데 어려움을 줄 수 있습니다. (제곱된 값의 의미를 파악하기 힘듦)
따라서 표준 편차는 분산을 구하는 과정에서 제곱으로 커진 결과를 다시 원래 단위로 조정하는 과정이라고 볼 수 있습니다.
평균과 분산을 구하는 이유는 데이터의 분포를 그려 보지 않아도 데이터 형태를 추측할 수 있습니다.
평균은 데이터의 중심을 나타내고, 분산은 데이터가 얼마나 퍼져 있는지를 나타내기 때문에,
데이터가 어떤 위치에서 얼마나 흩어져 있는지를 알 수 있습니다.
공분산(covariance)는 두 확률 변수의 상관관계를 나타내는 값입니다.
두 개의 확률 변수 중 하나의 값이 증가할 때 다른 값도 증가하는 경향이 있다면 공분산은 양수가 됩니다.
공분산은 다음과 같이 정의됩니다.
공분산은 변수 X의 편차와 변수 Y의 편차를 곱한 것의 평균입니다.
따라서 아래와 같은 특징이 있습니다.
만약 Cov(X,Y) > 0 이라면, X 와 Y는 양의 상관관계
만약 Cov(X,Y) < 0 이라면, X 와 Y는 음의 상관관계
만약 Cov(X,Y) = 0 이라면, X 와 Y는 상관관계가 없음
공분산 행렬(covariance matrix)은 확률 변수 간 분산, 공분산을 행렬로 표현한 것입니다.
이 때, 대각 성분은 각 확률 변수의 분산이며 나머지는 확률 변수 간 분산입니다.
여기서 X, Y의 공분산 Cov(X, Y)과 Y, X의 공분산 Cov(Y, X)은 같습니다.
따라서 공분산 행렬은 대칭 행렬(symmetric matrix)라는 특징이 있습니다.
또한 공분산 행렬은 특이값 분해 대상으로 사용되기도 하며, 주성분 분석(차원 축소)에도 사용됩니다.
공분산 행렬은 구하는 방법은 다음과 같습니다.
1. X, Y의 편차를 계산합니다.
2. X, Y의 편차를 곱합니다.
3. 평균을 구합니다.
108은 X의 분산, 146은 Y의 분산이며 85.2는 X, Y의 공분산입니다.
정규 분포(normal distribution)는 가장 중요한 분포입니다. 가우시안 분포(Gaussian distribution) 이라고도 합니다.
정규 분포가 통계학에서 중요한 이유는 자연현상의 많은 데이터들이 정규 분포를 이루고 있으며, 수학적으로 다루기도 쉽고, 대수변환(제곱근, 로그 등)에 의해서 근사적으로 정규 분포를 유도할 수 있기 때문입니다.
정규 분포는 평균을 중심으로 대칭 형태를 띠는 종 모양 분포 형태입니다.
여기서 μ는 평균, σ는 표준 편차입니다.
만일 A, B 학급의 영어 점수가 정규 분포를 이룬다고 가정해봅시다.
A, B 학급의 평균과 표준 편차가 아래와 같을 때 어느 학급이 더 우수한 성적을 거두었을까요?
A 학급 - 평균: 70, 표준 편차: 30
B 학급 - 평균: 65, 표준 편차: 10
두 학급의 성적을 비교하기 위해서 정규 분포의 면적을 계산하는 것은 굉장히 번거로운 일입니다.
따라서 조금더 쉽게 두 학급의 성적을 비교하기 위해서 정규 분포를 표준화하는 방법이 있습니다.
이것을 표준 정규 분포(standard normal distribution)라고 합니다.
표준 정규 분포는 평균이 0, 분산이 1인 정규 분포를 말합니다.
정규 분포를 표준화하는 방법은 편차를 표준 편차로 나눠주면 됩니다.
기본적으로 편차의 평균은 0이고 이 값을 μ에 대입합니다. (μ=0)
즉, 평균 μ을 0으로 만들어줍니다.
또한 편차를 표준 편차로 나눠줬기 때문에 표준 편차는 1이 됩니다. (σ=1)
여기서 표준화된 개별 데이터(X)를 Z-score라고 부릅니다.
예를 들어 A학급 학생1의 영어 점수가 80점이라고 한다면, Z = (80 - 70) / 30 = 0.333 입니다.
즉, 정규 분포의 x 값이 80이라면 표준 정규 분포의 x값은 0.333입니다.
또한 표준 정규 분포를 이용하면 A학급과 B학급의 그래프는 동일한 형태지만 x축의 값을 통해
A학급과 B학급의 성적을 비교할 수 있습니다.
'AI > Machine Learning' 카테고리의 다른 글
[Machine Learning] 최소 제곱법 (0) | 2022.09.07 |
---|---|
[Machine Learning] Kaggle Competition 데이터 전처리 예제 (0) | 2022.08.26 |
[Machine Learning] 통계학 - 확률 변수와 확률 분포 (0) | 2022.08.10 |
[Machine Learning] 선형대수 - 특이값 분해 (0) | 2022.08.09 |
[Machine Learning] 선형대수 - 고윳값 분해 (0) | 2022.08.09 |