머신러닝은 통계학을 기반 알고리즘이 많이 있습니다.
따라서, 선형대수와 함께 통계학도 머신러닝 알고리즘 이해를 위해서 반드시 선행되어야 합니다.
머신러닝을 위한 통계학 기본을 정리해보도록 하겠습니다.
먼저, 확률(probability)이란 어떤 사건이 일어날 가능성을 수치화시킨 것입니다.
예를 들어 주사위를 던졌을 때, 6이 나올 확률은 1/6입니다.
사건 A의 확률 P(A)는 0 <= P(A) <= 1이며, 발생 가능한 모든 사건의 확률 합은 1입니다. ( P(S) = 1 )
이 때, 발생할 수 있는 모든 경우의 수(6이거나 6이 아닌 경우)를 표본 공간(sample space)라고 합니다.
확률 변수(random variable)란 결괏값이 확률적으로 정해지는 변수입니다.
주사위의 경우 6이 나올 확률 변수는 0(6이 나오지 않음) 또는 1(6이 나옴)입니다.
확률 변수는 표본 공간을 확률로 매핑하기 위해 필요한 징검다리 역할로 볼 수 있습니다.
확률 분포(probability distribution)는 확률 변수가 특정값을 가질 확률의 함수라고 볼 수 있습니다.
즉, 확률 변수 X가 0 또는 1일 때 확률입니다.
이산 확률 변수(discrete random variable)는 셀 수 있는 확률 변수입니다.
즉, 주사위에서 6이 나오는 경우와 6이 나오지 않은 경우 두 가지는 셀 수 있기 때문에 X는 이산 확률 변수입니다.
또한 이산 확률 분포(discrete probability distribution)는 이산 확률 변수의 확률 분포입니다.
확률 질량 함수(probability mass function, pmf)는 이산 확률 변수에서 특정값에 대한 확률을 나타내는 함수입니다.
다시 말해, 확률 분포(X가 0 또는 1)에서 특정값(X가 1 -> 6이 나옴)에 대한 확률 입니다.
수식으로 나타내면 다음과 같습니다.
P(X = 1) = 1/6
연속 확률 변수(continuous random variable)는 셀 수 없는 확률 변수입니다.
예를 들어, 확률 변수 X가 20대 성인 남성의 평균 키라고 했을 때, X는 셀 수 있는 이산 값이 아닌 셀 수 없는 연속 값이기 때문에 연속 확률 변수입니다.
연속 확률 분포(continuous probability distribution)는 연속 확률 변수의 확률 분포입니다.
확률 밀도 함수(probability density function, pdf)는 연속 확률 변수의 분포를 나타내는 함수입니다.
확률 밀도 함수는 확률 질량 함수와 대응된다고 볼 수 있습니다.
'AI > Machine Learning' 카테고리의 다른 글
[Machine Learning] Kaggle Competition 데이터 전처리 예제 (0) | 2022.08.26 |
---|---|
[Machine Learning] 통계학 - 평균과 분산 (0) | 2022.08.10 |
[Machine Learning] 선형대수 - 특이값 분해 (0) | 2022.08.09 |
[Machine Learning] 선형대수 - 고윳값 분해 (0) | 2022.08.09 |
[Machine Learning] 데이터 전처리 (0) | 2022.07.11 |