확률
•
확률(probability)은 알려진 파라미터 가 주어졌을 때 관찰된 데이터 출력 에 대해 를 계산하여 분포를 모델링하는 것과 관련있다.
•
대조적으로 통계(statistics)는 주어진 관찰에 대해 알려지지 않은 파라미터 를 추론하는 inverse 문제와 관련되어 있다. 즉 를 추론하는 것이다. 실제로 통계는 원래 inverse probability theory라고 불렀었다.
확률 함수
•
사건 가 일어날 확률을 다음과 같이 정의한다. 여기서 는 scalar이다.
•
사건 가 일어나지 않을 확률은 다음과 같이 정의한다.
•
사건 와 가 동시에 일어날 확률(결합 확률)은 다음과 같이 정의한다.
•
만일 사건 와 가 독립이라면 다음과 같다.
•
사건 나 가 일어날 확률은 다음과 같다.
•
만일 사건 와 가 독립이라면 다음과 같다.
확률 질량 함수(PMF)
•
이산 확률 변수 에 대해, 인 사건의 확률을 로 표시하고 이를 다음과 같은 함수로 정의한다. 이를 확률 질량 함수(Probability Mass Function, PMF)라고 한다.
•
이때 이고 이다.
누적 분포 함수(CDF)
•
확률 변수 가 연속이면 를 정의하는 것이 무의미 하므로, 와 같이 구간을 잡아서 처리한다.
◦
이산이면 과 같이 확률로서 유의미한 확률 값이 나오지만, 연속이면 분모가 이므로 0이 나와서 의미가 없다
•
이렇게 나타낸 확률을 로 표시하고 다음과 같은 함수로 정의한다. 이를 누적 분포 함수(Cumulative Distribute Function, CDF)라고 한다.
◦
확률 질량 함수와 구분하기 위해 대문자로 표기.
확률 밀도 함수(PDF)
•
누적 분포 함수에 대해 도함수를 취하면, 확률 질량 함수와 같이 연속 확률에 대해 확률을 정의할 수 있다. 누적 분포 함수의 도함수는 다음과 같이 정의하고, 이를 확률 밀도 함수(Probability Density Function, PDF)라고 한다.
◦
도함수이기 때문에 소문자 형태로 표기. 이렇게 됨으로써 확률 질량 함수랑 표기가 같아졌다.
•
이렇게 정의된 확률 밀도 함수는 다음과 같이 구간 에 의해 구할 수 있다.
•
위의 식을 이용하여 다음과 같이 를 이용하면 에 대한 값을 근사화 할 수 있다.
분위수 함수(Quantiles)
•
누적 분포 함수 CDF가 순단조증가하는 경우 역함수를 정의할 수 있는데, 이를 분위수(Quantiles)라고 한다.
•
를 의 CDF라 할 때 는 다음 식을 만족하는 가 된다. 이것을 의 번째 분위수라고 한다.
•
직관적인 설명으로 만일 4분위수를 구한다고 하면 분포를 1/4로 나누는 것이므로, 가 되고 CDF에서 를 만족시키는 를 찾게 된다.