Probability, Likelihood의 이론적 배경을 공부했다면, 이제 Conditional Probability와 같은 확률의 중요한 개념과 함께 베이즈 이론을 공부해야 한다. 본격적으로 확률과 베이즈 이론에 대해 공부하기 전에, 순열과 조합에 대한 학창시절의 기억을 상기시켜야 한다.
Probability, Likelihood에 대한 설명
- Combinations : 조합
서로 다른 N개에서 n개를 뽑는 경우의 수를 말한다. 고등학교 시간에 배웠던 그 조합이 맞다. 식은 아래와 같이 나타낼 수 있다.
- Permutations : 순열
N개 중에 n개를 뽑아 나열하는 경우의 수이다. 조합에서 중복을 허용한 것과 동일하다.
- Conditional Probability : 조건부 확률
Probability와 Bayes Rule에서 가장 핵심적인 개념이다. 조건부확률은 어떤 사건이 일어났다는 전제, 즉 증거가 있을 때 특정 사건 A에 대한 발생 확률을 계산하는 것이다. 베이즈 이론이라는 것은 어떠한 사건에 의해서 prior, posterior를 구분하는 것인데, 여기서 가장 중요한 개념이 바로 조건부 확률이다. 수식으로는 다음과 같다.
그리고 독립사건에서의 조건부 확률이 있다.
두 사건 A, B가 있다고 하자. 이때 두 사건이 일어날 각각의 확률을 곱했을때 A, B 교집합의 확률과 같다면 두 사건이 독립이라고 말할 수 있고, 다르다면 모종의 관계가 있다고 할 수 있다.
뿐만 아니라 두 사건이 독립이라면, 다음의 수식을 항상 만족하게 된다.
- Joint Probability : 결합 확률
결합확률이란 두 개의 서로 다른 사건이 동시에 일어날 확률을 말한다. 집합에서의 교집합의 개념이다.
위 식이 결합확률을 나타내는 기본적인 방법이고, 둘 다 옳은 표기법이다. 혹은 P(A,B)로 표기하기도 한다. 결합확률은 두가지로 나뉜다. 먼저 두 사건이 독립인 경우엔 두 사건의 확률을 곱하기만 하면 된다. 즉, P(A,B) = P(A)P(B) 이다. 반면, 두 사건이 독립이 아닐 경우는 위의 일반적인 방법과 같다. 눈여겨 볼 만한 것은 n개의 사건에 대한 결합확률을 표현하는 수식이다.
이제 조건부 확률과 결합 확률의 차이를 아래의 예시를 통해 생각해보자.
1. 상자 A에서 하얀 공(X)이 선택될 확률 (조건부 확률)
A상자를 뽑는 가정이 있어야 한다. 이를 수식으로 나타내면 P(X|A)로 간단히 나타낼 수 있다.
2. 상자는 A이고 뽑은 공은 하얀 공(X)일 확률 (결합 확률)
조건부 확률과 다른 점은, 상자를 뽑는 것은 가정이 아니라 또 다른 사건이라는 것이다. 그래서 문제에서 발생하는 사건은 2개가 되고, 결합확률로써 문제를 해결해야 한다. 이 문제에 대한 결합확률은 다음처럼 나타낸다. P(A, X) = P(X|A) * P(A)
- Baye’s Rule : 베이즈 정리
베이즈 이론의 기본적인 아이디어는 새로운 정보를 통해 확률을 업데이트 한다는 것이다. 간단하게는 조건부 확률에 대한 수학적 정리라고 할 수 있다. 먼저 베이즈 이론을 설명하기 위한 두 가지 용어를 알 필요가 있다.
1. Prior probability
새로운 정보가 들어오기 이전까지의 확률을 말한다. 즉 조건부 확률이 없는, 조건부가 들어오기 이전의 확률을 의미한다.
2. Posterior probability
새로운 정보가 들어온 이후의 확률을 말한다. 조건부 확률에서의 조건 확률이 공급된 후의 사후확률이다.
베이즈 정리는 아래와 같다. 확률의 곱셈공식과 전체확률의 법칙에 대한 공식을 기반으로, 약간의 수식적인 테크닉들만을 이용하여 조건이 주어졌을 때 특정한 확률을 구해내는 것을 의미한다.
예를 들어, 암 환자에 대해 암 진단을 80%의 정확도로 해내는 암 분류기가 있다고 하자. 그리고 어느날 병의 유무가 불분명한 사람이 암 분류기로 진단해 암으로 분류되는 양성 진단을 받았다고 가정해보자. 우리가 궁금한 것은 이 사람이 암에 진짜로 걸려있을 확률이다. 이 때, 주의할 것은 확률적으로 이 사람이 약 80%의 확률로 암에 걸린 것이 아니라는 것이다. 분류기는 암에 걸린 사람을 가정했을 때 80%의 정확도를 보이는 것이지만, 아무 사람을 진단했을 때는 검사 결과가 양성이라는 전제 하에 병의 유무를 알고 싶은 것이기 때문이다. 즉 다시 말해 정 반대의 조건부 확률을 구하는 것이다.
이를 다시 정리하면 검사 결과가 양성인 사건을 P(B), 암에 걸렸을 사건을 P(A)이라 할 때, P(B|A)의 확률은 0.8이라는 것이다. 그리고 우리가 궁금한 질문은 P(A|B)를 의미한다. 이제 이러한 역확률 문제를 해결하기 위해서 베이즈 정리를 이용할 것이다. 베이즈 정리를 이용하기 위해 우리가 필요한 정보는 단 한가지, 사건 A에 관한 것이다.
일반적으로 임의의 사람이 암에 걸려있을 확률은 약 0.03 정도라고 가정해보자. 그렇다면 이제 정리된 결과에 P(A1) = 0.03, P(A2) = 0.97이라는 정보를 추가할 수 있고, P(B|A1) = 0.8, P(B|A2) = 0.2라고 수정이 가능하다. 그리고 우리의 질문 역시 P(A1|B)로 수정하자. 그리고 정리된 결과들과 베이즈 정리로 계산해보면 다음과 같다.
P(A1|B) = P(B|A1) * P(A1) / P(B|A1) * P(A1) + P(B|A2) * P(A2)
= 0.8 X 0.03 / 0.8 X 0.03 + 0.2 X 0.97 = 약 0.11
이처럼 베이즈 정리의 원래의 존재 목적은 역확률을 구하기 위한 것이었다. 즉, 조건부 확률 P(B|A)를 알고 있을 때, 전제와 관심 사건이 관계가 정반대인 조건부 확률 P(A|B)을 구하는 방법이었다. 어찌되었든 베이즈 이론은 매우 간단하지만 패러다임을 뒤바꾼 이론이고, 이러한 접근법을 베이즈주의적인 관점이라고도 부른다. 베이즈주의적 관점에서 문제를 바라볼 때는, 위에서의 예시에서 P(A)를 사전확률, P(B|A)를 가능도, 그리고 P(A|B)를 사후 확률이라고 정의한다. 베이즈주의가 기존의 객관적인 자료로만 통계를 보던 방법과 다른 점은, prior에서 posterior로 넘어갈때의 정보의 공급이 주관적일 수 있다는 것이었다. 하나의 사건에 대한 수치적 발생으로만 확률을 평가하는 것이 아니라, 전문가가 조건부 확률을 임의대로 걸 수 있다는 것이 논쟁의 핵심이었다.
베이즈 정리는 나이브 베이즈, 베이지안 네트워크 등 머신 러닝 알고리즘에도 매우 중요하게 이용되고 있는 이론이다. 집합에 대한 개념, 조건부 확률에 대한 개념을 이용하여 수식적인 테크닉으로 역확률 혹은 사후확률을 구해내는 것이 전부이지만, 한 번 쯤 손으로 계산해볼 필요는 있을 것 같다.
'Programming & Machine Learning > Mathematics & Statistics' 카테고리의 다른 글
[추천시스템과 통계 모델 1] - 다양성 지수(Diversity Index) (1) | 2024.02.27 |
---|---|
[기초통계 정리 2] - Probability, Likelihood, MLE와 Python 구현 (2) | 2018.08.05 |
[기초통계 정리 1] - 통계 용어 (1) | 2018.07.30 |
ROC Curve를 해석하는 방법 (2) | 2018.06.17 |
Confusion Matrix를 통한 분류 모델의 평가 (0) | 2017.11.18 |