본문 바로가기
Programming & Machine Learning/Mathematics & Statistics

[기초통계 정리 1] - 통계 용어

by Yamarae 2018. 7. 30.



공부를 하면 할 수록 기초학문이 중요하다는 것을 깨닫고 있다. 기초 통계학의 내용 중, 명쾌하게 문장으로 요약하여 정리해두면 도움이 될 만한 것들을 글로 나타내보고자 한다. 아무리 쉬운 내용이라도 정의를 곱씹어보고 문장으로 정리하게 되면, 더 깊은 내용을 이해하는 데 도움이 될 것이다.







- Inferential Statistics (추론 통계학)


추론 통계의 관점에서 통계학은, 표본을 통해서 모평균 등의 모수의 정보를 추정하는 것이다. 이를 신뢰도라는 개념을 통해서 검정하게 된다. 모집단의 정보인 평균, 분산 등을 통계학에서는 parameter 라고 한다.


예시) 출구조사로 모집단을 추론





- Random Variables (확률 변수)


관찰하기 전까지는 알 수 없는 값을 말한다.

변수는 변수인데, 아직 관찰되기 전의 변수라고 할 수 있다. 하지만 값이라기 보다는 함수에 가까운 개념이다. 표본공간에서 일정한 확률을 가지고 발생하는 사건에 수치를 대응시킨 것. 


예시 ) 주사위를 던질 때 발생 가능한 6가지를 사건이라 하고, 사건의 집합인 주사위를 표본공간, 1~6 까지의 값을 수치라고 한다. 사건의 집합에서, 함수가 정의한 수치가 등장할 확률을 정의할 수 있다. 이것이 확률변수의 정의.


확률변수를 확장하면, Multivariate Random Variable이고 다중 확률변수는 P(X, Y)처럼 변수가 다중인 확률변수를 의미한다.





- Sampling Distribution


표본 수치들의 분포를 말한다.


예시 ) 샘플링 A, B, C가 각각 n개씩을 샘플링한 것일때, A,B,C 샘플의 element들 자체의 분포가 아니고, A,B,C 평균들의 분포. 표준오차의 개념을 예로 생각하면 된다.


대수의 법칙에 의하여, 샘플링을 여러번 한 것들 개별의 통계값들의 분포는 정규분포를 띠어가게 된다.





- IQR : InterQuantile Range 


사분범위라고 부른다. IQR은 세 개의 quantile 중에 가운데(Q2)를 제외한 Q1, Q3 사이의 거리를 의미한다. 즉 전체의 50%를 차지하는 구간의 길이.


box plot을 그릴 때, 양옆의 꼬다리는 max, min값이 아니라 upper fence 안에서의 최대값, lower fence 안에서의 최소값을 찍은것이다. 실제 fence는 보통 보이지 않게 그리며, upper fence = fence내의 최대값, lower fence = fence내의 최소값이라면 Q1과 Q3으로부터 떨어진 두 꼬다리의 길이가 같다.





- Measure of Variability


분산의 정의에 대해 다시 들여다보면서 나의 무지함에 놀랐던 부분. 분산은 MSE랑 같은 수식이었다. 

분산은 평균값에서 벌어진 정도를 나타낸다.

parameter에서는 n-1, 즉 자유도라는 상수가 등장한다. 자유도를 나눠준 이유는 불편추정되는 M값과 달리 s값은 편향추정되기 때문에, 수학적인 증명에 의해 parameter S는 (n/n-1 곱하기 Sample S) 이 되기 때문이다. 수식증명은 생략. 





- Point estimator


통계시간에 점추정이라는 단어를 들었던 기억이 난다. 지금 와서 개념을 다시 들여다보니, 약간 오역에 가까운 직역이라는 생각이 든다. (점조직이라는 단어를 떠올려보면 점추정도 사실 잘 어울리긴 한다)


샘플링을 하나 했을때, 그 샘플 데이터의 평균을 X bar 라고 하고 하나의 샘플군으로 파라미터를 구할때의 모집단의 평균 파라미터를 M이라고 하자. 이때 parameter의 point estimator는 X bar라는 정의이다. 마땅한 번역은 사실 생각나지 않지만, 점추정이라는 단어보다는 영어가 훨씬 와닿는다. 


샘플의 정보를 통해 파라미터를 추정한다는 것으로, 뒤집어진 카드 중 하나를 확 뒤집는다는 느낌이다. (카드는 count가 가능하므로 연속확률변수가 아닌 이산확률 변수이기 때문에 적절한 비유는 아니다)


x_bar로 M을 예측한다면 Point estimator라고 정의할 수 있다.





- Coefficient of Variable : 변동계수


평균에 비해 표준편차가 얼마나 큰지에 대한 계수. 키의 편차가 거의 비슷한 데이터의 변동계수는 매우 낮을것이고,

몸무게의 편차가 심한 데이터의 변동계수는 매우 높을 것.


상대 표준편차라고도 불리며 측정단위가 서로 다른 자료를 비교할 때 주로 사용된다. 상대적인 산포도를 비교하는 용도라고 할 수 있다. 일반적으로 변동계수의 값이 클 수록 상대적인 자료들의 차이가 큰 것.





- Covariance : 공분산


변수가 두 개 있을때, 두 변수간의 선형적인 상관관계를 계산하는 것.

값이 0이면 서로 완전히 독립관계에 놓인 변수라는 것이고, 0보다 크면 X Y가 같이 증가하는 경향, 음수이면 같이 감소하는 경향이 있다고 판단할 수 있다.


식의 의미는, X의 편차와 Y의 편차를 곱한것의 평균이라는 의미를 지닌다.





- Correlation Coefficient : 상관계수



공분산의 두 변수로 -1 ~ 1 사이의 값을 갖도록 정규화한 값이다. 통계는 정규화를 좋아하니까.