ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 통계 수치분석 방법 분류
    Programming & Machine Learning/Mathematics & Statistics 2017. 7. 17. 01:28
    • 기초적인 통계 수치분석에 대한 방법 분류.


    기초적인 통계분석에 있어서 적합성과 독립성을 검정하는 방법에 대해 R 프로그래밍과 연결하여 몇 차례 공부하고 포스팅 했었다.


    이에 대한 내용을 다시 자세하게 살펴보던 , 활용에는 문제점이 없었지만 내용이 구조적으로 정리되지 않고 모호하다는 느낌이 머리속에 맴돌았다.




    모집단간의 차이를 검정하는 방법, 

    모집단을 대표하는 것이 연속형 데이터인지 범주형 데이터인지에 대해서도 방법이 달라지는지,

    집단이 여러개일 차이를 검정하는 방법,

    데이터가 연속형인지 범주형인지에 따라 적용하는 방법,

    집단이 여러개인데 집단마다의 변수도 여러개인 경우,




    이러한 내용들이 정리가 되지 않은 , 예제와 모호한 개념들만 머리에 맴돌았다.

    내친김에 부분을 다시 정리해보았다.








    1. 두 모집단간의 차이를 검정하는 방법.



    만약 모집단의 데이터가 연속형 데이터라면 t-test 방법을 사용한다.

    이때 모집단이 완전히 다른 독립된 집단이 아니라, 시계열 연속성 등을 지닌 같은 그룹이라고 때는,

    짝지어진 t-test 방법을 사용한다.



    2. 두 모집단의 데이터가 범주형인 경우



    모집단의 데이터가 연속형 데이터일때는 t-test 사용했지만, 범주형 데이터인 경우는 다르다.

    범주형 데이터를 집단간의 독립성 검정에 활용하려면 카이제곱 검정 방법을 사용해야 한다.

    관측빈도와 기대빈도간의 관계를 이용한 카이제곱 분포를 이용하여 모집단 사이의 독립성을 검증한다.


    카이제곱 검정의 경우, 표본이 적거나 오버피팅이 일어난 경우에 약점이 있기 때문에 fisher test 대체하는 것이 보통이다.


    또한 카이제곱 검정은 두 모집단 뿐만 아니라, 집단이 3개 이상인 경우에도 가능하다.

    예를 들면, 10,20,30대 각각의 집단이 범주형 데이터를 가지고 있는 경우에 세 집단을 비교하는 것이 가능하다.


    만약 R 혹은 Python으로 데이터를 분석하려 , 데이터의 전체적인 그래프가 카이제곱 모양을 띠는 경우, 검정방법을 이용하는게 좋을 것이다.



    3. 모집단이 3개 이상인 경우의 차이 검정 방법.



    집단이 여러 개인 경우, t-test 등의 개별적 독립성 검정 방법보다는 분산분석의 방법이 일반적으로 사용된다

    (앞서 말한 카이제곱 검정을 사용할 수도 있다. 카이제곱 검정과의 차이는 종속변수가 연속형인지 범주형인지와 관련이 있다.)

    집단의 평균치가 전체 평균으로부터 얼마나 이탈해있는지를 집단 분산을 통해 나타내는 것이다.

    분산분석은 크게 단일변량 분산분석, 다변량 분산분석으로 나뉜다.

    단일변량 분산분석은 일원배치 분산분석, 다원배치 분산분석 등으로 세분화되는데, 종속변수가 1개인 경우에 설명변수의 개수에 따라 나뉘는 것이 기준이다.

    다변량 분산분석은 종속변수의 개수가 여러개인 경우이다.

    이러한 분산분석은 회귀분석의 형태라고 보는 것이 이해하기에 훨씬 쉽다.


    분산분석 (주로 일원배치분산분석) 종속변수가 연속형 변수이고, 설명변수가 범주형 변수일때 사용한다.

    예를 들어 직업에 따라 수입이 얼마나 변하는 지에 대한 것이다.

    이때 어떤 직업간에 차이가 있는 , 혹은 가장 알고싶을 것이다.

    이러한 경우에 사후검정(다중비교) 방법이 적용되어야 한다.

    사후검정 방법들로는 LSD, Tukey, scheffe, Duncan등의 방법이 있다.


    만약 종속변수가 범주형이고, 설명변수가 연속형인 경우는 무엇인가? 대한 질문이 생길 있다.

    경우, 설명변수가 개라면 어차피 거꾸로 이므로 문제가 없다. 그냥 같은 상관분석으로 보면 된다.

    하지만 설명변수의 개수가 늘어난다면 종속변수의 범주형 개수에 따라 로지스틱 회귀, 소프트맥스 등의 알고리즘으로 분류되는 것이다.


    만약 종속변수와 설명변수가 모두 2 이상이라면, 다변량 분산분석 문제가 되버린다.



    4. 공통 적용 사항



    공통적으로 1~3번까지의 내용은 모집단이나 변수간의 등분산, 독립성 등의 사항이 전제되어야 한다.

    데이터 전처리에 있어서 이러한 부분들을 항상 점검해야 한다.

    댓글

분노의 분석실 Y.LAB