분산분석
-
회귀와 분포에 관한 문제Programming & Machine Learning/Mathematics & Statistics 2017. 7. 19. 02:04
일반적인 회귀분석이나 분산분석은 종속변수, 즉 Y값이 정규분포이다. 하지만 실전에서는 항상 대상의 분포가 정규분포를 따르지는 않는다. 뿐만 아니라 종속변수 자체가 연속형이 아니라 범주형일 수도 있다. 이러한 모든 경우를 포함하는 모형을 일반화 선형 모형(Generalized Linear Model)이라고 한다. 만약 종속변수가 이항분포를 따르는 범주형 데이터라고 한다면 로지스틱 회귀 기법을 이용하는 것이 일반적이다. 하지만 이는 언제든지 변할 수 있고, 유동적이어야 한다. 목표로 하는 데이터의 형태에 따라 분석기법이 달라질 수 있기 때문이다, 요지는, 종속변수가 어떠한 분포의 형태를 띠는지에 따라 알고리즘이 변해야 한다는 것이다. 관찰하고자 하는 대상의 형태를 자세히 보지 않고서 알고리즘을 결정하는 것은..
-
R을 이용한 통계분석 - 4 (집단간 차이검정과 분산분석)Programming & Machine Learning/R X 머신러닝 2017. 7. 7. 17:59
집단간 차이검정을 R 코드로 실행해 볼 것이다. 집단간 차이검정 역시 가설검정을 의미하는데, 가설 검정에서 귀무가설의 진위여부를 판별하기 위해 검정 통계량을 사용한다. 일반적인 가설검정의 단계는 다음과 같다. 1. 대립가설을 설정. 2. 유의수준을 설정. 3. 적당한 검정 통계량을 선정. 4. 유의수준에 대한 기각역을 정함. 5. 표본으로부터 검정 통계량을 관찰함. 6. 관찰값이 기각역에 있는지를 판단하여 기각과 채택을 결정함. 1. R에서의 t-test 집단간의 평균 차이 여부를 검증하는 방법인 t-test를 R코드로 진행해보았다. t-검정은 주로 두 집단을 비교할 때 사용한다. # 평균 180, 표준편차 10인 100개의 표본추출 data1 = rnorm(100, mean=180, sd=10) t.t..