ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [축구로 알아보는 통계학] 등분산 검정(Homogeneity of variance test) : Levene's test(Levene 검정), Brown-Forsythe test 봐봐요
    카테고리 없음 2020. 2. 11. 14:52

    [축구로 알아보는 통계학] 등분산검정(Homogeneity of variance test): Levene'st(Levene검정), Brown-Forsythe test-R실습해보기:levene.test( levene Test()최근 글에서는 데이터 표본이 갖는 특성에 따라 검정비결을 선택하는 과정에 대해 다루고 있습니다. T-test가 나쁘지 않은 F-test를 포함한 많은 통계적 검정기법은 정규성(normality)과 등분산성(homogeneity of variance)을 조건으로 하고 있습니다. 따라서 고랭검정 비결을 적용하기 전에 데이터 표본이 정규성과 등분산성을 갖고 있는지 확인해야 합니다.전의 2개 문구에서 가장 밝은 정규성을 검정하는 비결에 대해서 배우고 실습하였습니다.https://blog.naver.com/vi_football/221454949642(Shapiro-Wilk test)https://blog.naver.com/vi_football/221455872074(Q-Q Plot)​ 그리고 이 시간에는 R을 이용하고 등분 산성의 검정(homogeneity of variance test)을 진행하고 보겠습니다.


    https://blog.naver.com/vi_football/221435019987



    >


    전문에서도말씀드렸듯이포체티노는정말손흥민을차별하는가?라는글을조금전에작성을했는데요. 해당문 본문에는, 손흥민의 경기당 출전 테테로울 받은 이 히스토그램과 함께'일 7/일 8시즌과 일 8/일 9시즌, 손흥민의 경기 출장의 양상은 바뀌지 않는다'라고 주장한 스토리이 있습니다. 이 주장이 통계학적인 증거가 있는지 확인하기 위해서 두 집단의 평균에 대한 검정을 하려고 했던 것입니다. 이에 앞서 정규성을 검정하고 이들 데이터는 모두 정규성을 따르지 않는 것으로 확인되었습니다.표준 2집단의 평균을 비교하려는 때, 정규성을 먼저 확인한 뒤 정규성을 따른다면 등분 낱개성에 대한 검정도 하고 마지막에 검정 기법을 선택하게 됩니다.유아초에 정규성을 따르지 않는 경우는 Wilcoxonrank-sum test(윌콕슨 순위합 검정)를 실시하게 됩니다. 따라서 이 데이터에 대해서는 Wilcox onrank-sum test를 진행하면 되는데 그것은 뒷문장에서 다루기로 하고, 최근에는 나 자신을 조사하면서 공부하고 자신감을 갖는 입장이기 때문에 등분산성 검정을 이제 해보겠습니다.


    등분산성(Homegeneity of Variance)이란 그룹간의 분산이 같음을 의미합니다.등분산성을 검정하고자 하는 데이터의 분포가 정규성을 따른다면 Bartlet's test(버트렛 검정)를, 그렇지 않으면 Levene's test(레빈 검정)를 실시하게 됩니다.​ 그래서 제1요즘 취급하고 있는 데이터(선수의 경기별 출전 때때로)은 정 규송에 따르지 않기 때문에, 선수별 데이터 표본의 등분아 마 성을 조사합니다 면 Levene's test(레빈의 검정)을 선택하면 됩니다.Levene'stest(Levene검정)의 절차는 모두 sound와 동일합니다.1각각의 점(데이터 수치)과 표본의 평균 혹시 중앙값(mean or median)의 편차의 절대치를 요구합니다.(각각의 점이 평균 혹시 중앙값과 어느 정도 괜찮은 떨어지고 있는지를 요구합니다)2요구한 편차의 절대치(1에서 전환된 값)에 대 칠로 ANOVA을 실시합니다.*그냥 편차 나쁘지 않고 분산은 정규성을 따르지 않는 데이터에 대해서는 그다지 중요한 의미를 갖지 않기 때문에 이러한 방법을 사용합니다.*계산 과정에서 평균값(mean)을 이용하는 방법을 Levene's test라고 하며, 중앙값(median)을 이용하는 방법을 즉시 Brown-Forsythe test라고 합니다. 계산 방식은 거의 같지만 사용법은 어느 정도 차이가 있다고 합니다.Levene's test: 분포가 그렇게 나쁘지는 않지만 정규 분포와 비슷하거나 대칭을 이룰 때(symmetrical) Brown-Formal orskewed) 정규성이 없거나 나쁘지는 않은거나 분포가 치우쳐 있을 때(non-normal orskewed) 이번에 실습해 볼 데이터는 편중 정도가 심하기 때문에 가장 적절한 방법은 즉석 Brown-Forsythe test입니다.2가지 방법을 다 적용 칠로, 검정 결과를 살펴볼까요.


    levene검정을 하려면 먼저 "car"라는 패키지가 설치되어 있어야 합니다. 없으면 설치합시다.이렇게해서등분산성을살펴보고자하는데이터를한번확인해보도록하겠습니다.


    >


    각각의 파일에서 손흥민 선수의 데이터를 빼서 시즌을 요인으로 하는 새롭게 데이터 프레임이 발생한 후 그에 대한 levene's test를 진행하는 방법으로 실습을 진행하겠습니다.Levene's test의 가설은 다음과 같습니다.


    H0(그이무카솔):집단 간 분산이 같다.vs. HA(갈등 가설): 집단간의 분산이 같지 않다.


    함수는 levene.test() 또는 leveneTest()를 사용합니다.(levene Test 권장)


    기본적으로 LeveneTest()는 기본설정이 center=median으로 되어 있기 때문에 특별히 지정을 하지 않으면 중앙값을 이용하는 Brown-Forsythetest를 하게 됩니다.ceter=mean으로 지정하면 평균값을 이용하는 Levene'stest를 수행할 수 있습니다.​ 두 검정 모두 F값이 0.05보다 더 큰 자신 왔습니다. 이는 귀무가설을 기각할 수 없음을 의미합니다. 그러므로 손흥민 선수 7/일 8시즌과 일 8/일 9시즌 출전 시간 데이터 분산은 같다고 내용을 있습니다.


    이렇게 이번에는 등분산성에 대해 검정을 하는 Levene's test와 Brown-Forsythe test를 실습을 해봤습니다.3번 문장으로 정규성과 등분 발산성을 체크하는 방법에 대해서 배웠으니 다음 단계에서는 본래 목적인 "집단 간 평균 비교"를 하고 봅시다.다음 글에서는 정규성을 따르지 않는 데이터에 대한 평균 비교 방법인 Wilcoxonrank-sumtest에 대해 알아보겠습니다. 또, 과인문장의 하단에 실습에 사용한 데이터를 당초부터 첨부한다.


    부족한 점이 많으므로 피드백을 적극적으로 도입합니다. 많은 소견과 도움의 손길 부탁합니다 :)​ ​ ​ 데이터 출처:transfermarkt.com​ ​ ​ 참고 자료:https://r직접 신문. tistory.com/32(as.factor에 대해서 설명)​ https://www.youtube.com/watch?v=ohxOmDsz-ds(Levene's test에 대한 이론 설명)​ https://stats.stackexchange.com/questions/하나에 5722/how-to-use-levene-test-function-in-r(R에 Levene's test하는 법)​ ​ ​ ​



    댓글

Designed by Tistory.