정치와 사회/통계학과 방법론

사분범위와 산포지표

첼린저스 2016. 10. 7. 20:26

산포지표(Index of Dispersion) 


보기전에 반드시 이거 읽고 올것 http://cshlife.tistory.com/209


산포지표는 주로 mode를 집중경향성 (central tendency)측정으로 사용할때 쓰는 변산도 (variability) 측정 방법입니다. 즉 nominal data에서 주로 쓰이는 방법입니다. 


그러나, 만약 mode를 쓰지 않고 평균값과 표준편차를 사용했다면, 공식은 꽤나 간단합니다. 표준편차를 제곱한 값에 평균값을 나누는 것입니다. 

D = {\sigma^2 \over \mu }.


다만 여러분의 샘플이 Ordinal, Interval, Ratio이라면 mode를 쓰지 않으므로 굳이 이 산포지표를 쓸 필요가 없습니다. 표준편차만으로도 충분하기 때문입니다. 산포지표는 mode를 사용하는 Nominal data 의 경우 주로 사용하는데, 이 경우에는 평균값과 표준편차가 의미가 없습니다. 즉 여러분의 샘플이 Nominal이라면, 아래 방법대로 하여야 합니다. 


이런 샘플이 존재한다고 합시다. 

   Hip Hop        Alternative          Classic Rock              Pop               Jazz                Country

       140                     110                             90                         30                    20                       10


먼저


N을 구해야 합니다. N은 각 샘플들이 가진 갯수의 합입니다. 즉 140+110+90+30+20+10= 400개가 됩니다. 이걸 제곱한 것도 필요합니다. 

N^2은 160000입니다. 

K는 항목의 갯수입니다. 6개가 있으므로 K는 6입니다.

P도 구해야 합니다. P는 각 항목이 가진 갯수들을 제곱한 것의 합입니다. (140^2)+(110^2)+(90^2)+(30^2)+(20^2)+(10^2) = 41200


즉 이곳의 산표지표는 K(N^2-P)/(K-1)(N^2) 입니다.  



0.891되겠습니다. 



사분범위(Interquertile range) - 샘플을 통해 구하는 방법

사분범위는 중앙값을 계산하는데 쓰이는 것입니다. 즉 모든 샘플을 센 다음에 4개로 동등하게 나눈 다음, 그걸 기준으로 범위를 잰다고 해서 사분 범위라고 합니다.


1,1,2,3,4,5,6,6,7,8,9,10 샘플이 존재한다면


1 1 2 3 4 5 6 6 7 8 9 10 중 샘플이 총 12개이니 중앙값은 6번째 수와 7번째 수의 중간이 되겠군요. 즉 (5+6)/2 = 5.5가 되겠습니다. 이걸 우리는 Q2라 합니다. 그럼 이 중간값을 기준으로 처음 값(1)의 중간삾을 Q1이라 합니다. 마찬가지로 마지막 값(10과) 중앙값의 중앙값을 Q3이라 합니다.


Q0                                               

Q1                                                       

 Q2

 Q3                                            Q4


1 2 3 4 5 (5.5) 6 6 8 9 10


파랑색= 중간값(Q2)

빨강색= 최소값(Q1)과 최대값(Q4)

초록색= 중간값과 Q1, Q4와의 중간값


이곳에서의 사분범위는 Q3-Q1이 되겠습니다. 이 범위를 바로 사분 범위라고 합니다. 



사분범위(Interquertile range) - 계산을 통해 구하는 방법


저 위의 방법은 사실 고등학교때까지 하는 방법이고, 고등학교가 아닌 전문 수준에서의 사분범위는 다릅니다. 


92, 83, 81, 78, 76, 74, 73, 72,71,70 , 0 


이 샘플은 총 11개의 샘플이 있습니다. 즉 11/4 (=2.75) 번째마다 사분점이 존재한다는 것입니다. 



즉 Q1 = (11/4) = 샘플의 2.75번째

Q2= (11/2) = 샘플의 5.5번째

Q3= 3(11/4)= 샘플의 8.75번째


92(11번째), 83(10번째), 81(9번째), 78(8번째), 76(7번째), 74(6번째), 73(5번째), 72(4번째),71(3번째),70(2번째) , 0 (1번째)


이런 식이므로 다 정수입니다. 샘플의 2.75번째가 Q1의 위치라면 70과 71사이에 존재한다는 것이고

샘플의 5.5번째가 중간값(Q2)라면 73과 74 사이에 존재한다는 것이며

샘플의 8.25번째가 Q3이라면 78과 81사이에 존재한다는 것입니다. 


죄다 중간값을 구합니다. 


Q1= (70+71)/2 =70.5

Q2= (73+74)/2 =73.5 

Q3= (78+81)/2 =79.5


거기에 여러분이 처음에 계산한 사분점의 나머지를 더하는 것입니다. 만약 샘플이 2.75번째에 Q1이 존재한다면 나머지인 0.75를  = 


Q1 = 70.5+0.75(번째) = 71.25

Q2 = 73.5+0.50(번째) = 74

Q3 = 79.5+0.25(번째) = 79.75


즉 Q3-Q1= IQR이니 사분범위는 8.5가 되겠군요. 


사분범위 다각형과 계산기로 계산하는 방법


사분범위를 쉽게 계산해주는 사이트

http://www.statisticshowto.com/calculators/interquartile-range-calculator/



사분범위 도표를 쉽게 만드는 사이트

http://www.alcula.com/calculators/statistics/box-plot/


다 됏고 그냥 계산기로 때려박는 방법이 있습니다. 요즘 세상에 손으로 계산하는 ㅂㅅ이 어디 있습니까. 


92, 83, 81, 78, 76, 74, 73, 72,71,70


Outlier(극단의 수)인 0을 제거해보았습니다. 


Sample size: 10

Median: 75

Minimum: 70

Maximum: 92

First quartile: 71.75

Third quartile: 81.5

Interquartile Range: 9.75

Outliers: none




그럼 0을 넣겠습니다 (계산기가 0이 들어가면 안 된다 해서 0과 최대한 가까운 수를 넣었습니다. 이해바랍니다)

92, 83, 81, 78, 76, 74, 73, 72,71,70,0.001


극단수를 넣으면 저렇게 도표 끝에 점을 찍어서 나타냅니다. mean(평균값)은 outlier에게 큰 영향을 받는데, 이런 경우 median을 쓰면 최대한 안정적인 Central Tendency를 구할 수 있습니다. 

Population size: 11

Median: 74

Minimum: 0.001

Maximum: 92

First quartile: 71

Third quartile: 81

Interquartile Range: 10

Outlier: 0.001