산포지표(Index of Dispersion)
보기전에 반드시 이거 읽고 올것 http://cshlife.tistory.com/209
산포지표는 주로 mode를 집중경향성 (central tendency)측정으로 사용할때 쓰는 변산도 (variability) 측정 방법입니다. 즉 nominal data에서 주로 쓰이는 방법입니다.
그러나, 만약 mode를 쓰지 않고 평균값과 표준편차를 사용했다면, 공식은 꽤나 간단합니다. 표준편차를 제곱한 값에 평균값을 나누는 것입니다.
다만 여러분의 샘플이 Ordinal, Interval, Ratio이라면 mode를 쓰지 않으므로 굳이 이 산포지표를 쓸 필요가 없습니다. 표준편차만으로도 충분하기 때문입니다. 산포지표는 mode를 사용하는 Nominal data 의 경우 주로 사용하는데, 이 경우에는 평균값과 표준편차가 의미가 없습니다. 즉 여러분의 샘플이 Nominal이라면, 아래 방법대로 하여야 합니다.
이런 샘플이 존재한다고 합시다.
Hip Hop Alternative Classic Rock Pop Jazz Country
140 110 90 30 20 10
먼저
N을 구해야 합니다. N은 각 샘플들이 가진 갯수의 합입니다. 즉 140+110+90+30+20+10= 400개가 됩니다. 이걸 제곱한 것도 필요합니다.
N^2은 160000입니다.
K는 항목의 갯수입니다. 6개가 있으므로 K는 6입니다.
P도 구해야 합니다. P는 각 항목이 가진 갯수들을 제곱한 것의 합입니다. (140^2)+(110^2)+(90^2)+(30^2)+(20^2)+(10^2) = 41200
즉 이곳의 산표지표는 K(N^2-P)/(K-1)(N^2) 입니다.
0.891되겠습니다.
사분범위(Interquertile range) - 샘플을 통해 구하는 방법
사분범위는 중앙값을 계산하는데 쓰이는 것입니다. 즉 모든 샘플을 센 다음에 4개로 동등하게 나눈 다음, 그걸 기준으로 범위를 잰다고 해서 사분 범위라고 합니다.
1,1,2,3,4,5,6,6,7,8,9,10 샘플이 존재한다면
1 1 2 3 4 5 6 6 7 8 9 10 중 샘플이 총 12개이니 중앙값은 6번째 수와 7번째 수의 중간이 되겠군요. 즉 (5+6)/2 = 5.5가 되겠습니다. 이걸 우리는 Q2라 합니다. 그럼 이 중간값을 기준으로 처음 값(1)의 중간삾을 Q1이라 합니다. 마찬가지로 마지막 값(10과) 중앙값의 중앙값을 Q3이라 합니다.
Q0 | Q1 | Q2 | Q3 Q4 |
1 1 2 3 4 5 (5.5) 6 6 7 8 9 10
파랑색= 중간값(Q2)
빨강색= 최소값(Q1)과 최대값(Q4)
초록색= 중간값과 Q1, Q4와의 중간값
이곳에서의 사분범위는 Q3-Q1이 되겠습니다. 이 범위를 바로 사분 범위라고 합니다.
사분범위(Interquertile range) - 계산을 통해 구하는 방법
저 위의 방법은 사실 고등학교때까지 하는 방법이고, 고등학교가 아닌 전문 수준에서의 사분범위는 다릅니다.
92, 83, 81, 78, 76, 74, 73, 72,71,70 , 0
이 샘플은 총 11개의 샘플이 있습니다. 즉 11/4 (=2.75) 번째마다 사분점이 존재한다는 것입니다.
즉 Q1 = (11/4) = 샘플의 2.75번째
Q2= (11/2) = 샘플의 5.5번째
Q3= 3(11/4)= 샘플의 8.75번째
92(11번째), 83(10번째), 81(9번째), 78(8번째), 76(7번째), 74(6번째), 73(5번째), 72(4번째),71(3번째),70(2번째) , 0 (1번째)
이런 식이므로 다 정수입니다. 샘플의 2.75번째가 Q1의 위치라면 70과 71사이에 존재한다는 것이고
샘플의 5.5번째가 중간값(Q2)라면 73과 74 사이에 존재한다는 것이며
샘플의 8.25번째가 Q3이라면 78과 81사이에 존재한다는 것입니다.
죄다 중간값을 구합니다.
Q1= (70+71)/2 =70.5
Q2= (73+74)/2 =73.5
Q3= (78+81)/2 =79.5
거기에 여러분이 처음에 계산한 사분점의 나머지를 더하는 것입니다. 만약 샘플이 2.75번째에 Q1이 존재한다면 나머지인 0.75를 =
Q1 = 70.5+0.75(번째) = 71.25
Q2 = 73.5+0.50(번째) = 74
Q3 = 79.5+0.25(번째) = 79.75
즉 Q3-Q1= IQR이니 사분범위는 8.5가 되겠군요.
사분범위 다각형과 계산기로 계산하는 방법
사분범위를 쉽게 계산해주는 사이트
http://www.statisticshowto.com/calculators/interquartile-range-calculator/
사분범위 도표를 쉽게 만드는 사이트
다 됏고 그냥 계산기로 때려박는 방법이 있습니다. 요즘 세상에 손으로 계산하는 ㅂㅅ이 어디 있습니까.
92, 83, 81, 78, 76, 74, 73, 72,71,70
Outlier(극단의 수)인 0을 제거해보았습니다.
Sample size: 10
Median: 75
Minimum: 70
Maximum: 92
First quartile: 71.75
Third quartile: 81.5
Interquartile Range: 9.75
Outliers: none
그럼 0을 넣겠습니다 (계산기가 0이 들어가면 안 된다 해서 0과 최대한 가까운 수를 넣었습니다. 이해바랍니다)
92, 83, 81, 78, 76, 74, 73, 72,71,70,0.001
Population size: 11
Median: 74
Minimum: 0.001
Maximum: 92
First quartile: 71
Third quartile: 81
Interquartile Range: 10
Outlier: 0.001
'정치와 사회 > 통계학과 방법론' 카테고리의 다른 글
하나의 샘플을 가진 z-test (단일표본 z검정) (1) | 2016.11.22 |
---|---|
막대그래프와 도수분포표를 이용한 시각화 총정리 (히스토그램+도수분포 다각형) (0) | 2016.10.08 |
정규분포와 z점수, z검정에 대해서 알아보자. (3) | 2016.10.05 |
척도(scale)와 집중경향성, 그 기본 성질에 대한 총정리 (0) | 2016.09.27 |
준실험을 계획하는데 이해해야 하는 설계 3종류 (0) | 2016.09.13 |