정치와 사회/통계학과 방법론

척도(scale)와 집중경향성, 그 기본 성질에 대한 총정리

첼린저스 2016. 9. 27. 05:03

척도는 무언가를 측정할때 사용하는 것을 말한다. 


  • 온도의 경우 50도가 100도보다 2배 뜨겁다고 말할 수 있는가?
  • 무게의 경우 50Kg이 100Kg보다 2배 무겁다고 말할수 있는가? 


사람들은 온도의 경우 "아니오", 무게의 경우 "예"라고 답할것이다. 이 둘의 공통점은 킬로와 섭씨의 경우 무언가를 측정하는 것에서 다르다. 그렇다면 이 둘의 차이점은 무엇인가?  통계는 무언가를 측정할 때 4가지의 척도로 분류한다. 이들의 특징과, 성질을 알아보도록 하자. 우선 비교를 하기전에 먼저 용어정리부터 하고 가겠다.

집중경향성(Central Tendency)

모집단이나 표본으로부터 얻어진 자료가 어떤 특정 값을 중심으로 분포를 형성하는 경향을 말한다. 전체 자료의 값을 일일이 나열하는 것보다, 집중경향성을 이용하여 자료를 가장 잘 대표할 수 있는 하나의 값으로 요약할 수 있는데, 이를 집중경향값(measure of central tendency)이라고 한다. 집중경향값은 자료 분포에서 가장 전형적인 특정 수치로 이해될 수 있고, 대표적인 집중경향값은 평균(mean), 중앙값(median), 최빈값(mode)을 들 수 있다.


밀집도 또는 변산도 (Variablility)

한 분포의 특정한 사례가 다른 사례와 유사한 정도를 나타내는 지수이다. 즉 한 분포에 있는 여러 사례들이 집중경향을 중심으로 하여 어느 정도 밀집 또는 분산되어 있는지 양적으로 나타내는 것을 말한다


명명척도(Nominal Scale)



  • 집중경향성을 측정하는 방법: 최빈수(mode)
  • 양적 변수의 성격을 띔, 
  • 적합한 정리방식: 막대 그래프 (Bar Graph)
  • 변산도 측정에서의 최고의 방법 : Index of Dispersion(산포도 측정)
명명 척도는 주로 나이, 성별 같은 것을 말한다. 이 변수의 특징은 서로의 크기를 비교할 수 없으며,  양이 아니므로 평균이나 중간값의 의미가 없다. 즉 이곳에서 가장 중요하게 생각되는 것은 최빈수다. 만약 자료에서 한국인이 110명 일본인이 30명 중국인이 40명, 미국인이 50명이 있다면 이중에서 최빈수(mode)는 110명이 된다. 

주로 카테고리로 정리되는 경향이 있다. 그러니 최적의 방법은 막대 그래프로 표기하는게 최선이다. 

서열척도(Ordinal Scale)





  • 집중경향성을 측정할 수 있는 것: median(최적의 방법), mode(쓸수는 있지만 권장하지 않음)
  • 양적 변수의 성격을 띔
  • 적합한 방식: 막대 그래프
  • 변산도 측정에서의 최고의 방법: 사분편차 (Interquertile range) *mode를 사용할때는 당연히 산포도 측정을 변산도 측정도구로 사용해야한다. 

예를들면 시험점수로 아이들의 서열을 매기기보다는, 시험을 먼저 끝내서 제출한 순서대로 나열하거나, 달리기 시합에서 빨리 도착한 순서대로 나열하면 이건 서열 척도이다. 즉 누가 먼저 끝냈는가만 따져본다면 이들의 우열을 확인할 수 있다. 다만 더하기 빼기는 못한다 예를 들자면, 


3등 + 1등 = 4등 


이런게 안 된다는 것이다. 더하기 빼기를 못하는 근본적인 원인을 설명하자면, 이 서열척도는 1등과 2등, 3등사이의 거리가 일정한지, 일정하지 않은지 알수 없다는 것이다. 1등이 100점 맞았는데 2등이 79점을 맞았고 3등이 아슬아슬하게 78점을 맞았다면 1등과 2등간의 간격은 21점이나 되는데 2등과 3등의 간격은 1점이 된다. 즉 서열 척도는 그 간격이 불분명하기 때문에 이를 가지고 셈을 할 수 없다. 그냥 서열만 나타낸다. 


설문조사의 결과도 서열 척도라고 볼수 있다


1-매우 불만족

2-불만족

3-보통

4-만족

5-매우 만족


만족의 정도는 사람마다 다를 수 있으며, 불만족+보통= 매우만족 같은 계산을 할 수 없으므로 서열 척도이다. 


동간척도 (Interval Scale)


  • 집중경향성을 측정할 수 있는 방법: mean(이상점/outlier 가 없을때 쓰인다) median(이상점이 있을때 쓰인다) mode (권장안함)
  • 양적 변수의 성격을 띔
  • 변산도 측정방법: median일 경우 Interquartile range(사분편차), mean을 사용했을 경우 Standard diviation(표준편차)가 쓰인다
  • 적합한 방식: 히스토그램, 도수분포표, 도수분포다각형
동간척도의 가장 좋은 예시로는 바로 온도이다. 온도의 경우 그 비율은 일정하지 않지만 그 올라가는 비율이 같으며, "지금이 31도라면 21도보다 10도정도 높구나" 식의 기초적인 덧셈 뺄셈이 가능하다. 즉 일정한 무언가로 나뉘어진다는 것이다. 온도의 경우 그 올라가는 차이가 같다

즉 31도에서 41도 올라가는 것과 100도에서 110도 올라가는 온도는 같다는 것이다. 

다만 화씨 100도가 화씨 50도보다 2배 뜨거운가? 라고 물어보면 꿀먹은 벙어리가 되기 마련이다. 이는 온도가 비율척도가 아니기 때문이다.

비율척도 (Ratio Scale) 



  • 집중경향성을 측정할 수 있는 방법: mean(이상점/outlier 가 없을때 쓰인다) median(이상점이 있을때 쓰인다) mode (권장안함)
  • 양적 변수의 성격을 띔
  • 변산도 측정방법: median일 경우 Interquartile range(사분편차), mean을 사용했을 경우 Standard diviation(표준편차)가 쓰인다
  • 적합한 방식: 히스토그램, 도수분포표, 도수분포다각형

  • 비율철도는 단순히 같은 간격으로 나뉘어져 있으며, 그 비율까지 일치한것을 말한다. 무게, 길이같은 것을 말하며, 우리가 사용하는 대부분의 척도들이 이 비율철도에 들어갈만큼 압도적인 영향을 차지한다. 무게 50kg 박스 2개를 드는 것과, 100kg짜리 박스를 드는 것이 같다. 


    아 동간척도에서 화씨와 섭씨를 예를 들었는데 만약 캘빈(kelvin) 이라면 비율철도이다 100k가 50k보다 2배 뜨겁냐고 묻는다면 예라고 대답해야 한다. 다만 캘빈은 


    TIP 동간척도와 비율척도 쉽게 구분하는 방법


    동간척도 - 0이 존재한다

    비율철도-  0은 곧 그것의 부재를 나타낸다


    만약 동간척도에서 섭씨 0도를 예를 들어보자. 섭씨0도는 단순히 온도를 나타낼 뿐이지 "온도가 없다" 라고 말하지는 않는다. 숫자에서 정수 0도 0을 나타낼 뿐이지 숫자가 없는 것은 아니다.  


    비율척도에서는 0이라는 것이 그것의 부재를 뜻한다. 즉 자전거 0개는 자전거가 없는 것이고, 0kg은 무게가 없는 것이고, 0cm는 길이가 없는 것이다. 다만 여기서 예외가 몇가지 있는데 비율척도에서 캘빈과 시험점수는 0이 있어도 그게 무조건 부재를 뜻하지는 않는다. 


    우선 0이 존재하는것을 확인한 후, 이것이 비율계산이 되는지 확인하고 이것이 비율척도인지 동간척도인지를 판단하는게 중요하다.

    집중경향성과 변산도 측정시 알아두어야 할것.


    집중경향성을 측정할 때, 아주 중요한 것은 먼저 자료의 척도가 무엇인지 파악하는 것이다.


    만약 샘플이 시험점수라면 이건 비율척도이거나 동간척도이므로 mean(평균값), median(중간값), mode(최빈값)이 사용될 수 있다. 문제는 우리가 그걸 사용할수 있다고 해서, 아무거나 막 사용해서는 안 된다. 


    우선 평균값의 경우 극단적인 수에 영향을 잘 받는다. 반 36명중에서 35명이 80점대로 잘 맞았는데 한 트롤러놈이 2점을 받았다. 그럼 그 전체의 평균이 확 내려가버린다. 36명에서 35명이 80점을 받고 1명이 2점을 받았다고 가정해보자. 이 반을 대표하는 트랜드 점수는 80점인데 이놈때문에 평균이 77.83이 된것이다. 즉 의문을 제기하자면, 77.83이 이 반을 대표하는 트랜드 점수가 될 수 있는가이다. 36명중 35명이 80점을 받은 상황에서 말이다. 


    만약 median이나 mode를 썼다면 80점이 나왔을 것이다. 그렇지 않은가? 즉 평균의 경우 극단적인 수에 영향을 받는다. 이 극단적인 수를 통계에서는 이상점(Outlier)라고 한다. 마찬가지로 이상점은 표준편차에도 엄청난 영향을 끼치기 때문에 이상점이 많은 샘플에서는 평균값과 표준편차를 쓰지 않는다. 


    1. 비율척도이거나 동간척도이면서 이상점(극단적인 수)이 존재하는 경우 - 중간값과 사분편차를 쓴다

    2. 비율척도이거나 동간척도이면서 이상점이 안 존재하는 경우 - 평균값과 사분편차를 쓴다. 


    mode(최빈값)의 경우 왠만하면 사용하지 않는다. 정말 명명척도가 아닌이상 쓰면 안된다. 서열척도의 경우 그냥 median(중간값)과 사분편차를 쓰는게 좋다. 



    이외에도 아래 사진같이 샘플을 어느정도 감안하면서 어떠한 계산방식이 가장 알맞은가를 보는게 좋다. 즉  왠만하면 mean을 쓰는것이 좋다는 것이다. 


     



    다만 주의해야 할점은 


    10,10,10,10,10,10,10,0.1같이 이상점을 알아내기 쉬운 샘플도 있지만


    100,99,98,98,94,88,80(이상점) 처럼 이상점을 알기 어려운 샘플도 있다 ㅠ


    이 경우 의심되는 점수를 z검정해보아야 한다. 



    이 z검정을 하는 방법을 추후 포스팅하려고 한다.