정치와 사회/통계학과 방법론 11

샘플을 편향되게 만들 수 있는 9가지 방법

여러분은 통계를 하면서 서베이(survey)나 사전조사에 대해서 들어본적이 있을 것이고, 이는 지금까지 다루어 온 실험(experiment)에서도 sample을 고르는 것을 중요하게 여긴다는 것을 강조하였다. 만약 여러분의 조사나 연구가 앞으로 서술될 9가지 이유에 의해 크게 편향되었을 경우, 사이즈는 아무런 도움이 되지 않는다. 이유인즉슨, 샘플이 이미 여러분이 조사를 하고자 하는 모집단을 대표하지 않기 때문이다. 통계는 편항성과의 싸움이다. 모든 샘플은 어느정도 편향되었으며, 편향되지 않는, 최대한 공정한 샘플을 만들기 위해 노력하는 것이 통계학이다. 여러분이 설문조사를 하기 위해 대한민국 5000만 국민에게 우편을 보내거나 전화를 걸 수 없다. 그러니 공정한 과정을 통해 샘플을 뽑고 (100명정도)..

하나의 샘플을 가진 z-test (단일표본 z검정)

오늘은 하나의 샘플을 가진 z test를 알아보죠 한국말로는 z검정 또는 z테스트라고 합니다. 오늘은 하나의 샘플을 가진 z테스트를 알아보도록 하겠습니다. 유식한 말로 단일표본 z검정이라고 하는데 뭐 이렇게 어려운 말을 쓰는지 몰겠네요 ㅋ z테스트는 다음과 같이 이해하면 됩니다. 문제(실험내용) 미국의 학생들은 sat를 칩니다. 그중에서 A지역의 학생들이 친 sat 수학 부분의 평균 점수는 500점이었고, 표준편차는 100이었습니다. 한 연구자는 A지역의 학생들 중 400명을 뽑았고, 그들에게 자신이 만든 학습방법과 교재를 제공합니다. 3개월 후, 이 400명은 sat를 쳤고, 그 평균은 514점이었습니다. 이 연구자는 자신이 만든 학습방법과 sat교재가 학생들의 sat점수에 영향을 준다고 주장하고 싶습..

막대그래프와 도수분포표를 이용한 시각화 총정리 (히스토그램+도수분포 다각형)

저번에 블로그에 각종 척도에 관한 글을 올린적이 있었습니다. [링크] 또한 저번에는 샘플이 어떻게 분포되고 기울어졌는지, 기울기에 따라 어떤 종류(Positive skewed, negative skewed)로 구분되는지, 무슨 방법으로 집중경향성과 변산도를 측정하는지를 알아봤습니다. 어떻게 샘플만 보고 우리는 이게 대칭으로 분포되었는지, 아니면 비대칭으로 분포되는지 알 수 있는가? 라고 묻는다면, 우리는 막대 그래프와 도수분포표, 히스토그램을 비롯한 시각화로 대칭과 비대칭을 구분할 수도 있으며, 또한 굳이 그리지 않더라도 백분위 측정을 통한 계산으로 해당 샘플이 비대칭으로 분포되어있음을 예측할수도 있습니다. 이 게시글에서는 이러한 방법을 알려드리려고 합니다. 절대적으로 주의해야 할것은 그래프를 그릴때 반..

사분범위와 산포지표

산포지표(Index of Dispersion) 보기전에 반드시 이거 읽고 올것 http://cshlife.tistory.com/209 산포지표는 주로 mode를 집중경향성 (central tendency)측정으로 사용할때 쓰는 변산도 (variability) 측정 방법입니다. 즉 nominal data에서 주로 쓰이는 방법입니다. 그러나, 만약 mode를 쓰지 않고 평균값과 표준편차를 사용했다면, 공식은 꽤나 간단합니다. 표준편차를 제곱한 값에 평균값을 나누는 것입니다. 다만 여러분의 샘플이 Ordinal, Interval, Ratio이라면 mode를 쓰지 않으므로 굳이 이 산포지표를 쓸 필요가 없습니다. 표준편차만으로도 충분하기 때문입니다. 산포지표는 mode를 사용하는 Nominal data 의 경우..

정규분포와 z점수, z검정에 대해서 알아보자.

정규분포는 통계에서 가장 중요한 것으로서, 여러분이 이 단계에서 배우는 모든 확률분포는 모두 이 정규분포를 따른다. 유명한 수학자 가우스가 제안했다고 해서 가우스 분포(Gaussian Distribution)이라고도 한다. 중심 극한 정리에 따르면 정규분포는 어떤 확률분포에 대해서도 적용되는 대단히 좋은 확률분포인 데다, 또한 관측 오차를 설명하는 확률분포이기도 하므로, 세상 모든 일이 정규분포를 따른다고 생각하는 것은 어쩌면 당연한 결론이라 하겠다. 정규분포라는 이름 또한 그런 뜻에서 지어진 것이었다. 이렇게 고르게 분포되어 있는 것을 우리는 정규분포라고 한다. 거의 대부분의 통계들은 이 정규 분포라는 가정하에 이루어진다. 어떤 현상을 관찰한 결과가 정규분포를 따르지 않는다면, 그것은 자료가 부족한 것..

척도(scale)와 집중경향성, 그 기본 성질에 대한 총정리

척도는 무언가를 측정할때 사용하는 것을 말한다. 온도의 경우 50도가 100도보다 2배 뜨겁다고 말할 수 있는가?무게의 경우 50Kg이 100Kg보다 2배 무겁다고 말할수 있는가? 사람들은 온도의 경우 "아니오", 무게의 경우 "예"라고 답할것이다. 이 둘의 공통점은 킬로와 섭씨의 경우 무언가를 측정하는 것에서 다르다. 그렇다면 이 둘의 차이점은 무엇인가? 통계는 무언가를 측정할 때 4가지의 척도로 분류한다. 이들의 특징과, 성질을 알아보도록 하자. 우선 비교를 하기전에 먼저 용어정리부터 하고 가겠다. 집중경향성(Central Tendency)모집단이나 표본으로부터 얻어진 자료가 어떤 특정 값을 중심으로 분포를 형성하는 경향을 말한다. 전체 자료의 값을 일일이 나열하는 것보다, 집중경향성을 이용하여 자료..

준실험을 계획하는데 이해해야 하는 설계 3종류

실험이 주로 자연과학에서 사용되는 것이라면, 준실험과 비실험적인 연구는 주로 사회과학과 심리학에서 하는 부분이다. 간단하게 설명하자면 실험은 주로 원인을 밝혀내는데 사용된다. 반면에 준실험은 자연 상태에서의 연구와 "실험을 할 수 없는 것"을 실험하며, 최대한의 관계변수와 혼재변수를 줄이는 것을 목표로 하는 실험이다. 마지막으로 비실험은 주로 "상관관계"(corrlation)을 지레짐작하는데 쓰이는 실험이다. 이 경우 실험하려면 비인간적인 절차를 거쳐야 하는 경우 사용한다. 대부분의 통계의 경우, 교수나 학풍, 그리고 관련 과에 따라 준실험과 비실험이 갈릴때가 있다. 이 두 실험은 비실험과 비실험에 준하는 것을 최대한 진실험에 가깝게 그렇기에 최대한 먼저 개념을 알고보자. 변수들의 종류를 알고오자[클릭]..

변수의 종류와 실험, 그리고 검정

오늘은 변수에 대해서 알아보도록 하죠. 가능한 한 쉽게 설명해보려고 합니다만 조금 어려울수도 있습니다. 영어 variable에 대응하는 한국어 단어는 변인 또는 변수인데 사실 같은 말이니 신경 안 쓰셔도 됩니다. 독립 변수 vs 종속 변수(Independent variable vs Dependent Variable) 독립 변수(IV)는 변수의 조작이 가능한 변수입니다. 통계에서는 주로 독립 변수는 한가지가 존재하지 않지만 여러가지가 존재합니다. 독립 변수는 True IV 와 Quasi-Iv로 나누어집니다. 비측정 변수(quasi-variable)는 저번에서 언급한 "무작위 할당"(random assignment)에 의한 것이 아닌, 성적 성향이나, 흡연,비흡연의 여부, 나이, 인종등에 따라 나누어질 수 ..

사회과학에서 통계는 왜 중요한가.

통상적으로 사회과학은 통계와 같은 방법을 상당히 경시하는 학문이라고 알려져 있습니다. 사회과학을 인문계 취급하는 것도 그렇고 말이지요. 하지만 사회과학은 사실 인문계와 이공계 둘다 양다리를 걸치고 있는 애매한 학문입니다. 실상으로 들어가보면 인문학적 교양과 과학적 사고를 한꺼번에 요구하는 학문이지요. 원래 사회과학은 정치철학과, 정부구조등에 집중하고 제도와 사회현상에 집중하던 학문이었는데 1900년대에서 1970년대에 사회과학은 행태주의(Behaviourism) 의 영향을 받기 시작하여 이때부터 사회과학은 급격히 실증과 분석을 요구하는 학문이 되었습니다. 그러나 1970년대 들어, 수리적 논리로만 정치학과 사회과학 전반을 이해하려는 생각은 많은 비판을 받았고 오늘날은 이들이 복합된 학문이 되어버렸죠. 정..

통계의 기본 원칙

통계를 함으로서 가장 기본적인 것이 있습니다. 통계는 사람들 전체의 의견을 모두 물어보는 것이 아니기 때문에, 오류를 줄이고자 철저한 준비 과정을 거치게 됩니다. 한번 살펴보죠 만약 흡연이 학업에 끼치는 영향을 조사한다고 칩시다 Population [모집단] - 우리 학교에 다니는 흡연자들 (직역하자면 "어머니 집단" 이라는 뜻이네요)Sample [표본 집단] - 흡연자중에서 무작위로 고른 30명variable [변수] - 개개인의 지식, 열정, 흡연 여부, 평균 취침시간 등등...data [데이터] - 흡연자들이 친 시험 결과statistics [통계] - 무작위로 고른 30명의 시험 결과 평균parameter [파라미터] - 우리 학교에 다니는 흡연자들의 시험 결과 평균 예상치 또는 평균점수 (즉 경..