1. 통계학 개론
통계학
특정 목적을 이루기 위하여 올바른 자료를 수집하고 생성하는 효과적인 방법을 연구하고, 이러한 자료를 효과적으로 정보화하여, 이를 바탕으로 과학적인 의사결정 방법을 연구하고 개발하는 학문
통계적 자료 : Statistical Data (sample)
통계적 연구를 목적으로 수집한 자료를 통계적 자료라고 한다. 특히 조사대상 전체에서 수집한 자료를 모집단자료(population data)라고 하며 조사대상의 일부에서 수집한 자료를 표본자료(sample data)라고 한다.
기술통계학
자료를 정리하고 요약하여 그 특성을 정확하게 기술하는 분야야
추론통계학
대부분의 통계적 자료는 표본자료이고 따라서 표본자료로부터 모집단 전체의 특성을 파악하기 위한 분야
표본추출
모집단의 특성을 정확히 파악하기 위해서는 충분한 수의 표본이 필요하다. 하지만 많은 수의 표본이 반드시 모집단의 특성을 정확히 파악할 수 있는 통계적 자료를 제공하는 것은 아니며, 오히려 적지만 올바른 방법으로 얻어진 표본이 더 중요한 경우가 많다. 올바른 방법으로 얻어진 표본이란 모집단을 잘 대표할 수 있도록 합리적으로 추출된 표본을 의미한다. 표본이란 반드시 정해진 추출방법에 의하여 과학적으로 얻어진 것이라는 점을 확실히 숙지해야 한다.
1. 단순임의 추출(simple random sampling) : 가장 대표적인 추출방법으로 모집단에서 추출 가능한 모든 표본에 대하여 추출확률이 동일하도록 추출하는 방법이다. 단순임의추출은 직관적으로 이해하기 쉬울 뿐만 아니라 대부분의 통계학 분야에서 가장 많이 사용되는 추출방법이다.
2. 계통추출(systematic sampling) : 계통추출은 연속적인 모집단 목록으로부터 동일 간격으로 연속하여 표본을 얻는 방법이다. 즉, 모집단에서 첫 번째 표본을 임의로 추출하고 두번째 표본부터는 정해진 간격으로 연속하여 추출하는 것이다. 모집단이 무작위로 구성된 경우, 계통추출은 단순임의추출과 거의 동일하다. 하지만 추출의 과정이 단순임의추출에 비하여 매우 간단하다는 장점이 있다.
3. 층화추출(stratified sampling) : 층화추출은 먼저 모집단을 여러 개의 그룹으로 나누어 층을 구성하고, 모든 층에서 독립적으로 단순임의추출을 적용하는 방법이다. 모집단을 동질적인 여러 개의 층으로 나눌 수 있는 경우, 층화추출이 단순임의추출에 비하여 더 유용하다는 사실이 알려져 있다.
4. 집락추출(cluster sampling) : 집락추출은 먼저 모집단을 여러 개의 글부으로 나누어 집락을 구성하고, 이 집락 자체를 표본추출 단위로 간주하여 단순임의추출 하는 것이다. 모집단을 여러 개의 그룹으로 나눈다는 점은 층화추출과 동일하지만, 층화추출은 모든 그룹을 조사하고 집락추출은 그 중 일부를 조사한다는 점이 다르다.
2. 자료의 요약 및 정리
통계적 자료를 얻을 수 있는 원소 전체의 집합을 모집단이라 하며, 모집단의 부분집합을 표본이라고 한다.
모집단의 특성을 나타내는 수치를 모수라고 하고 표본의 특성을 나타내는 수치를 통계량이라고 한다. 모수는 전수조사를 통해 얻은 모집단자료로부터 정의되며 통계량은 표본조사를 통해 얻은 표본자료로부터 정의된다.
대표값
자료의 특성을 나타내는 다양한 수치 중 가장 대표적인 것이 대표값이다. 대표값은 자료 전체의 중심 위치를 하나의 값으로 요약하는 수치이다.
1) 평균(mean)
평균은 대표값 중 가장 널리 사용되는 값이며 자료의 합을 자료의 개수로 나눈 값으로 정의된다.
1. 평균
2. 절사평균
자료 중에서 큰 값과 작은 값을 각각 a%만큼 버린 나머지 자료로부터 구한 평균을 a% 절사평균이라고 한다.
3. 가중평균
자료의 중요도가 모두 같지 않은 경우에는 중요도를 반영하기 위하여 가중치를 사용하며, 이러한 대표값을 가중평균이라고 한다. 특히 물가지수와 같이 국가에서 관리하는 통계지수를 구하는 경우에 자주 사용된다.
2) 중위수(중앙값) (median)
자료에 이상점이 포함되어 있는 경우, 평균은 중심위치를 정확히 요약하지 못하고 절사평균은 자료 중 몇개를 버린다는 단점이 있다. 이러한 단점을 보완할 다른 대표값으로 중위수가 있다.
크기순으로 배열된 자료에서, 자료의 개수가 홀수인 경우 중앙에 위치한 자료를, 짝수인 경우 중앙에 위치한 두 자료의 평균을 중위수라고 한다.
3) 최빈수(mode)
자료 중에서 가장 많이 출현한 값을 최빈수라고 한다.
산포도
전체 자료가 퍼진 정도를 하나의 값으로 요약한 값이다.
1) 범위(range)
자료 중 가장 큰 값에서 가장 작은 값을 뺀 값을 범위라고 한다.
2) 분산(variance)
각 값에서 평균을 뺀 것의 제곱을 하여 평균을 낸 값을 분산이라고 한다.
※모분산의 경우 편차의 제곱의 합을 자료의 개수 n으로 나누지만, 표본분산의 경우 n-1로 나눈다!
3) 사분위편차(사분위수범위)
분산은 평균과 마찬가지로 자료에 포함된 이상점에 매우 민감하다. 이러한 단점을 보완하기 위하여 사용하는 산포도가 사분위편차이다.
사분위편차는 큰 값들과 작은 값들 중 각각 25%를 버린 나머지 자료들의 범위에 해당한다.
3. 확률
어떤 실험이나 조사에서 얻을 수 있는 '모든 결과의 집합'을 표본공간(sample space)이라 하며, 일반적으로 영어 대문자 S로 표기한다. 그리고 표본공간에 속하는 각각의 원소를 표본점(sample point)이라고 한다.
표본공간 S의 부분집합을 표본공간 S에서 정의된 사상(event)이라고 한다.
고전적 확률이 타당할 수도 있고 경험적 확률이 타당할 수도 있다. 하지만 어떤한 개념을 사용하더라도 확률은 반드시 3가지의 기본적인 성질을 만족해야만 하며, 이러한 성질을 만족하는 확률을 공리적 확률이라고 한다.
1. 모든 사상 A에 대하여 0 ≤ P(A) ≤ 1이다.
2. P(S) = 1이다.
3. 두 사상 A와 B가 상호배반이면 P(A∪B) = P(A) + P(B)이다.
조건부확률(Conditional probability)
2개의 사상 A,B에 대하여 P(B|A)는 다음과 같다
P(B|A) = P(A∩B) / P(A), 단 P(A) ≠ 0
독립사상(Independent events)
2개의 사상 A, B에 대하여 P(A∩B) = P(A)P(B) 이면 사상 A, B를 독립사상이라고 하며, 독립사상이 아닌 경우 의존사상(dependent events)이라고 한다.
전확률 정리(Theorem of Total Probability)
B ₁ , B ₂, ... , Bk 가 표본공간 S의 분할이거나 또는 사상 A의 분할이면 A의 확률은 다음과 같다.
P(A) = ∑ P(A|Bi) P(Bi)
확률 P(A| B ₁)과 P(B ₁)을 사용하여 조건의 순서를 바꾼 확률 P(B ₁|A)를 구하고자 할 때 베이즈 정리가 사용된다.
4. 확률변수와 확률분포
표본공간의 각각의 표본점을 하나의 실수로 대응시키면, 표본공간의 표현의 임의성을 배제할 수 있고, 이러한 함수를 통계학에서는 확률변수(random variable)이라 한다. 확률변수를 정의하는 좀 더 중요한 이유는 실험이나 조사에서 관심의 대상이 되는 중요한 부분에 초점을 맞추기 위해서이다.
공분산(covariance)
두 확률변수 X와 Y가 가지는 직선관계의 정도를 나타내느 수치이다. 일반적으로 X와 Y의 공분산은 각각의 측정 단위에 의존하므로 직선관계의 정도를 비교하는 목적으로 사용하기 어렵다.
상관계수(correlation coefficient)
이러한 단위의 영향을 제거하고 절대적인 크기로 환산한 수치가 상관계수이다.
기대값의 성질
1. 상수 a에 대하여
E(a) = a
2. 상수 a,b와 확률변수 X에 대하여
E(aX+b) = aE(X) +b
3. 상수 a,b,c와 확률변수 X,Y에 대하여
E(aX+bY+c) = aE(X)+bE(Y)+c
분산의 성질
1. 상수 a에 대하여
Var(a) = 0
2. 상수 a,b와 확률변수 X에 대하여
Var(aX+b) = a²Var(X)
3. 상수 a,b,c와 확률변수 X,Y에 대하여
Var(aX + bY + c) = a²Var(X) + b²Var(Y) + 2abCov(X,Y)
※ 기대값의 성질과 분산의 성질은 통계학과에 다니면서 정말 많이 쓴 성질들이다. 특히 문제 풀 때 많이 사용하였다.
확률변수 X,Y가 독립이면 Cov(X,Y) = 0 이지만, 역으로 Cov(X,Y) = 0 이라고 해서 항상 X, Y가 독립인 것은 아니다!
5. 여러 가지 확률분포
1. 이산형 확률분포
2. 연속형 확률분포
6. 표본분포
확률표본(random sample)
어떤 모집단으로부터 독립적으로 반복해서 추출하는 것으로 각각의 관측값들은 서로 독립이며 동일한 분포를 가짐
어떤 모집단의 모든 원소가 표본으로 추출될 가능성이 모두 동일한 상황 하에서 추출된 표본을 말함
여기서 유의할 점은 확률표본의 정의에서 비복원 추출에 의한 확률변수에는 적용되지 않음 → 왜냐하면 비복원 추출의 결과는 서로 독립이 아니기 때문임
통계량(statistics)
모수를 포함하지 않으며 관측가능한(observable) 확률변수들의 실수치함수(real-values function)임
통계량은 그 자체가 확률변수이며 따라서 일정한 확률분포를 가짐
중심극한정리(central limit theorem, CLT)
임의의 모집단으로부터 추출된 표본평균의 표본분포는 표본크기가 충분히 크면 거의 정규분포가 됨. 즉, 표본크기가 크면 클수록 표본평균의 표본분포는 정규분포와 더 가깝게 닮아감
만약 모집단이 정규분포의 형태를 가지고 있지 않고, 그 분포의 형태를 알 수 없는 경우 표본크기를 계속해서 증가시키면 그 표본분포는 정규분포의 형태를 갖는다
카이제곱 분포
정규모집단의 모분산 σ ²에 대한 통계적 추론, 범주형 자료의 분석 등에 활용됨
확률밀도함수가 정(+)의 값인 경우에만 존재하고 오른쪽 긴꼬리를 갖는 비대칭 형태이다
카이제곱분포는 자유도가 크면 클수록 0으로부터 멀리 떨어져서 분포하게됨(자유도가 클수록 정규분포에 가까워짐)
T분포
완전대칭이며, 곡선형태가 표준정규분포의 곡선에 비해 완만하고 두터운 꼬리를 가짐
자유도가 커질수록 t분포는 표준정규분포에 가깝데 됨. 자유도가 무한대가 되면 표준정규분포와 동일한 형태가 됨
t분포는 정규분포를 따르는 집단의 평균에 대한 가설검정 또는 정규분포를 따르는 두 집단의 평균차이 검정을 할 때 사용
모분산 σ ²를 모르고 있는 경우 t분포를 사용하여 가설검정을 함
F분포
서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추론, 분산분석에 활용됨
f분포는 비대칭형태이며, 항상 0보다 큰 양수값임
자유도가 커짐에 따라 좌우대칭형태가 됨
두 정규모집단의 모분산을 비교하는데 사용됨
7. 추정
점추정(point estiamation)
표본자료를 이용하여 모수의 참값이라고 추정하는 하나의 값을 결정
변동(variation) : 표본을 여러 번 선택할 때 통계량의 값이 얼마나 퍼져있는가의 의미
편의(bias) : 표본을 여러 번 선택할 때 모수에서 벗어나는 통계량의 편차를 의미
점추정의 바람직한 성질
1. 불편성(unbiasedness) : 모집단으로부터 반복해서 표본을 추출하고, 그 표본으로부터 얻어지는 추정량의 값들은 평균적으로 모수와 일치하게 됨을 의미
2. 유효성(efficiency) : 하나의 추정량이 다른 추정량보다 참값에 집중된다면 상대적으로 유효한 추정량임. 따라서 모수의 모든 불편추정량 중에서 분산이 제일 작은 불편추정량을 모수의 최소분산불편추정량 또는 유효추정량이라 함
3. 충분성(sufficiency) : 모수에 관한 모든 정보를 누락없이 직접 이용하는 추정량을 모수의 충분추정량(sufficient estimator)이라 함
4. 일치성(consistency) : 표본크기 n이 무한히 커질 때 추정량의 값이 모수에 수렴하는 성질을 말함
구간추정(interval estimation)
모수의 참값이 포함되어 있으리라고 추정되는 구간을 결정
신뢰수준의 의미
잘못된 해석 : 흔히들 "신뢰수준이 95%라는 것은 특정 신뢰구간이 참 모수를 포함할 확률이 95%이다"라고 생각하는데, 이는 잘못된 해석이다. 신뢰구간은 고정된 값이기 때문에 그 안에 참 모수가 포함될 확률은 0 또는 1 중 하나입니다. 즉, 참 모수는 신뢰구간에 포함되거나 포함되지 않기 때문에 특정 신뢰구간이 참 모수를 포함할 확률은 의미가 없다.
정확한 해석 : 신뢰수준 95%라는 의미는 100번 반복적으로 표본을 추출하여 신뢰구간을 계산했을 때 신뢰구간 내에 모수가 포함되는 것이 95번 정도 된다는 의미이다!
신뢰수준과 신뢰구간의 크기
신뢰수준은 높을수록, 신뢰구간의 크기는 작을수록 바람직함. 그러나 신뢰수준과 신뢰구간의 크기는 서로 상충됨.
일반적으로 문제에 따라 신뢰수준을 고정하면서 신뢰구간의 크기를 가장 작게 하는 신뢰구간을 도출함.
일정 신뢰수준하에서 신뢰구간의 크기는 점추정량의 분산과 관련되고, 분산은 표본수에 의해 좌우됨.
→ 신뢰구간을 작게 하기 위해서는 표본수를 늘려야 함
8. 가설검정
귀무가설 H₀
일반적으로 현재까지 인정되는 사실 또는 간단하고 구체적인 사실
직접 검정대상이 되는 가설로 '영 가설' 이라고도 함
대립가설 H₁
기존의 주장에 대한 새로운 주장이나 추측
제 1종 오류
귀무가설 H₀가 '참'임에도 불구하고 귀무가설 H₀를 기각하는 경우
제 1종 오류를 범할 확률 = P( H₀ 기각 | H₀ 참)
제 2종 오류
대립가설 H₁이 '참'임에도 불구하고 대립가설 H₁을 기각하는 경우
제 2종 오류를 범할 확률 = P( H₁ 기각 | H₁ 참)
유의수준 ( α )
제 1종 오류를 범할 최대확률을 의미하며 α로 표기함
일반적으로 사회과학 분야에서는 유의수준의 크기를 주로 α=0.05로 설정함
유의확률 (p-value)
p값은 귀무가설을 기각할 수 있는 가장 낮은 유의수준, 즉 제 1종 오류를 범할 확률을 나타냄
p값이 α값 보다 작을수록 귀무가설 H₀를 기각하는 방향으로 신뢰를 가짐
9. 상관 및 회귀분석
상관분석
두 변수간의 선형관계가 존재하는지 또는 존재하지 않는지를 분석. 변수들간의 선형성의 강도에 대한 통계적 분석이다.
표본상관계수의 크기에 따른 해석
표본상관계수의 절대값 | 해 석 |
0.2 이하 | 상관관계 거의 없음 |
0.2 ~ 0.4 | 낮은 상관관계 |
0.4 ~ 0.6 | 보통 관계 |
0.6 ~ 0.8 | 높은 상관관계 |
0.8 이상 | 매우 높은 상관관계 |
상관계수의 한계
상관계수는 수학적인 관계일 뿐 속성의 관계로 확대 해석해서는 안됨.
상관계수는 선형관계의 척도임. 곡선 관계일수도 있으므로 산점도(scatter plot)으로 확인해야함.
상관계수는 자료분석의 초기단계이지 결론단계에 사용되는 통계량은 아님.
회귀분석
하나의 종속변수와 하나 또는 2개 이상의 독립변수들 간의 관련성을 규명할 수 있는 수학적 모형을 측정된 변수들의 자료로부터 추정하는 통계적 방법.
종속변수가 하나 이상의 독립변수에 어떻게 의존하고 있는가를 분석하는 과정을 의미한다.
'통계' 카테고리의 다른 글
회귀분석 review (0) | 2024.10.04 |
---|---|
탐색적 자료분석 review (1) | 2024.09.19 |