탐색적 자료분석(EDA)이란?
데이터의 특징과 내재하는 구조적 관계를 알아내기 위한 기법
자료를 모형에 적합시키기보다는 데이터를 있는 그대로 보려는 데에 중점을 둠
자료분석
탐색 : 데이터의 특징과 구조 파악 - 기술통계학
확증 : 모형이나 효과적 재현성 - 추론통계학
-Tukey(1977) : 단순한 계산과 그래프에 집중하여 자료가 무엇을 말하려는 지를 보기 위한 것
탐색적 자료분석의 4가지 주제
1. 저항성 강조 - 중위수(Median)
데이터의 일부 변동에 따른 영향을 비교적 적게 받음
중위수는 산술평균보다 이상치의 영향을 덜 받음
2. 잔차(residual) 계산
실제값 - 예측값
각 개별 관측값이 자료의 주 경향으로부터 얼마나 벗어났는지
개별 잔차에도 신경을 써야한다
3. 자료의 재표현 - 변수변환
적당한 척도로 변환(로그, 제곱근, 지수, 역수 변환)
분포의 대칭성, 산포의 균일성, 관계의 선형성(직선화), 관련 변수의 가법성 등
4. 그래프의 유용성
기본 철학
어떤 이론에서는 특정 모형이 상정되고 데이터 분석이 이루어지는 경우도 있으나, 많은 경우 오히려 데이터를 잘 살펴본 후에 적절한 모형을 생각
과학적 과정은 모형을 찾아내는 것으로 종결하는 것이 아니라 모형의 타당성을 검증하기 위해 새로운 데이터의 수집으로 계속됨
다섯 수치 요약(five number summary)
min, Hl(Q1), M(Q2), Hu(Q3), max
※ 위의 그림은 Q1과 median이 median에서 Q3보다 간격이 짧으므로 분포의 형태가 오른쪽 꼬리 분포임
- 왜도(skewness)
확률변수(Random variable)
표본 공간(S)의 각 사건을 단 하나의 실수로 대응시켜주는 함수
이산형 확률분포
통계분석은 자료의 종류가 결정되어 있다
ㆍ독립표본 T-검정(two-sample, Independent sample T-test)
범주형 변수 1개(범주, 집단 2개), 수치형 변수 1개
두 집단의 평균 비교 H0 : μ1 - μ2 = 0
ㆍ대응표본 T-검정(paired-sample T-test)
수치형 변수 2개 (보통 효과 전,후)
보통 효과 검정 H0 : μ전 - μ후 = 0
한 사람이 2번 측정 ex) 한 학생의 영어,국어 성적 비교
ㆍ일원배치 분산분석(One-way ANOVA, 1-요인 분산분석)
범주형 변수,요인(집단/범주 3개 이상), 수치형 변수 1개
세 집단 이상의 평균비교 H0 : μ1 = μ2 = . . . = μk
ex) 학년에 따른 대학생활 만족도
ㆍ이원배치 분산분석(Two-way ANOVA, 2-요인 분산분석)
범주형 변수,요인 2개, 수치형 변수 1개
ex) 성별, 학년 따른 대학생활 만족도
'통계' 카테고리의 다른 글
회귀분석 review (0) | 2024.10.04 |
---|---|
기초통계학 review (1) | 2024.09.26 |