반응형
데이터 탐색
- 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법
탐색적 데이터 분석 EDA
저잔재현 (4R's)
저항성 Resistance
- 오류, 이상값에 영향을 적게 받는 성질
- 탐색적 데이터 분석은 저항성이 큰 통계적 데이터 이용
잔차 해석 Residual
- 관찰 값들이 벗어난 정도를 탐색
자료 재표현 Reexpression
- 원래 변수를 적당한 척도로 바꾸는 것
현시성 Graphic Representation
- 시각적으로 표현하고 전달하는 과정
개별 변수 탐색 방법
- 범주형 (질적) 데이터
- 명목 척도와 순위 척도에 대한 데이터 탐색
- 명목 척도 : 관측 대상을 범주로 나누어 기호나 숫자를 부여 (순서가 상관없다.)
- 순위 척도 : 비계량적 변수를 상대적 순위화를 통해 관측 (순서가 관계있다.)
- 막대그래프 주로 이용, 빈도수, 최빈수, 비율, 백분율 등을 이용한 파악
- 수치형 (양적) 데이터
- 등간 척도와 비율 척도에 대한 데이터 탐색
- 등간 척도 : 비계량적 변수를 정량적 방법을 측정하기 위한 방법 (동일한 간격화로 비교)
- 비율 척도 : 절대적 기준 영점이 있고, 비율 사칙연산이 가능한 척도
- 박스 플롯이나, 히스토그램 이용, 평균, 분산, 표준편차 등의 측면에서 파악
- 이산형 : 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우
- 연속형 : 변수가 구간 안의 모든 값을 가질 수 있는 경우
다차원 데이터 탐색
- 범주 - 범주 : 비율, 백분율 활용 및 막대형 그래프 사용
- 수치 - 수치 : 산점도, 기울기를 통한 상관성 분석, 피어슨 상관계수 사용
- 범주 - 수치 : 범주형 데이터를 그룹으로 간주하고 그룹에 따라 차이 비교 (박스 플롯)
반응형