반응형
분석 모형 평가
- 종속변수의 유형에 따라 다르다.
- 종속변수가 범주형(분류 모형) : 혼동 행렬
- 종속변수가 연속형(회귀 모형) : RMSE (평균 제곱근 오차)
혼동 행렬
- 분류의 예측 범주와 실제 범주를 교차 표로 정리한 행렬
- 정확도 : 실제 분류 범주를 정확하게 예측한 비율
- 오차 비율 : 실제 분류 범주를 잘못 분류한 비율
- TPR(재현율, 민감도) : 실제 긍정에서 올바르게 예측한 비율
- FPR (거짓 긍정율) : 실제 부정에서 긍정으로 잘못 예측한 비율
- 특이도 : 실제 부정인 범주에서 부정으로 올바르게 예측한 비율
- 정밀도 : 긍정으로 예측한 비율에서 실제 긍정인 비율
ROC 곡선
- 가로축 FPR, 세로축 TPR로 두어 시각화한 그래프
- 0.5 ~1.0 까지 있으며 1에 가까울 수록 좋은 모형
교차 검증
- 일반화 오차에 대한 추정치를 구하기 위해 훈련, 평가 하는 검증 기법
- 홀드 아웃 , K-Fold, LOOCV, LpOCV 등이 있다.
홀드 아웃
- 전체 데이터를 비복원추출 방법으로 랜덤하게 데이터를 나눠 검증
- 훈련데이터로 분석 모형 구축, 평가 데이터로 분석 모형 평가
K-Fold
- 데이터 집합을 무작위로 K개로 나누고 k-1개 훈련, 1개 평가 기법
- k번 반복을 수행하며, 다수결 또는 평균으로 분석
LOOCV
- 전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용
- 나머지 N-1개는 훈련데이터로 사용하는 과정을 N번 반복
- K-Fold가 전체 데이터를 k로 두면 동일한 기법
LpOCV
- LOOCV에서 1개의 샘플이 아닌, p개의 샘플을 테스트에 사용하는 기법
부트스트랩
- 단순 랜덤 복원추출 방법을 활용하여 동일한 표본을 여러개 생성하는 샘플링 기법
과대 적합
- 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 오차가 커지는 현상
과대적합 방지
- 데이터 증강 : 데이터 세트 증가
- 모델 복잡도 감소 : 은닉층의 수 감소, 모델 수 감소
- 가중치 규제 : 개별 가중치 값을 제한
- L1 라쏘 : 가중치 절댓값 합 추가하여 최소가 되도록
- L2 릿지 : 가중치의 제곱합을 추가 (가중치 감소)
- Elastic Net : L1, L2 모두 추가
- 드롭아웃 : 신경망 일부를 사용하지 않는 방법
시각화
시간 시각화
시간에 따라 변화하는 데이터를 표현하는 방법
막대 그래프, 누적 막대 그래프, 선 그래프, 영역 차트, 계단식 그래프, 추세선
R 언어에선 geom_bar() 함수 사용
공간 시각화
- 지도 상에 해당하는 정보를 표현하는 시각화 방법
- 등치지역도, 등치선도, 도트맵, 버블맵, 카토그램
- R에선 ggmap(), mapproj(), maps() 등 지도에 매핑
분포 시각화
- 데이터의 최댓, 최솟값, 전체 분포 등을 나타내는 시각화 방법
- 파이차트, 도넛 차트, 트리맵, 누적 영역 차트
관계 시각화
변수 사이의 관련이 있는지 표현하는 시각화
산점도, 산점도 행렬, 버블차트, 히스토그램, 네트워크 그래프
비교 시각화
- 플로팅 바 차트(간트 차트), 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표 그래프
- R언어의 heatmap() 함수 사용하여 히트맵 생성 및 분석
인포그래픽
- 중요 정보를 하나의 그래픽으로 표현해서 보는 시각화 방법
- 정보를 SNS 상에서 쉽고 빠르게 전달 가능
- 지도형 , 도표형, 스토리텔링형, 타임라인형, 비교분석형, 만화형
반응형