[Big Data] Chap 4. 빅데이터 결과 해석

제육's 휘발성 코딩

Published 2021. 9. 27. 21:04

[Big Data] Chap 4. 빅데이터 결과 해석 Big Data

분석 모형 평가

종속변수의 유형에 따라 다르다.
종속변수가 범주형(분류 모형) : 혼동 행렬
종속변수가 연속형(회귀 모형) : RMSE (평균 제곱근 오차)

혼동 행렬

분류의 예측 범주와 실제 범주를 교차 표로 정리한 행렬
정확도 : 실제 분류 범주를 정확하게 예측한 비율
오차 비율 : 실제 분류 범주를 잘못 분류한 비율
TPR(재현율, 민감도) : 실제 긍정에서 올바르게 예측한 비율
FPR (거짓 긍정율) : 실제 부정에서 긍정으로 잘못 예측한 비율
특이도 : 실제 부정인 범주에서 부정으로 올바르게 예측한 비율
정밀도 : 긍정으로 예측한 비율에서 실제 긍정인 비율

ROC 곡선

가로축 FPR, 세로축 TPR로 두어 시각화한 그래프
0.5 ~1.0 까지 있으며 1에 가까울 수록 좋은 모형

교차 검증

일반화 오차에 대한 추정치를 구하기 위해 훈련, 평가 하는 검증 기법
홀드 아웃 , K-Fold, LOOCV, LpOCV 등이 있다.

홀드 아웃

전체 데이터를 비복원추출 방법으로 랜덤하게 데이터를 나눠 검증
훈련데이터로 분석 모형 구축, 평가 데이터로 분석 모형 평가

K-Fold

데이터 집합을 무작위로 K개로 나누고 k-1개 훈련, 1개 평가 기법
k번 반복을 수행하며, 다수결 또는 평균으로 분석

LOOCV

전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용
나머지 N-1개는 훈련데이터로 사용하는 과정을 N번 반복
K-Fold가 전체 데이터를 k로 두면 동일한 기법

LpOCV

LOOCV에서 1개의 샘플이 아닌, p개의 샘플을 테스트에 사용하는 기법

부트스트랩

단순 랜덤 복원추출 방법을 활용하여 동일한 표본을 여러개 생성하는 샘플링 기법

과대 적합

훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 오차가 커지는 현상

과대적합 방지

데이터 증강 : 데이터 세트 증가
모델 복잡도 감소 : 은닉층의 수 감소, 모델 수 감소
가중치 규제 : 개별 가중치 값을 제한
- L1 라쏘 : 가중치 절댓값 합 추가하여 최소가 되도록
- L2 릿지 : 가중치의 제곱합을 추가 (가중치 감소)
- Elastic Net : L1, L2 모두 추가
드롭아웃 : 신경망 일부를 사용하지 않는 방법

시각화

시간 시각화

시간에 따라 변화하는 데이터를 표현하는 방법
막대 그래프, 누적 막대 그래프, 선 그래프, 영역 차트, 계단식 그래프, 추세선
R 언어에선 geom_bar() 함수 사용

공간 시각화

지도 상에 해당하는 정보를 표현하는 시각화 방법
등치지역도, 등치선도, 도트맵, 버블맵, 카토그램
R에선 ggmap(), mapproj(), maps() 등 지도에 매핑

분포 시각화

데이터의 최댓, 최솟값, 전체 분포 등을 나타내는 시각화 방법
파이차트, 도넛 차트, 트리맵, 누적 영역 차트

관계 시각화

변수 사이의 관련이 있는지 표현하는 시각화
산점도, 산점도 행렬, 버블차트, 히스토그램, 네트워크 그래프

비교 시각화

플로팅 바 차트(간트 차트), 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표 그래프
R언어의 heatmap() 함수 사용하여 히트맵 생성 및 분석

인포그래픽

중요 정보를 하나의 그래픽으로 표현해서 보는 시각화 방법
정보를 SNS 상에서 쉽고 빠르게 전달 가능
지도형 , 도표형, 스토리텔링형, 타임라인형, 비교분석형, 만화형

제육's 휘발성 코딩

@sasca37

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요! 맞구독은 언제나 환영입니다^^

티스토리툴바