제육's 휘발성 코딩
반응형

분석 모형 평가

  • 종속변수의 유형에 따라 다르다.
  • 종속변수가 범주형(분류 모형) : 혼동 행렬
  • 종속변수가 연속형(회귀 모형) : RMSE (평균 제곱근 오차)

혼동 행렬

  • 분류의 예측 범주와 실제 범주를 교차 표로 정리한 행렬
  • 정확도 : 실제 분류 범주를 정확하게 예측한 비율
  • 오차 비율 : 실제 분류 범주를 잘못 분류한 비율
  • TPR(재현율, 민감도) : 실제 긍정에서 올바르게 예측한 비율
  • FPR (거짓 긍정율) : 실제 부정에서 긍정으로 잘못 예측한 비율
  • 특이도 : 실제 부정인 범주에서 부정으로 올바르게 예측한 비율
  • 정밀도 : 긍정으로 예측한 비율에서 실제 긍정인 비율

ROC 곡선

  • 가로축 FPR, 세로축 TPR로 두어 시각화한 그래프
  • 0.5 ~1.0 까지 있으며 1에 가까울 수록 좋은 모형

교차 검증

  • 일반화 오차에 대한 추정치를 구하기 위해 훈련, 평가 하는 검증 기법
  • 홀드 아웃 , K-Fold, LOOCV, LpOCV 등이 있다.

홀드 아웃

  • 전체 데이터를 비복원추출 방법으로 랜덤하게 데이터를 나눠 검증
  • 훈련데이터로 분석 모형 구축, 평가 데이터로 분석 모형 평가

K-Fold

  • 데이터 집합을 무작위로 K개로 나누고 k-1개 훈련, 1개 평가 기법
  • k번 반복을 수행하며, 다수결 또는 평균으로 분석

LOOCV

  • 전체 데이터 N개에서 1개의 샘플만을 평가 데이터에 사용
  • 나머지 N-1개는 훈련데이터로 사용하는 과정을 N번 반복
  • K-Fold가 전체 데이터를 k로 두면 동일한 기법

LpOCV

  • LOOCV에서 1개의 샘플이 아닌, p개의 샘플을 테스트에 사용하는 기법

부트스트랩

  • 단순 랜덤 복원추출 방법을 활용하여 동일한 표본을 여러개 생성하는 샘플링 기법

과대 적합

  • 훈련 데이터 세트가 지나치게 특화되어 새로운 데이터에 오차가 커지는 현상

과대적합 방지

  • 데이터 증강 : 데이터 세트 증가
  • 모델 복잡도 감소 : 은닉층의 수 감소, 모델 수 감소
  • 가중치 규제 : 개별 가중치 값을 제한
    • L1 라쏘 : 가중치 절댓값 합 추가하여 최소가 되도록
    • L2 릿지 : 가중치의 제곱합을 추가 (가중치 감소)
    • Elastic Net : L1, L2 모두 추가
  • 드롭아웃 : 신경망 일부를 사용하지 않는 방법

시각화

시간 시각화

  • 시간에 따라 변화하는 데이터를 표현하는 방법

  • 막대 그래프, 누적 막대 그래프, 선 그래프, 영역 차트, 계단식 그래프, 추세선

  • R 언어에선 geom_bar() 함수 사용

공간 시각화

  • 지도 상에 해당하는 정보를 표현하는 시각화 방법
  • 등치지역도, 등치선도, 도트맵, 버블맵, 카토그램
  • R에선 ggmap(), mapproj(), maps() 등 지도에 매핑

분포 시각화

  • 데이터의 최댓, 최솟값, 전체 분포 등을 나타내는 시각화 방법
  • 파이차트, 도넛 차트, 트리맵, 누적 영역 차트

관계 시각화

  • 변수 사이의 관련이 있는지 표현하는 시각화

  • 산점도, 산점도 행렬, 버블차트, 히스토그램, 네트워크 그래프

비교 시각화

  • 플로팅 바 차트(간트 차트), 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표 그래프
  • R언어의 heatmap() 함수 사용하여 히트맵 생성 및 분석

인포그래픽

  • 중요 정보를 하나의 그래픽으로 표현해서 보는 시각화 방법
  • 정보를 SNS 상에서 쉽고 빠르게 전달 가능
  • 지도형 , 도표형, 스토리텔링형, 타임라인형, 비교분석형, 만화형
반응형
profile

제육's 휘발성 코딩

@sasca37

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요! 맞구독은 언제나 환영입니다^^