제육's 휘발성 코딩
반응형

데이터 오류 원인

결측값

  • 필수 데이터가 입력되지 않고 누락된 값
  • 완전 무작위 결측 MCAR : 아무런 상관이 없는 경우
  • 무작위 결측 MAR : 특정변수와 관련되어 일어나지만 결과와는 관계가 없는 경우
  • 비 무작위 결측 MNAR: 결과와 연관된 변수가 있는 경우
  • 단순 대치법
    • 완전 분석법 : 불완전한 자료 무시
    • 평균 대치법 : 평균값으로 결측값 대체
    • 단순 확률 대치법 : 핫덱(비슷한 성향), 콜드덱(외부 출처, 이전의 연구), 혼합
  • 다중 대치법
    • 대치 : 사후분포에서 추출된 값으로 대치
    • 분석 : D개의 대치표본을 구해 원하는 분석 수행
    • 결합 : 모수의 점 추정과 표준오차 추정치 D개를 결합하여 하나의 결과 제시

노이즈

  • 입력되지 않았는데 입력되었다고 판단된 값

이상값

  • 데이터 범위에서 많이 벗어난 값
  • 발생 원인
    • 표본추출 오류 ,고의적 이상값, 데이터 입력 오류, 실험 오류, 측정 오류
  • 검출 방법 - 통계기법
    • ESD : 평균(m)으로 부터 3표준편차가 떨어진 값을 이상값으로 판단
    • 기하평균 : 기하평균으로 부터 2.5표준편차가 떨어진 값을 이상값으로 판단
      • 기하평균 : N개의 양수 값을 모두 곱한 것의 N제곱근
    • 사분위수 : IQR의 1.5배 이상 떨어진 값을 이상값으로 판단
    • 표준화 점수 : 표준화 점수 활용
    • 딕슨 Q검정 : 오름차순으로 정렬된 데이터의 비율 활용
    • 그럽스 T검정 : 단변량 자료에서 이상값 검정
    • 카이제곱 검정 : 정규분포를 만족하나, 자료의 수가 적은 경우 이상값 검정
  • 검출 방법 - 머신러닝 기법
    • K-means : K개의 클러스터로 묶어 이상값 검출
    • 마할라노비스 거리 : 데이터의 분포를 고려한 거리 측도
    • LOF : 밀도의 상대적인 비교를 통해 이상값 탐색
    • iForest: 의사결정 나무를 이용한 이상값 탐지

변수

  • 데이터 모델에서 예측을 수행하는 입력변수 (Feature)
  • 변수 유형
    • 독립 변수 : 다른 변수에 영향을 받지 않고, 종속변수에 영향을 주는 변수
    • 종속 변수 : 독립변수의 영향을 받아 변화하는 종속적인 변수

변수 선택 기법

  • 지도방식 : 정답인 레이블이 포함되어있는 학습 데이터를 통한 학습 방법
  • 비지도 방식 : 레이블이 없는 상태에서 학습시키는 방법
  • 필터 기법 : 데이터 통계적 특성으로 변수를 택하는 기법
    • 정보 소득, 카이제곱, 피셔스코어, 상관계수
  • 래퍼 기법 : 변수의 일부를 모델링에 사용하고 그 결과를 확인하는 작업을 반복 하는 기법
    • 가장 좋은 성능을 보이는 하위집합 선택 (Greedy Algorithm)
    • 시간은 오래 걸리지만, 정확도가 높다.
    • 전진, 후진, 단계적 방법 중 사용
    • RFE(svm), SFS(그리디), 유전알고리즘(최적화), 단변량 선택, mRMR(중복성 최소) 사용
  • 임베디드 기법 : 모델 자체에 변수 선택이 포함된 기법
    • 라쏘(절댓값 합) , 릿지(절댓값 곱), 엘라스틱 넷(라쏘+릿지), SelectFromModel(의사결정) -라릿엘셀

불균형 데이터 처리

  • 데이터 수가 매우 극소수인 경우에 불균형 데이터 처리를 한다.
  • 불균형 문제를 처리하지 않으면, 정확도는 높아지지만, 재현율은 낮아져 문제가 발생
  • 과소 표집 (Under-Sampling)
    • 데이터를 일부만 선택하여 비율을 맞추는 방법
    • *데이터의 손실이 크고, 정상 데이터를 잃을 수 있다. *
    • 랜덤 과소 표집, ENN, 토멕 링크, CNN, OSS
  • 과대 표집 (Over-Sampling)
    • 소수 클래스의 데이터를 복제 또는 생성하여 데이터의 비율 맞추는 방법
    • 손실율이 낮지만 과적합을 초래할 수 있다.
    • 랜덤 과대 표집, SMOTE, Borderline-SMOTE, ADASYN
  • 임곗값 이동
    • 임곗값을 데이터가 많은 쪽으로 이동시키는 방법
    • 학습 단계에선 변화 없이 테스트 단계에서 이동
  • 앙상블 기법
    • 같거나 서로다른 모형들을 종합하여 최종적인 의사결정에 활용
    • 과소표집, 과대표집, 임곗값 이동 등 가장 많은 표를 받은 기법을 선택
반응형
profile

제육's 휘발성 코딩

@sasca37

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요! 맞구독은 언제나 환영입니다^^