제육's 휘발성 코딩
반응형

분석 모형 선정

  • 현상에서 패턴을 발견하는 것 EDA(탐색적 데이터 분석)
  • 현상에서 인과적인 결론을 도출하는 것 (통계적 추론)
  • 현상을 예측하는 것 (머신러닝)
  • 해당 기법들을 고려하여 분석 모델 선정

데이터 마이닝

  • 데이터 내에 존재하는 패턴, 관계를 탐색하고 모델링하여 정보를 추출하는 과정
  • 분류 , 예측, 군집화, 연관규칙이 존재한다. (분예군연)
  • 분류
    • 범주형 또는 이산형 변수 등의 범주를 예측 (사전에 정해진 그룹이나 범주)
    • 통계적 기법, 트리 기반, 최적화, 기계 학습 등
  • 예측
    • 과거 데이터로부터 특성을 분석하여 다른 데이터의 결괏값을 예측
    • 회귀분석, 의사결정나무, 인공신경망, 시계열 분석 등
  • 군집
    • 사전정보가 없는 상태에서 이질적인 집단을 동질적인 소집단으로 세분화 하는 작업
    • 계층적 방법과 비계층적 방법으로 나뉨
    • 계층적 방법 : 사전에 군집 수를 정하지 않고 단계적으로 군집결과를 산출 (병합, 분할)
    • 비계층적 방법 : 군집을 위한 소집단을 정해놓고 배정 (K-means)
  • 연관
    • 동시에 발생하는 사건 또는 규칙을 수치화하는 기법
    • 장바구니 분석이라고도 불리며, 마케팅에서 자주 활용

머신러닝

  • 목적변수 존재 여부에 따라 지도학습, 비지도학습, 강화학습, 준지도학습으로 구분한다.
  • 지도학습
    • 정답인 label이 포함되어 있는 데이터를 통해 학습
    • 주로 분류, 인식, 진단, 예측 등의 문제해결에 자주 사용
    • 로지스틱 회귀, ANN, 의사결정나무, SVM, 랜덤 포레스트, 감성 분석 등
  • 비지도학습
    • label이 없는 상태에서 훈련 데이터를 통해 학습
    • 목적변수에 대한 정보 없이 학습이 이루어진다.
    • 군집화, 차원축소, 장바구니 분석 등에서 적용 (이미지 분석, 얼굴인식 등)
  • 강화학습
    • 보상을 최대화하는 행동 혹은 순서를 선택하는 학습 방법
    • 행동에 따라 보상이 주어지며 최대한 많은 보상을 얻도록 유도하는 학습
  • 준지도학습
    • label이 있거나 없거나 모두 훈련에 사용하는 방법
    • 일반적으로 label이 없는 경우가 많다.

고려사항

  • 과소적합
    • 분석 대상인 데이터에 비해 모델이 너무 간단하면 과소적합 발생
    • 학습이 부족하여 성능이 떨어지는 경우
  • 과대 적합
    • 지나친 차수 증가로 인한 활용성의 부족 현상(모델 복잡)
    • 학습데이터에 대한 성능은 좋지만 실제 데이터에 성능이 떨어짐
반응형
profile

제육's 휘발성 코딩

@sasca37

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요! 맞구독은 언제나 환영입니다^^