반응형
분석 모형 선정
- 현상에서 패턴을 발견하는 것 EDA(탐색적 데이터 분석)
- 현상에서 인과적인 결론을 도출하는 것 (통계적 추론)
- 현상을 예측하는 것 (머신러닝)
- 해당 기법들을 고려하여 분석 모델 선정
데이터 마이닝
- 데이터 내에 존재하는 패턴, 관계를 탐색하고 모델링하여 정보를 추출하는 과정
- 분류 , 예측, 군집화, 연관규칙이 존재한다. (분예군연)
- 분류
- 범주형 또는 이산형 변수 등의 범주를 예측 (사전에 정해진 그룹이나 범주)
- 통계적 기법, 트리 기반, 최적화, 기계 학습 등
- 예측
- 과거 데이터로부터 특성을 분석하여 다른 데이터의 결괏값을 예측
- 회귀분석, 의사결정나무, 인공신경망, 시계열 분석 등
- 군집
- 사전정보가 없는 상태에서 이질적인 집단을 동질적인 소집단으로 세분화 하는 작업
- 계층적 방법과 비계층적 방법으로 나뉨
- 계층적 방법 : 사전에 군집 수를 정하지 않고 단계적으로 군집결과를 산출 (병합, 분할)
- 비계층적 방법 : 군집을 위한 소집단을 정해놓고 배정 (K-means)
- 연관
- 동시에 발생하는 사건 또는 규칙을 수치화하는 기법
- 장바구니 분석이라고도 불리며, 마케팅에서 자주 활용
머신러닝
- 목적변수 존재 여부에 따라 지도학습, 비지도학습, 강화학습, 준지도학습으로 구분한다.
- 지도학습
- 정답인 label이 포함되어 있는 데이터를 통해 학습
- 주로 분류, 인식, 진단, 예측 등의 문제해결에 자주 사용
- 로지스틱 회귀, ANN, 의사결정나무, SVM, 랜덤 포레스트, 감성 분석 등
- 비지도학습
- label이 없는 상태에서 훈련 데이터를 통해 학습
- 목적변수에 대한 정보 없이 학습이 이루어진다.
- 군집화, 차원축소, 장바구니 분석 등에서 적용 (이미지 분석, 얼굴인식 등)
- 강화학습
- 보상을 최대화하는 행동 혹은 순서를 선택하는 학습 방법
- 행동에 따라 보상이 주어지며 최대한 많은 보상을 얻도록 유도하는 학습
- 준지도학습
- label이 있거나 없거나 모두 훈련에 사용하는 방법
- 일반적으로 label이 없는 경우가 많다.
고려사항
- 과소적합
- 분석 대상인 데이터에 비해 모델이 너무 간단하면 과소적합 발생
- 학습이 부족하여 성능이 떨어지는 경우
- 과대 적합
- 지나친 차수 증가로 인한 활용성의 부족 현상(모델 복잡)
- 학습데이터에 대한 성능은 좋지만 실제 데이터에 성능이 떨어짐
반응형