반응형
회귀 분석
- 독립변수와 종속변수 간 선형적인 관계 도출
- 독립변수를 통해 종속변수를 예측하는 분석 기법
- 독립변수 (설명 변수, 예측 변수)
- 종속변수 (반응 변수, 결과 변수)
회귀 모형의 가정
- 선형성, 독립성, 등분산성, 비상관성, 정상성 5가지 만족시켜야 한다. (선독등비정)
회귀 모형 검증
- F-통계량을 통해 통계적 유의미 확인
- F-통계량의 p-value가 유의 수준보다 작으면 유의하다고 볼 수 있다.(대립 가설)
- F-통계량이 클수록 회귀 모형은 통계적으로 유의하다.
- t-통계량을 통해 각 독립변수가 종속변수에 미치는 영향 파악
- 모형의 설명력은 결정계수 R^2으로 판단
- 결정계수는 0~1 값을 가지며, 높을 수록 설명력이 높다.
- 회귀 제곱합 (SSR) / 전체 제곱합 (SST)
- 수정된 결정계수는 기존 결정 계수보다 작계 계산되는 특징이 있다.
- 잔차를 그래프로 그리고 회귀진단을 한다.
- 잔차 : 관측값 - 회귀값
- 데이터 가정 : 선독등비정 만족하는지 확인
로지스틱 회귀
- 독립변수가 수치형, 종속 변수가 범주형(이항형)인 경우 적용되는 회귀 분석 모형
- 종속 변수의 결과는 0 또는 1 두개만 존재 (단순 회귀는 다양한 값이기 때문에 정확도가 낮다.)
- 로짓 변환을 수행함으로 0,1 만 나오게 된다.
- 오즈(승산), 로짓 변환 , 최종적으로 시그모이드 함수 구현 (S자 곡선, 로짓 함수의 역함수)
인공신경망 (ANN)
- 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델
- 입력값을 받아서 출력값을 만들기 위해 활성화 함수 사용
- 가중치를 알아내는 것이 목적
- 퍼셉트론 (XOR 문제) -> 다층 퍼셉트론,역전파 (과적합, 사라지는 경사 현상 발생) -> 딥러닝
손실 함수
- 실젯값과 예측값의 차이를 비교하는 지표
- 값이 낮을 수록 학습이 잘됬다고 볼 수 있다.
경사 하강법
- 기울기를 낮은 쪽으로 계속 이동시켜서 최적의 매개변수를 찾는 기법
- 함수의 기울기를 구하고, 절댓값이 낮은 쪽으로 계속 반복시켜 극값을 찾는다. (가중치 미분)
- 많은 시간 소요, 지역 최솟값 수렴등의 문제 발생 (확률적 경사 하강, 모멘텀 등 매개변수 최적화 사용)
CNN
- 시각적 이미지를 분석하는데 사용되는 심층 신경망 (합성곱 신경망)
- Feature Map : (n + 2p -f ) / s + 1
RNN
- 음성 신호, 연속적 시계열 데이터 분석에 사용하는 심층 신경망
- 확률적 경사 하강법, 시간 기반 오차역전파를 사용하여 가중치 업데이트
서포트 벡터 머신
- 벡터 공간에서 학습 데이터가 속한 2개의 그룹을 분류하는 분리자를 찾는 모델
- 초평면 중에서 가장 거리가 먼 초평면(N-1 차원)을 선택하여 분리하는 지도학습 기반 이진 선형 분류 모델
- 훈련시간이 느리지만, 정확성이 뛰어나며 과대 적합의 가능성이 낮다.
- 결정 경계, 초평면, 마진, 서포트벡터, 슬랙 변수 등의 구성요소
시계열 분석
- 미래를 예측하기 위한 분석 기법 (정상성 만족 가정)
- 정상성 : 시점에 상관없이 시계열의 특성이 일정
- 자기 회귀 모형, 이동평균 모형, 자기 회귀 누적 이동평균 모형 존재
자기 회귀 모형
AR (Auto-Regressive Model) 모형
현시점의 자료가 p 시점 전 유한개의 과거 자료로 설명될 수 있는 모형
이동 평균 모형
- 시간이 지날수록 관측치의 평균값이 지속적으로 증가, 감소 하는 시계열 모형
- MA 모형이라고도 한다. (Moving Average Model)
자기 회귀 누적 이동평균
- ARIMA 모형으로 지표를 리뷰하여 트렌드를 분석하는 기법
- 비정상 시계열 모형으로 변환을 통해 AR, MA, ARMA로 정상화할 수 있다.
- ARIMA(p,d,q)로 차수를 사용
- p : AR 모형과 관련
- q : MA 모형과 관련이 있는 차수
- d : 정상화 할 때 차분화한 횟수
시계열 구성요소
- 추세 요인 - 특정한 형태
- 계절 요인 - 고정된 주기에 따라 변화
- 순환 요인 - 알려지지 않은 주기로 자료가 변화
- 불규칙 요인 - 잔차에 해당하는 불규칙적인 요인
연관성 분석
- 데이터 간의 상호 관계 혹은 종속 관계를 찾아내는 분석 기법
- 장바구니 분석, 서열 분석으로 불리기도 한다.
- 지지도 : A 와 B를 동시에 포함하는 거래의 비율
- 신뢰도 : A 상품을 샀을 때 B 상품도 살 조건부 확률
- 향상도 : 우연에 의한 발생인지를 판단하기 위해 연관성의 정도를 측정
앙상블 분석
- 여러 가지 모형들을 종합하여 최종적인 의사결정 활용 기법
배깅
- 다수의 부트스트랩 자료를 생성하고, 결합하여 최종 예측 모형 만드는 알고리즘
- 보팅은 다수결에 의해서 최종 결과를 선정하는 과정
부스팅
- 잘못 분류된 개체들의 가중치를 높혀서 반복하여 최종 모형을 만드는 알고리즘
- 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법
- 잘못 예측한 가중치 높이는 기법 : AdaBoost
- 경사 하강법을 이용하여 가중치 업데이트 기법 : GBM (그레디언트 부스팅)
랜덤포레스트
- 배깅과 부스팅보다 더 많은 무작위성을 주어 최종 학습기를 만드는 방법
- 분류기를 여러 개 쓸수록 성능이 좋아진다.
- 트리의 개수가 많을수록 과대적합 문제를 피할 수 있다.
반응형