제육's 휘발성 코딩
반응형

회귀 분석

  • 독립변수와 종속변수 간 선형적인 관계 도출
  • 독립변수를 통해 종속변수를 예측하는 분석 기법
  • 독립변수 (설명 변수, 예측 변수)
  • 종속변수 (반응 변수, 결과 변수)

회귀 모형의 가정

  • 선형성, 독립성, 등분산성, 비상관성, 정상성 5가지 만족시켜야 한다. (선독등비정)

회귀 모형 검증

  • F-통계량을 통해 통계적 유의미 확인
    • F-통계량의 p-value가 유의 수준보다 작으면 유의하다고 볼 수 있다.(대립 가설)
    • F-통계량이 클수록 회귀 모형은 통계적으로 유의하다.
  • t-통계량을 통해 각 독립변수가 종속변수에 미치는 영향 파악
  • 모형의 설명력은 결정계수 R^2으로 판단
    • 결정계수는 0~1 값을 가지며, 높을 수록 설명력이 높다.
    • 회귀 제곱합 (SSR) / 전체 제곱합 (SST)
    • 수정된 결정계수는 기존 결정 계수보다 작계 계산되는 특징이 있다.
  • 잔차를 그래프로 그리고 회귀진단을 한다.
    • 잔차 : 관측값 - 회귀값
  • 데이터 가정 : 선독등비정 만족하는지 확인

로지스틱 회귀

  • 독립변수가 수치형, 종속 변수가 범주형(이항형)인 경우 적용되는 회귀 분석 모형
  • 종속 변수의 결과는 0 또는 1 두개만 존재 (단순 회귀는 다양한 값이기 때문에 정확도가 낮다.)
  • 로짓 변환을 수행함으로 0,1 만 나오게 된다.
    • 오즈(승산), 로짓 변환 , 최종적으로 시그모이드 함수 구현 (S자 곡선, 로짓 함수의 역함수)

인공신경망 (ANN)

  • 사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델
  • 입력값을 받아서 출력값을 만들기 위해 활성화 함수 사용
  • 가중치를 알아내는 것이 목적
  • 퍼셉트론 (XOR 문제) -> 다층 퍼셉트론,역전파 (과적합, 사라지는 경사 현상 발생) -> 딥러닝

손실 함수

  • 실젯값과 예측값의 차이를 비교하는 지표
  • 값이 낮을 수록 학습이 잘됬다고 볼 수 있다.

경사 하강법

  • 기울기를 낮은 쪽으로 계속 이동시켜서 최적의 매개변수를 찾는 기법
  • 함수의 기울기를 구하고, 절댓값이 낮은 쪽으로 계속 반복시켜 극값을 찾는다. (가중치 미분)
  • 많은 시간 소요, 지역 최솟값 수렴등의 문제 발생 (확률적 경사 하강, 모멘텀 등 매개변수 최적화 사용)

CNN

  • 시각적 이미지를 분석하는데 사용되는 심층 신경망 (합성곱 신경망)
  • Feature Map : (n + 2p -f ) / s + 1

RNN

  • 음성 신호, 연속적 시계열 데이터 분석에 사용하는 심층 신경망
  • 확률적 경사 하강법, 시간 기반 오차역전파를 사용하여 가중치 업데이트

서포트 벡터 머신

  • 벡터 공간에서 학습 데이터가 속한 2개의 그룹을 분류하는 분리자를 찾는 모델
  • 초평면 중에서 가장 거리가 먼 초평면(N-1 차원)을 선택하여 분리하는 지도학습 기반 이진 선형 분류 모델
  • 훈련시간이 느리지만, 정확성이 뛰어나며 과대 적합의 가능성이 낮다.
  • 결정 경계, 초평면, 마진, 서포트벡터, 슬랙 변수 등의 구성요소

시계열 분석

  • 미래를 예측하기 위한 분석 기법 (정상성 만족 가정)
  • 정상성 : 시점에 상관없이 시계열의 특성이 일정
  • 자기 회귀 모형, 이동평균 모형, 자기 회귀 누적 이동평균 모형 존재

자기 회귀 모형

  • AR (Auto-Regressive Model) 모형

  • 현시점의 자료가 p 시점 전 유한개의 과거 자료로 설명될 수 있는 모형

이동 평균 모형

  • 시간이 지날수록 관측치의 평균값이 지속적으로 증가, 감소 하는 시계열 모형
  • MA 모형이라고도 한다. (Moving Average Model)

자기 회귀 누적 이동평균

  • ARIMA 모형으로 지표를 리뷰하여 트렌드를 분석하는 기법
  • 비정상 시계열 모형으로 변환을 통해 AR, MA, ARMA로 정상화할 수 있다.
  • ARIMA(p,d,q)로 차수를 사용
    • p : AR 모형과 관련
    • q : MA 모형과 관련이 있는 차수
    • d : 정상화 할 때 차분화한 횟수

시계열 구성요소

  • 추세 요인 - 특정한 형태
  • 계절 요인 - 고정된 주기에 따라 변화
  • 순환 요인 - 알려지지 않은 주기로 자료가 변화
  • 불규칙 요인 - 잔차에 해당하는 불규칙적인 요인

연관성 분석

  • 데이터 간의 상호 관계 혹은 종속 관계를 찾아내는 분석 기법
  • 장바구니 분석, 서열 분석으로 불리기도 한다.
  • 지지도 : A 와 B를 동시에 포함하는 거래의 비율
  • 신뢰도 : A 상품을 샀을 때 B 상품도 살 조건부 확률
  • 향상도 : 우연에 의한 발생인지를 판단하기 위해 연관성의 정도를 측정

앙상블 분석

  • 여러 가지 모형들을 종합하여 최종적인 의사결정 활용 기법

배깅

  • 다수의 부트스트랩 자료를 생성하고, 결합하여 최종 예측 모형 만드는 알고리즘
  • 보팅은 다수결에 의해서 최종 결과를 선정하는 과정

부스팅

  • 잘못 분류된 개체들의 가중치를 높혀서 반복하여 최종 모형을 만드는 알고리즘
  • 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법
  • 잘못 예측한 가중치 높이는 기법 : AdaBoost
  • 경사 하강법을 이용하여 가중치 업데이트 기법 : GBM (그레디언트 부스팅)

랜덤포레스트

  • 배깅과 부스팅보다 더 많은 무작위성을 주어 최종 학습기를 만드는 방법
  • 분류기를 여러 개 쓸수록 성능이 좋아진다.
  • 트리의 개수가 많을수록 과대적합 문제를 피할 수 있다.
반응형
profile

제육's 휘발성 코딩

@sasca37

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요! 맞구독은 언제나 환영입니다^^