[Big Data] Chap 3. 빅데이터 모델링(2)

제육's 휘발성 코딩

Published 2021. 9. 27. 20:19

[Big Data] Chap 3. 빅데이터 모델링(2) Big Data

회귀 분석

독립변수와 종속변수 간 선형적인 관계 도출
독립변수를 통해 종속변수를 예측하는 분석 기법
독립변수 (설명 변수, 예측 변수)
종속변수 (반응 변수, 결과 변수)

회귀 모형의 가정

선형성, 독립성, 등분산성, 비상관성, 정상성 5가지 만족시켜야 한다. (선독등비정)

회귀 모형 검증

F-통계량을 통해 통계적 유의미 확인
- F-통계량의 p-value가 유의 수준보다 작으면 유의하다고 볼 수 있다.(대립 가설)
- F-통계량이 클수록 회귀 모형은 통계적으로 유의하다.
t-통계량을 통해 각 독립변수가 종속변수에 미치는 영향 파악
모형의 설명력은 결정계수 R^2으로 판단
- 결정계수는 0~1 값을 가지며, 높을 수록 설명력이 높다.
- 회귀 제곱합 (SSR) / 전체 제곱합 (SST)
- 수정된 결정계수는 기존 결정 계수보다 작계 계산되는 특징이 있다.
잔차를 그래프로 그리고 회귀진단을 한다.
- 잔차 : 관측값 - 회귀값
데이터 가정 : 선독등비정 만족하는지 확인

로지스틱 회귀

독립변수가 수치형, 종속 변수가 범주형(이항형)인 경우 적용되는 회귀 분석 모형
종속 변수의 결과는 0 또는 1 두개만 존재 (단순 회귀는 다양한 값이기 때문에 정확도가 낮다.)
로짓 변환을 수행함으로 0,1 만 나오게 된다.
- 오즈(승산), 로짓 변환 , 최종적으로 시그모이드 함수 구현 (S자 곡선, 로짓 함수의 역함수)

인공신경망 (ANN)

사람 두뇌의 신경세포인 뉴런이 전기신호를 전달하는 모습을 모방한 기계학습 모델
입력값을 받아서 출력값을 만들기 위해 활성화 함수 사용
가중치를 알아내는 것이 목적
퍼셉트론 (XOR 문제) -> 다층 퍼셉트론,역전파 (과적합, 사라지는 경사 현상 발생) -> 딥러닝

손실 함수

실젯값과 예측값의 차이를 비교하는 지표
값이 낮을 수록 학습이 잘됬다고 볼 수 있다.

경사 하강법

기울기를 낮은 쪽으로 계속 이동시켜서 최적의 매개변수를 찾는 기법
함수의 기울기를 구하고, 절댓값이 낮은 쪽으로 계속 반복시켜 극값을 찾는다. (가중치 미분)
많은 시간 소요, 지역 최솟값 수렴등의 문제 발생 (확률적 경사 하강, 모멘텀 등 매개변수 최적화 사용)

CNN

시각적 이미지를 분석하는데 사용되는 심층 신경망 (합성곱 신경망)
Feature Map : (n + 2p -f ) / s + 1

RNN

음성 신호, 연속적 시계열 데이터 분석에 사용하는 심층 신경망
확률적 경사 하강법, 시간 기반 오차역전파를 사용하여 가중치 업데이트

서포트 벡터 머신

벡터 공간에서 학습 데이터가 속한 2개의 그룹을 분류하는 분리자를 찾는 모델
초평면 중에서 가장 거리가 먼 초평면(N-1 차원)을 선택하여 분리하는 지도학습 기반 이진 선형 분류 모델
훈련시간이 느리지만, 정확성이 뛰어나며 과대 적합의 가능성이 낮다.
결정 경계, 초평면, 마진, 서포트벡터, 슬랙 변수 등의 구성요소

시계열 분석

미래를 예측하기 위한 분석 기법 (정상성 만족 가정)
정상성 : 시점에 상관없이 시계열의 특성이 일정
자기 회귀 모형, 이동평균 모형, 자기 회귀 누적 이동평균 모형 존재

자기 회귀 모형

AR (Auto-Regressive Model) 모형
현시점의 자료가 p 시점 전 유한개의 과거 자료로 설명될 수 있는 모형

이동 평균 모형

시간이 지날수록 관측치의 평균값이 지속적으로 증가, 감소 하는 시계열 모형
MA 모형이라고도 한다. (Moving Average Model)

자기 회귀 누적 이동평균

ARIMA 모형으로 지표를 리뷰하여 트렌드를 분석하는 기법
비정상 시계열 모형으로 변환을 통해 AR, MA, ARMA로 정상화할 수 있다.
ARIMA(p,d,q)로 차수를 사용
- p : AR 모형과 관련
- q : MA 모형과 관련이 있는 차수
- d : 정상화 할 때 차분화한 횟수

시계열 구성요소

추세 요인 - 특정한 형태
계절 요인 - 고정된 주기에 따라 변화
순환 요인 - 알려지지 않은 주기로 자료가 변화
불규칙 요인 - 잔차에 해당하는 불규칙적인 요인

연관성 분석

데이터 간의 상호 관계 혹은 종속 관계를 찾아내는 분석 기법
장바구니 분석, 서열 분석으로 불리기도 한다.
지지도 : A 와 B를 동시에 포함하는 거래의 비율
신뢰도 : A 상품을 샀을 때 B 상품도 살 조건부 확률
향상도 : 우연에 의한 발생인지를 판단하기 위해 연관성의 정도를 측정

앙상블 분석

여러 가지 모형들을 종합하여 최종적인 의사결정 활용 기법

배깅

다수의 부트스트랩 자료를 생성하고, 결합하여 최종 예측 모형 만드는 알고리즘
보팅은 다수결에 의해서 최종 결과를 선정하는 과정

부스팅

잘못 분류된 개체들의 가중치를 높혀서 반복하여 최종 모형을 만드는 알고리즘
예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법
잘못 예측한 가중치 높이는 기법 : AdaBoost
경사 하강법을 이용하여 가중치 업데이트 기법 : GBM (그레디언트 부스팅)

랜덤포레스트

배깅과 부스팅보다 더 많은 무작위성을 주어 최종 학습기를 만드는 방법
분류기를 여러 개 쓸수록 성능이 좋아진다.
트리의 개수가 많을수록 과대적합 문제를 피할 수 있다.

제육's 휘발성 코딩

@sasca37

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요! 맞구독은 언제나 환영입니다^^

티스토리툴바