반응형
기술 통계
- 확률 / 통계적으로 정리 및 요약하는 기초적인 통계
- 분석의 초기 단계에서 데이터 분포의 특징을 파악하려는 목적으로 산출
데이터 요약
대푯값
- 주어진 자료 전체에서 중심 위치를 나타내는 값
- 평균, 중위수, 최빈수, 사분위수
범위
사분편차
- IQR의 절반 값 : (Q3 - Q1 ) / 2
변동 계수 CV
- 표준편차를 평균으로 나눈 값 σ / μ
- 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용
왜도
- 데이터 분포의 기울어진 정도
- 비대칭성을 나타내는 통계량
- 왼쪽으로 긴 꼬리 = 왼쪽 편포 라고도 한다.
공분산 Cov
- 2개의 변수 사이의 관련성을 나타내는 통계량
- (Xi-μx) (Yi - μy) / n
- Cov > 0 : 양의 관계 , Cov < 0 : 음의 관계
상관 관계
- 수치적 데이터 : 피어슨 상관 계수 (Cov (X,Y) / σx * σy)
- 순서적 데이터 : 스피어만 상관 계수 (Cov(R,S) / σr * σs)
- 원 데이터 대신 순위를 이용하여 상관 계수 결정
- 모집단 X 가 2, 1, 3 Y가 4,2,6 이고 순위를 정할 수 있는 수치라면 R: 2,1,3 , S:2,1,3 이 된다.
- 명목적 데이터 : 카이제곱 검정
- 분류의 의미를 지닌 명목적 데이터는 상관 계수를 계산하는 것이 의미가 없다. (지역, 종교와 같은 데이터)
- 교차 분석이라고도 불린다.
표본추출
- 모집단 일부를 표본으로 선택하는 과정
- 표본 표집, 표본 선정이라고도 부른다.
층화 추출
- 모집단을 여러 계층으로 나누고, 계층 간 무작위 추출
- 층내는 동질적, 층간은 이질적이다.
군집 추출
- 모집단을 여러 군집으로 나누고, 일부 군집의 전체를 추출
- 집단 내부는 이질적, 외부는 동질적
확률 분포
조건부 확률
- P(B|A) : A가 일어났을 때 B가 일어날 확률
- 베이즈 정리
- P(B) = Σ P(Ai ∩ B )
- P(A∩B) = P(A) P(B|A)
확률 변수
- 기댓값
- E(a) = a (a는 상수)
- E(aX) = aE(X)
- E(aX + b) = aE(X) + b
- 분산
- V(a) = 0
- V(aX) = a^2 V(X)
- V(aX + b) = a^2 V(X)
확률분포 종류
- 이산확률분포
- 하나씩 셀 수 있는 값을 취할 때 사용
- 포아송 분포 : 사건의 발생 횟수 표현
- 베르누이 분포 : 성공 또는 실패로 하나의 결과를 얻는 분포
- 이항분포 : k번 성공할 확률
- 연속확률분포
- 정규분포
- 표준정규분포(Z-분포) : 표본 통계량이 표본평균일 때 정규화 시킨 표본분포
- T-분포 : 모집단이 정규분포인것만 알고, 모표준편차는 모를 때 사용
- 중심 극한의 정리에 의해 T-분포는 정규분포를 따름
- 지수분포 : 지정된 시점으로부터 사건이 일어날 때까지 걸리는 시간
- 카이제곱 : 표준 정규 확률변수를 각각 제곱한 다음에 합해서 얻어지는 분포
- 자유도 n이 작을 수록 왼쪽으로 치우친다.
- F-분포 : 모집단 분산이 서로 같다고 가정되는 두 모집단으로부터 표본분산의 비율
표본분표
- 모집단에서 추출한 표본에 대한 분포 상태
- 모집단 : 정보를 얻고자 하는 집단 전체
- 모수 : 모집단의 특성을 나타내는 대푯값
- 통계량 : 표본에서 얻은 평균이나 표준오차와 같은 값
- 추정량 : 모수의 추정을 위해 구해진 통계량
큰 수의 법칙 : 데이터를 많이 뽑을 수록 표본평균의 분산은 0에 가까워 진다. (정확해짐)
중심 극한의 정리 : 데이터의 크기가 커지면 표본평균의 분포는 최종적으로 정규분포를 따른다.
반응형