제육's 휘발성 코딩
반응형

데이터 탐색

  • 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법

탐색적 데이터 분석 EDA

  • 저잔재현 (4R's)

  • 저항성 Resistance

    • 오류, 이상값에 영향을 적게 받는 성질
    • 탐색적 데이터 분석은 저항성이 큰 통계적 데이터 이용
  • 잔차 해석 Residual

    • 관찰 값들이 벗어난 정도를 탐색
  • 자료 재표현 Reexpression

    • 원래 변수를 적당한 척도로 바꾸는 것
  • 현시성 Graphic Representation

    • 시각적으로 표현하고 전달하는 과정

개별 변수 탐색 방법

  • 범주형 (질적) 데이터
    • 명목 척도와 순위 척도에 대한 데이터 탐색
    • 명목 척도 : 관측 대상을 범주로 나누어 기호나 숫자를 부여 (순서가 상관없다.)
    • 순위 척도 : 비계량적 변수를 상대적 순위화를 통해 관측 (순서가 관계있다.)
    • 막대그래프 주로 이용, 빈도수, 최빈수, 비율, 백분율 등을 이용한 파악
  • 수치형 (양적) 데이터
    • 등간 척도와 비율 척도에 대한 데이터 탐색
    • 등간 척도 : 비계량적 변수를 정량적 방법을 측정하기 위한 방법 (동일한 간격화로 비교)
    • 비율 척도 : 절대적 기준 영점이 있고, 비율 사칙연산이 가능한 척도
    • 박스 플롯이나, 히스토그램 이용, 평균, 분산, 표준편차 등의 측면에서 파악
    • 이산형 : 변수가 취할 수 있는 값을 하나하나 셀 수 있는 경우
    • 연속형 : 변수가 구간 안의 모든 값을 가질 수 있는 경우

다차원 데이터 탐색

  • 범주 - 범주 : 비율, 백분율 활용 및 막대형 그래프 사용
  • 수치 - 수치 : 산점도, 기울기를 통한 상관성 분석, 피어슨 상관계수 사용
  • 범주 - 수치 : 범주형 데이터를 그룹으로 간주하고 그룹에 따라 차이 비교 (박스 플롯)
반응형
profile

제육's 휘발성 코딩

@sasca37

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요! 맞구독은 언제나 환영입니다^^