분석 모형 선정 현상에서 패턴을 발견하는 것 EDA(탐색적 데이터 분석) 현상에서 인과적인 결론을 도출하는 것 (통계적 추론) 현상을 예측하는 것 (머신러닝) 해당 기법들을 고려하여 분석 모델 선정 데이터 마이닝 데이터 내에 존재하는 패턴, 관계를 탐색하고 모델링하여 정보를 추출하는 과정 분류 , 예측, 군집화, 연관규칙이 존재한다. (분예군연) 분류 범주형 또는 이산형 변수 등의 범주를 예측 (사전에 정해진 그룹이나 범주) 통계적 기법, 트리 기반, 최적화, 기계 학습 등 예측 과거 데이터로부터 특성을 분석하여 다른 데이터의 결괏값을 예측 회귀분석, 의사결정나무, 인공신경망, 시계열 분석 등 군집 사전정보가 없는 상태에서 이질적인 집단을 동질적인 소집단으로 세분화 하는 작업 계층적 방법과 비계층적 방법..
기술 통계 확률 / 통계적으로 정리 및 요약하는 기초적인 통계 분석의 초기 단계에서 데이터 분포의 특징을 파악하려는 목적으로 산출 데이터 요약 대푯값 주어진 자료 전체에서 중심 위치를 나타내는 값 평균, 중위수, 최빈수, 사분위수 범위 사분편차 IQR의 절반 값 : (Q3 - Q1 ) / 2 변동 계수 CV 표준편차를 평균으로 나눈 값 σ / μ 서로 다른 자료의 흩어진 정도를 상대적으로 비교할 때 사용 왜도 데이터 분포의 기울어진 정도 비대칭성을 나타내는 통계량 왼쪽으로 긴 꼬리 = 왼쪽 편포 라고도 한다. 공분산 Cov 2개의 변수 사이의 관련성을 나타내는 통계량 (Xi-μx) (Yi - μy) / n Cov > 0 : 양의 관계 , Cov < 0 : 음의 관계 상관 관계 수치적 데이터 : 피어슨 상..
데이터 탐색 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법 탐색적 데이터 분석 EDA 저잔재현 (4R's) 저항성 Resistance 오류, 이상값에 영향을 적게 받는 성질 탐색적 데이터 분석은 저항성이 큰 통계적 데이터 이용 잔차 해석 Residual 관찰 값들이 벗어난 정도를 탐색 자료 재표현 Reexpression 원래 변수를 적당한 척도로 바꾸는 것 현시성 Graphic Representation 시각적으로 표현하고 전달하는 과정 개별 변수 탐색 방법 범주형 (질적) 데이터 명목 척도와 순위 척도에 대한 데이터 탐색 명목 척도 : 관측 대상을 범주로 나누어 기호나 숫자를 부여 (순서가 상관없다.) 순위 척도 : 비계량적 변수를 상대적 순위화를 통해 관측 (순서가 관계있다.)..
데이터 오류 원인 결측값 필수 데이터가 입력되지 않고 누락된 값 완전 무작위 결측 MCAR : 아무런 상관이 없는 경우 무작위 결측 MAR : 특정변수와 관련되어 일어나지만 결과와는 관계가 없는 경우 비 무작위 결측 MNAR: 결과와 연관된 변수가 있는 경우 단순 대치법 완전 분석법 : 불완전한 자료 무시 평균 대치법 : 평균값으로 결측값 대체 단순 확률 대치법 : 핫덱(비슷한 성향), 콜드덱(외부 출처, 이전의 연구), 혼합 다중 대치법 대치 : 사후분포에서 추출된 값으로 대치 분석 : D개의 대치표본을 구해 원하는 분석 수행 결합 : 모수의 점 추정과 표준오차 추정치 D개를 결합하여 하나의 결과 제시 노이즈 입력되지 않았는데 입력되었다고 판단된 값 이상값 데이터 범위에서 많이 벗어난 값 발생 원인 표..
데이터 수집 수집 데이터는 내부, 외부 데이터로 구분 내부 조직 내부에 데이터 위치 SCM, ERP, CRM 등 서비스, 네트워크, 마케팅 외부 조직 외부에 데이터 위치 LOD, SNS, 커뮤니티 등 소셜, 네트워크, 공공 데이터 수집 방식 ETL (Extract Transform Load) 데이터 저장소인 DW(데이터 웨어하우스) 및 DM(데이터마트)로 이동 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술 추출 : JDBC, ODBC 변환 : 적절한 포맷으로 데이터 변환 적재 : 변환된 데이터를 DW, DM에 저장 FTP TCP/IP 기반 서버-클라이언트에서 파일 송수신을 위한 프로토콜 20, 21번 포트 번호 사용 Sqoop 커넥터를 사용하여 RDBMS와 HDFS(하둡 파일 시스템)간 송수신 ..
분석 문제 정의 분석은 과제와 관련된 현상이나 원인, 해결방안에 대한 자료를 수집 및 분석하여 의사결정에 활용하는 활동 문제라는 것은 기대 상태와 현재 상태를 동일한 수준으로 맞추는 과정 이 과정에서 제약조건을 파악하고, 잠재 원인을 진단하고 관련된 데이터를 수집, 가공, 분석하는 활동 수행 하향식, 상향식 접근 방식을 반복적으로 수행하면서 상호 보완하여 분석 과제를 발굴한다. 과제 발굴 이후 '분석 과제 정의서' 산출물을 작성한다. 하향식 접근 방식 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법 비즈니스 모델 캔버스 사용 기업 내,외부 환경을 포괄하고 있는 비즈니스 모델 과제 발굴 기법에 활용 문제 탐색, 문제 정의, 해결방안 탐색, 타당성 검토, 선택 (..
빅데이터 막대한 양의 정형 및 비정형 데이터 데이터에서부터 가치를 추출하는 것은 통찰, 지혜를 얻는 과정으로 DIKW 피라미드로 표현 Data : 데이터 - 객관적 사실로, 순수한 수치나 기호 A는 책을 10000원에, B는 책을 15000원에 판매 Infomation : 정보 - 데이터 간의 연관 관계와 함께 의미 도출 해당 책은 A가 더 싸게 판다. Knowledge : 지식 - 유의미한 정보로 분류하고 일반화 시킨 결과물 책은 A가 더싸게 팔기 때문에 A에서 책을 구입할 계획 Wisdom : 지혜 - 도출된 창의적 아이디어 A가 다른 상품들도 B보다 저렴할 것으로 판단 데이터 양을 측정하는 바이트 크기 KB - MB - GB -TB -PB - EB - ZB - YB 분석 가치 에스컬레이터 (Anal..