반응형
데이터 수집
- 수집 데이터는 내부, 외부 데이터로 구분
- 내부
- 조직 내부에 데이터 위치
- SCM, ERP, CRM 등 서비스, 네트워크, 마케팅
- 외부
- 조직 외부에 데이터 위치
- LOD, SNS, 커뮤니티 등 소셜, 네트워크, 공공
데이터 수집 방식
- ETL (Extract Transform Load)
- 데이터 저장소인 DW(데이터 웨어하우스) 및 DM(데이터마트)로 이동
- 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술
- 추출 : JDBC, ODBC
- 변환 : 적절한 포맷으로 데이터 변환
- 적재 : 변환된 데이터를 DW, DM에 저장
- FTP
- TCP/IP 기반 서버-클라이언트에서 파일 송수신을 위한 프로토콜
- 20, 21번 포트 번호 사용
- Sqoop
- 커넥터를 사용하여 RDBMS와 HDFS(하둡 파일 시스템)간 송수신
- Scrapy
- 파이썬 언어 기반 비정형 데이터 수집 기술
- Spider, Selector, Items, Pipelines, Settings 등
- 아파치 카프카
- 대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼
- 신뢰성, 확장성 제공
- 플럼(Flume)
- 많은 양의 로그 데이터를 효율적으로 수집, 이동하기 위해 이벤트와 에이전트 사용하는 기술
- 고가용성 제공
- 스크라이브(Scribe)
- 다수의 서버로부터 실시간 스트리밍되는 로그 데이터 수집하는 기술
- 척와(Chukwa)
- 컬렉터가 에이전트로부터 데이터를 수집하여 하둡에 저장, 분석기능을 제공하는 기술
- HDFS와 연동 - 에이전트 , 컬렉터로 구성, 아카이빙, 디먹스 데이터 처리 사용
- CEP (Complex Event Processing)
- 여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추출하여 액션을 수행하는 기술
- 실시간 상황에서 의미 있는 이벤트 파악 및 대응
- CDC (Change Date Capture)
- 최근 변경된 데이터를 다른 시스템으로 이동하는 처리 기술
- 실시간 백업과 데이터 통합이 가능하여 24시간 운영 서비스에 자주 활용
데이터 유형
- 구조, 시간 , 저장 형태의 관점
- 구조
- 정형 - 정해진 구조를 가지고 일관성을 갖는 데이터
- RDB, 스프레드시트 등
- 반정형 - 스키마를 가지고, 메타데이터를 포함하며 일관성을 갖는 데이터
- XML, HTML, 웹 로그, 알람, JSON, RSS, 센서 데이터 등
- 비정형 - 스키마를 가지지 않고, 고정된 필드에 저장되지 않는 데이터
- SNS, 텍스트, 이미지, 오디오, 비디오 등
- 정형 - 정해진 구조를 가지고 일관성을 갖는 데이터
- 시간 - 실시간 , 비실시간 데이터로 분류
- 저장 - 파일, DB데이터, 콘텐츠 데이터, 스트림 데이터로 분류
개인정보 익명 처리
- 개인정보 익명 처리는 가명, 일반화, 섭동, 치환 등을 포함한 다양한 방법으로 구현 (가일섭치)
- 가명 : 개인 식별이 가능한 데이터를 식별할 수 없도록 다른 값으로 대체
- 일반화 : 더 일반화된 값으로 대체. 숫자 -> 구간, 범주화 -> 트리의 계층으로 대체
- 섭동 : 동일한 확률적 정보를 갖는 변형 값에 대해 원래 데이터를 대체
- 치환 : 속성 값을 수정하지 않고 레코드 간 위치를 바꾸는 기법
반응형