제육's 휘발성 코딩
반응형

데이터 수집

  • 수집 데이터는 내부, 외부 데이터로 구분
  • 내부
    • 조직 내부에 데이터 위치
    • SCM, ERP, CRM 등 서비스, 네트워크, 마케팅
  • 외부
    • 조직 외부에 데이터 위치
    • LOD, SNS, 커뮤니티 등 소셜, 네트워크, 공공

데이터 수집 방식

  • ETL (Extract Transform Load)
    • 데이터 저장소인 DW(데이터 웨어하우스) 및 DM(데이터마트)로 이동
    • 원본 데이터를 추출하고 변환하여 적재하는 작업 및 기술
    • 추출 : JDBC, ODBC
    • 변환 : 적절한 포맷으로 데이터 변환
    • 적재 : 변환된 데이터를 DW, DM에 저장
  • FTP
    • TCP/IP 기반 서버-클라이언트에서 파일 송수신을 위한 프로토콜
    • 20, 21번 포트 번호 사용
  • Sqoop
    • 커넥터를 사용하여 RDBMS와 HDFS(하둡 파일 시스템)간 송수신
  • Scrapy
    • 파이썬 언어 기반 비정형 데이터 수집 기술
    • Spider, Selector, Items, Pipelines, Settings 등
  • 아파치 카프카
    • 대용량 실시간 로그 처리를 위한 분산 스트리밍 플랫폼
    • 신뢰성, 확장성 제공
  • 플럼(Flume)
    • 많은 양의 로그 데이터를 효율적으로 수집, 이동하기 위해 이벤트에이전트 사용하는 기술
    • 고가용성 제공
  • 스크라이브(Scribe)
    • 다수의 서버로부터 실시간 스트리밍되는 로그 데이터 수집하는 기술
  • 척와(Chukwa)
    • 컬렉터가 에이전트로부터 데이터를 수집하여 하둡에 저장, 분석기능을 제공하는 기술
    • HDFS와 연동 - 에이전트 , 컬렉터로 구성, 아카이빙, 디먹스 데이터 처리 사용
  • CEP (Complex Event Processing)
    • 여러 이벤트 소스로부터 발생한 이벤트를 실시간으로 추출하여 액션을 수행하는 기술
    • 실시간 상황에서 의미 있는 이벤트 파악 및 대응
  • CDC (Change Date Capture)
    • 최근 변경된 데이터를 다른 시스템으로 이동하는 처리 기술
    • 실시간 백업과 데이터 통합이 가능하여 24시간 운영 서비스에 자주 활용

데이터 유형

  • 구조, 시간 , 저장 형태의 관점
  • 구조
    • 정형 - 정해진 구조를 가지고 일관성을 갖는 데이터
      • RDB, 스프레드시트 등
    • 반정형 - 스키마를 가지고, 메타데이터를 포함하며 일관성을 갖는 데이터
      • XML, HTML, 웹 로그, 알람, JSON, RSS, 센서 데이터 등
    • 비정형 - 스키마를 가지지 않고, 고정된 필드에 저장되지 않는 데이터
      • SNS, 텍스트, 이미지, 오디오, 비디오 등
  • 시간 - 실시간 , 비실시간 데이터로 분류
  • 저장 - 파일, DB데이터, 콘텐츠 데이터, 스트림 데이터로 분류

개인정보 익명 처리

  • 개인정보 익명 처리는 가명, 일반화, 섭동, 치환 등을 포함한 다양한 방법으로 구현 (가일섭치)
  • 가명 : 개인 식별이 가능한 데이터를 식별할 수 없도록 다른 값으로 대체
  • 일반화 : 더 일반화된 값으로 대체. 숫자 -> 구간, 범주화 -> 트리의 계층으로 대체
  • 섭동 : 동일한 확률적 정보를 갖는 변형 값에 대해 원래 데이터를 대체
  • 치환 : 속성 값을 수정하지 않고 레코드 간 위치를 바꾸는 기법
반응형
profile

제육's 휘발성 코딩

@sasca37

포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요! 맞구독은 언제나 환영입니다^^