<---google adsense---> <---/google adsense---> 데이터 수집 및 저장 계획 - 빅데이터 분석 기획 Chapter 3 :: noti note
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 데이터 수집 및 전환

  • 데이터 수집 및 전환은 데이터 처리 기술 중 하나이다.
  • 전체적인 데이터 처리 기술은 데이터 필터링, 데이터 변환, 데이터 정제, 데이터 통합, 데이터 축소가 있다.
  • 데이터 처리 기술
    • 데이터 필터링
    • 데이터 변환
    • 데이터 정제
    • 데이터 통합
    • 데이터 축소

 

1) 데이터 수집

(1) 데이터 수집 프로세스

  • 수집 대상 데이터 목록을 선정하고 수집을 위한 세부 수집계획을 작성한 후 데이터를 수집
    • 수집 데이터 도출
    • 목록 작성
    • 데이터 소유기관 파악 및 협의
    • 데이터 유형 분류 및 확인
    • 수집 기술 선정
    • 수집 계획서 작성
    • 수집 주기 결정
    • 데이터 수집 실행

 

(2) 수집 데이터의 대상

  • 수집 유형
    • 내부 데이터
      • 조직 내부에 데이터가 위치, 데이터 담당자와 수집 주기 및 방법 등을 협의하여 데이터를 수집
      • 내부 조직 간 협의를 통한 데이터 수집
      • 주로 수집이 용이한 정형 데이터
      • 서비스의 수명 주기 관리가 용이
    • 외부 데이터
      • 조직 외부에 데이터가 위치, 특정 기관의 담당자 협의 또는 데이터 전문업체를 통해 데이터를 수집
      • 공공 데이터의 경우에는 공공 데이터 포털을 통해 Open API 또는 파일을 통해 수집
      • 외부 조직과 협의, 데이터 구매, 웹상의 오픈 데이터를 통합 데이터 수집
      • 주로 수집이 어려운 비정형 데이터
    • 원천 데이터 예시
      • 내부 데이터
        • 분야 : 서비스, 네트워크, 마케팅
      • 외부 데이터
        • 분야 : 소셜, 네트워크, 공공

 

(3) 데이터 수집 방식 및 기술

  • 수집 대상 데이터는 데이터의 구조적 관점에 따라 정형 데이터, 비정형 데이터, 반정형 데이터로 나눌 수 있다.
  • 구조적 관점에 따라 분류된 데이터 유형에 따라 각각 데이터 수집 방식과 기술을 최적화하여 적용
  • 정형 데이터 수집 방식 및 기술
    • ETL
    • FTP
    • API
    • DBToDB
    • Rsync (Remote Sync)
    • 스쿱(Sqoop)
  • 비정형 데이터 수집 방식 및 기술
    • 크롤링 (Crawling)
    • RSS ( Rich Site Summary)
    • Open API
    • 스크래파이 (Scrapy)
    • 아파치 카프카 (Apache Kafka)
  • 반정형 데이터 수집 방식 및 기술
    • 센싱 (Sensing)
    • 스트리밍 (Streaming)
    • 플럼 (Flume)
    • 스크라이브 (Scribe)
    • 척와 (Chukwa)

 

2) 데이터 유형 및 속성 파악

(1) 데이터 유형

 

 

(2) 데이터 속성 파악

 

 

 

3) 데이터 변환

(1) 데이터 저장 전처리 절차

 

 

 

 

 

(2) 데이터 변환 기술

 

 

 

 

4) 데이터 비식별화

(1) 데이터 보안 관리

 

 

 

 

 

(2) 데이터 비식별화

 

 

 

 

 

 

(3) 개인정보 비식별 조치 가이드라인

 

 

 

5) 데이터 품질 검증

(1) 데이터 품질 특성

 

 

(2) 데이터 변환 후 품질 검증 프로세스

 

 

 

(3) 품질 검증 방안

 

 

 

 

 

 

2. 데이터 적재 및 저장

1) 데이터 적재

(1) 데이터 적재 아키텍처 수립

 

 

 

(2) 데이터 적재

 

 

 

 

2) 데이터 저장

(1) 빅데이터 저장 기술

 

 

 

(2) 빅데이터 저장기술 분류

 

 

 

 

(3) 빅데이터 저장기술 - 분산 파일 시스템 상세

 

 

 

 

(4) 빅데이터 저장기술 - 데이터베이스 클러스터 상세

 

 

 

 

(5) 빅데이터 저장기술 - NoSQL

 

 

 

(6) 빅데이터 저장 고려사항

반응형

+ Recent posts