반응형
본 포스팅은 제가 공부한 것을 정리한 내용입니다.
1. 빅데이터 개요 및 활용
1) 빅데이터 특징
(1) 빅데이터 개념
- 빅데이터는 막대한 양(수십 테라바이트 이상)의 정형 및 비정형 데이터를 말한다.
- 데이터로부터 가치를 추출하고 결과를 분석하는 기술의 의미로도 통용된다.
- 데이터에서부터 가치를 추출하는 것은 통찰, 지혜를 얻는 과정으로 Ackoff, R.L 이 도식화한 DIKW 피라미드로 도식화할 수 있다.
- DIKW 피라미드
- 데이터, Data
- 정보, Information
- 지식, Knowledge
- 지혜, Wisdom
- DIKW 피라미드
- 데이터를 수집, 저장, 관리, 분석하는 기존의 관리 방법으로는 막대한 양(수십 테라바이트 이상)의 데이터를 처리하기 어려울 때 빅데이터를 처리한다.
- 데이터의 양을 측정하는 Byte 크기
- KB(키로), MB(메가), GB(기가), TB(테라), PB(페타), EB(엑사), ZB(제타), YB(요타)
- 103103 Bytes, 세제곱씩 증가, 1YB = 103103ZB = 10241024Bytes
- 데이터의 양을 측정하는 Byte 크기
(2) 빅데이터 특징
- 전통적으로 3V(Volume, Variety, Velocity)의 특징이 있음
- 최근에 추가 된 2가지 2V(Veracity, Value)
- 확장 개념 2V(Validity, Volatility)
(3) 빅데이터의 유형
- 빅데이터의 유형은 데이터의 구조적 관점에서 정형, 반정형, 비정형 데이터로 구분된다.
- 정형
- 정형화된 스키마 구조, DBMS에 내용이 저장될 수 있다. 고정 된 필드(속성)에 저장된 데이터
- 반정형
- 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조
- 고정된 필드에 저자오디어 있지만, 메타데이터나 데이터 스키마 정보를 포함하는 데이터
- 비정형
- 수집 데이터 각각이 데이터 객체로 구분
- 고정 필드 및 메타데이터(스키마 포함)가 정의되지 않음
- Crawler, API, RSS 등의 수집 기술을 활용
(4) 빅데이터 지식 경영
- 데이터 기반 지식경영의 핵심 이슈는 암묵지와 형식지의 상호작용에 있다.
- 암묵지
- 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식
- 사회적으로 중요하지만 다른 사람에게 공유되기 어려움
- ex) 태권도, 수영 / 상호작용 ( 공통화, 내면화 )
- 형식지
- 문서나 메뉴얼처럼 형상화된 지식
- 전달과 공유가 용이
- ex) 수험서, 소프트웨어 설치 매뉴얼 / 상호작용 ( 표출화, 연결화 )
- 내면화 - 행동과 실천교육 등을 통해 형식시가 개인의 암묵지로 체화되는 단계
- 공통화 - 다른 사람과의 대화 등 상호작용을 통해 개인이 암묵지를 습득하는 단계
- 표출화 - 형식지 요소 중의 하나이며 개인에게 내재된 경험을 객관적인 데이터인 문서나 매체로 저장하거나 가공, 분석하는 과정
- 연결화 - 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정
2) 빅데이터의 가치
(1) 빅데이터의 가치
- 빅데이터를 통해서 기업/조직의 불확실성 제거, 리스크 감소, 스마트한 경쟁력, 타분야 융합으로 가치를 창출할 수 있다.
- 경제적 자산
- 새로운 기회를 창출하고, 위험을 해결하여 사회 및 경제 발전의 엔진 역할을 수행
- 불확실성 제거
- 사회현상, 현실 세계의 데이터를 기반으로 한 패턴 분석과 미래 전망
- 여러 가지 가능성에 대한 시나리오 시뮬레이션
- 리스크 감소
- 환경, 소셜, 모니터링 정보의 패턴 분석을 통해 위험 징후 및 이상 신호 포착
- 이슈를 사전에 인지 및 분석하고 빠른 의사 결정과 실시간 대응
- 스마트한 경쟁력
- 대규모 데이터 분석을 통한 상황 인지, 인공지능 서비스 가능
- 개인화, 지능화 서비스 제공 확대
- 트렌드 변화 분석을 통한 제품 경쟁력 확보
- 타 분야 융합
- 타 분야 와의 융합을 통핸 새로운 가치 창출
- 방대한 데이터 활용을 통한 새로운 융합시장 창출
(2) 빅데이터 가치 선정이 어려운 이유
- 데이터 활용 방식, 새로운 가치 창출, 분석기술 발전으로 인해 빅데이터의 가치를 정확하게 산정하기 어려움
- 데이터 활용 방식
- 데이터의 재사용, 데이터의 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제/어디서/누가 활용할지 알 수 없어서 가치 산정이 어려움
- 데이터의 창의적 조합으로 인해 기존에 풀 수 없는 문제를 해결하는 데 도움을 주기 때문에 가치 선정이 어려움
- 새로운 가치 창출
- 빅데이터 시대에 데이터가 기존에 없던 가치를 창출하여 가치 선정이 어려움
- 분석기술의 급속한 발전
- 비용 문제로 인해 분석할 수 없었던 것을 저렴한 비용으로 분석하면서 활용도가 증가하여 가치 산정이 어려움
(3) 빅데이터 영향
- 빅데이터의 가치를 활용함으로써 기업, 정보, 개인이 스마트해지고 있다
- 기업
- 혁신 수단 제공, 경쟁력 강화, 생산성 향상 ( 신사업 발굴, 경쟁사보다 경쟁 우위 확보 )
- 정부
- 환경 탐색, 상황 분석, 미래 대응 가능 ( 날씨, 교통 등의 데이터 이용하여 재해 관련 정보 추출, 사회관계망 분석, 시스템 다이내믹스와 같은 방식을 통해 미래 의제 도출 )
- 개인
- 목적에 따른 활용 ( 빅데이터 서비스를 저렴한 비용으로 활용, 적시에 필요한 정보 획득 )
(4) 빅데이터 위기 요인 및 통제 방안
- 빅데이터는 유용한 가치를 주는 동시에 부정적인 영향을 줄 수 있다.
- 빅데이터의 부정적인 영향으로 인해 위기가 발생하므로 이를 극복하기 위한 통제 방안 필요
- 빅데이터 위기 요인
- 사생활 침해, 책임 원칙 훼손, 데이터 오용
- 빅데이터 위기 요인에 대한 통제 방안
- 알고리즘에 대한 접근 허용, 책임의 강조, 결과 기반의 책임 적용
3) 빅데이터 산업의 이해
(1) 빅데이터 산업 개요
- 스마트폰, SNS, 사물인터넷(IoT) 확산 등에 따라 데이터 활용이 증가하여 빅데이터는 신성장동력으로 급부상하고 있다.
- 클라우드 컴퓨팅 기술의 발전으로 데이터 처리 비용이 급격하게 감소하여 빅데이터가 발전하고 있다.
- 주요국 및 글로벌 기업은 빅데이터 '산업' 육성 및 '활용'에 주력하고 있다.
- 우리나라는 데이터 생산량이 많은 산업(통신, 제조업 등)이 발달해 잠재력이 크지만, 불확실성에 따른 투자 리스크 등으로 '활용'은 저조하다.
(2) 산업별 빅데이터 활용
산업 | 활용 |
의료, 건강 | 헬스케어 플랫폼 등을 통한 개인 건강정보의 축적 및 의료기관 등과 공유 |
과학기술 | 주요 분야의 연구/개발 성과물을 바탕으로 대규모 과학기술 빅데이터 공유/활용 플랫폼 구축 |
정보보안 | 보안사고 징후 파악 및 조기 대응/협업 시스템 구축 |
제조, 공정 | 완제품 품질향상, 중소/중견기업이 공동으로 활용 |
소비, 거래 | 구매 패턴 및 트랜잭션 분석 등을 통한 소비 트랜드 예측 |
교통, 물류 | 수요예측, 제어 등 물류/유통체계 최적화 |
4) 빅데이터 조직 및 인력
(1) 빅데이터 조직 설계
- 빅데이터 서비스 도입 및 운영 조직을 구성하기 위해서는 빅데이터 업무 프로세스를 이해하고, 조직의 특성을 고려하야여 한다.
- 빅데이터 업무 프로세스
- 빅데이터 도입 단계
- 빅데이터 서비스를 제공하기 위해서는 도입 기획, 기술 검토, 도입 조직 구성, 예산 확보 등을 수행
- 빅데이터 구축 단계
- 빅데이터 플랫폼을 구축하기 위해서는 요구사항 분석, 설계, 구현, 테스트 단계 수행
- 빅데이터 운영 단계
- 빅데이터 시스템의 도입 및 구축이 끝나면, 이를 인수하여 운영 계획을 수립
- 조직 설계의 절차
- 조직 설계는 기업이나 조직의 경영 전략 및 사업 전략, 전체 조직 구조, 핵심 업무 프로세스, 팀 조직 구조, 핵심 인력, 역할과 책임, 성과 기준 측정, 역량 교육 및 훈련 등의 순서로 검토한다.
- 절차
- 경영 전략 및 사업 전략 수립 ( 빅데이터 관련 사업이나 서비스에 대한 전략 검토 )
- 전체 조직 구조 설계 ( 전체적인 수준에서 조직의 구조 설계, 기능별, 제품별, 서비스별 고객별 관점을 고려한 조직 설계 )
- 핵심 업무 프로세스 검토 ( 업무의 효율성을 고려하여 조직의 주요 핵심 업무 프로세스 설계할 수 있도록 검토 )
- 팀 조직 구조 설계 ( 전체 조직의 하부 조직인 팀 조직의 구조는 수직/수평적인 구조의 조직 유형을 고려하여 설계 )
- 핵심 인력 선발 ( 팀 조직에 대하여 다양한 업무를 수행할 핵심 인력의 역할, 책임을 정의하여 인력 선발 )
- 역할과 책임 할당 ( 빅데이터 조직의 업무에 대한 적절한 역할과 책임을 할당 )
- 성과 측정 기준 수립 ( 조직 구성원이 업무를 성공적으로 수행할 수 있도록 성과 목표 평가 기준 수립 )
- 역량 교육 및 훈련 ( 조직 구성원의 성과 평가 후, 역량 강화를 위하여 교육 계획 수립 후 교육 훈련 )
- 조직 구조 설계의 요소-1
- 조직의 목적을 성공적으로 달성하기 위하여 업무 활동, 부서화, 보고 체계를 고려한다.
- 업무 활동
- 수직, 수평 업무 활동 구분
- 수직 : 경영 계획, 예산 할당 등 우선순위 결정
- 수평 : 업무 프로세스 절차별로 업무를 배분
- 부서화
- 조직의 미션과 목적을 효육적으로 달성하기 위한 조직 구조 유형 설계
- 조직 구조 유형은 집중 구조, 기능 구조, 분산 구조로 분류
- 보고 체계
- 조직의 목표 달성을 위하여 업무 활동 및 부서의 보고 체계를 설계
- 조직 구조 설계의 요소-2
- 조직 구조 유형
- 집중 구조
- 기능 구조
- 분산 구조
- 조직 구조 유형
- 조직 구조의 설계 특성
- 조직 구조를 설계할 때는 공식화, 분업화, 직무 전문성, 통제 범위, 의사소통 및 조정 등의 특성을 고려한다.
- 공식화 ( 업무의 수행 절차, 수행 방법, 적업 결과 등의 기준을 사전에 설정 )
- 분업화 ( 조직의 목표 달성을 위하여 업무 수행 시 업무를 분할하여 수행 )
- 직무 전문화 ( 직무 전문성에 따라 생산성이 증대되므로 전문 지식과 경험이 중요한 요소 )
- 통제 범위 ( 관리자가 효율적이며 효과적으로 관리할 수 있는 조직의 인원 수 )
- 의사소통 및 조정 ( 업무 수행 시 의사소통은 업무의 지시, 보고, 피드백 등 수직적인 활동과 문제 해결을 위한 협업 등 수평적인 활동으로 구분 )
(2) 조직 역량
- 기업이나 조직을 지속적으로 경영하기 위해서는 조직 역량의 확보가 필수
- 조직 역량은 조직 구성원의 할당된 업무를 조직이 기대하는 성과 달성을 위한 중요한 요소
- 역량 모델링
- 기업이나 조직의 목표 달성을 위해서는 우수 성과자의 기여가 중요한 요소
- 우수 성과자의 행동 특성을 파악하여 타 조직원에게 전달/공유하면 조직의 목표를 달성하기 쉬워짐
- 우수 성과자의 행동하는 특성을 파악하여 업무 달성을 위한 지식,스킬,태도 등 직무 역량 요소들을 도출하여 직무별 역량 모델을 만든다.
- DS(Data Scientist)의 요구역량에는 하드 스킬과 소프트 스킬이 있다.
- DS의 요구 역량
- 소프트 스킬
- 분석의 통찰력 ( 논리적 비판 능력, 창의적 사고력, 호기심 )
- 여러 분야의 협업 능력 ( 커뮤니케이션 능력 )
- 설득력 있는 전달력 ( 스토리텔링 능력, visualization )
- 하드 스킬
- 빅데이터 관련 이론적 지식 ( 빅데이터 관련 기법 및 다양한 방법론 습득 )
- 분석기술의 숙련도 ( 목적에 맞는 최적 분석 설계, 노하우 축적 )
- 가트너의 경우 분석 모델링, 데이터 관리, 소프트 스킬, 비즈니스 분석을 제시했다. ( DS가 갖추어야 할 역량 )
- 소프트 스킬
- 역량 모델 개발 절차
- 조직의 직무별 역량 모델은 조직의 미션/성과 목표/CSF를 검토하고, 우수 성과자의 행동 특성을 도출하여 이를 기반으로 지식, 스킬, 태도와 같은 역량을 도출하여 개발한다.
- 역량 모델 개발 절차
- 조직의 미션/성과 목표/CSF 검토
- 조직 구성원의 행동 특성 도출
- 조직 구성원의 역량 도출
- 조직 구성의 역량 모델 확정
- 역량 교육 체계 설계 절차
- 직무별 역량 모델을 기반으로 역량 강화를 위한 교육 체계를 설계한다. 역량 교육 체계는 교육에 대한 요구사항을 분석하고 직무 역량과 교육 내용 매트릭스를 작성하여 설계
- 역량 교육 체계 설계 절차
- 요구사항 분석
- 직무별 역량 모델 검토
- 역량 차이 분석
- 직무 역량 매트릭스 작성
- 직무별 역량 교육 체계 설계
(3) 조직성과 평가
- 조직 구성원은 멉무 수행에 필요한 활동을 하며, 이 활동은 조직의 목표 달성에 기여하기 때문에 개인성과에 대한 관리가 중요
- 개인의 성과에 대한 목표 설정에 필요한 CSF와 목표 달성에 필요한 KPI를 정의하고 관리
- 조직성과 평가 절차
- 절차
- 목표 설정
- 모니터링
- 목표 조정
- 평가 실시
- 결과의 피드백
- 절차
- 균형 성과표 (BSC; Balanced Score Card) 관리
- 조직의 성과 목표 달성을 위하여 회사의 비전이나 전략에 따라 성과 묙표를 재무, 고객, 내부 프로세스, 학습/성장 관점으로 균형 있게 목표를 정하고, 이를 조직 구성원의 개개인에게 네 가지 관점으로 목표를 설정하여 관리
- 네가지 관점
- 재무
- 고객
- 내부 프로세스
- 학습/성장
- BSC를 통한 KPI 도출 예시 (KPI지표)
- 재무 - 빅데이터 분석비용 절감
- 고객 - 빅데이터 서비스 만족도
- 내부 프로세스 - 서비스 가동률
- 학습/성장 - 1인당 빅데이터 분석 교육 시간
2. 빅데이터 기술 및 제도
1) 빅데이터 플랫폼
(1) 빅데이터 플랫폼(Bigdata Platform)의 개념
- 빅데이터에서 가치를 추출하기 위해 일련의 과정(수집, 저장, 처리, 분석, 시각화)을 규격화한 기술
- 특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세

(2) 빅데이터 플랫폼 구성요소
- 데이터 수집
- 데이터 저장
- 데이터 분석
- 데이터 활용
(3) 빅데이터 플랫폼 데이터 형식
- HTML
- XML
- CSV
- JSON
(4) 빅데이터 플랫폼 구축 소프트웨어
- 빅데이터 플랫폼 구축 소프트웨어
- R
- 우지(Oozie)
- 플럼(Flume)
- HBase
- 스쿱(Sqoop)
- 분산 컴퓨팅 환경 소프투에어 구성요소
- 맵리듀스(Map Reduce)
- 얀(YARN)
- 아파치 스파크(Apache Spark)
- 하둡 분산 파일 시스템(HDFS)
- 아파치 하둡(Apache Hadoop)
(5) 하둡 에코시스템(Hadoop Ecosystem)
2) 빅데이터와 인공지능
(1) 인공지능의 개념
- 인공지능이란 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어이다.
(2) 빅데이터와 인공지능의 관계
- 1950년에 등장한 인공지능을 최신 트랜드로 끌고 온 것은 '빅데이터'의 존재이다.
- 빅데이터는 비정형 데이터를 고속으로 분석할 수 있고, 이러한 점은 인공지능이 기존에 기계가 인지하지 못했던 정보들을 분석할 수 있게 한다.
- 인공지능의 암흑기를 지나 빅데이터를 통해 자체 알고리즘을 가지고 학습하는 딥러닝 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력을 갖추게 되었다.
- AI (분석력, 예측력) + 빅데이터 (신뢰성, 현실성)
(3) 빅데이터와 인공지능의 전망
- 상호보완 관계로 빅데이터는 인공지능 구현 완성도를 높여주고, 빅데이터는 인공지능을 통해 문제 해결 완성도를 높임
- 빅데이터 기술이 주목받는 이유는 우수한 정보처리를 바탕으로 의미 있는 결과를 도출할 수 있다는 점
- 빅데이터 목표가 인공지능 목표와 부합하고, 인공지능 판단을 위해서는 빅데이터와 같은 기술이 필수이므로, 빅데이터는 인공지능을 위한 기술이 될 가능성이 큼
3) 개인정보보호법, 제도
(1) 소제목1
- 개인정보보호는 정보 주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동을 의미
(2) 개인정보보호의 필요성
- 유출 시 피해 심각
- 정보사회 핵심 인프라
- 개인정보 가지 통제권
(3) 빅데이터 개인정보보호 가이드라인 ( 방통위, 인터넷진흥원에서 재정한 <빅데이터 개인정보보호 가이드라인>의 내용 )
- 개인정보 비식별화
- 개인정보 재식별 시 조치
- 민감정보 처리
- 투명성 확보
- 수집정보의 보호조치
(4) 개인정보보호 관련 법령
- 안전한 데이터 결합 절차 마련, 가명 정보 안전성 강화, 개인정보 관련 시행령 일원화, 금융 분야 마이 데이터 산업 육성 등 데이터 3법 개정안이 개절될 예정
- 개인정보보호 관련 법령
- 개인정보 보호법
- 정보통신망법
- 신용정보법
- 위치정보법
- 개인정보의 안정성 확보조치 기준
(5) 개인정보보호 내규
- 법령에는 시행령, 시행 규칙 등이 정의되며, 이를 바탕으로 데이터 수집을 위한 내규가 제정
- 내규에는 데이터 수집시 개인정보보호를 위한 가이드라인이 마련, 가이드라인의 내용은
- 정보보호 업무처리 지침
- 개발 보안 가이드
- 개인정보 암호화 매뉴얼
- 소프트웨어 개발 보안 구조
- 기술적, 관리적 보호
4) 개인정보 활용
(1) 개인정보 비식별화 개념
- 데이터값 삭제, 가명처리, 총계철, 범주화, 데이터 마스킹 등을 통해 개인정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 쉽게 결합하여도 특정 개인을 식별할 수 없도록 하는 조치
(2) 개인정보 비식별화 절차
- 사전검토
- 비식별 조치
- 적정성 평가
- 사후관리
(3) 개인정보 비식별 조치 방법
- 가명처리
- 휴리스틱 익명화
- 암호화
- 교환방법
- 총계처리
- 총계처리 기본 방식
- 부분집계
- 라운딩
- 데이터 재배열
- 데이터 삭제
- 속성값 삭제
- 속성값 부분 삭제
- 준 식별자 제거를 통한 단순 익명화
- 데이터 범주화
- 범주화 기본 방식
- 랜덤 올림 방법
- 범위 방법
- 세분 정보 제한 방법
- 제어 올림 방법
- 데이터 마스킹
- 임의 잡음 추가 방법
- 공백과 대체 방법
(4) 재식별 가능성 모니터링
- 비식별 정보를 이용하거나 제3자에게 제공하려는 사업자 등은 해당 정보의 재식별 가능성을 정기적으로 모니터링을 해야 함
- 모니터링 점검 항목
- 내부 요인의 변화
- 비식별 조치된 정보와 연계하여 재식별 우려가 있는 추가적인 정보를 수집하였거나 제공받은 경우
- 데이터 이용과정에서 생성되는 정보가 비식별 정보와 결합해서 새로운 정보가 생성되는 경우
- 이용부서에서 비식별 정보에 대한 비식별 수준을 낮추어 달라고 하는 요구가 있는 경우
- 신규 또는 추가로 구축되는 시스템이 비식별 정보에 대한 접근을 관리 통제하는 보안체계에 중대한 변화를 초래하는 경우
- 외부 환경의 변화
- 이용 중인 데이터에 적용된 비식별 조치 방법과 유사한 방법으로 비식별 조치한 사례가 재식별되었다고 알려진 경우
- 이용 중인 데이터에 적용된 비식별 기법과 기술을 무력화하는 새로운 기술이 등장하거나 공개된 경우
- 이용 중인 데이터와 새롭게 연계 가능한 정보가 추련하거나, 공개된 것으로 알려진 경우
반응형
'Certification > 빅데이터 분석기사' 카테고리의 다른 글
통계기법 이해 - 빅데이터 탐색 Chapter 3 (0) | 2021.04.13 |
---|---|
데이터 탐색 - 빅데이터 탐색 Chapter 2 (0) | 2021.04.13 |
데이터 전처리 - 빅데이터 탐색 Chapter 1 (0) | 2021.04.13 |
데이터 수집 및 저장 계획 - 빅데이터 분석 기획 Chapter 3 (0) | 2021.04.11 |
데이터 분석 계획 - 빅데이터 분석 기획 Chapter 2 (1) | 2021.03.29 |