반응형
본 포스팅은 제가 공부한 것을 정리한 내용입니다.
1. 분석 방안 수립
1) 분석 로드맵 설정
(1) 분석 로드맵 개념
- 단계별로 추진하고자 하는 목표를 명확히 정의하고, 선/후해 ㅇ단계를 고려해 단계별 추진내용을 정렬한다.
(2) 분석 로드맵 단계
- 데이터 분석 체계 도입
- 추진과제
- 분석 기회 발굴, 분석 과제 정의, 로드맵 수립
- 추진목표
- 비즈니스 약점이 무엇인지 식별, 분석 과제를 정의하고 로드맵 수립
- 추진과제
- 데이터 분석 유효성 검증
- 추진과제
- 분석 알고리즘 설계, 아키텍처 설계, 분석 과제 파일럿 수행
- 추진목표
- 분석 과제에 대한 파일럿 수행, 유효성/타당성 검증, 기술 실현 가능성을 검증, 분석 알고리즘 및 아키텍처 설계
- 추진과제
- 데이터 분석 확산 및 고도화
- 추진과제
- 변화관리, 시스템 구축, 유관 시스템 고도화
- 추진목표
- 검증된 분석 과제를 업무 프로세스에 내재화하기 위한 변화관리 실시, 빅데이터 분석/활용 시스템 구축 및 유관시스템을 고도화
- 추진과제
2) 분석 문제 정의
(1) 분석 문제의 의미
- '과제'는 처리해야 할 문제(이슈)이며, '분석'은 과제와 관련된 현상이나 원인, 해결방안에 대한 자료를 수집 및 분석하여 의사 결정에 활용하는 활동
- 문제라는 것은 기대 상태와 현재 상태를 동일한 수준으로 맞추는 과정
- 이 과정에서 제약 조건을 파악하고, 잠재원인을 진단하고 관련된 데이터를 수집, 가공, 분석하는 활동을 수행한다.
- 하향식 접근 방식과 상향식 접근 방식을 반복적으로 수행하면서 상호 보완하여 분석과제를 발굴
- 과제 발굴 이후 '분석 과제 정의서' 산출물을 작성
(2) 하향식 접근 방식
- Top Down Approach (하향식 접근 방식) 개념
- 하향식 접근 방식은 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법
- 하향식 접근 방식을 이용한 과제 발굴 절차
- 문제 탐색
- 문제 정의
- 해결방안 탐색
- 타당성 검토 과정
(3) 상향식 접근 방식
- Bottom Up Approach (상향식 접근 방식) 개념
- 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
- 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론으로써 "디자인 사고" 접근법을 사용하여 객관적인 데이터 그 자체를 관찰하고 실제적으로 행동에 옮겨 대상을 이해하는 방식을 적용한다
- 상향식 접근 방식 특징
- 비지도 학습 방법 사용
- 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태 분석
- 장바구니 분석, 군집 분석, 기술 통계, 프로파일링 등의 기술을 사용
- 프로토타이핑 접근법 사용
- 시행착오를 통한 문제 해결을 위해 사용
- 가설의 생성(Hypotheses), 디자인에 대한 실험(Design Experiments), 실제 환경에서의 테스트(Test), 테스트 결과에서의 통찰(Insight) 도출 및 가설 확인의 프로세스로 실행
- 비지도 학습 방법 사용
(4) 대상별 분석 기획 유형
분석의 대상(What) | |||
Known | Un-Known | ||
분석의 방법 (How) |
Known | Optimization | Insight |
Un-Known | Solution | Discovery |
대상별 분석 기획 유형
- 최적화(Optimization)
- 개선을 통한 최적화 형태로 분석을 수행
- 솔루션(Solution)
- 해당 분석 주제에 대한 솔루션을 찾아냄
- 통찰(Insight)
- 새로운 지식인 통찰을 도출
- 발견(Discovery)
- 분석의 대상 자체를 새롭게 도출
(5) 데이터 분석 과제 추진 시 고려해야 하는 우선순위 평가 기준
- 빅데이터 분석 과제 추진 시 고려해야 하는 우선순위 평가 기준은 시급성과 난이도가 있음
- 시급성
- 목표 가치와 전략적 중요도에 부합하는지에 따른 시급성이 가장 중요한 기준임
- 시급성의 판단 기준은 전략적 중요도가 핵심사항
- 분석 과제의 목표 가치와 전략적 중요도를 현재의 관점에서 둘 것인지, 미래의 관점에 둘 것인지를 함께 고려하여 시급성 여부 판단 필요
- 난이도
- 현재 기업의 분석 수준과 데이터를 생성, 저장, 가공, 분석하는 비용을 고려한 난이도는 중요한 기준
- 난이도는 현시점에서 과제를 추진하는 것이 범위 측면과 적용 비용 측면에서 바로 적용하기 쉬운 것인지 또는 어려운 것인지에 대한 판단 기준으로 데이터 분석의 적합성 여부의 기준이 됨
- 우선순위 선정 기준을 토대로 난이도 또는 시급성을 고려하여 분석 과제를 4가지 유형으로 구분하여 분석 과제의 적용 우선순위 결정
- 우선순위 선정 기준을 토대로 난이도 또는 시급성을 고려하여 분석과제를 4가지 유형으로 구분하여 분석 과제의 적용 우선순위 결정
- 사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 영역은 3사분면이다.
- 전략적 중요도가 현재 시점에는 상대적으로 낮은 편이지만 중장기적으로는 경영에 미치는 영향도가 높고, 분석 과제를 바로 적용하기 어려워 우선순위가 낮은 영역은 2사분면이다.
- 분석 과제의 적용 우선순위 기준을 '시급성'에 둔다면 3사분면 $\rightarrow$ 4사분면 $\rightarrow$ 2사분면 영역 순이며, 우선순위 기준을 '난이도'에 둔다면 3사분면 $\rightarrow$ 1사분면 $\rightarrow$ 2사분면 영역 순으로 의사결정 가능
3) 데이터 분석 방안
(1) 빅데이터 분석 방법론 개념
- 빅데이터를 분석하기 위해 문제를 정의하고 답을 도출하기 위한 체계적인 절차와 처리 방법
- 데이터 분석 방법론의 구성요소에는 절차, 방법, 도구와 기법, 템플릿과 산출물이 존재
(2) 빅데이터 분석 방법론 계층
- 단계(Phase)
- 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선으로 설정 관리하며, 버전 관리 등을 통한 통제
- 태스크(Task)
- 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
- 스탭(Step)
- 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)
(3) 빅데이터 분석 방법론의 분석 절차
- 분석 기획
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험 계획 수립
- 데이터 준비
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 검증
- 데이터 분석
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석(EDA)
- 모델링
- 모델 평가 및 검증
- 모델 적용 및 운영 방안 수립
- 시스템 구현
- 설계 및 구현
- 시스템 테스트 및 운영
- 평가 및 전개
- 모델 발전 계획 수립
- 프로젝트 평가 보고
(4) 분석 방법론 유형
- KDD 분석 방법론(Knowledge Discovery in Databases)
- 1996년 Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론
- 절차
- 데이터 세트 선택
- 데이터 전처리
- 데이터 변환
- 데이터 마이닝
- 데이터 마이닝 결과 평가
- CRISP-DM 분석 방법론
- 개념
- 비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론
- 1996년 유럽연합의 ESPRIT 프로젝트에서 시작한 방법론으로 1997년 SPSS 등이 참여하였으나 현재에는 중단
- 방법론 구성
- 단계(Phase) : 최상위 레벨
- 일반화 태스크(Generic Tasks) : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위, 각 단계는 일반화 태스크 포함
- 세분화 태스크(Specialized Tasks) : 일반화 태스크를 구체적으로 수행하는 레벨
- 프로세스 실행(Process Instances) : 데이터 마이닝을 위한 구체적인 실행
- 분석 절차
- 업무 이해
- 데이터 이해
- 데이터 준비
- 모델링
- 평가
- 전개
- 개념
- SEMMA 분석 방법론
- 분석 솔루션 업체 SAS가 주도한 통계 중심의 5단계(샘플링 $\rightarrow$ 탐색 $\rightarrow$ 수정 $\rightarrow$ 모델링 $\rightarrow$ 검증) 방법론이다.
- 분석 절차
- 샘플링
- 탐색
- 수정
- 모델링
- 검증
2. 분석 작업 계획
1) 데이터 확보 계획
- 빅데이터 분석 목적 달성을 위해 데이터 특성에 맞는 수집 방법을 선정
(1) 데이터 획득 방안 수립
- 내외부의 다양한 시스템으로부터 정형/비정형/반정형 데이터를 수집하기 위한 구체적인 방안 수립
- 내부 데이터 획득에는 부서 간 업무협조와 개인정보보호 및 정보보안과 관련된 문제점을 사전에 점검하고, 외부 데이터 획득은 시스템 간 다양한 인터페이스 및 법적인 문제점을 고려하여 상세한 데이터 획득 계획을 수립
(2) 데이터 확보 계획 수립 절차
- 데이터 확보 계획 수립 절차
- 목표 정의
- 성과 목표 정의, 성과 지표 설정
- 요구사항 도출
- 데이터 및 기술 지원 등과 관련된 요구사항 도출
- 예산안 수립
- 자원 및 예산 수립
- 계획 수립
- 인력 투입 방안, 일정 관리, 위험 및 품질관리
- 목표 정의
2) 분석 절차 및 작업 계획
(1) 빅데이터 분석 절차
- 분석 절차
- 문제 인식
- 연구조사
- 모형화
- 자료 수집
- 자료 분석
- 분석 결과 공유
(2) 빅데이터 분석 작업 WBS 설정
- WBS 설정
- 데이터 분석 과제 정의
- 분석 목표 정의서를 기준으로 프로젝트 전체 일정에 맞게 사전 준비를 하는 단계
- 단계별 필요 산출물, 주요 보고 시기 등으로 구분하여 세부 단위별 일정과 전체 일정이 예측될 수 있도록 일정을 수립
- 데이터 준비 및 탐색
- 데이터 처리 엔지니어와 데이터 분석가의 역할을 구분하여 세부 일정이 만들어지는 단계
- 분석 목표 정의서에 기재된 내용을 중심으로 데이터 처리 엔지니어가 필요 데이터를 수집하고 정리하는 일정 수립
- 데이터 분석가가 분석에 필요한 데이터들로부터 변수 후보를 탐색하고 최종적으로 도출하는 일정 수립
- 데이터 분석 모델링 및 검증
- 데이터 준비 및 탐색이 완료된 이후 데이터 분석 가설이 증명된 내용을 중심으로 데이터 분석 모델링을 진행하는 단계
- 데이터 분석 모델링 과정에 대해서는 실험방법 및 절차를 구분
- 기획하고 검증하는 내용에 대해 자세한 일정을 수립
- 산출물 정리
- 데이터 분석 단계별 산출물을 정리하고, 분석 모델링 과정에서 개발된 분석 스크립트 등을 정리하여 최종 산출물로 정리하는 단계
- 데이터 분석 과제 정의
반응형
'Certification > 빅데이터 분석기사' 카테고리의 다른 글
통계기법 이해 - 빅데이터 탐색 Chapter 3 (0) | 2021.04.13 |
---|---|
데이터 탐색 - 빅데이터 탐색 Chapter 2 (0) | 2021.04.13 |
데이터 전처리 - 빅데이터 탐색 Chapter 1 (0) | 2021.04.13 |
데이터 수집 및 저장 계획 - 빅데이터 분석 기획 Chapter 3 (0) | 2021.04.11 |
빅데이터의 이해 - 빅데이터 분석 기획 Chapter 1 (0) | 2021.03.29 |