noti note

제가 18년부터 참여한 Competition을 정리 및 관리하기 위한 페이지 입니다.

Kaggle

2018

1. Google Analytics Customer Revenue Prediction 참여 후기

noti-note.tistory.com/15

NAVER

2021

2020

2019

2018

KAKAO

2021

2020

2019

2018

DACON

2021

2020

2019

2018

HACKERTON, 기타 대회

2021

2020

2019

2018

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

1. 데이터 수집 및 전환

데이터 수집 및 전환은 데이터 처리 기술 중 하나이다.
전체적인 데이터 처리 기술은 데이터 필터링, 데이터 변환, 데이터 정제, 데이터 통합, 데이터 축소가 있다.
데이터 처리 기술
- 데이터 필터링
- 데이터 변환
- 데이터 정제
- 데이터 통합
- 데이터 축소

1) 데이터 수집

(1) 데이터 수집 프로세스

수집 대상 데이터 목록을 선정하고 수집을 위한 세부 수집계획을 작성한 후 데이터를 수집
- 수집 데이터 도출
- 목록 작성
- 데이터 소유기관 파악 및 협의
- 데이터 유형 분류 및 확인
- 수집 기술 선정
- 수집 계획서 작성
- 수집 주기 결정
- 데이터 수집 실행

(2) 수집 데이터의 대상

수집 유형
- 내부 데이터
  - 조직 내부에 데이터가 위치, 데이터 담당자와 수집 주기 및 방법 등을 협의하여 데이터를 수집
  - 내부 조직 간 협의를 통한 데이터 수집
  - 주로 수집이 용이한 정형 데이터
  - 서비스의 수명 주기 관리가 용이
- 외부 데이터
  - 조직 외부에 데이터가 위치, 특정 기관의 담당자 협의 또는 데이터 전문업체를 통해 데이터를 수집
  - 공공 데이터의 경우에는 공공 데이터 포털을 통해 Open API 또는 파일을 통해 수집
  - 외부 조직과 협의, 데이터 구매, 웹상의 오픈 데이터를 통합 데이터 수집
  - 주로 수집이 어려운 비정형 데이터
- 원천 데이터 예시
  - 내부 데이터
    - 분야 : 서비스, 네트워크, 마케팅
  - 외부 데이터
    - 분야 : 소셜, 네트워크, 공공

(3) 데이터 수집 방식 및 기술

수집 대상 데이터는 데이터의 구조적 관점에 따라 정형 데이터, 비정형 데이터, 반정형 데이터로 나눌 수 있다.
구조적 관점에 따라 분류된 데이터 유형에 따라 각각 데이터 수집 방식과 기술을 최적화하여 적용
정형 데이터 수집 방식 및 기술
- ETL
- FTP
- API
- DBToDB
- Rsync (Remote Sync)
- 스쿱(Sqoop)
비정형 데이터 수집 방식 및 기술
- 크롤링 (Crawling)
- RSS ( Rich Site Summary)
- Open API
- 스크래파이 (Scrapy)
- 아파치 카프카 (Apache Kafka)
반정형 데이터 수집 방식 및 기술
- 센싱 (Sensing)
- 스트리밍 (Streaming)
- 플럼 (Flume)
- 스크라이브 (Scribe)
- 척와 (Chukwa)

2) 데이터 유형 및 속성 파악

(1) 데이터 유형

(2) 데이터 속성 파악

3) 데이터 변환

(1) 데이터 저장 전처리 절차

(2) 데이터 변환 기술

4) 데이터 비식별화

(1) 데이터 보안 관리

(2) 데이터 비식별화

(3) 개인정보 비식별 조치 가이드라인

5) 데이터 품질 검증

(1) 데이터 품질 특성

(2) 데이터 변환 후 품질 검증 프로세스

(3) 품질 검증 방안

2. 데이터 적재 및 저장

1) 데이터 적재

(1) 데이터 적재 아키텍처 수립

(2) 데이터 적재

2) 데이터 저장

(1) 빅데이터 저장 기술

(2) 빅데이터 저장기술 분류

(3) 빅데이터 저장기술 - 분산 파일 시스템 상세

(4) 빅데이터 저장기술 - 데이터베이스 클러스터 상세

(5) 빅데이터 저장기술 - NoSQL

(6) 빅데이터 저장 고려사항

'Certification > 빅데이터 분석기사' 카테고리의 다른 글

통계기법 이해 - 빅데이터 탐색 Chapter 3 (0)	2021.04.13
데이터 탐색 - 빅데이터 탐색 Chapter 2 (0)	2021.04.13
데이터 전처리 - 빅데이터 탐색 Chapter 1 (0)	2021.04.13
데이터 분석 계획 - 빅데이터 분석 기획 Chapter 2 (1)	2021.03.29
빅데이터의 이해 - 빅데이터 분석 기획 Chapter 1 (0)	2021.03.29

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

1. 분석 방안 수립

1) 분석 로드맵 설정

(1) 분석 로드맵 개념

단계별로 추진하고자 하는 목표를 명확히 정의하고, 선/후해 ㅇ단계를 고려해 단계별 추진내용을 정렬한다.

(2) 분석 로드맵 단계

데이터 분석 체계 도입
- 추진과제
  - 분석 기회 발굴, 분석 과제 정의, 로드맵 수립
- 추진목표
  - 비즈니스 약점이 무엇인지 식별, 분석 과제를 정의하고 로드맵 수립
데이터 분석 유효성 검증
- 추진과제
  - 분석 알고리즘 설계, 아키텍처 설계, 분석 과제 파일럿 수행
- 추진목표
  - 분석 과제에 대한 파일럿 수행, 유효성/타당성 검증, 기술 실현 가능성을 검증, 분석 알고리즘 및 아키텍처 설계
데이터 분석 확산 및 고도화
- 추진과제
  - 변화관리, 시스템 구축, 유관 시스템 고도화
- 추진목표
  - 검증된 분석 과제를 업무 프로세스에 내재화하기 위한 변화관리 실시, 빅데이터 분석/활용 시스템 구축 및 유관시스템을 고도화

2) 분석 문제 정의

(1) 분석 문제의 의미

'과제'는 처리해야 할 문제(이슈)이며, '분석'은 과제와 관련된 현상이나 원인, 해결방안에 대한 자료를 수집 및 분석하여 의사 결정에 활용하는 활동
문제라는 것은 기대 상태와 현재 상태를 동일한 수준으로 맞추는 과정
이 과정에서 제약 조건을 파악하고, 잠재원인을 진단하고 관련된 데이터를 수집, 가공, 분석하는 활동을 수행한다.
하향식 접근 방식과 상향식 접근 방식을 반복적으로 수행하면서 상호 보완하여 분석과제를 발굴
과제 발굴 이후 '분석 과제 정의서' 산출물을 작성

(2) 하향식 접근 방식

Top Down Approach (하향식 접근 방식) 개념
- 하향식 접근 방식은 분석 과제가 정해져 있고 이에 대한 해법을 찾기 위해 체계적으로 분석하는 방법
하향식 접근 방식을 이용한 과제 발굴 절차
1. 문제 탐색
2. 문제 정의
3. 해결방안 탐색
4. 타당성 검토 과정

(3) 상향식 접근 방식

Bottom Up Approach (상향식 접근 방식) 개념
- 문제 정의 자체가 어려운 경우 데이터를 기반으로 문제를 지속적으로 개선하는 방식
- 기존 하향식 접근법의 한계를 극복하기 위한 분석 방법론으로써 "디자인 사고" 접근법을 사용하여 객관적인 데이터 그 자체를 관찰하고 실제적으로 행동에 옮겨 대상을 이해하는 방식을 적용한다
상향식 접근 방식 특징
- 비지도 학습 방법 사용
  - 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태 분석
  - 장바구니 분석, 군집 분석, 기술 통계, 프로파일링 등의 기술을 사용
- 프로토타이핑 접근법 사용
  - 시행착오를 통한 문제 해결을 위해 사용
  - 가설의 생성(Hypotheses), 디자인에 대한 실험(Design Experiments), 실제 환경에서의 테스트(Test), 테스트 결과에서의 통찰(Insight) 도출 및 가설 확인의 프로세스로 실행

(4) 대상별 분석 기획 유형

		분석의 대상(What)
		Known	Un-Known
분석의 방법 (How)	Known	Optimization	Insight
분석의 방법 (How)	Un-Known	Solution	Discovery

대상별 분석 기획 유형

최적화(Optimization)
- 개선을 통한 최적화 형태로 분석을 수행
솔루션(Solution)
- 해당 분석 주제에 대한 솔루션을 찾아냄
통찰(Insight)
- 새로운 지식인 통찰을 도출
발견(Discovery)
- 분석의 대상 자체를 새롭게 도출

(5) 데이터 분석 과제 추진 시 고려해야 하는 우선순위 평가 기준

빅데이터 분석 과제 추진 시 고려해야 하는 우선순위 평가 기준은 시급성과 난이도가 있음
시급성
- 목표 가치와 전략적 중요도에 부합하는지에 따른 시급성이 가장 중요한 기준임
- 시급성의 판단 기준은 전략적 중요도가 핵심사항
- 분석 과제의 목표 가치와 전략적 중요도를 현재의 관점에서 둘 것인지, 미래의 관점에 둘 것인지를 함께 고려하여 시급성 여부 판단 필요
난이도
- 현재 기업의 분석 수준과 데이터를 생성, 저장, 가공, 분석하는 비용을 고려한 난이도는 중요한 기준
- 난이도는 현시점에서 과제를 추진하는 것이 범위 측면과 적용 비용 측면에서 바로 적용하기 쉬운 것인지 또는 어려운 것인지에 대한 판단 기준으로 데이터 분석의 적합성 여부의 기준이 됨
우선순위 선정 기준을 토대로 난이도 또는 시급성을 고려하여 분석 과제를 4가지 유형으로 구분하여 분석 과제의 적용 우선순위 결정

우선순위 선정 기준을 토대로 난이도 또는 시급성을 고려하여 분석과제를 4가지 유형으로 구분하여 분석 과제의 적용 우선순위 결정
- 사분면 영역에서 가장 우선적인 분석 과제 적용이 필요한 영역은 3사분면이다.
- 전략적 중요도가 현재 시점에는 상대적으로 낮은 편이지만 중장기적으로는 경영에 미치는 영향도가 높고, 분석 과제를 바로 적용하기 어려워 우선순위가 낮은 영역은 2사분면이다.
- 분석 과제의 적용 우선순위 기준을 '시급성'에 둔다면 3사분면 $\rightarrow$ 4사분면 $\rightarrow$ 2사분면 영역 순이며, 우선순위 기준을 '난이도'에 둔다면 3사분면 $\rightarrow$ 1사분면 $\rightarrow$ 2사분면 영역 순으로 의사결정 가능

3) 데이터 분석 방안

(1) 빅데이터 분석 방법론 개념

빅데이터를 분석하기 위해 문제를 정의하고 답을 도출하기 위한 체계적인 절차와 처리 방법
데이터 분석 방법론의 구성요소에는 절차, 방법, 도구와 기법, 템플릿과 산출물이 존재

(2) 빅데이터 분석 방법론 계층

단계(Phase)
- 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성, 기준선으로 설정 관리하며, 버전 관리 등을 통한 통제
태스크(Task)
- 단계를 구성하는 단위 활동, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있음
스탭(Step)
- 입력자료(Input), 처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)

(3) 빅데이터 분석 방법론의 분석 절차

분석 기획
- 비즈니스 이해 및 범위 설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험 계획 수립
데이터 준비
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 정합성 검증
데이터 분석
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석(EDA)
- 모델링
- 모델 평가 및 검증
- 모델 적용 및 운영 방안 수립
시스템 구현
- 설계 및 구현
- 시스템 테스트 및 운영
평가 및 전개
- 모델 발전 계획 수립
- 프로젝트 평가 보고

(4) 분석 방법론 유형

KDD 분석 방법론(Knowledge Discovery in Databases)
- 1996년 Fayyad가 프로파일링 기술을 기반으로 통계적 패턴이나 지식을 찾기 위해 체계적으로 정리한 방법론
- 절차
  1. 데이터 세트 선택
  2. 데이터 전처리
  3. 데이터 변환
  4. 데이터 마이닝
  5. 데이터 마이닝 결과 평가
CRISP-DM 분석 방법론
- 개념
  - 비즈니스의 이해를 바탕으로 데이터 분석 목적의 6단계로 진행되는 데이터 마이닝 방법론
  - 1996년 유럽연합의 ESPRIT 프로젝트에서 시작한 방법론으로 1997년 SPSS 등이 참여하였으나 현재에는 중단
- 방법론 구성
  - 단계(Phase) : 최상위 레벨
  - 일반화 태스크(Generic Tasks) : 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위, 각 단계는 일반화 태스크 포함
  - 세분화 태스크(Specialized Tasks) : 일반화 태스크를 구체적으로 수행하는 레벨
  - 프로세스 실행(Process Instances) : 데이터 마이닝을 위한 구체적인 실행
- 분석 절차
  1. 업무 이해
  2. 데이터 이해
  3. 데이터 준비
  4. 모델링
  5. 평가
  6. 전개

SEMMA 분석 방법론
- 분석 솔루션 업체 SAS가 주도한 통계 중심의 5단계(샘플링 $\rightarrow$ 탐색 $\rightarrow$ 수정 $\rightarrow$ 모델링 $\rightarrow$ 검증) 방법론이다.
- 분석 절차
  - 샘플링
  - 탐색
  - 수정
  - 모델링
  - 검증

2. 분석 작업 계획

1) 데이터 확보 계획

빅데이터 분석 목적 달성을 위해 데이터 특성에 맞는 수집 방법을 선정

(1) 데이터 획득 방안 수립

내외부의 다양한 시스템으로부터 정형/비정형/반정형 데이터를 수집하기 위한 구체적인 방안 수립
내부 데이터 획득에는 부서 간 업무협조와 개인정보보호 및 정보보안과 관련된 문제점을 사전에 점검하고, 외부 데이터 획득은 시스템 간 다양한 인터페이스 및 법적인 문제점을 고려하여 상세한 데이터 획득 계획을 수립

(2) 데이터 확보 계획 수립 절차

데이터 확보 계획 수립 절차
- 목표 정의
  - 성과 목표 정의, 성과 지표 설정
- 요구사항 도출
  - 데이터 및 기술 지원 등과 관련된 요구사항 도출
- 예산안 수립
  - 자원 및 예산 수립
- 계획 수립
  - 인력 투입 방안, 일정 관리, 위험 및 품질관리

2) 분석 절차 및 작업 계획

(1) 빅데이터 분석 절차

분석 절차
- 문제 인식
- 연구조사
- 모형화
- 자료 수집
- 자료 분석
- 분석 결과 공유

(2) 빅데이터 분석 작업 WBS 설정

WBS 설정
- 데이터 분석 과제 정의
  - 분석 목표 정의서를 기준으로 프로젝트 전체 일정에 맞게 사전 준비를 하는 단계
  - 단계별 필요 산출물, 주요 보고 시기 등으로 구분하여 세부 단위별 일정과 전체 일정이 예측될 수 있도록 일정을 수립
- 데이터 준비 및 탐색
  - 데이터 처리 엔지니어와 데이터 분석가의 역할을 구분하여 세부 일정이 만들어지는 단계
  - 분석 목표 정의서에 기재된 내용을 중심으로 데이터 처리 엔지니어가 필요 데이터를 수집하고 정리하는 일정 수립
  - 데이터 분석가가 분석에 필요한 데이터들로부터 변수 후보를 탐색하고 최종적으로 도출하는 일정 수립
- 데이터 분석 모델링 및 검증
  - 데이터 준비 및 탐색이 완료된 이후 데이터 분석 가설이 증명된 내용을 중심으로 데이터 분석 모델링을 진행하는 단계
  - 데이터 분석 모델링 과정에 대해서는 실험방법 및 절차를 구분
  - 기획하고 검증하는 내용에 대해 자세한 일정을 수립
- 산출물 정리
  - 데이터 분석 단계별 산출물을 정리하고, 분석 모델링 과정에서 개발된 분석 스크립트 등을 정리하여 최종 산출물로 정리하는 단계

'Certification > 빅데이터 분석기사' 카테고리의 다른 글

통계기법 이해 - 빅데이터 탐색 Chapter 3 (0)	2021.04.13
데이터 탐색 - 빅데이터 탐색 Chapter 2 (0)	2021.04.13
데이터 전처리 - 빅데이터 탐색 Chapter 1 (0)	2021.04.13
데이터 수집 및 저장 계획 - 빅데이터 분석 기획 Chapter 3 (0)	2021.04.11
빅데이터의 이해 - 빅데이터 분석 기획 Chapter 1 (0)	2021.03.29

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

1. 빅데이터 개요 및 활용

1) 빅데이터 특징

(1) 빅데이터 개념

빅데이터는 막대한 양(수십 테라바이트 이상)의 정형 및 비정형 데이터를 말한다.
데이터로부터 가치를 추출하고 결과를 분석하는 기술의 의미로도 통용된다.
데이터에서부터 가치를 추출하는 것은 통찰, 지혜를 얻는 과정으로 Ackoff, R.L 이 도식화한 DIKW 피라미드로 도식화할 수 있다.
- DIKW 피라미드
  - 데이터, Data
  - 정보, Information
  - 지식, Knowledge
  - 지혜, Wisdom
데이터를 수집, 저장, 관리, 분석하는 기존의 관리 방법으로는 막대한 양(수십 테라바이트 이상)의 데이터를 처리하기 어려울 때 빅데이터를 처리한다.
- 데이터의 양을 측정하는 Byte 크기
  - KB(키로), MB(메가), GB(기가), TB(테라), PB(페타), EB(엑사), ZB(제타), YB(요타)
  - $10^3$ Bytes, 세제곱씩 증가, 1YB = $10^3$ ZB = $10^{24}$ Bytes

(2) 빅데이터 특징

전통적으로 3V(Volume, Variety, Velocity)의 특징이 있음
최근에 추가 된 2가지 2V(Veracity, Value)
확장 개념 2V(Validity, Volatility)

(3) 빅데이터의 유형

빅데이터의 유형은 데이터의 구조적 관점에서 정형, 반정형, 비정형 데이터로 구분된다.
정형
- 정형화된 스키마 구조, DBMS에 내용이 저장될 수 있다. 고정 된 필드(속성)에 저장된 데이터
반정형
- 데이터 내부의 데이터 구조에 대한 메타 정보가 포함된 구조
- 고정된 필드에 저자오디어 있지만, 메타데이터나 데이터 스키마 정보를 포함하는 데이터
비정형
- 수집 데이터 각각이 데이터 객체로 구분
- 고정 필드 및 메타데이터(스키마 포함)가 정의되지 않음
- Crawler, API, RSS 등의 수집 기술을 활용

(4) 빅데이터 지식 경영

데이터 기반 지식경영의 핵심 이슈는 암묵지와 형식지의 상호작용에 있다.
암묵지
- 학습과 경험을 통해 개인에게 체화되어 있지만 겉으로 드러나지 않는 지식
- 사회적으로 중요하지만 다른 사람에게 공유되기 어려움
- ex) 태권도, 수영 / 상호작용 ( 공통화, 내면화 )
형식지
- 문서나 메뉴얼처럼 형상화된 지식
- 전달과 공유가 용이
- ex) 수험서, 소프트웨어 설치 매뉴얼 / 상호작용 ( 표출화, 연결화 )
내면화 - 행동과 실천교육 등을 통해 형식시가 개인의 암묵지로 체화되는 단계
공통화 - 다른 사람과의 대화 등 상호작용을 통해 개인이 암묵지를 습득하는 단계
표출화 - 형식지 요소 중의 하나이며 개인에게 내재된 경험을 객관적인 데이터인 문서나 매체로 저장하거나 가공, 분석하는 과정
연결화 - 형식지가 상호결합하면서 새로운 형식지를 창출하는 과정

2) 빅데이터의 가치

(1) 빅데이터의 가치

빅데이터를 통해서 기업/조직의 불확실성 제거, 리스크 감소, 스마트한 경쟁력, 타분야 융합으로 가치를 창출할 수 있다.
경제적 자산
- 새로운 기회를 창출하고, 위험을 해결하여 사회 및 경제 발전의 엔진 역할을 수행
불확실성 제거
- 사회현상, 현실 세계의 데이터를 기반으로 한 패턴 분석과 미래 전망
- 여러 가지 가능성에 대한 시나리오 시뮬레이션
리스크 감소
- 환경, 소셜, 모니터링 정보의 패턴 분석을 통해 위험 징후 및 이상 신호 포착
- 이슈를 사전에 인지 및 분석하고 빠른 의사 결정과 실시간 대응
스마트한 경쟁력
- 대규모 데이터 분석을 통한 상황 인지, 인공지능 서비스 가능
- 개인화, 지능화 서비스 제공 확대
- 트렌드 변화 분석을 통한 제품 경쟁력 확보
타 분야 융합
- 타 분야 와의 융합을 통핸 새로운 가치 창출
- 방대한 데이터 활용을 통한 새로운 융합시장 창출

(2) 빅데이터 가치 선정이 어려운 이유

데이터 활용 방식, 새로운 가치 창출, 분석기술 발전으로 인해 빅데이터의 가치를 정확하게 산정하기 어려움
데이터 활용 방식
- 데이터의 재사용, 데이터의 재조합, 다목적용 데이터 개발 등이 일반화되면서 특정 데이터를 언제/어디서/누가 활용할지 알 수 없어서 가치 산정이 어려움
- 데이터의 창의적 조합으로 인해 기존에 풀 수 없는 문제를 해결하는 데 도움을 주기 때문에 가치 선정이 어려움
새로운 가치 창출
- 빅데이터 시대에 데이터가 기존에 없던 가치를 창출하여 가치 선정이 어려움
분석기술의 급속한 발전
- 비용 문제로 인해 분석할 수 없었던 것을 저렴한 비용으로 분석하면서 활용도가 증가하여 가치 산정이 어려움

(3) 빅데이터 영향

빅데이터의 가치를 활용함으로써 기업, 정보, 개인이 스마트해지고 있다
기업
- 혁신 수단 제공, 경쟁력 강화, 생산성 향상 ( 신사업 발굴, 경쟁사보다 경쟁 우위 확보 )
정부
- 환경 탐색, 상황 분석, 미래 대응 가능 ( 날씨, 교통 등의 데이터 이용하여 재해 관련 정보 추출, 사회관계망 분석, 시스템 다이내믹스와 같은 방식을 통해 미래 의제 도출 )
개인
- 목적에 따른 활용 ( 빅데이터 서비스를 저렴한 비용으로 활용, 적시에 필요한 정보 획득 )

(4) 빅데이터 위기 요인 및 통제 방안

빅데이터는 유용한 가치를 주는 동시에 부정적인 영향을 줄 수 있다.
빅데이터의 부정적인 영향으로 인해 위기가 발생하므로 이를 극복하기 위한 통제 방안 필요
빅데이터 위기 요인
- 사생활 침해, 책임 원칙 훼손, 데이터 오용
빅데이터 위기 요인에 대한 통제 방안
- 알고리즘에 대한 접근 허용, 책임의 강조, 결과 기반의 책임 적용

3) 빅데이터 산업의 이해

(1) 빅데이터 산업 개요

스마트폰, SNS, 사물인터넷(IoT) 확산 등에 따라 데이터 활용이 증가하여 빅데이터는 신성장동력으로 급부상하고 있다.
클라우드 컴퓨팅 기술의 발전으로 데이터 처리 비용이 급격하게 감소하여 빅데이터가 발전하고 있다.
주요국 및 글로벌 기업은 빅데이터 '산업' 육성 및 '활용'에 주력하고 있다.
우리나라는 데이터 생산량이 많은 산업(통신, 제조업 등)이 발달해 잠재력이 크지만, 불확실성에 따른 투자 리스크 등으로 '활용'은 저조하다.

(2) 산업별 빅데이터 활용

산업	활용
의료, 건강	헬스케어 플랫폼 등을 통한 개인 건강정보의 축적 및 의료기관 등과 공유
과학기술	주요 분야의 연구/개발 성과물을 바탕으로 대규모 과학기술 빅데이터 공유/활용 플랫폼 구축
정보보안	보안사고 징후 파악 및 조기 대응/협업 시스템 구축
제조, 공정	완제품 품질향상, 중소/중견기업이 공동으로 활용
소비, 거래	구매 패턴 및 트랜잭션 분석 등을 통한 소비 트랜드 예측
교통, 물류	수요예측, 제어 등 물류/유통체계 최적화

4) 빅데이터 조직 및 인력

(1) 빅데이터 조직 설계

빅데이터 서비스 도입 및 운영 조직을 구성하기 위해서는 빅데이터 업무 프로세스를 이해하고, 조직의 특성을 고려하야여 한다.
빅데이터 업무 프로세스
빅데이터 도입 단계
- 빅데이터 서비스를 제공하기 위해서는 도입 기획, 기술 검토, 도입 조직 구성, 예산 확보 등을 수행
빅데이터 구축 단계
- 빅데이터 플랫폼을 구축하기 위해서는 요구사항 분석, 설계, 구현, 테스트 단계 수행
빅데이터 운영 단계
- 빅데이터 시스템의 도입 및 구축이 끝나면, 이를 인수하여 운영 계획을 수립
조직 설계의 절차
- 조직 설계는 기업이나 조직의 경영 전략 및 사업 전략, 전체 조직 구조, 핵심 업무 프로세스, 팀 조직 구조, 핵심 인력, 역할과 책임, 성과 기준 측정, 역량 교육 및 훈련 등의 순서로 검토한다.
- 절차
  1. 경영 전략 및 사업 전략 수립 ( 빅데이터 관련 사업이나 서비스에 대한 전략 검토 )
  2. 전체 조직 구조 설계 ( 전체적인 수준에서 조직의 구조 설계, 기능별, 제품별, 서비스별 고객별 관점을 고려한 조직 설계 )
  3. 핵심 업무 프로세스 검토 ( 업무의 효율성을 고려하여 조직의 주요 핵심 업무 프로세스 설계할 수 있도록 검토 )
  4. 팀 조직 구조 설계 ( 전체 조직의 하부 조직인 팀 조직의 구조는 수직/수평적인 구조의 조직 유형을 고려하여 설계 )
  5. 핵심 인력 선발 ( 팀 조직에 대하여 다양한 업무를 수행할 핵심 인력의 역할, 책임을 정의하여 인력 선발 )
  6. 역할과 책임 할당 ( 빅데이터 조직의 업무에 대한 적절한 역할과 책임을 할당 )
  7. 성과 측정 기준 수립 ( 조직 구성원이 업무를 성공적으로 수행할 수 있도록 성과 목표 평가 기준 수립 )
  8. 역량 교육 및 훈련 ( 조직 구성원의 성과 평가 후, 역량 강화를 위하여 교육 계획 수립 후 교육 훈련 )

조직 구조 설계의 요소-1
- 조직의 목적을 성공적으로 달성하기 위하여 업무 활동, 부서화, 보고 체계를 고려한다.
- 업무 활동
  - 수직, 수평 업무 활동 구분
  - 수직 : 경영 계획, 예산 할당 등 우선순위 결정
  - 수평 : 업무 프로세스 절차별로 업무를 배분
- 부서화
  - 조직의 미션과 목적을 효육적으로 달성하기 위한 조직 구조 유형 설계
  - 조직 구조 유형은 집중 구조, 기능 구조, 분산 구조로 분류
- 보고 체계
  - 조직의 목표 달성을 위하여 업무 활동 및 부서의 보고 체계를 설계
조직 구조 설계의 요소-2
- 조직 구조 유형
  - 집중 구조
  - 기능 구조
  - 분산 구조
조직 구조의 설계 특성
- 조직 구조를 설계할 때는 공식화, 분업화, 직무 전문성, 통제 범위, 의사소통 및 조정 등의 특성을 고려한다.
- 공식화 ( 업무의 수행 절차, 수행 방법, 적업 결과 등의 기준을 사전에 설정 )
- 분업화 ( 조직의 목표 달성을 위하여 업무 수행 시 업무를 분할하여 수행 )
- 직무 전문화 ( 직무 전문성에 따라 생산성이 증대되므로 전문 지식과 경험이 중요한 요소 )
- 통제 범위 ( 관리자가 효율적이며 효과적으로 관리할 수 있는 조직의 인원 수 )
- 의사소통 및 조정 ( 업무 수행 시 의사소통은 업무의 지시, 보고, 피드백 등 수직적인 활동과 문제 해결을 위한 협업 등 수평적인 활동으로 구분 )

(2) 조직 역량

기업이나 조직을 지속적으로 경영하기 위해서는 조직 역량의 확보가 필수
조직 역량은 조직 구성원의 할당된 업무를 조직이 기대하는 성과 달성을 위한 중요한 요소
역량 모델링
- 기업이나 조직의 목표 달성을 위해서는 우수 성과자의 기여가 중요한 요소
- 우수 성과자의 행동 특성을 파악하여 타 조직원에게 전달/공유하면 조직의 목표를 달성하기 쉬워짐
- 우수 성과자의 행동하는 특성을 파악하여 업무 달성을 위한 지식,스킬,태도 등 직무 역량 요소들을 도출하여 직무별 역량 모델을 만든다.
- DS(Data Scientist)의 요구역량에는 하드 스킬과 소프트 스킬이 있다.
DS의 요구 역량
- 소프트 스킬
  - 분석의 통찰력 ( 논리적 비판 능력, 창의적 사고력, 호기심 )
  - 여러 분야의 협업 능력 ( 커뮤니케이션 능력 )
  - 설득력 있는 전달력 ( 스토리텔링 능력, visualization )
- 하드 스킬
  - 빅데이터 관련 이론적 지식 ( 빅데이터 관련 기법 및 다양한 방법론 습득 )
  - 분석기술의 숙련도 ( 목적에 맞는 최적 분석 설계, 노하우 축적 )
- 가트너의 경우 분석 모델링, 데이터 관리, 소프트 스킬, 비즈니스 분석을 제시했다. ( DS가 갖추어야 할 역량 )
역량 모델 개발 절차
- 조직의 직무별 역량 모델은 조직의 미션/성과 목표/CSF를 검토하고, 우수 성과자의 행동 특성을 도출하여 이를 기반으로 지식, 스킬, 태도와 같은 역량을 도출하여 개발한다.
- 역량 모델 개발 절차
  1. 조직의 미션/성과 목표/CSF 검토
  2. 조직 구성원의 행동 특성 도출
  3. 조직 구성원의 역량 도출
  4. 조직 구성의 역량 모델 확정
역량 교육 체계 설계 절차
- 직무별 역량 모델을 기반으로 역량 강화를 위한 교육 체계를 설계한다. 역량 교육 체계는 교육에 대한 요구사항을 분석하고 직무 역량과 교육 내용 매트릭스를 작성하여 설계
- 역량 교육 체계 설계 절차
  1. 요구사항 분석
  2. 직무별 역량 모델 검토
  3. 역량 차이 분석
  4. 직무 역량 매트릭스 작성
  5. 직무별 역량 교육 체계 설계

(3) 조직성과 평가

조직 구성원은 멉무 수행에 필요한 활동을 하며, 이 활동은 조직의 목표 달성에 기여하기 때문에 개인성과에 대한 관리가 중요
개인의 성과에 대한 목표 설정에 필요한 CSF와 목표 달성에 필요한 KPI를 정의하고 관리
조직성과 평가 절차
- 절차
  1. 목표 설정
  2. 모니터링
  3. 목표 조정
  4. 평가 실시
  5. 결과의 피드백
균형 성과표 (BSC; Balanced Score Card) 관리
- 조직의 성과 목표 달성을 위하여 회사의 비전이나 전략에 따라 성과 묙표를 재무, 고객, 내부 프로세스, 학습/성장 관점으로 균형 있게 목표를 정하고, 이를 조직 구성원의 개개인에게 네 가지 관점으로 목표를 설정하여 관리
- 네가지 관점
  - 재무
  - 고객
  - 내부 프로세스
  - 학습/성장
- BSC를 통한 KPI 도출 예시 (KPI지표)
  - 재무 - 빅데이터 분석비용 절감
  - 고객 - 빅데이터 서비스 만족도
  - 내부 프로세스 - 서비스 가동률
  - 학습/성장 - 1인당 빅데이터 분석 교육 시간

2. 빅데이터 기술 및 제도

1) 빅데이터 플랫폼

(1) 빅데이터 플랫폼(Bigdata Platform)의 개념

빅데이터에서 가치를 추출하기 위해 일련의 과정(수집, 저장, 처리, 분석, 시각화)을 규격화한 기술
특화된 분석(의료, 환경, 범죄, 자동차 등)을 지원하는 빅데이터 플랫폼이 발전하는 추세

(2) 빅데이터 플랫폼 구성요소

데이터 수집
데이터 저장
데이터 분석
데이터 활용

(3) 빅데이터 플랫폼 데이터 형식

HTML
XML
CSV
JSON

(4) 빅데이터 플랫폼 구축 소프트웨어

빅데이터 플랫폼 구축 소프트웨어
- R
- 우지(Oozie)
- 플럼(Flume)
- HBase
- 스쿱(Sqoop)
분산 컴퓨팅 환경 소프투에어 구성요소
- 맵리듀스(Map Reduce)
- 얀(YARN)
- 아파치 스파크(Apache Spark)
- 하둡 분산 파일 시스템(HDFS)
- 아파치 하둡(Apache Hadoop)

(5) 하둡 에코시스템(Hadoop Ecosystem)

2) 빅데이터와 인공지능

(1) 인공지능의 개념

인공지능이란 인간의 지적능력을 인공적으로 구현하여 컴퓨터가 인간의 지능적인 행동과 사고를 모방할 수 있도록 하는 소프트웨어이다.

(2) 빅데이터와 인공지능의 관계

1950년에 등장한 인공지능을 최신 트랜드로 끌고 온 것은 '빅데이터'의 존재이다.
빅데이터는 비정형 데이터를 고속으로 분석할 수 있고, 이러한 점은 인공지능이 기존에 기계가 인지하지 못했던 정보들을 분석할 수 있게 한다.
인공지능의 암흑기를 지나 빅데이터를 통해 자체 알고리즘을 가지고 학습하는 딥러닝 기술로 특정 분야에서 인간의 지능을 뛰어넘는 능력을 갖추게 되었다.
AI (분석력, 예측력) + 빅데이터 (신뢰성, 현실성)

(3) 빅데이터와 인공지능의 전망

상호보완 관계로 빅데이터는 인공지능 구현 완성도를 높여주고, 빅데이터는 인공지능을 통해 문제 해결 완성도를 높임
빅데이터 기술이 주목받는 이유는 우수한 정보처리를 바탕으로 의미 있는 결과를 도출할 수 있다는 점
빅데이터 목표가 인공지능 목표와 부합하고, 인공지능 판단을 위해서는 빅데이터와 같은 기술이 필수이므로, 빅데이터는 인공지능을 위한 기술이 될 가능성이 큼

3) 개인정보보호법, 제도

(1) 소제목1

개인정보보호는 정보 주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동을 의미

(2) 개인정보보호의 필요성

유출 시 피해 심각
정보사회 핵심 인프라
개인정보 가지 통제권

(3) 빅데이터 개인정보보호 가이드라인 ( 방통위, 인터넷진흥원에서 재정한 <빅데이터 개인정보보호 가이드라인>의 내용 )

개인정보 비식별화
개인정보 재식별 시 조치
민감정보 처리
투명성 확보
수집정보의 보호조치

(4) 개인정보보호 관련 법령

안전한 데이터 결합 절차 마련, 가명 정보 안전성 강화, 개인정보 관련 시행령 일원화, 금융 분야 마이 데이터 산업 육성 등 데이터 3법 개정안이 개절될 예정
개인정보보호 관련 법령
- 개인정보 보호법
- 정보통신망법
- 신용정보법
- 위치정보법
- 개인정보의 안정성 확보조치 기준

(5) 개인정보보호 내규

법령에는 시행령, 시행 규칙 등이 정의되며, 이를 바탕으로 데이터 수집을 위한 내규가 제정
내규에는 데이터 수집시 개인정보보호를 위한 가이드라인이 마련, 가이드라인의 내용은
- 정보보호 업무처리 지침
- 개발 보안 가이드
- 개인정보 암호화 매뉴얼
- 소프트웨어 개발 보안 구조
- 기술적, 관리적 보호

4) 개인정보 활용

(1) 개인정보 비식별화 개념

데이터값 삭제, 가명처리, 총계철, 범주화, 데이터 마스킹 등을 통해 개인정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 쉽게 결합하여도 특정 개인을 식별할 수 없도록 하는 조치

(2) 개인정보 비식별화 절차

사전검토
비식별 조치
적정성 평가
사후관리

(3) 개인정보 비식별 조치 방법

가명처리
- 휴리스틱 익명화
- 암호화
- 교환방법
총계처리
- 총계처리 기본 방식
- 부분집계
- 라운딩
- 데이터 재배열
데이터 삭제
- 속성값 삭제
- 속성값 부분 삭제
- 준 식별자 제거를 통한 단순 익명화
데이터 범주화
- 범주화 기본 방식
- 랜덤 올림 방법
- 범위 방법
- 세분 정보 제한 방법
- 제어 올림 방법
데이터 마스킹
- 임의 잡음 추가 방법
- 공백과 대체 방법

(4) 재식별 가능성 모니터링

비식별 정보를 이용하거나 제3자에게 제공하려는 사업자 등은 해당 정보의 재식별 가능성을 정기적으로 모니터링을 해야 함
모니터링 점검 항목
내부 요인의 변화
- 비식별 조치된 정보와 연계하여 재식별 우려가 있는 추가적인 정보를 수집하였거나 제공받은 경우
- 데이터 이용과정에서 생성되는 정보가 비식별 정보와 결합해서 새로운 정보가 생성되는 경우
- 이용부서에서 비식별 정보에 대한 비식별 수준을 낮추어 달라고 하는 요구가 있는 경우
- 신규 또는 추가로 구축되는 시스템이 비식별 정보에 대한 접근을 관리 통제하는 보안체계에 중대한 변화를 초래하는 경우
외부 환경의 변화
- 이용 중인 데이터에 적용된 비식별 조치 방법과 유사한 방법으로 비식별 조치한 사례가 재식별되었다고 알려진 경우
- 이용 중인 데이터에 적용된 비식별 기법과 기술을 무력화하는 새로운 기술이 등장하거나 공개된 경우
- 이용 중인 데이터와 새롭게 연계 가능한 정보가 추련하거나, 공개된 것으로 알려진 경우

'Certification > 빅데이터 분석기사' 카테고리의 다른 글

통계기법 이해 - 빅데이터 탐색 Chapter 3 (0)	2021.04.13
데이터 탐색 - 빅데이터 탐색 Chapter 2 (0)	2021.04.13
데이터 전처리 - 빅데이터 탐색 Chapter 1 (0)	2021.04.13
데이터 수집 및 저장 계획 - 빅데이터 분석 기획 Chapter 3 (0)	2021.04.11
데이터 분석 계획 - 빅데이터 분석 기획 Chapter 2 (1)	2021.03.29

신경망 기반의 자연어 처리를 공부하였습니다. ( 최근 동향 )

2001 | Neural Language Models
2008 | Multi-task Learning
2013 | Word Embeddings
2013 | Neural networks for NLP
2014 | Sequence-to-sequence Models
2015 | Attention
2015 | Memory-based Networks
2018 | Pretrained Language Models

2013 | Neural networks for NLP

텍스트의 Sparse vector 표현, 소위 bag-of-words model은 NLP에서 오랜 역사를 가지고 있습니다. word embeddings의 조밀한 벡터 표현은 2001년에 사용되었습니다. Mikolov et al. 에 의해 2013년에 제안된 hidden layer를 제거함으로써 목표를 근사화하고 이러한 word embeddings를 더 효율적으로 학습하도록 만들었습니다.

이런 변경은 간단했지만 효율적인 word2vec 구현과 함께 word embeddings에 대한 large-scale 학습이 가능하도록 하였습니다.

Word2Vec은 CBOW(Continuous Bag-of Word)와 Skip-gram의 두 가지로 나누어집니다.

이 두 가지는 목적이 다름으로써 차이점이 발생합니다.

1. CBOW

- 주변 단어를 기반으로 중심 단어를 예측

2. Skip-gram

- 중심단어를 기반으로 주변 단어를 예측

Figure 3: Continuous bag-of-words and skip-gram architectures (Mikolov et al., 2013a; 2013b)

이러한 embeddings들은 a feed-forward neural network와 개념적으로 다르지 않지만 매우 큰 말뭉치에 대한 훈련을 통해 성별, 동사 시제, 국가-자본 관계 등을 포착할 수 있습니다.

Figure 4: Relations captured by word2vec (Mikolov et al., 2013a; 2013b)

이러한 관계와 그 이면의 의미는 word embedding에 대한 관심을 촉발시켰고, 많은 연구에서 이러한 선형 관계의 기원을 조사하였습니다. (Arora et al., 2016; Mimno & Thompson, 2017; Antoniak & Mimno, 2018; Wendlandt et al., 2018)

현재의 NLP에서 word embeddings을 강화한 것은 사전 훈련된 embeddings을 초기화로 사용했을 때 광범위한 downstream tasks에서 성능이 향상된다는 점입니다.

word2vec은 직관적이고 마법적인 특정을 가지고 있지만 이후 연구에 따르면 본질적으로 특별한 것은 없다는 사실이 밝혀졌습니다. word embeddings은 matrix factorization을 통해 학습을 할 수도 있습니다. (Pennington et al, 2014; Levy & Goldberg, 2014)

그리고 적절한 튜닝을 통해 SVD 및 LSA와 같은 고전적인 matrix factorization 접근법과 유사한 결과를 얻을 수도 있습니다.(Levy et al., 2015)

그 이후로 word embeddings의 다양한 측면을 탐색하기 위해 많은 연구가 진행되었습니다.

자세히 :ruder.io/word-embeddings-2017/

Word embeddings in 2017: Trends and future directions

Word embeddings are an integral part of current NLP models, but approaches that supersede the original word2vec have not been proposed. This post focuses on the deficiencies of word embeddings and how recent approaches have tried to resolve them.

ruder.io

nlp의 많은 발전에도 불구하고 word2vec은 여전히 인기 있는 선택이며 많이 사용되고 있습니다. 또한, Word2vec의 범위는 단어 수준을 넘어서까지 확장되었습니다. negative sampling을 적용한 skip-gram, local context를 기반으로 한 embeddings 학습, 문장 표현을 학습(Mikolov & Le, 2014; Kiros et al., 2015), NLP를 넘어선 networks(Grover & Leskovec, 2016), biological sequences(Asgari & Mofrad, 2015).

특히 흥미로운 방향 중 하나는 다른 언어의 word embeddings을 동일한 공간에 투영하여(zero-shot) 언어 간 전송을 가능하게 하는 것입니다. 완전한 비지도 방법으로 (유사한 언어의 한해서) 좋은 투영법을 배우는 것이 점점 가능해지고 있으며, 이는 low-resource 언어 및 비지도 기계 번역에 대한 애플리케이션을 엽니다.(Lample et al., 2018; Artetxe et al., 2018)

해당 내용은 사실과 다를 수 있습니다.

정정이 필요한 부분은 댓글로 작성 부탁드립니다. ( 혹은 reference추천도 감사합니다. )

감사합니다.

'Deep Learning > Natural Language Processing' 카테고리의 다른 글

History of Natural Language Processing(NLP) - Chapter.03 (0)	2021.03.25
History of Natural Language Processing(NLP) - Chapter.02 (0)	2021.03.25
History of Natural Language Processing(NLP) - Chapter.01 (0)	2021.03.25

신경망 기반의 자연어 처리를 공부하였습니다. ( 최근 동향 )

2001 | Neural Language Models
2008 | Multi-task Learning
2013 | Word Embeddings
2013 | Neural networks for NLP
2014 | Sequence-to-sequence Models
2015 | Attention
2015 | Memory-based Networks
2018 | Pretrained Language Models

2013 | Word Embeddings

텍스트의 Sparse vector 표현, 소위 bag-of-words model은 NLP에서 오랜 역사를 가지고 있습니다. word embeddings의 조밀한 벡터 표현은 2001년에 사용되었습니다. Mikolov et al. 에 의해 2013년에 제안된 hidden layer를 제거함으로써 목표를 근사화하고 이러한 word embeddings를 더 효율적으로 학습하도록 만들었습니다.

이런 변경은 간단했지만 효율적인 word2vec 구현과 함께 word embeddings에 대한 large-scale 학습이 가능하도록 하였습니다.

Word2Vec은 CBOW(Continuous Bag-of Word)와 Skip-gram의 두 가지로 나누어집니다.

이 두 가지는 목적이 다름으로써 차이점이 발생합니다.

1. CBOW

- 주변 단어를 기반으로 중심 단어를 예측

2. Skip-gram

- 중심단어를 기반으로 주변 단어를 예측

이러한 embeddings들은 a feed-forward neural network와 개념적으로 다르지 않지만 매우 큰 말뭉치에 대한 훈련을 통해 성별, 동사 시제, 국가-자본 관계 등을 포착할 수 있습니다.

이러한 관계와 그 이면의 의미는 word embedding에 대한 관심을 촉발시켰고, 많은 연구에서 이러한 선형 관계의 기원을 조사하였습니다. (Arora et al., 2016; Mimno & Thompson, 2017; Antoniak & Mimno, 2018; Wendlandt et al., 2018)

현재의 NLP에서 word embeddings을 강화한 것은 사전 훈련된 embeddings을 초기화로 사용했을 때 광범위한 downstream tasks에서 성능이 향상된다는 점입니다.

word2vec은 직관적이고 마법적인 특정을 가지고 있지만 이후 연구에 따르면 본질적으로 특별한 것은 없다는 사실이 밝혀졌습니다. word embeddings은 matrix factorization을 통해 학습을 할 수도 있습니다. (Pennington et al, 2014; Levy & Goldberg, 2014)

그리고 적절한 튜닝을 통해 SVD 및 LSA와 같은 고전적인 matrix factorization 접근법과 유사한 결과를 얻을 수도 있습니다.(Levy et al., 2015)

그 이후로 word embeddings의 다양한 측면을 탐색하기 위해 많은 연구가 진행되었습니다.

자세히 :ruder.io/word-embeddings-2017/

Word embeddings in 2017: Trends and future directions

Word embeddings are an integral part of current NLP models, but approaches that supersede the original word2vec have not been proposed. This post focuses on the deficiencies of word embeddings and how recent approaches have tried to resolve them.

ruder.io

nlp의 많은 발전에도 불구하고 word2vec은 여전히 인기 있는 선택이며 많이 사용되고 있습니다. 또한, Word2vec의 범위는 단어 수준을 넘어서까지 확장되었습니다. negative sampling을 적용한 skip-gram, local context를 기반으로 한 embeddings 학습, 문장 표현을 학습(Mikolov & Le, 2014; Kiros et al., 2015), NLP를 넘어선 networks(Grover & Leskovec, 2016), biological sequences(Asgari & Mofrad, 2015).

특히 흥미로운 방향 중 하나는 다른 언어의 word embeddings을 동일한 공간에 투영하여(zero-shot) 언어 간 전송을 가능하게 하는 것입니다. 완전한 비지도 방법으로 (유사한 언어의 한해서) 좋은 투영법을 배우는 것이 점점 가능해지고 있으며, 이는 low-resource 언어 및 비지도 기계 번역에 대한 애플리케이션을 엽니다.(Lample et al., 2018; Artetxe et al., 2018)

해당 내용은 사실과 다를 수 있습니다.

정정이 필요한 부분은 댓글로 작성 부탁드립니다. ( 혹은 reference추천도 감사합니다. )

감사합니다.

'Deep Learning > Natural Language Processing' 카테고리의 다른 글

History of Natural Language Processing(NLP) - Chapter.04 (0)	2021.03.25
History of Natural Language Processing(NLP) - Chapter.02 (0)	2021.03.25
History of Natural Language Processing(NLP) - Chapter.01 (0)	2021.03.25

신경망 기반의 자연어 처리를 공부하였습니다. ( 최근 동향 )

2001 | Neural Language Models
2008 | Multi-task Learning
2013 | Word Embeddings
2013 | Neural networks for NLP
2014 | Sequence-to-sequence Models
2015 | Attention
2015 | Memory-based Networks
2018 | Pretrained Language Models

언어 모델링은 일반적으로 RNN을 적용할 때 사용하는 언어입니다.

http://karpathy.github.io/2015/05/21/rnn-effectiveness/

The Unreasonable Effectiveness of Recurrent Neural Networks

There’s something magical about Recurrent Neural Networks (RNNs). I still remember when I trained my first recurrent network for Image Captioning. Within a few dozen minutes of training my first baby model (with rather arbitrarily-chosen hyperparameters)

karpathy.github.io

많은 분들이 Andrej Karpathy blog를 보시지 않았을까 생각합니다. 저 또한 RNNs을 공부하면서 참고했던 곳 중 하나입니다. 이 단순한 게시물에서 제시한 언어 모델링이 많은 발전을 통해 현재의 모델에 도달하였습니다.

Word embeddings : word2vec의 목적은 언어 모델링을 단순화하는 것에 의미가 있습니다.

Sequence-to-sequence models : 이러한 모델들은 한 번에 한 단어를 예측하여 output sequence를 생성합니다.

Pretrained language models : 이 방법들은 transfer learning을 위한 언어 모델의 표현을 사용합니다.

최근의 자연어발전은 언어 모델 개발에 치중되어 있는데, real nlp을 위한 다른 방법과 모델이 필요성을 어필합니다. ( raw form을 이용한 학습은 한계가 존재할 것이라고 합니다. )

2008 | Multi-task Learning

Multi-task Learning(이하 MTL)는 여러 작업에 대해 훈련된 모델들 간에 파라미터를 공유하는 일반적인 방법입니다. 신경망에서는 다른 layer들의 가중치를 묶음으로써 쉽게 수행할 수 있습니다. 이러한 아이디어는 93년 Rich Caruana가 제안하였으며 당시에는 도로 추적 및 폐렴 예측에 적용되었습니다.

직관적으로 MTL은 모델이 많은 태스크에 유용한 표현을 학습하도록 합니다. 이것은 일반적으로 낮은 레벨의 표현들을 학습하고 모델의 attentions 또는 제한된 학습 데이터가 있을 때 유용합니다.

MTL은 2008년 Collobert와 Weston이 NLP용 신경망에 처음으로 적용하였습니다.

Figure 1: Sharing of word embedding matrices ( Collbert & Weston, 2008; Colobert et al., 2011)

위에서 보는 것과 같이 서로 다른 작업에 대해 훈련 된 두 모델 간의 look-up table(word embedding matrices)가 공유됩니다.

word embedding을 공유하면 모델 안에서 가장 많은 수의 파라미터를 구성하는 word embedding matrix의 일반적인 low-level 정보를 공유할 수 있습니다. word embedding를 사전 훈련하고 지난 몇 년간 채택된 텍스트에 대해 CNN을 사용하는 것과 같은 아이디어를 주도했습니다.

Facebook researchers win Test of Time Award at ICML 2018 - Facebook Research

We are pleased to announce that Facebook research scientists Ronan Collobert and Jason Weston won the 2018 International Conference on…

research.fb.com

MTL은 광범위한 NLP 태스크에서 사용되며 기존, NLP repertoire에서 유용한 도구가 되었다고 할 수 있습니다. 파라미터 공유는 일반적으로 정의되어 있긴 하지만, 다른 공유 패턴을 학습할 수 있습니다. 모델의 일반화 능력을 평가하기 위해서 multiple tasks평가가 증가함에 따라 MTL이 중요해지고 있고 전용 벤치마크도 제안되었습니다. (Wang et al., 2018; McCann et al., 2018).

MTL 자세히 : ruder.io/multi-task/

An Overview of Multi-Task Learning for Deep Learning

Multi-task learning is becoming more and more popular. This post gives a general overview of the current state of multi-task learning. In particular, it provides context for current neural network-based methods by discussing the extensive multi-task learni

ruder.io

해당 내용은 사실과 다를 수 있습니다.

정정이 필요한 부분은 댓글로 작성 부탁드립니다. ( 혹은 reference추천도 감사합니다. )

감사합니다.

'Deep Learning > Natural Language Processing' 카테고리의 다른 글

History of Natural Language Processing(NLP) - Chapter.04 (0)	2021.03.25
History of Natural Language Processing(NLP) - Chapter.03 (0)	2021.03.25
History of Natural Language Processing(NLP) - Chapter.01 (0)	2021.03.25

신경망 기반의 자연어 처리를 공부하였습니다. ( 최근 동향 )

2001 | Neural Language Models
2008 | Multi-task Learning
2013 | Word Embeddings
2013 | Neural networks for NLP
2014 | Sequence-to-sequence Models
2015 | Attention
2015 | Memory-based Networks
2018 | Pretrained Language Models

2001 | Neural Language Models

언어 모델링은 텍스트의 이전 단어가 주어졌을 때 다음 단어를 예측하는 모델입니다.

고전적인 접근 방식은 n-gram을 기반으로 하며 보이지 않는 n-gram을 처리하기 위해 평활화를 사용하기도 합니다. (Kneser & Ney, 1995)

첫 번째 neural language model은 Bengio가 제안하였습니다. ( feed-forward neural network )

Figure 1: Neural architecture (Bengio et al., 2001; 2003)

이 모델은 one-hidden layer feed-forward neural network이며, 시퀀스의 next word를 예측합니다.

Training is achieved by looking for $\theta$ that maximizes the training corpus penalized log-likelihood:

$L = \frac{1}{T} \sum_{t} log f(w_t, w_{t-1}, ..., w_{t-n+1};\theta) + R(\theta),$

where $R(\theta)$ is a regularization term

모델의 output은 $f(w_t, w_{t-1}, ..., w_{t-n+1})$ 이고, softmax에 의해 계산되어진 확률 $p(w_t|w_{t-1}, ..., w_{t-n+1})$ 입니다.

*where $n$ is the number of previous words fed into the model.

우리가 word embedding이라고 부르는 개념은 벤지오 교수가 이때부터 소개/사용하였다고 합니다.

현재까지 이러한 architecture는 점진적으로 발달하였고 지금까지도 3가지 process를 중심으로 설계됩니다.

1. Embedding Layer

- index vector와 word embedding matrix를 multiplying (곱연산)함으로써 단어 임베딩을 생성하는 레이어입니다.

2. Intermediate Layer(s)

- 인풋의 중간 표현을 생성하는 하나 이상의 레이어

ex) a fully-connected layer that applies a non-linearity to the concatenation of word embeddings of $n$ previous words

$n$ 이전 단어들의 word embedding 과 연결하는 비선형 fc layer

3. Softmax layer

- 단어에 대한 probability distribution을 생성하는 최종 레이어

하지만, 벤지오 교수는 2가지 문제점(개선점)에 대해서도 제시합니다.

1. Intermediate layer를 LSTM 으로 대체할 수 있다는 점

2. Softmax layer 계산 비용이 단어 수에 비례하므로 단어 수가 많은 경우 병목현상이 일어날 수 있다. ( 수십, 수백만의 단어 )

따라서, Large vocabulary에 대해서 softmax를 계산하는 것과 계산 비용을 연관하여 언어 모델을 만드는 것이 핵심과제 중 하나라고 제시하였습니다.

해당 내용은 사실과 다를 수 있습니다.

정정이 필요한 부분은 댓글로 작성 부탁드립니다. ( 혹은 reference추천도 감사합니다. )

감사합니다.

'Deep Learning > Natural Language Processing' 카테고리의 다른 글

History of Natural Language Processing(NLP) - Chapter.04 (0)	2021.03.25
History of Natural Language Processing(NLP) - Chapter.03 (0)	2021.03.25
History of Natural Language Processing(NLP) - Chapter.02 (0)	2021.03.25

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

전체 글

Kaggle

2021

2020

2019

2018

NAVER

2021

2020

2019

2018

KAKAO

2021

2020

2019

2018

DACON

2021

2020

2019

2018

HACKERTON, 기타 대회

2021

2020

2019

2018

1. 데이터 수집 및 전환

1) 데이터 수집

2) 데이터 유형 및 속성 파악

3) 데이터 변환

4) 데이터 비식별화

5) 데이터 품질 검증

2. 데이터 적재 및 저장

1) 데이터 적재

2) 데이터 저장

'Certification > 빅데이터 분석기사' 카테고리의 다른 글

1. 분석 방안 수립

1) 분석 로드맵 설정

2) 분석 문제 정의

2. 분석 작업 계획

1) 데이터 확보 계획

2) 분석 절차 및 작업 계획

'Certification > 빅데이터 분석기사' 카테고리의 다른 글

1. 빅데이터 개요 및 활용

1) 빅데이터 특징

2) 빅데이터의 가치

3) 빅데이터 산업의 이해

4) 빅데이터 조직 및 인력

2. 빅데이터 기술 및 제도

1) 빅데이터 플랫폼

2) 빅데이터와 인공지능

3) 개인정보보호법, 제도

4) 개인정보 활용

'Certification > 빅데이터 분석기사' 카테고리의 다른 글

'Deep Learning > Natural Language Processing' 카테고리의 다른 글

'Deep Learning > Natural Language Processing' 카테고리의 다른 글

'Deep Learning > Natural Language Processing' 카테고리의 다른 글

'Deep Learning > Natural Language Processing' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역