<---google adsense---> <---/google adsense---> 'Certification/빅데이터 분석기사' 카테고리의 글 목록 :: noti note
반응형

여러모로 탈도 많은 시험이였던 것 같습니다.

 

원래 작년 12월에 볼 예정이였던 시험이 코로나로 인해 취소되고 올해 보게 되었는데요.

 

난이도는 10점 만점에 6점 정도 된것 같습니다. (저는 전공자+Adsp합격자 입니다) 솔직히 문제 퀄리티가 너무 낮아서 어떻게 평가해야할지도 모르겠네요. 

 

공부한 기간은 총 5일정도이고 교재는 수제비를 사용했습니다.

 

아무래도 분석기법이나 용어에는 익숙해서 편하게 공부한 것 같습니다.

 

 

합격결과 추가

무난하게 합격했습니다. (1과목이 무서웠네요)

 

실기 결과

역시나 무난했습니다. 작업형 제 2유형에서 0점 처리 받은 분들이 많아 항의? 한다는 분들이 많은거 같은데... 완만하게 잘 해결되었으면 좋겠습니다.

리뷰 : https://cafe.naver.com/sqlpd/21412

 

 

국가 기술 빅데이터 분석기사

국가기술 자격

  • 관련 근거

국가기술자격법 및 동법 시행령

 

  • 빅데이터분석기사 정의

빅데이터 이해를 기반으로 빅데이터 분석 기획, 빅데이터 수집·저장·처리, 빅데이터 분석 및 시각화를 수행하는 실무자를 말한다.

 

  • 빅데이터분석기사의 필요성

전 세계적으로 빅데이터가 미래성장동력으로 인식돼, 각국 정부에서는 관련 기업투자를 끌어내는 등 국가·기업의 주요 전략분야로 부상하고 있다.

국가와 기업의 경쟁력 확보를 위해 빅데이터 분석 전문가의 수요는 증가하고 있으나, 수요 대비 공급 부족으로 인력 확보에 어려움이 높은 실정이다.

이에 정부차원에서 빅데이터 분석 전문가 양성과 함께 체계적으로 역량을 검증할 수 있는 국가기술자격 수요가 높은 편이다.

 

  • 빅데이터분석기사의 직무

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무를 수행한다.

 

 

필기시험

1. 빅데이터 분석 기획

  • 빅데이터의 이해
    • 빅데이터 개요 및 활용
      • 빅데이터의 특징
      • 빅데이터의 가치
      • 데이터 산업의 이해
      • 빅데이터 조직 및 인력
    • 빅데이터 기술 및 제도
      • 빅데이터 플랫폼
      • 빅데이터와 인공지능
      • 개인정보 법/제도
      • 개인정보 활용
  • 데이터분석 계획
    • 분석방안수립
      • 분석 로드맵 설정
      • 분석 문제 정의
      • 데이터 분석 방안
    • 분석 작업 계획
      • 데이터 확보 계획
      • 분석 절차 및 작업 계획
  • 데이터 수집 및 저장 계획
    • 데이터 수집 및 전환
      • 데이터 수집
      • 데이터 유형 및 속성 파악
      • 데이터 변환
      • 데이터 비식별화
      • 데이터 품질 검증
    • 데이터 적재 및 저장
      • 데이터 적재
      • 데이터 저장

 

2. 빅데이터 탐색

  • 데이터 전처리
    • 데이터 정제
      • 데이터 정제
      • 데이터 결측값 처리
      • 데이터 이상값 처리
    • 분석 변수 처리
      • 변수 선택
      • 차원 축소
      • 파생변수 생성
      • 변수 변환
      • 불균형 데이터 처리
  • 데이터 탐색
    • 데이터 탐색 기초
      • 데이터 탐색 개요
      • 상관관계 분석
      • 기초통계량 추출 및 이해
      • 시각적 데이터 탐색
    • 고급 데이터 탐색
      • 시공간 데이터 탐색
      • 다변량 데이터 탐색
      • 비정형 데이터 탐색
  • 통계기법 이해
    • 기술통계
      • 데이터오약
      • 표본추출
      • 확률분포
      • 표본분포
    • 추론통계
      • 점추정
      • 구간추정
      • 가설검정

 

3. 빅데이터 모델링

  • 분석모형 설계
    • 분석 절차 수립
      • 분석모형 선정
      • 분석모형 정의
      • 분석모형 구축 절차
    • 분석 환경 구축
      • 분석 도구 선정
      • 데이터 분할
  • 분석기법 적용
    • 분석기법
      • 회귀분석
      • 로지스틱 회구분석
      • 의사결정나무
      • 인공신경망
      • 서포트벡터머신
      • 연관성분석
      • 군집분석
    • 고급 분석기법
      • 범주형 자료 분석
      • 다변량 분석
      • 시계열 분석
      • 베이지안 기법
      • 딥러닝 분석
      • 비정형 데이터 분석
      • 앙상블 분석
      • 비모수 통계

 

4. 빅데이터 결과 해석

  • 분석모형 평가 및 개선
    • 분석모형 평가
      • 평가 지표
      • 분석모형 진단
      • 교차 검증
      • 모수 유의성 검정
      • 적합도 검정
    • 분석모형 개선
      • 과대적합 방지
      • 매개변수 최적화
      • 분석모형 융합
      • 최종모형 선정
  • 분석결과 해석 및 활용
    • 분석 결과 해석
      • 분석모형 해석
      • 비즈니스 기여도 평가
    • 분석결과 시각화
      • 시공간 시각화
      • 관계 시각화
      • 비교 시각화
      • 인포그래픽
    • 분석결과 허용
      • 분석모형 전개
      • 분석결과 활용 시나리오 개발
      • 분석모형 모니터링
      • 분석모형 리모델링

 

 

 

 

실기시험

차후에 업데이트 예정

 

 

 

합격 기준

필기시험 합격 기준은 과목당 100점 만점으로

1. 전 과목 40점 이상

2. 전 과목 평균 60점 이상 

달성 입니다.

 

 

실기시험은 100점을 만점으로 60점 이상 받으면 됩니다.

 

 

후기

공부는 수제비 책으로 진행하였습니다.

 

수제비가 생각보다 적중률이 낮은 것 같다고 느꼈는데, 다른 책도 비슷하지 않을까 생각합니다. (그래도 적당히 비슷하게 나오긴 했습니다. ㅎㅎ)

 

위에서 난이도 6점으로 말씀드렸던 이유는 각 과목당 8/20 (8문제) 정도는 맞출 수 있는 난이도이지 였던 것 같습니다. 합격하려면 물론 60점을 넘겨야 하지만, 공부를 열심히 하신 분들이라면 충분히 맞출 수 있었다고 생각합니다.

 

첫 회차여서 그런지 이슈가 꽤 있더군요

 

1. 장소 안내 부족

2. 문제 오류 및 안내 부족

3. Adsp?가 떠오르는 문제 유형

 

 

 

1. 저는 잠원중학교에서 시험을 봐서 장소에 대한 이슈는 없었는데, 우송대학교에서 보신분들은 이슈가 꽤 있으시더라고요. (서캠퍼스/동캠퍼스 이슈, 수험표와 다른 캠퍼스 장소). 시험을 못 볼수도 있는 이슈인데 장소고지를 더 구체적으로 할 필요가 있다고 생각합니다.

 

2. 이건 시험 보신분들이면 다들 공감하실거 같은데 정~말정말 문제가 많았습니다. 상대적으로 갓-큐넷이 떠오르더라고요. 문제 퀄리티가.. 오탈자는 기본이고, 4지 선다 보기가 1. (가) 2. (나) 3. (다) 4. (가) (나) (다) 가 뭔지요..

수능문제가 이렇게 나왔다면 9시 뉴스 헤드라인 감인데 말이죠

 

가장 큰 문제는 시험지 앞에 있는 복수정답 안내이슈입니다. 대부분의 수험생이 못 본 것으로 알고 있는데, 이런 중요한 안내사항은 당연히 안내가 따로 필요하다고 생각합니다. (아나운서가 이런거나 알려주지..., 기본적으로 시험지에 적혀 있는 안내사항은 다 읽어주는 걸로 알고 있는데 말이죠 허허허허허허허)

 

ex) 박스플롯에서 볼 수 없는 것은? (평균, 분산, 최대값, 이상치) 이런 문제에서 답은 1번과 2번을 골라야 하는 어처구니 없는 상황을 겪었습니다. (아 물론 plot setting 을 통해서 평균을 볼 수 도 있겠죠. 그렇다고 한다면, 다른 문제에서도 다 반례를 찾을 수 있으니 basic plot 으로 생각해서 문제가 있다고 생각합니다. 암튼, 코로나로 인해서 약 4개월 정도 밀린 시험이라고 하기에는 완성도가 매우 떨어졌습니다.)

 

 

3. 데이터 전문가, AI전문가를 육성하기 위한 목적의 시험으로 알고 있습니다. 근데 저는 사조사(사회조사분석사) 자격증이 떠오르는 걸까요? 문제자체에서 전문가 냄새가 하나도 안났습니다. 단순히 통계학 기반의 문제들이 많았고 난이도 있는 문제들은 문제 수준이 높은 게 아니라 말장난 때문에 난이도가 있다고 느껴졌습니다. 

ex) 신경망에서 dropout은 특정 신경을 끊어버리는 것이다. - 노드를 비활성화한다는 표현이 좀 더 범용적이고 일반적인 표현이 아닐까 생각해 봅니다. 

 

이러한 이슈를 극복하기 위해서는 필기시험지는 공개할 필요가 있다고 봅니다.

이슈 안만들려고 공개 안하는게 아닌가 생각도 들고... 

 

저는 기도메타로 60점 넘기를 기원해 보겠습니다.

 

 

다음 회차에 시험이 어떻게 나올지는 모르겠는데 도움이 되길 바라며 제가 기억나는 문제 키워드들을 적어 놓았으니 다음 회차에 보시는 분들은 참고하시길 바랍니다.

 

 

 

  1과목
빅데이터 분석기회
2과목
빅데이터 탐색
3과목
빅데이터 모델링
4과목
빅데이터 결과해석
1 ETL Boxplot 후진 소거법 bias, variance
2 Deep Learning 개념 변수 선택 인공신경망 개념 인공신경망
하이퍼 파라미터
3 분석 프로세스 5단계 학습데이터 imblanced CNN 계산 scatter plot
4 지도학습 파생변수 잔차진단 bar chart
5 비식별화 처리기준 불량률 계산 (조건부 확률)  SVM 불균형 데이터셋
6 비식별화 특징(개념)? 정규확률 계산 MDS(다차원 척도법) roc curve
7 데이터 형태를 파악? 검정하는 것 MLE $\theta$ 계산 라쏘, L1 규제 내용으로 나옴 혼동행률
8 최적화 그래프 분석 모델링 절차 파라미터, 하이퍼파라미터 차이
9 개인정보보호법 상관계수 로지스틱 K means 군집
10 정형데이터 품질 보증 병렬 차트 FP, TP계산 F1 스코어
11 EDA의 의미 Z-score 계산(p-value 이용) 부스팅(GBM) 모델선택
12 모델링 개념 점추정 베이지안 확률계산 적합도 검정
13 진단 분석 1종오류 2종오류 홀드아웃 인포그래픽
14 Outlier 차원의 저주 비지도학습 모델 선택 방법
15 데이터 수집 방법 중앙값(선수들 연봉, 평균이 옳은가 중앙값이 옳은가) 분류 민감도, 특이도 설명
16 분석 성숙도 층화추출 군집 모형진단
17 개인정보수집 동의안 Class imbalanced 시계열 Data분석 결과 활용
18 Bottom-up 분석 확률분포 ( 포아송나왔었음) 비정형 Data 시계열
19 데이터 품질 평가 확률분포 랜덤 포레스트 선형 회귀
20 데이터 거버넌스 t분포, z분포 K-fold 시계열 그래프 보고  추세, 계절성, 예측 판단

 

 

 

 

 

 

데이터 진흥원 시험에 대한 정보가 많은 카페입니다. 정보가 필요하신 분은 참고하셔도 좋을 것 같습니다.

 

cafe.naver.com/sqlpd

 

데이터 전문가 포럼 (빅데이터분석기사... : 네이버 카페

빅데이터분석기사, ADP, ADsP, SQLP, SQLD, DAP, DAsP, 자격증 취득 등 데이터 전문가 커뮤니티입니다.

cafe.naver.com

 

 

한국 데이터 산업 진흥원은 각성해야 할지도?

 

복수정답

www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUwOTYyNH0=&boardKind=notice

데이터 진흥원(위 링크)에 원본 글이 있으니 참고하시길 바랍니다.

반응형
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 분석 결과 해석

1) 분석 모형 해석

(1) 데이터 시각화의 개념

 

 

(2) 데이터 시각화 기능

 

 

(3) 데이터 시각화 목적

 

 

(4) 데이터 시각화 유형

 

(5) 빅데이터 시각화도구

 

 

(6) 데이터 시각화 절차

 

 

(7) 시각화 분석을 위한 데이터 유형

 

 

 

 

 

2) 비즈니스 기여도 평가

(1) 비즈니스 기여도 평가의 개념

 

 

 

(2) 비즈니스 기여도 평가지표

 

 

 

(3) 비즈니스 기여도 평가 고려 사항

 

 

2. 분석 결과 시각화

1) 시공간 시각화

(1) 시간 시각화

 

 

(2) 공간 시각화

 

 

 

 

2) 관계 시각화

 

 

(1) 관계 시각화의 개념

 

(2) 관계 시각화의 유형

 

 

(3) 관계 시각화의 해석

 

 

 

3) 비교 시각화

(1) 개념

 

 

(2) 유형

 

 

(3) 분석

 

 

 

 

4) 인포그래픽

 

(1) 개념

 

 

(2) 유형

 

 

 

(3) 활용방법

 

 

 

3. 분석 결과 활용

1) 분석 모형 전개

 

(1) 빅데이터 모형 운영 시스템 적용 방안

 

 

 

(2) 빅데이터 모형의 운영 및 개선방안 수립

 

 

2) 분석 결과 활용 시나리오 개발

 

(1) 분석 결과에 따른 활용 분야 분류

 

 

 

(2) 분류 결과를 토대로 적용 가능한 서비스 영역 도출

 

 

(3) 분류 결과를 토대로 적합한 신규 서비스 모형 도출

 

 

 (4) 서비스 모형에 따른 활용 방안 제시

 

 

 

3) 분석 모형 모니터링

 

(1) 분석 모형 모니터링 개념

 

 

(2) 분석 모형 모니터링 솔루션

 

 

(3) 분석 모형 성능 모니터링

 

 

(4) 분석 모형 모니터링 고려 사항

 

 

4) 분석 모형 리모델링

 

(1) 분석 모형 리모델링 개념

 

 

(2) 분석 모형 리모델링 절차

 

 

 

(3) 분석 모형 리모델링 고려 사항

 

 

 

 

 

 

 

 

 

핵심

  1. 시각화의 기능 = 설명, 탐색, 표현
  2. 분포 시각화 = 파이 차트, 도넛 차트, 트리맵 / 버블 차트 = 관계 시각화
  3. 관계 시각화 = 산점도, 버블차트, 히스토그램 / 체르노프 페이스 = 비교 시각화
  4. 공간 시각화 = 등치선도, 도트맵, 카토그램 / 히트맵 = 비교 시각화
  5. 히트맵 = 열분포 형태의 그래픽 출력
  6. 시각화 도구 = 태블로, 인포그램, 차트블록
  7. 시각화 절차 = 구조화 $\rightarrow$ 시각화 $\rightarrow$ 시각표현
  8. 범주,비율/추세,패턴/관계,연결
  9. 영역차트 분기별 매출을 region으로 view
  10. 비교 시각화 = 플로팅 바 차트, 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표 그래프
  11.  

 

 

 

 

반응형
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 분석 모형 평가

1) 평가지표

(1) 회귀 모형의 평가지표

 

 

 

(2) 분류 모형의 평가지표

 

 

 

 

 

2) 분석 모형 진단

(1) 데이터 분석 모형의 오류

 

 

 

(2) 데이터 분석 모형 검증

 

 

(3) 분석 모형 시각화

 

 

 

 

(4) 분석 모형 진단

 

 

 

3) 교차 검증

(1) 교차 검증(Cross Validation) 개념

 

 

(2) 교차 검증의 종류

 

 

 

4) 모수 유의성 검정

(1) 모집단과 모수 단계

 

 

(2) 모집단의 평균에 대한 유의성 검정

 

 

(3) 모집단의 분산에 대한 유의성 검정

 

 

5) 적합도 검정

(1) 적합도 검정 개념

 

 

(2) 적합도 검정 기법 유형

 

 

2. 분석 모형 개선

1) 과대 적합 방지

(1) 과대 적합의 개념

 

 

 

(2) 과대 적합 방지하기

 

 

 

2) 매개변수 최적화

(1) 매개변수의 개념

 

 

(2) 매개변수 최적화의 개념

 

 

(3) 매개변수 종류

 

 

(4) 매개변수 최적화 과정

 

 

3) 분석 모형 융합

(1) 취합(Aggregation) 방법론

 

 

(2) 부스팅 방법론

 

 

4) 최종 모형 선정

(1) 최종 모형 평가 기준 선정

 

 

(2) 최종 모형 분석 결과 검토

 

 

(3) 알고리즘별 결과 비교

 

 

 

 

 

 

 

핵심

  1. SSE : 회귀 모형의 평가에 많이 사용되는 평가지표이며 오차 제곱합으로 계산되어짐
  2. SSR : 회귀 모형의 평가지표 중 회귀 제곱합계
  3. SST : 전체 제곱합
  4. AE : 평균 오차
  5. 일반화의 가능성은 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준
  6. precision(정밀도) = $TP\over{TP+FP}$
  7. specificity(특이도) = $TN\over{TN+FP}$
  8. auc의 값은 항상 0.5~1의 값을 가지며 1에 가까울수록 좋은 모형이다
  9. 민감도=재현율=$TP\over{TP+FN}$
  10. MAPE = $100\over{n}$ $\sum_{i=1}^n$ $\left\vert y_i-\hat{y}\over{y_i} \right\vert$
  11. 학습오류 = 주어진 데이터 집합에 부차적인 특성과 잡음이 있다는 점을 고려하여 그것의 특성을 덜 반영하도록 분석 모형을 만들어 생기는 오류
  12. LOOCV = 전체 데이터에서 1개 샘플만을 Test에 사용하고 나머지 (N-1)개는  Training에 사용하는 교차 검증 방법
  13. K-Fold에서 K값이 증가하면 수행시간과 계산량이 증가한다.
  14. 홀드아웃은 데이터 마이닝을 위해 데이터를 분할하는 방법으로 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 학습용과 시험용으로 분리하여 사용한다.
  15. Holudout Cross Validation은 전체 데이터에서 Test데이터만큼 학습에 사용할 수 없어서 데이터 손실이 발생하는 교차 검증 기법이다.
  16. LpOCV = 10개의 샘플 데이터를 p=2일경우 교차 검증은 몇번인가? ${}_{10}C_2 = 45$
  17. 정규성 확인하기 위한 방법 = 샤피로-윌크 검정, K-S Test, 콜모고로프-스미르노프 적합성 검정 / 히스토그램, qq플랏
  18. 더빈-왓슨테스트 = 회귀모형 오차항이 자기상관이 있는지에 대한 검정
  19. 관측된 데이터가 가정된 확률을 따르는지 확인하기 위하여 사용하는 적합도 검정 방법은 카이제곱 검정이다.
  20. shapiro.test() = 샤피로-윌크 검정
  21. ks.test() = K-S Test
  22. 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검정하기 위해 사용되는 검정은 카이제곱검정
  23. 두 모집단 분산간의 비율에 대한 검정 = F-검정
  24. 인공신경망의 복잡도는 은닉층의 수나 모델의 수용력 등으로 결정
  25. 페이스팅 = 학습 데이터를 중복하여 사용하지 않고 학습 데이터 세트를 나누는 기법(비복원 추출)
  26. 랜덤 서브스페이스 = 학습 데이터를 모두 사용하고 특성은 샘플링하는 방식
  27. 랜덤 패치 = 학습 데이터와 독립변수 차원 모두 일부만 랜던하게 사용
  28. 중복을 허용하여 학습 데이터 세트를 나누는 기법 = 배깅(복원추출)
  29. 최종모형 선정의 절차 : 평가기준선정 $\rightarrow$ 분석 결과 검토 $\rightarrow$ 알고리즘별 결과 비교

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 분석 기법

1) 회귀 분석

(1) 회귀 분석 개념

 

 

(2) 회귀 분석 유형

 

 

(3) 최적 회귀방적식의 선택

 

 

 

2) 로지스틱 회귀 분석

(1) 로지스틱 회귀 분석 개념

 

 

 

(2) 로지스틱 회귀 분석 코드 해석

 

 

 

3) 의사결정나무

(1) 의사결정나무(Decision Tree) 개념

 

(2) 의사결정나무의 구성요소

 

 

(3) 해석력과 예측력

 

 

 

(4) 의사결정나무의 분석

 

 

 

(5) 불순도의 여러 가지 측도 - 1

 

 

(6) 불순도의 여러 가지 측도 - 2

 

 

 

(7) 불순도의 여러 가지 측도 - 3

 

 

 

(8) 의사결정나무의 활용 및 장단점

 

4) 인공신경망

(1) 인공신경망의 개념

 

 

(2) 인공신경망의 역사

 

 

 

(3) 인공신경망의 구조

 

 

 

(4) 뉴런의 활성화 함수

 

 

 

5) 서포트 벡터 머신

 

 

(1) 서포트 벡터 머신의 개념

 

 

(2) 서포트 벡터 머신 특징

 

 

 

(3) 서포트 벡터 머신 종류

 

 

(4) 서포트 벡터 머신의 구성요소

 

 

(5) 서포트 벡터 머신 적용 기준

 

 

 

6) 연관성 분석

(1) 연관성 분석의 개념

 

 

 

(2) 연관성 분석 특징

 

 

(3) 연관성 분석의 주요 용어

 

 

7) 군집분석

 

(1) 군집 분석 개념

 

 

(2) 군집 분석 종류 - 계층적 군집

 

 

(3) 군집 분석 종류 - k-평균 군집

 

 

(4) 군집 분석 종류 - 혼합 분포 군집

 

 

 

(5) 군집 분석 종류 - SOM(Self-Organizing Maps)

 

 

 

 

2. 고급 분석 기법

1) 범주형 자료 분석

 

(1) 분할표(Contingency Table) 분석

 

 

 

(2) 교차 분석(카이제곱 검정)

 

 

 

(3) 피셔의 정확 검정(Fisher's Exact Exam)

 

 

2) 다변량 분석

(1) 상관 분석

 

 

(2) 다차원 척도법

 

 

(3) 주성분 분석

 

 

 

3) 시계열 분석

(1) 시계열 분석의 개념

 

 

(2) 시계열 분석의 특징

 

 

(3) 정상성

 

 

(4) 시계열 모형

 

 

4) 베이지안 기법

(1) 확률 및 기본 통계 이론

 

 

 

(2) 조건부 확률

 

 

(3) 전 확률의 정리

 

 

 

(4) 베이즈 정리

 

 

5) 딥러닝 분석

(1) 딥러닝

 

 

 

(2) 딥러닝 알고리즘

 

 

6) 비정형 데이터 분석

(1) 비정형 데이터 분석의 개념

 

 

(2) 비정형 데이터 분석기법

 

 

(3) 텍스트 마이닝

 

 

(4) 오피니언 마이닝

 

 

(5) 웹 마이닝

 

 

(6) 사회 연결망 분석

 

 

7) 앙상블 분석

(1) 앙상블(Ensemble) 개념

 

 

(2) 앙상블의 특징

 

 

(3) 앙상블 알고리즘

 

 

(4) 앙상블 학습 절차

 

 

(5) 앙상블 기법의 종류

 

 

 

8) 비모수 통계

(1) 비모수 통계의 개념

 

 

(2) 비모수 통계 특징

 

 

(3) 비모수 통계의 장단점

 

 

(4) 비모수 통계 검정 방법의 종류

 

 

 

(5) 비모수 통계 검정 방법

 

 

 

 

 

 

 

 

핵심

  1. 회귀모형 가정은 선형성, 독립성, 등분산성, 비상관성, 정상성이 있다.
  2. F-통계량으로 다중 회귀 모형이 통계적으로 유의미한지 확인할 수 있다.
  3. 회귀식에 대한 검정은 독립변수의 기울기(회귀계수)가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설로 놓는다.
  4. 결정계수는 총 변동 중에서 회귀 모형에 의하여 설명되는 변동이 차지하는 비율이다.
  5. R에서 lm은 단순 회귀 분석 모형, glm은 로지스틱 회귀 분석 모형
  6. 단계적(Stepwise) 방법은 전진선택법(Forward Selection)이나 후진선택법(Backward Elimination)과 동일한 최적의 모형을 가지지 않는다.
  7. step(direction='') ['bardward', 'forward', 'stepwise'], 후진소거, 전진선택, 단계별
  8. 주성분 분석은 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
  9. 주성분 분석은 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법, 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어려움
  10. 후진 제거법은 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 떠 이상 제거할 변수가 없을 때의 모형을 선택하는 방법
  11. 오차를 제곱하여 더한 양의 최솟값을 나타내기 때문에 '최소 제곱'추정이라고 한다.
  12. 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법(ex. Lasso 회귀 분석)
  13. 최소제곱법은 회귀계수를 추정할 때 회귀 제곱합이 최소가 되는 해를 구하는 방법이다.
  14. 전체 변수 집합에서 부분 변수 집합을 선택하여 각각의 집합에 대해 모형을 새성한 후 결합을 하는 방식의 앙상블 : 의사결정나무
  15. 시계열 에측에서 정상성을 만족하는 것은 분산이 시점에 의존하지 않는다는 것을 의미
  16. 회귀 분석의 가정 중 정상성이란 잔차항이 정규 분포를 따른다는 것을 의미
  17. 오차들의 분산이 일정해야 하는 것 = 등분산성
  18. 다중공선성은 회귀 분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제를 의미
  19. 반응변수가 범주형일 때 = 로지스틱 회귀 모형
  20. 로지스틱 회귀 모형에서 설명 변수가 한 개인 경우 회귀계수의 부호가 0보다 작을 때는 역 S자 그래프가 그려진다.
  21. $odds = p/(1-p)$
  22. 같은 표본 여러개를 단순 임의복원 추출하여 분류기 생성하고 결과를 앙상블 = 배깅
  23. 데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고 분할 기준 속성에 따라 트리 형태로 모델링 하는 분류 예측 모델은 의사결정 나무
  24. decision tree는 주어진 입력값에 대하여 출력값을 예측하는 모형으로 분류나무와 회귀나무 모형이 있다.
  25. Internal node : 부모 마디와 자식 마디가모두 있는 마디
  26. 타당성 평가는 이익 도표(Gain Chart), 위험 도표(Risk Chart), 테스트 데이터를 이용하여 Cross Validation 등을 이용한 평가 수행 단계
  27. D.T에서 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 규칙은 정지 규칙
  28. 분리 기준은 하나의 부모 마디로부터 자식 마디들이 형성될 때, 입력변수의 선택과 범주의 병합이 이루어질 기준을 의미
  29. 분산 분석에서 F-통계량은 연속형 목표변수에 사용되는 분리 기준이다.
  30. gini index = $1 - \sum_{i=1}^{k} P_i^2$
  31. 종속변수가 범주일 때의 의사결정나무 분류 규칙을 선택하기 위해서 활용하는 것은 = 지니지수, 카이제곱 통계량, 엔트로피 지수
  32. 카이제곱 통계량은 각 셀에 대한 ((실제도수-기대도수)의 제곱/기대도수)의 합이다.
  33. C4.5, C5.0은 목표변수가 반드시 범주형이여야하고 불순도의 측도로는 엔트로피 지수를 사용 (ID3가 초기버전임)
  34. CHAID = 분리기준으로 카이제곱 통계량 사용
  35. CART는 불순도의 측도를 목적변수가 범주형일 경우 지니 지수를 이용 연속변수일 경우 분산을 이용한 이진분리를 하는 알고리즘
  36. 인간의 뉴런 구조 모방 = 인공신경망
  37. 1세대 = 퍼셉트론, 순방향 신경방, XOR 선형 분리 불가 문제
  38. 2세대 = 다층 퍼셉트론, 역전파 알고리즘, XOR 선형 분리 문제 해결 (과적합, 기울기 소실 문제 등장)
  39. 3세대 = 딥러닝 활용
  40. 다층 신경망 모형에서 은닉층의 개수를 많이 설정해서 역전파과정에서 가중치 조정이 이루어지지 않아 = 기울기 소실
  41. XOR연산은 퍼셉트론으로 구현 불가능 (다중 퍼셉트론으로 가능)
  42. Vanishing Gradient : 시그모이드 함수가 원인이였음
  43. softmax함수는 확률로 변환해 주며, 출력값의 총합은 1
  44. 시그모이드 함수는 로지스틱 회귀 분석과 유사하며 0~1의 사이의 값을 가진다.
  45. ReLU뉴런이 죽는 Dying ReLU를 해결하기 위해 Leaky ReLU가 나옴
  46. SVM은 최대 마진을 가지는 비확률적 선형 판별에 기초한 이진 분류기 이다.
  47. 초평면, 결정 경계, 슬랙 변수 = SVM을 구성하는 요소들
  48. SVM R 패키지 = kernlab, klaR, e1071
  49. SVM의 커널 함수의 선택에는 명확한 규칙이 없으며, 실제 어떤 커널 함수를 적용하더라도 정확도에는 큰 차이가 없다.
  50. SVM은 과대적합 가능성이 낮다. 선형 분리가 불가능할 경우 저차원에서 고차원으로 매핑해서 사용 가능, 분류/예측 모두 사용 가능, 훈련시간이 상대적으로 느리지만 정확성이 뛰어남.
  51. SVM에서 선형적으로 완벽한 분리가 불가능할 때 분류를 위해 허용된 오차를 위한 변수는 슬랙변수이다.
  52. 카탈로그 배열, 교차 판매 등의 마케팅을 계획할 때 = 연관 분석
  53. 조건-결과 식으로 표현되는 유용한 패턴을 발견해내는 방법 = 연관 규칙
  54. 적절한 세분화로 인한 품목 결정이 장점이지만 너무 세분화된 품목은 의미 없는 결과를 도출 (연관분석)
  55. 데이터 내부에 존재하는 항목간의 상호 고나계 혹은 종속 관계를 찾아내는 분석기법 = 연관성 분석
  56. 연관성 분석은 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
  57. 향상도 곡선은 분류도니 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 등급별로 파악하는 해당 모델의 성과가 얼마나 좋아졋는지를 평가하는 그래프이다.
  58. 지지도, 향상도, 신뢰도 (연관성 분석에 사용하는 지표)
  59. 향상도가 1보다 크면 결과 예측이 우수하다.
  60. 향상도는 두 품목의 상관관계를 기준으로 도출된 규칙의 예측력을 평가하는 지표
  61. 군집분석은 각 개체에 대해 관측된 여러 개의 변숫값에서 유사한 성격을 갖는 몇 개의 군집으로 집단화하여 군집들 사이의 관계를 분석하는 다변량 분석기법
  62. 계층 군집을 형성 하는 방법은 병합, 분할적 방법이 있다.
  63. 계층적 군집모형은 군집의 개수를 미리 정하지 않아도 된다. (비계층적 군집모형은 정해야 한다.)
  64. 와드 연결법은 오차 제곱합에 기초하여 군집을 수행
  65. 맨해튼 거리 = 차이의 절대값의 합
  66. diana 계층적 군집형성 함수, 병합적 방법 = agnes, mclust
  67. 최단연결법 = 거리의 최솟값, 최장 = 거리의 최댓값, 중심연결법 = 두 군집의 중심 간의 거리 측정, 평균연결법 = 모든 항목에 대한 거리 평균
  68. 중심연결법은 군집 내 편차들의 제곱합을 고려하여 군집 간 정보의 손실을 최소화하는 방향으로 군집을 형성하는 방법
  69. 초기 군집 중심으로 k개의 객체를 임의로 선택 $\rightarrow$ 각 자료를 가장 가까운 군집 중심에 할당 $\rightarrow$ 군집의 중심을 갱신 $\rightarrow$ 2와 3단계 반복(군집 중심의 변화가 거의 없을 때까지)
  70. 관측되지 않은 잠재변수에 의존하는 확률모델에서 최대 가능도나 최대 사후확률을 갖는 모수의 추정값을 찾는 반복적인 알고리즘 = EM알고리즘
  71. 적합도 검정은 1개의 요인을 대상으로 표본 집단의 분포가 주어진 특정 이론응 ㄹ따르고 있는지를 검정하는 기법
  72. 다변량 분석으로는 피어슨 상관계수, 스피어만 상관계수, 다차원 척도법, 주성분 분석
  73. 상곤관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법 = PCA
  74. 여러 대상간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법 = MDS
  75. 주어진 거리는 추상적인 대상들 간의 거리가 될수도 있고, 실수 공간에서의 거리가 될수도 있다. 주로 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용 = MDS
  76. 누적기여율은 제1 주성분에서 제 k주성분까지의 주성분을 이용하여 설명할 수 있는 데이터의 전체 정보량의 비율이다. 누적 기여율이 85% 이상이면 주성분의 수로 결정 가능
  77. 정상성은 분산이 일정한것이 아니라 평균이 일정하다
  78. 현시점의 자료가 p 시점 전의 유한개의 과거자료로 설며욀수 잇는 모형은 자기 회귀 모형이다.
  79. 이동평균모형은 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형
  80. 이동평균모형은 시계열 모델 중 자신의과거 값을 사용하여 설명하는 모형으로 백색잡음의 현재 값과 자기 자신의 과거 값의 선형 가중합으로 이루어진 정상 확률 모형이다.
  81. MA모형은 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형
  82. 자기 회귀 누적 이동평균 모형은 비정상 시계열 모형이다. 차분이나 변환 필요
  83. ARIMA(p,d,q) ARMA(p,q) 차분 = d = 2
  84. 시계열 구성하는 4가지 요소 = 추세(경향) 요인, 계절 요인, 순환 요인, 불규칙 요인
  85. 두개의 사건 A와 B에 대하여 사건 A가 일어난다는 선행조건하에 사건 B가 일어날 확률은 조건부 확률이다.
  86. 나중에 주어지는 사건 A의 확률을 구할 때 그 사건의 원인을 여러 가지로 나누어서, 각 원인에 대한 조건부 확률$P(A|B_i)$과 그 원인이 되는 확률 $P(B_i)$의 곱에 의한 가중합$\sum$으로 구할 수 있다는 법칙은 전확률의 법칙이다.
  87. 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘의 집합은 딥러닝
  88. CNN = 시각적 이미지
  89. convolution 연산 : CNN 알고리즘에서 이미지로부터 필터를 이용하여 특징을 추출하는 연산
  90. 피처맵에서 서브샘플링 연산을 통해 화면의 크기를 줄인다.Max, Min, Average Pool 이 존재
  91. 비정형 데이터 분석 = 사회 연결망 분석, 웹 마이닝, 오피니언 마이닝
  92. 정보 단위인 노드와 연결점인 링크를 활용 : 웹 마이닝, 웹상의 문서들과 서비스들로부터 정보를 자동적으로 추출, 발견하는 기법
  93.  SNA의 주요 속성 = 응집력, 구조적 등위성, 명성, 범위, 중계
  94. 웹 마이닝 유형 = 웹 내용, 사용, 구조 마이닝
  95. 앙상블 유형 = 배깅, 부스팅, 랜포
  96. 부스팅 = 부트스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법
  97. 배깅 = 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블
  98. 부트스트랩 = 단순랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러개 생성
  99. 배깅 기법의 주요 알고리즘은 메타 코스트
  100. 랜포에서 임의노드 최적화 기법은 분석ㅇ 사용되는 변수를 랜덤하게 추출하는 것으로써, 훈련단계에서 훈련목적함수를 최대로 만드는 노드 분할 함수의 매개변수 $\theta$의 최적값을 구하는 과정이다.
  101. 이산 비모수 검정 방법 중에서 차이의 부호만을 이용한 중위수(Median)의 위치에 대한 검정 방법은 부호 검정이다.
  102. 비모수적 검정은 빈도, 부호, 순위 등의 통계량을 이용
  103. 런검정은 관측된 표본이 어떤 패턴이나 경향이 없이 랜덤하게 구성되었다는 가설을 검정하는 방법
  104. 비모수적 기법은 순위와 부호에 기초한 방법 위주이므로 이상값의 영향이 작다
  105. 부호 검정에서 대칭성의 가정이 반드시 필요한 것은 아니다. 자료의 분포가 연속적이고 독립적인 분포에서 나온것이라는 가정이 필요
  106. 윌콕슨 부호 순위 검정은 대치엉의 가정이 반드시 필요하다.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 분석 절차 수립

1) 분석 모형 선정

 

 

(1) 통계기반 분석 모형 선정

 

 

 

(2) 데이터 마이닝 기반 분석 모형 선정

 

 

 

(3) 머신러닝 기반 분석 모형 선정

 

 

 

(4) 변수에 따른 분석기법 선정

 

 

 

 

(5) 분석기법 선정 고려사항

 

 

 

(6) 분석 모형 활용 사례

 

 

 

2) 분석 모형 정의

(1) 분석 모형 정의 개념

 

(2) 분석 모형 정의 고려사항

 

 

3) 분석 모형 구축 절차

 

 

(1) 요건 정의

 

 

 

(2) 모델링

 

 

(3) 검증 및 테스트

 

 

(4) 적용

 

 

 

 

2. 분석 환경 구축

1) 분석 도구 선정

 

(1) R

 

 

 

(2) Python

 

 

2) 데이터 분할

 

(1) 데이터 분할 개념

 

 

(2) 데이터 분할 시 고려사항

 

 

 

 

 

 

 

 

 

 

 

 

 

 

핵심

  1. 딥러닝 기법에 기반을 두고 있는 모형은 신경망 모델이다.
  2. 로지스틱 회귀 모형은 종속변수가 범주형인 경우에 적용되는 회귀 분석 모형이다.
  3. 군집 분석은 비지도 학습에 해당
  4. SOM은 비지도 학습 기법
  5. SOM은 단 하나의 forward-feed 를 사용한다. (속도가 매우 빠름)
  6. 분류 분석은 말 그대로 무언가를 분류할 때 사용(문서 분류, 온라인 수강생을 특성에 따른 분류)
  7. 어떤 미지의 함수 y = f(x)를 최적화하는 해를 찾기 위해, 진화를 모방한 탐색 알고리즘은 유전자 알고리즘이다. (생물학의 신경망 = 인공신경망, 시각적 이미지 = 합성곱 신견망, 여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화를 시도하는 알고리즘 = 딥러닝)
  8. 기술(Description)은 사람, 상품에 관한 이해를 증가시키기 위해 데이터가 가지고 있는 특징을 나타내고 설명에 대한 답을 제공
  9. 소매점에서 물건을 배열하거나 카탈로그 및 교차판매 등에 적용 = 연관 분석 = 장바구나 분석
  10. 연관규칙 학습은 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법(커피를 구매하는 사람이 탄산음료를 더 많이 구입하는가)
  11. 조건-결과 식으로 표현되는 유용한 패턴을 발견해내는 방법 = 연관성 분석 = 장바구니 분석 = 서열 분석
  12. 고객의 파산 여부 사용 모델 (로지스틱 회귀 분석, 의사결정나무, SVM)
  13. 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것으로, 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 번주로 나누는 것은 분류이다.
  14. 하이퍼 파라미터는 사용자가 직접 설정해주는 값, 경험에 의해 정해지기도 하며 예측 알고리즘 모델링의 문제점을 위해 조절 가능
  15. 파라미터는 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값이다.
  16. 선형회귀나 로지스틱 회귀 분석에서의 결정계수는 파라미터이다.
  17. 분석모형을 정의할 때 부적합 모형 현상은 모형 선택오류, 변수 누락, 부적합 변수 생성, 동시 편향이다. (모델 복잡도를 고려하여 적합한 모델을 선택)
  18. 요건 정의 $\rightarrow$ 모델링 $\rightarrow$ 검증 및 테스트 $\rightarrow$ 적용 (분석모형의 구축절차)
  19. 모델링 마트 설계 및 구축 $\rightarrw$ 탐색적 분석과 유의 변수 도출 $\rightarrow$ 모델링 $\rightarrow$ 모델링 성능평가 (모델링 절차)
  20. 분석 모형이 적합한지에 대한 판단기준 수립은 모델링 성능평가 단계에서 수립
  21. 비즈니스 및 데이터 특성 등 경우에 따라서 시뮬레이션고 최적화를 결합해 적용할 수 있다.
  22. 성능 테스트 결과는 일단위로 공유해 모형의 적합성을 판단해야 한다.
  23. 분석 모델을 수동으로 하면 과업이 많아지므로 자동으로 모니터링하고 이상시에만 확인하는 프로세스를 수립한다.
  24. R은 windows, mac os, linux 다양한 os지원한다.
  25. 평가용 데이터는 학습 단계에서 사용되지 않는다.
반응형
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 기술통계

(1) 데이터 전처리의 중요성

  • 데이터 수집 및 전환은 데이터 처리 기술 중 하나이다.
  • 전체적인 데이터 처리 기술은 데이터 필터링, 데이터 변환, 데이터 정제, 데이터 통합, 데이터 축소가 있다.
  • 데이터 처리 기술
    • 데이터 필터링
    • 데이터 변환
    • 데이터 정제
    • 데이터 통합
    • 데이터 축소

 

1) 데이터 요약

(1) 기초 통계량

 

 

(2) 상관 분석

 

 

(3) 회귀 분석

 

 

 

 

(4) 분산 분석

 

 

(5) 판별 분석

 

 

2) 표본 추출

(1) 표본 추출 기법

 

 

(2) 자료 측정

 

 

 

3) 확률 분포

(1) 확률 분포 개념

 

 

(2) 확률분포 종류

 

 

 

4) 표본 분포

(1) 표본 분포 개념

 

 

(2) 표본 분포

 

 

(3) 표본 분포와 관련된 법칙

 

 

2. 추론통계

1) 점 추정

(1) 점 추정 개념

 

(2) 점 추정 조건

 

 

(3) 점 추정에 사용되는 통계

 

 

2) 구간 추정

(1) 구간 추정 개념

 

 

(2) 구간 추정 용어

 

 

3) 가설검정

(1) 가설

 

 

(2) 가설검정

 

 

(3) 가설검정의 오류

 

 

(4) 검정 통계량

 

 

(5) p-value (p값)

 

 

 

 

 

 

핵심

  1. 추론 예측 = 추리 통계
  2. 평균은 이상값에 영향을 강하게 받는다.
  3. 비율척도 - 질량, 나이, 길이 / 구간 척도 - 온도
  4. 순서척도 연산 > <
  5.  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 데이터 탐색 기초

1) 데이터 탐색 개요

(1) 데이터 탐색의 개념

 

 

 

(2) 탐색적 데이터 분석(Exploatory Data Analysis; EDA)의 4가지 주제(특징)

 

 

 

 

(3) 개별 변수 탐색 방법

 

 

(4) 다차원 데이터 탐색 방법

 

 

 

2) 상관관계 분석

(1) 상관관계 분석의 개념

 

 

(2) 변수 사이의 상관관계의 종류

 

 

 

(3) 상관관계의 표현 방법

 

 

(4) 상관관계 분석의 분류

 

 

 

3) 기초통계량 추출 및 이해

 

 

(1) 중심 경향성의 통계량

 

 

 

(2) 산포도의 통계량

 

 

(3) 데이터의 분포를 나타내는 통계량

 

 

 

4) 시각적 데이터 탐색

(1) 히스토그램

 

 

(2) 막대형 그래프

 

 

(3) 박스 플롯

 

 

(4) 산점도

 

 

 

2. 고급 데이터 탐색

1) 시공간 데이터 탐색

(1) 시공간 데이터

 

 

 

(2) 시공간 데이터 탐색 절차

 

 

2) 다변량 데이터 탐색

(1) 다변량 데이터

 

(2) 변량 데이터 탐색

 

 

(3) 다변량 데이터 탐색 도구

 

 

 

3) 비정형 데이터 탐색

(1) 비정형 데이터의 개념

 

 

 

(2) 비정형 데이터의 유형

 

 

(3) 비정형 데이터의 탐색 방법

 

 

 

(4) 비정형 데이터 탐색 플랫폼 구성 예시

 

 

 

 

 

 

 

 

 

 

 

 

 

 

핵심

  1. 변환 기법 - 로그, 제곱근, 역수 변환
  2. 저항성은 데이터의 부분적 변동에 민감하게 반응하지 않는다.
  3. EDA의 도구 - 도표, 그래프, 요약 통계
  4. eda의 4가지 주제 - 저항성, 잔차 해석, 현시성, 자료 재표현
  5. 다중상관분석은 3개 이상의 변수 간 관계 강도 측정
  6. 서열척도로 측정된 변수간의 상관계수 - 스피어만, 등간척도/비율척도 - 피어슨
  7. 수치 - 피어슨
  8. 순서 - 스피어만 순위상관
  9. 명목 - 카이제곱
  10. 스피어만 순위상관계수 - 단조 증가함수로 변환하여 다른 변수를 나타낼 수 있는 정도, 두 변수간의 비선형적인 관계도 나타낼수 있음
  11. 변동계수(CV) = 표준편차 / 평균
  12. 왼쪽 편포  skewness < 0
  13. 오른쪽 편포 skewness > 0 ;최빈값<메디안<평균
  14. 링크드인 - 카프카
  15.  HDFS - 마스터/슬레이브 구조, 분산형 파일 시스템
  16.  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

1. 데이터 정제

1) 데이터 정제

(1) 데이터 전처리의 중요성

  • 데이터 분석 과정에서 데이터 전처리는 반드시 거쳐야 하는 과정
  • 전처리 결과가 분석 결과에 직접적인 형향을 주고 있어서 전처리는 반복 수행해야함
  • 데이터 분석의 단계 중 가장 많은 시간이 소요되는 단계는 데이터 수집/전처리 단계 (분석가는 업무 시간의 80% 를 이에 사용)
  • 데이터 전처리는
    • 데이터 정제
    • 결측값 처리
    • 이상값 처리
    • 분석 변수 처리 로 진행한다.

 

(2) 데이터 정제 개념

  • 결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업

 

(3) 데이터 정제 절차

  • 데이터 오류 원인 분석
    • 결측값, 노이즈, 이상값
  • 데이터 정제 대상 선정
    • 모든 데이터를 대상으로 정제 활동 진행
    • 특별히 데이터 품질 저하의 위협이 있는 데이터에 대해서는 더 많은 정제 활동 수행
    • 내부 데이터보다 외부 데이터가 품질 저하 위협에 많이 노출 되어 있음.
    • 정형보단 비정형/반정형이 품질 저하 위협에 있음
  • 데이터 정제 방법 결정
    • 삭제, 대체, 예측값 삽입

 

(4) 데이터 정제 기술

  • 데이터 일관성 유지를 위한 정제 기법
    • 다른 시스템으로부터 들어온 데이터에 대한 일관성을 부여하기 위해 수행
    • 변환 - 다양한 형태로 표현된 갑을 일관된 형태로 변환
    • 파싱 - 정제 규칙을 적용하기 위해서 유의미한 최소 단위로 분할하는 작업
    • 보강 - 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업
  • 데이터 정제 기술
    • 분산 처리 시스템을 기반으로 데이터를 정제하고 성능을 보장하기 위해 인 메모리 기반 컴퓨팅 기술 사용
    • 정제된 데이터는 데이터 변경(분석)에 활용
      • ETL - 데이터 웨어하우스/데이터 마트에 저장하는 기술
      • 맵리듀스 - 구글에서 대용량 데이터 세트를 분산/병력 컴퓨팅에서 처리, 생성하기 위한 목적으로 만들어진 software framwork
      • 스파크/스톰 - 인 메모리 기반 데이터 처리 방식, 스파크는 맵리듀스를 기반으로 성능 개선
      • CEP - 실시간으로 발생하는 이벤트 처리에 대한 결괏값을 수집하고 처리하는 기술
      • 피그 - 하둡을 이용하여 맵리듀스를 사용하기 위한 피그 라틴 스크립트 언어 제공
      • 플럼 - 로그 데이터 수집/처리 하는 기법, 실시간에 근접하게 데이터를 전처리 및 수집하는 기술

 

(5) 데이터 세분화

  • 데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화하여 효율적으로 사용할 수 있는 프로세스
  • 군집화
    • 계층적 방법
      • 응집분석법, 분할분석법
    • 비 계층적 방법
      • 인공신경망 모델, K-평균

 

2) 데이터 결측값 처리

(1) 데이터 결측값(Data Missing Value) 개념

  • 입력이 누락된 값을 의미(NA, Null, 99999, -99999)

 

(2) 데이터 결측값 종류

  • 완전 무작위 결측(Missing Completely At Random)
    • 결측값이 다른 변수와 아무 상관이 없음
  • 무작위 결측(Missing At Random)
    • 결측값이 특정 변수와 관련되어 일어남. 그러나 그 변수의 결과와는 관계가 없다. 누락이 전체 정보가 있는 변수로 설명이 될 수 있다.(누락이 완전히 설명가능할 경우)
  • 비 무작위 결측(Missing Not At Random)
    • 누락된 값이 다른 변수와 연관이 있다.

 

(3) 데이터 결측값 처리 절차

  • 결측값 식별
  • 결측값 부호화
  • 결측값 대체

 

(4) 데이터 결측값 처리 방법

  • 단순 대치법
    • 완전 분석법 - 완전하게 관측된 자료만 사용하여 분석, 부분적으로 관측된 자료가 무시되어 효율성이 상실되고 통계적 추론 타당성 문제 발생
    • 평균 대치법 - 관측/실험에서 얻어진 자료의 평균값으로 대치해서 완전한 자료로 만듬
      • 비 조건부 평균 대치법(그냥 있는 데이터 평균), 조건부 평균 대치법(회귀 분석을 활용하여 대치)
    • 단순 확률 대치법 - 평균 대치법에서 관측된 자료를 토대로 추정된 통계량으로 결측값을 대치할 때 적절한 확률값을 부여한 후 대치
      • 핫-덱 대체 - 무응답을 비슷한 성향을 지닌 응답자의 자료로 대체 (표본조사에서 활용)
      • 콜드덱 대체 - 핫덱과 비슷하나 대체할 자료를 현재 진행 중인 연구에서 가져오지 않고 외부 출처 or 이전의 비슷한 연구에서 가져오는 방법
      • 혼합 방법 - 몇 가지 다른 방법 혼합 (회귀 대체를 하고 핫덱방법을 이용하여 잔차를 얻어 두 값을 더하는 경우)
  • 다중 대치법
    • 개념 - 단순 대치법을 한번만 하지 않고 m번 대츠를 통해 m개의 가상적 완전한 자료를 만들어서 분석
      • 대치 $\rightarrow$ 분석 $\rightarrow$ 결합
      • 대치 - 사후분포에서 추출된 값으로 대치, 베이지안 방법 사용
      • 분석 - $D$개의 대치표본으로부터 원하는 분석 각각 수행
      • 모수 $\theta$의 점 추정과 표준 오차의 추정치를 D개 구한 후 이들을 결합하여 하나의 결과 제시
    • 적용방식
      • 원 표본의 결측값을 한번 이상 대치하여 여러 개$(D>1)$의 대치된 표본을 구하는 방법
      • $D$개의 대치된 표본을 만들어야 하므로 항상 같은 값으로 결측 자료를 대치할 수 없음

 

3) 데이터 이상값 처리

(1) 데이터 이상값 개념

  • 관측된 데이터의 번위에서 많이 벗어난 아주 작은 값이나 아주 큰 값을 말함
    • 데이터 입력 오류 - 수집할 때 발생하는 에러

 

(2) 데이터 이상값 발생 원인

  • 측정 오류 - 측정하다가 발생하는 에러
  • 실험 오류 - 실험조건이 동일하지 않을 때
  • 고의적인 이상값 - 자기 보고식 측정에서 나타남, 정확하게 기입하였으나 이상할 수도 있음
  • 표본추출 에러 - 샘플링을 잘못했을 경우 발생

 

(3) 데이터 이상값 검출 방법

  • 개별 데이터 관찰 - 무작위 표본 추출 후 관찰
  • 통계값 - 통계량 활용
  • 시각화 - 시각화
  • 머신 러닝 기법 - 군집화 사용하여 검출
  • 마할라노비스 거리 - 데이터의 분포를 고려한 거리 측도, 관측치가 평균으로부터 벗어난 정도를 측정
  • LOF - 관측치 주변의 밀도와 근접한 관측치 주변 밀도의 상대적인 비교를 통해 이상값 탐색
  • iForest - Decision Tree를 이용하여 탐지
  • 처리 방법 예시
    • Extreme Studentized Deviation
    • 기하 평균
    • 사분위 수
    • Z-Score
    • 딕슨의 Q검정
    • 그럽스 T검정
    • 카이제곱 검정
    • 히스토그램
    • 시계열 차트
    • K평균

 

(4) 데이터 이상값 처리

  • 이상값을 반드시 제거할 필요는 없음, 분석의 목적에 따라 판단
    • 삭제 - trimming
    • 대체법 - 평균이나 중앙값으로 대체
    • 변환 - log transformation
    • 박스 플롯 해석을 통한 이상값 제거

boxtplot 출처 : https://m.blog.naver.com/PostView.nhn?blogId=running_p&logNo=90178707051&proxyReferer=https:%2F%2Fwww.google.com%2F

  •  
    • 분류하여 처리 - 통계적인 분석을 시행하여 처리 (이상값이 하나의 그룹을 형성)

 

2. 분석 변수 처리

1) 변수 선택

(1) 변수 개념

  • 데이터 모델에서 사용하는 예측을 수행하는 데 사용되는 입력변수
  • 알려진 값 - 변수, 속성, 예측변수, 차원, 관측치, 독립변수
  • 예측 값 - 라벨, 클래스, 목표값, 반응, 종속변수

 

(2) 변수 유형

  • 인과 관계
    • 독립변수, 종속변수
  • 변수 속성
    • 범주형
      • 명목형(스마트폰 브랜드, 현역 구분, 성별 구분)
      • 순서형(병원 수준, 화장실 상태, 순서에 의미가 있음)
    • 수치형
      • 이산형
      • 연속형

 

(3) 변수 선택

  • 개념 - 데이터의 독립변수 중 종속변수에 가장 관련성이 높은 변수만을 선정하는 방법
  • 특징
    • 사용자가 해석하기 쉽게 모델을 단순화해주고 훈련 시간 축소, 차원의 저주 방지, 과적합을 줄여준다
    • 모델의 정확도 향상 및 성능 향상을 기대할 수 있다.
  • 기법
    • 필터 기법 - 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 선택
      • 순서 
        1. 특징 변수의 전체 집합
        2. 가장 적합한 하위 집합 선택
        3. 알고리즘 학습
        4. 성능 평가
      • 특징
        • 계산 속도가 빠르다. 변수 간 상관관계를 알아내는 데 적합
      • 사례
        • 정보 소득
        • 카이제곱 검정
        • 피셔 스코어
        • 상관계수
    • 래퍼 기법 - 변수의 일부분을 모델에 사용하고 그 결과를 확인하는 작업을 반복하면서 변수 택함
      • 예측 정확도 측면에서 가장 좋은 성능을 보이는 하위 집합 선택
      • 그리디 알고리즘 성격
      • 시간이 오래걸리고 부분집합의 수가 기하급수적으로 늘어나 과적합의 위험이 존재
      • 변수 선택을 위한 알고리즘과 선택기준 결정
      • 유형
        • 전진 선택법 - 변수를 하나씩 추가
        • 후진 제거법 - 모두 포함된 상태에서 하나씩 제거
        • 단계적 방법 - 전진 선택/후진 제거 모두 사용
      • 상세
        • Recursive Feature Elimination - SVM을 사용하여 재귀적으로 제거, 전진 선택/후진 제거/단계적 방법사용
        • Sequential Feature Selection - 그리디 알고리즘으로 빈 부분 집합에서 특성 변수를 하나씩 추가하는 방법
        • 유전 알고리즘 - 자연 세계의진화과정에 기초한 계산 모델
        • 단변량 선택 - 하나의 변수선택법으로 각 피처를 개별적으로 결정
        • Minimm Redundancy Maximum Relevance - 특정 변수의 중복성을 최소화하는 방법
    • 임베디드 기법 - 모델 자체에 변수 선택이 포함
      • 라쏘
      • 릿지
      • 엘라스틱 넷
      • SelectFromModel

 

2) 차원축소

(1) 차원 축소 (Dimensionality Reduction) 개념

  • 분석 대상이 되는 여러 변수의 정보를 최대한 유지하면서 데이터 세트 변수의 개수를 줄이는 탐색적 분석기법임
  • 원래의 데이터를 최대한 효과적으로 축약하기 위해서 목표변수는 사용하지 않고 특성 변수만 사용하기 때문에 비지도 학습이다.

 

(2) 차원축소 특징

(3) 차원축소 기법

(4) 차원축소 기법 주요 활용 분야

3) 파생변수 생성

4) 변수 변환 (Variable Transformation)

(1) 단순 기능 변환

(2) 비닝(Binning)

(3) 변수 변환 사례

5) 불균형 데이터 처리

(1) 언더 샘플링(Under-Sampling)

(2) 오버 샘플링(Over-Sampling)

(3) 임곗값 이동(Threshold-Moving)

(4) 앙상블 기법(Ensemble Technique)

 

 

 

 

 

핵심

  1. 데이터 오류의 원인으로는 결측값, 노이즈, 이상값이 있다.
  2. 오류 원인 분석 -> 정제 대상 선정 -> 정제 방법 결정
  3. 파싱은 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업
  4. 데이터 일관성을 유지하기 위한 기법ㅇ로 변환, 파싱, 보강이다.
  5. ETL - Extract, transform, load 추출/변환/저장 하는 기술
  6. CEP - 실시간으로 발생하는 이벤트 처리에 대한 결과값을 수집하고 처리
  7. Map Reduce는 많은 데이터를 처리할 대 느리다.
  8. Strom은 실시간 처리에 특화
  9. 결측값은 시각화에서 안나옴
  10. 완전 무작위 결측 - 다른 변수들과 아예 상관 없음
  11. 무작위 결측 - 특정 변수와 관련되어 일어나지만 그 변수의 결과는 관계가 없음
  12. 비 무작위 결측 - 누락된 값이 다른 변수와 연관이 있음
  13. 결측값 처리 - 식별 -> 부호화 -> 대체
  14. ESD는 이상값을 측정하기 위한 기법이다.
  15. 다중 대치법은 대치 -> 분석 -> 결합
  16. ESD = 3sigma
  17. 비 조건부 평균 대체는 평균 대치법이다.
  18. 평균이 $\mu$ 이고 표준편차가 $\sigma$인 경우에는 $Z-score$ 로 이상값 검출을 한다.
  19. 그럽스 T-검정은 정규분포를 만족하는 단변량 자료에서 이상값을 검정하는 방법
  20. LOF는 관측치 주변의 밀도와 근접한 관측치 주변의 밀도의 상대적인 비교를 통해 이상값을 검출
  21. 파생변수 - 특정한 의미를 갖는 작위적 정의에 의한 변수로, 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
  22. 필터 기법 - 계산 속도가 빠르고 통계적 특성으로부터 변수를 선택 / 상관관계
  23. information gain, Fisher score는 필터기법
  24. 차원축소기법에는 PCA, SVD, Factor Analysis, ICA(독립성분분석), MDS
  25. ICA는 다변량의 신호를 통계적으로 독랍적인 하부 성분으로 분리하여 차원을 축소하는 기법
  26. Factor analysis - 해당 요인을 도출하고 데이터 안의 구조를 해석하는 기법 (latent variable) 가 존재한다고 가정
  27. MDS - 위상관계 순서관계 그룹관게 파악하는 다변량 시각화 기법
  28. SVD - $m X n$ 차원의 행렬데이터에서 특이값을 추출하고 이를 통해 주어진 데이터 세트를 효과적으로 축약
  29. 불균형 데이터 처리 방법 - 언더/오버 샘플링, 앙상블, 임곗값 이동
  30. 언더샘플링 방법 - ENN, 토멕 링크 방법, CNN, OSS
  31. 오버샘플링 방법 - SMOTE, Borderline-SMOTE, ADASYN
  32.  

 

 

 

 

 

 

 

 

 

 

 

 

반응형

+ Recent posts