<---google adsense---> <---/google adsense---> 분석 모형 평가 및 개선 - 빅데이터 결과 해석 Chapter 1 :: noti note
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 분석 모형 평가

1) 평가지표

(1) 회귀 모형의 평가지표

 

 

 

(2) 분류 모형의 평가지표

 

 

 

 

 

2) 분석 모형 진단

(1) 데이터 분석 모형의 오류

 

 

 

(2) 데이터 분석 모형 검증

 

 

(3) 분석 모형 시각화

 

 

 

 

(4) 분석 모형 진단

 

 

 

3) 교차 검증

(1) 교차 검증(Cross Validation) 개념

 

 

(2) 교차 검증의 종류

 

 

 

4) 모수 유의성 검정

(1) 모집단과 모수 단계

 

 

(2) 모집단의 평균에 대한 유의성 검정

 

 

(3) 모집단의 분산에 대한 유의성 검정

 

 

5) 적합도 검정

(1) 적합도 검정 개념

 

 

(2) 적합도 검정 기법 유형

 

 

2. 분석 모형 개선

1) 과대 적합 방지

(1) 과대 적합의 개념

 

 

 

(2) 과대 적합 방지하기

 

 

 

2) 매개변수 최적화

(1) 매개변수의 개념

 

 

(2) 매개변수 최적화의 개념

 

 

(3) 매개변수 종류

 

 

(4) 매개변수 최적화 과정

 

 

3) 분석 모형 융합

(1) 취합(Aggregation) 방법론

 

 

(2) 부스팅 방법론

 

 

4) 최종 모형 선정

(1) 최종 모형 평가 기준 선정

 

 

(2) 최종 모형 분석 결과 검토

 

 

(3) 알고리즘별 결과 비교

 

 

 

 

 

 

 

핵심

  1. SSE : 회귀 모형의 평가에 많이 사용되는 평가지표이며 오차 제곱합으로 계산되어짐
  2. SSR : 회귀 모형의 평가지표 중 회귀 제곱합계
  3. SST : 전체 제곱합
  4. AE : 평균 오차
  5. 일반화의 가능성은 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준
  6. precision(정밀도) = $TP\over{TP+FP}$
  7. specificity(특이도) = $TN\over{TN+FP}$
  8. auc의 값은 항상 0.5~1의 값을 가지며 1에 가까울수록 좋은 모형이다
  9. 민감도=재현율=$TP\over{TP+FN}$
  10. MAPE = $100\over{n}$ $\sum_{i=1}^n$ $\left\vert y_i-\hat{y}\over{y_i} \right\vert$
  11. 학습오류 = 주어진 데이터 집합에 부차적인 특성과 잡음이 있다는 점을 고려하여 그것의 특성을 덜 반영하도록 분석 모형을 만들어 생기는 오류
  12. LOOCV = 전체 데이터에서 1개 샘플만을 Test에 사용하고 나머지 (N-1)개는  Training에 사용하는 교차 검증 방법
  13. K-Fold에서 K값이 증가하면 수행시간과 계산량이 증가한다.
  14. 홀드아웃은 데이터 마이닝을 위해 데이터를 분할하는 방법으로 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 학습용과 시험용으로 분리하여 사용한다.
  15. Holudout Cross Validation은 전체 데이터에서 Test데이터만큼 학습에 사용할 수 없어서 데이터 손실이 발생하는 교차 검증 기법이다.
  16. LpOCV = 10개의 샘플 데이터를 p=2일경우 교차 검증은 몇번인가? ${}_{10}C_2 = 45$
  17. 정규성 확인하기 위한 방법 = 샤피로-윌크 검정, K-S Test, 콜모고로프-스미르노프 적합성 검정 / 히스토그램, qq플랏
  18. 더빈-왓슨테스트 = 회귀모형 오차항이 자기상관이 있는지에 대한 검정
  19. 관측된 데이터가 가정된 확률을 따르는지 확인하기 위하여 사용하는 적합도 검정 방법은 카이제곱 검정이다.
  20. shapiro.test() = 샤피로-윌크 검정
  21. ks.test() = K-S Test
  22. 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검정하기 위해 사용되는 검정은 카이제곱검정
  23. 두 모집단 분산간의 비율에 대한 검정 = F-검정
  24. 인공신경망의 복잡도는 은닉층의 수나 모델의 수용력 등으로 결정
  25. 페이스팅 = 학습 데이터를 중복하여 사용하지 않고 학습 데이터 세트를 나누는 기법(비복원 추출)
  26. 랜덤 서브스페이스 = 학습 데이터를 모두 사용하고 특성은 샘플링하는 방식
  27. 랜덤 패치 = 학습 데이터와 독립변수 차원 모두 일부만 랜던하게 사용
  28. 중복을 허용하여 학습 데이터 세트를 나누는 기법 = 배깅(복원추출)
  29. 최종모형 선정의 절차 : 평가기준선정 $\rightarrow$ 분석 결과 검토 $\rightarrow$ 알고리즘별 결과 비교

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형

+ Recent posts