<---google adsense---> <---/google adsense---> 분석 모형 설계 - 빅데이터 모델링 Chapter 1 :: noti note
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 분석 절차 수립

1) 분석 모형 선정

 

 

(1) 통계기반 분석 모형 선정

 

 

 

(2) 데이터 마이닝 기반 분석 모형 선정

 

 

 

(3) 머신러닝 기반 분석 모형 선정

 

 

 

(4) 변수에 따른 분석기법 선정

 

 

 

 

(5) 분석기법 선정 고려사항

 

 

 

(6) 분석 모형 활용 사례

 

 

 

2) 분석 모형 정의

(1) 분석 모형 정의 개념

 

(2) 분석 모형 정의 고려사항

 

 

3) 분석 모형 구축 절차

 

 

(1) 요건 정의

 

 

 

(2) 모델링

 

 

(3) 검증 및 테스트

 

 

(4) 적용

 

 

 

 

2. 분석 환경 구축

1) 분석 도구 선정

 

(1) R

 

 

 

(2) Python

 

 

2) 데이터 분할

 

(1) 데이터 분할 개념

 

 

(2) 데이터 분할 시 고려사항

 

 

 

 

 

 

 

 

 

 

 

 

 

 

핵심

  1. 딥러닝 기법에 기반을 두고 있는 모형은 신경망 모델이다.
  2. 로지스틱 회귀 모형은 종속변수가 범주형인 경우에 적용되는 회귀 분석 모형이다.
  3. 군집 분석은 비지도 학습에 해당
  4. SOM은 비지도 학습 기법
  5. SOM은 단 하나의 forward-feed 를 사용한다. (속도가 매우 빠름)
  6. 분류 분석은 말 그대로 무언가를 분류할 때 사용(문서 분류, 온라인 수강생을 특성에 따른 분류)
  7. 어떤 미지의 함수 y = f(x)를 최적화하는 해를 찾기 위해, 진화를 모방한 탐색 알고리즘은 유전자 알고리즘이다. (생물학의 신경망 = 인공신경망, 시각적 이미지 = 합성곱 신견망, 여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화를 시도하는 알고리즘 = 딥러닝)
  8. 기술(Description)은 사람, 상품에 관한 이해를 증가시키기 위해 데이터가 가지고 있는 특징을 나타내고 설명에 대한 답을 제공
  9. 소매점에서 물건을 배열하거나 카탈로그 및 교차판매 등에 적용 = 연관 분석 = 장바구나 분석
  10. 연관규칙 학습은 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법(커피를 구매하는 사람이 탄산음료를 더 많이 구입하는가)
  11. 조건-결과 식으로 표현되는 유용한 패턴을 발견해내는 방법 = 연관성 분석 = 장바구니 분석 = 서열 분석
  12. 고객의 파산 여부 사용 모델 (로지스틱 회귀 분석, 의사결정나무, SVM)
  13. 범주형 변수 혹은 이산형 변수 등의 범주를 예측하는 것으로, 다수의 속성 혹은 변수를 가지는 객체들을 사전에 정해진 그룹이나 번주로 나누는 것은 분류이다.
  14. 하이퍼 파라미터는 사용자가 직접 설정해주는 값, 경험에 의해 정해지기도 하며 예측 알고리즘 모델링의 문제점을 위해 조절 가능
  15. 파라미터는 모델 내부에서 확인이 가능한 변수로 데이터를 통해서 산출이 가능한 값이다.
  16. 선형회귀나 로지스틱 회귀 분석에서의 결정계수는 파라미터이다.
  17. 분석모형을 정의할 때 부적합 모형 현상은 모형 선택오류, 변수 누락, 부적합 변수 생성, 동시 편향이다. (모델 복잡도를 고려하여 적합한 모델을 선택)
  18. 요건 정의 $\rightarrow$ 모델링 $\rightarrow$ 검증 및 테스트 $\rightarrow$ 적용 (분석모형의 구축절차)
  19. 모델링 마트 설계 및 구축 $\rightarrw$ 탐색적 분석과 유의 변수 도출 $\rightarrow$ 모델링 $\rightarrow$ 모델링 성능평가 (모델링 절차)
  20. 분석 모형이 적합한지에 대한 판단기준 수립은 모델링 성능평가 단계에서 수립
  21. 비즈니스 및 데이터 특성 등 경우에 따라서 시뮬레이션고 최적화를 결합해 적용할 수 있다.
  22. 성능 테스트 결과는 일단위로 공유해 모형의 적합성을 판단해야 한다.
  23. 분석 모델을 수동으로 하면 과업이 많아지므로 자동으로 모니터링하고 이상시에만 확인하는 프로세스를 수립한다.
  24. R은 windows, mac os, linux 다양한 os지원한다.
  25. 평가용 데이터는 학습 단계에서 사용되지 않는다.
반응형

+ Recent posts