분석 기법 적용 - 빅데이터 모델링 Chapter 2

2021. 4. 14. 16:02

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

1. 분석 기법

1) 회귀 분석

(1) 회귀 분석 개념

(2) 회귀 분석 유형

(3) 최적 회귀방적식의 선택

2) 로지스틱 회귀 분석

(1) 로지스틱 회귀 분석 개념

(2) 로지스틱 회귀 분석 코드 해석

3) 의사결정나무

(1) 의사결정나무(Decision Tree) 개념

(2) 의사결정나무의 구성요소

(3) 해석력과 예측력

(4) 의사결정나무의 분석

(5) 불순도의 여러 가지 측도 - 1

(6) 불순도의 여러 가지 측도 - 2

(7) 불순도의 여러 가지 측도 - 3

(8) 의사결정나무의 활용 및 장단점

4) 인공신경망

(1) 인공신경망의 개념

(2) 인공신경망의 역사

(3) 인공신경망의 구조

(4) 뉴런의 활성화 함수

5) 서포트 벡터 머신

(1) 서포트 벡터 머신의 개념

(2) 서포트 벡터 머신 특징

(3) 서포트 벡터 머신 종류

(4) 서포트 벡터 머신의 구성요소

(5) 서포트 벡터 머신 적용 기준

6) 연관성 분석

(1) 연관성 분석의 개념

(2) 연관성 분석 특징

(3) 연관성 분석의 주요 용어

7) 군집분석

(1) 군집 분석 개념

(2) 군집 분석 종류 - 계층적 군집

(3) 군집 분석 종류 - k-평균 군집

(4) 군집 분석 종류 - 혼합 분포 군집

(5) 군집 분석 종류 - SOM(Self-Organizing Maps)

2. 고급 분석 기법

1) 범주형 자료 분석

(1) 분할표(Contingency Table) 분석

(2) 교차 분석(카이제곱 검정)

(3) 피셔의 정확 검정(Fisher's Exact Exam)

2) 다변량 분석

(1) 상관 분석

(2) 다차원 척도법

(3) 주성분 분석

3) 시계열 분석

(1) 시계열 분석의 개념

(2) 시계열 분석의 특징

(3) 정상성

(4) 시계열 모형

4) 베이지안 기법

(1) 확률 및 기본 통계 이론

(2) 조건부 확률

(3) 전 확률의 정리

(4) 베이즈 정리

5) 딥러닝 분석

(1) 딥러닝

(2) 딥러닝 알고리즘

6) 비정형 데이터 분석

(1) 비정형 데이터 분석의 개념

(2) 비정형 데이터 분석기법

(3) 텍스트 마이닝

(4) 오피니언 마이닝

(5) 웹 마이닝

(6) 사회 연결망 분석

7) 앙상블 분석

(1) 앙상블(Ensemble) 개념

(2) 앙상블의 특징

(3) 앙상블 알고리즘

(4) 앙상블 학습 절차

(5) 앙상블 기법의 종류

8) 비모수 통계

(1) 비모수 통계의 개념

(2) 비모수 통계 특징

(3) 비모수 통계의 장단점

(4) 비모수 통계 검정 방법의 종류

(5) 비모수 통계 검정 방법

핵심

회귀모형 가정은 선형성, 독립성, 등분산성, 비상관성, 정상성이 있다.
F-통계량으로 다중 회귀 모형이 통계적으로 유의미한지 확인할 수 있다.
회귀식에 대한 검정은 독립변수의 기울기(회귀계수)가 0이라는 가정을 귀무가설, 기울기가 0이 아니라는 가정을 대립가설로 놓는다.
결정계수는 총 변동 중에서 회귀 모형에 의하여 설명되는 변동이 차지하는 비율이다.
R에서 lm은 단순 회귀 분석 모형, glm은 로지스틱 회귀 분석 모형
단계적(Stepwise) 방법은 전진선택법(Forward Selection)이나 후진선택법(Backward Elimination)과 동일한 최적의 모형을 가지지 않는다.
step(direction='') ['bardward', 'forward', 'stepwise'], 후진소거, 전진선택, 단계별
주성분 분석은 기존의 상관성이 높은 변수들을 요약, 축소하는 기법
주성분 분석은 서로 상관성이 높은 변수들의 선형 결합으로 만들어 기존의 상관성이 높은 변수들을 요약, 축소하는 기법, 분석을 통해 나타나는 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어려움
후진 제거법은 독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 떠 이상 제거할 변수가 없을 때의 모형을 선택하는 방법
오차를 제곱하여 더한 양의 최솟값을 나타내기 때문에 '최소 제곱'추정이라고 한다.
하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법(ex. Lasso 회귀 분석)
최소제곱법은 회귀계수를 추정할 때 회귀 제곱합이 최소가 되는 해를 구하는 방법이다.
전체 변수 집합에서 부분 변수 집합을 선택하여 각각의 집합에 대해 모형을 새성한 후 결합을 하는 방식의 앙상블 : 의사결정나무
시계열 에측에서 정상성을 만족하는 것은 분산이 시점에 의존하지 않는다는 것을 의미
회귀 분석의 가정 중 정상성이란 잔차항이 정규 분포를 따른다는 것을 의미
오차들의 분산이 일정해야 하는 것 = 등분산성
다중공선성은 회귀 분석에서 독립변수들 간에 강한 상관관계가 나타나는 문제를 의미
반응변수가 범주형일 때 = 로지스틱 회귀 모형
로지스틱 회귀 모형에서 설명 변수가 한 개인 경우 회귀계수의 부호가 0보다 작을 때는 역 S자 그래프가 그려진다.
$odds = p/(1-p)$
같은 표본 여러개를 단순 임의복원 추출하여 분류기 생성하고 결과를 앙상블 = 배깅
데이터들이 가진 속성들로부터 분할 기준 속성을 판별하고 분할 기준 속성에 따라 트리 형태로 모델링 하는 분류 예측 모델은 의사결정 나무
decision tree는 주어진 입력값에 대하여 출력값을 예측하는 모형으로 분류나무와 회귀나무 모형이 있다.
Internal node : 부모 마디와 자식 마디가모두 있는 마디
타당성 평가는 이익 도표(Gain Chart), 위험 도표(Risk Chart), 테스트 데이터를 이용하여 Cross Validation 등을 이용한 평가 수행 단계
D.T에서 더 이상 분리가 일어나지 않고 현재의 마디가 끝마디가 되도록 하는 규칙은 정지 규칙
분리 기준은 하나의 부모 마디로부터 자식 마디들이 형성될 때, 입력변수의 선택과 범주의 병합이 이루어질 기준을 의미
분산 분석에서 F-통계량은 연속형 목표변수에 사용되는 분리 기준이다.
gini index = $1 - \sum_{i=1}^{k} P_i^2$
종속변수가 범주일 때의 의사결정나무 분류 규칙을 선택하기 위해서 활용하는 것은 = 지니지수, 카이제곱 통계량, 엔트로피 지수
카이제곱 통계량은 각 셀에 대한 ((실제도수-기대도수)의 제곱/기대도수)의 합이다.
C4.5, C5.0은 목표변수가 반드시 범주형이여야하고 불순도의 측도로는 엔트로피 지수를 사용 (ID3가 초기버전임)
CHAID = 분리기준으로 카이제곱 통계량 사용
CART는 불순도의 측도를 목적변수가 범주형일 경우 지니 지수를 이용 연속변수일 경우 분산을 이용한 이진분리를 하는 알고리즘
인간의 뉴런 구조 모방 = 인공신경망
1세대 = 퍼셉트론, 순방향 신경방, XOR 선형 분리 불가 문제
2세대 = 다층 퍼셉트론, 역전파 알고리즘, XOR 선형 분리 문제 해결 (과적합, 기울기 소실 문제 등장)
3세대 = 딥러닝 활용
다층 신경망 모형에서 은닉층의 개수를 많이 설정해서 역전파과정에서 가중치 조정이 이루어지지 않아 = 기울기 소실
XOR연산은 퍼셉트론으로 구현 불가능 (다중 퍼셉트론으로 가능)
Vanishing Gradient : 시그모이드 함수가 원인이였음
softmax함수는 확률로 변환해 주며, 출력값의 총합은 1
시그모이드 함수는 로지스틱 회귀 분석과 유사하며 0~1의 사이의 값을 가진다.
ReLU뉴런이 죽는 Dying ReLU를 해결하기 위해 Leaky ReLU가 나옴
SVM은 최대 마진을 가지는 비확률적 선형 판별에 기초한 이진 분류기 이다.
초평면, 결정 경계, 슬랙 변수 = SVM을 구성하는 요소들
SVM R 패키지 = kernlab, klaR, e1071
SVM의 커널 함수의 선택에는 명확한 규칙이 없으며, 실제 어떤 커널 함수를 적용하더라도 정확도에는 큰 차이가 없다.
SVM은 과대적합 가능성이 낮다. 선형 분리가 불가능할 경우 저차원에서 고차원으로 매핑해서 사용 가능, 분류/예측 모두 사용 가능, 훈련시간이 상대적으로 느리지만 정확성이 뛰어남.
SVM에서 선형적으로 완벽한 분리가 불가능할 때 분류를 위해 허용된 오차를 위한 변수는 슬랙변수이다.
카탈로그 배열, 교차 판매 등의 마케팅을 계획할 때 = 연관 분석
조건-결과 식으로 표현되는 유용한 패턴을 발견해내는 방법 = 연관 규칙
적절한 세분화로 인한 품목 결정이 장점이지만 너무 세분화된 품목은 의미 없는 결과를 도출 (연관분석)
데이터 내부에 존재하는 항목간의 상호 고나계 혹은 종속 관계를 찾아내는 분석기법 = 연관성 분석
연관성 분석은 변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법
향상도 곡선은 분류도니 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 등급별로 파악하는 해당 모델의 성과가 얼마나 좋아졋는지를 평가하는 그래프이다.
지지도, 향상도, 신뢰도 (연관성 분석에 사용하는 지표)
향상도가 1보다 크면 결과 예측이 우수하다.
향상도는 두 품목의 상관관계를 기준으로 도출된 규칙의 예측력을 평가하는 지표
군집분석은 각 개체에 대해 관측된 여러 개의 변숫값에서 유사한 성격을 갖는 몇 개의 군집으로 집단화하여 군집들 사이의 관계를 분석하는 다변량 분석기법
계층 군집을 형성 하는 방법은 병합, 분할적 방법이 있다.
계층적 군집모형은 군집의 개수를 미리 정하지 않아도 된다. (비계층적 군집모형은 정해야 한다.)
와드 연결법은 오차 제곱합에 기초하여 군집을 수행
맨해튼 거리 = 차이의 절대값의 합
diana 계층적 군집형성 함수, 병합적 방법 = agnes, mclust
최단연결법 = 거리의 최솟값, 최장 = 거리의 최댓값, 중심연결법 = 두 군집의 중심 간의 거리 측정, 평균연결법 = 모든 항목에 대한 거리 평균
중심연결법은 군집 내 편차들의 제곱합을 고려하여 군집 간 정보의 손실을 최소화하는 방향으로 군집을 형성하는 방법
초기 군집 중심으로 k개의 객체를 임의로 선택 $\rightarrow$ 각 자료를 가장 가까운 군집 중심에 할당 $\rightarrow$ 군집의 중심을 갱신 $\rightarrow$ 2와 3단계 반복(군집 중심의 변화가 거의 없을 때까지)
관측되지 않은 잠재변수에 의존하는 확률모델에서 최대 가능도나 최대 사후확률을 갖는 모수의 추정값을 찾는 반복적인 알고리즘 = EM알고리즘
적합도 검정은 1개의 요인을 대상으로 표본 집단의 분포가 주어진 특정 이론응 ㄹ따르고 있는지를 검정하는 기법
다변량 분석으로는 피어슨 상관계수, 스피어만 상관계수, 다차원 척도법, 주성분 분석
상곤관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환시키는 방법 = PCA
여러 대상간의 거리가 주어져 있을 때, 대상들을 동일한 상대적 거리를 가진 실수 공간의 점들로 배치시키는 방법 = MDS
주어진 거리는 추상적인 대상들 간의 거리가 될수도 있고, 실수 공간에서의 거리가 될수도 있다. 주로 자료들의 상대적 관계를 이해하는 시각화 방법의 근간으로 주로 사용 = MDS
누적기여율은 제1 주성분에서 제 k주성분까지의 주성분을 이용하여 설명할 수 있는 데이터의 전체 정보량의 비율이다. 누적 기여율이 85% 이상이면 주성분의 수로 결정 가능
정상성은 분산이 일정한것이 아니라 평균이 일정하다
현시점의 자료가 p 시점 전의 유한개의 과거자료로 설며욀수 잇는 모형은 자기 회귀 모형이다.
이동평균모형은 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형
이동평균모형은 시계열 모델 중 자신의과거 값을 사용하여 설명하는 모형으로 백색잡음의 현재 값과 자기 자신의 과거 값의 선형 가중합으로 이루어진 정상 확률 모형이다.
MA모형은 시간이 지날수록 관측치의 평균값이 지속적으로 증가하거나 감소하는 시계열 모형
자기 회귀 누적 이동평균 모형은 비정상 시계열 모형이다. 차분이나 변환 필요
ARIMA(p,d,q) ARMA(p,q) 차분 = d = 2
시계열 구성하는 4가지 요소 = 추세(경향) 요인, 계절 요인, 순환 요인, 불규칙 요인
두개의 사건 A와 B에 대하여 사건 A가 일어난다는 선행조건하에 사건 B가 일어날 확률은 조건부 확률이다.
나중에 주어지는 사건 A의 확률을 구할 때 그 사건의 원인을 여러 가지로 나누어서, 각 원인에 대한 조건부 확률$P(A|B_i)$과 그 원인이 되는 확률 $P(B_i)$의 곱에 의한 가중합$\sum$으로 구할 수 있다는 법칙은 전확률의 법칙이다.
여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘의 집합은 딥러닝
CNN = 시각적 이미지
convolution 연산 : CNN 알고리즘에서 이미지로부터 필터를 이용하여 특징을 추출하는 연산
피처맵에서 서브샘플링 연산을 통해 화면의 크기를 줄인다.Max, Min, Average Pool 이 존재
비정형 데이터 분석 = 사회 연결망 분석, 웹 마이닝, 오피니언 마이닝
정보 단위인 노드와 연결점인 링크를 활용 : 웹 마이닝, 웹상의 문서들과 서비스들로부터 정보를 자동적으로 추출, 발견하는 기법
SNA의 주요 속성 = 응집력, 구조적 등위성, 명성, 범위, 중계
웹 마이닝 유형 = 웹 내용, 사용, 구조 마이닝
앙상블 유형 = 배깅, 부스팅, 랜포
부스팅 = 부트스트랩 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 주어 표본을 추출하는 기법
배깅 = 크기가 같은 표본을 여러 번 단순 임의 복원추출하여 각 표본에 대해 분류기를 생성한 후 그 결과를 앙상블
부트스트랩 = 단순랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러개 생성
배깅 기법의 주요 알고리즘은 메타 코스트
랜포에서 임의노드 최적화 기법은 분석ㅇ 사용되는 변수를 랜덤하게 추출하는 것으로써, 훈련단계에서 훈련목적함수를 최대로 만드는 노드 분할 함수의 매개변수 $\theta$의 최적값을 구하는 과정이다.
이산 비모수 검정 방법 중에서 차이의 부호만을 이용한 중위수(Median)의 위치에 대한 검정 방법은 부호 검정이다.
비모수적 검정은 빈도, 부호, 순위 등의 통계량을 이용
런검정은 관측된 표본이 어떤 패턴이나 경향이 없이 랜덤하게 구성되었다는 가설을 검정하는 방법
비모수적 기법은 순위와 부호에 기초한 방법 위주이므로 이상값의 영향이 작다
부호 검정에서 대칭성의 가정이 반드시 필요한 것은 아니다. 자료의 분포가 연속적이고 독립적인 분포에서 나온것이라는 가정이 필요
윌콕슨 부호 순위 검정은 대치엉의 가정이 반드시 필요하다.

'Certification > 빅데이터 분석기사' 카테고리의 다른 글

분석 결과 해석 및 활용 - 빅데이터 결과 해석 Chapter 2 (0)	2021.04.15
분석 모형 평가 및 개선 - 빅데이터 결과 해석 Chapter 1 (0)	2021.04.15
분석 모형 설계 - 빅데이터 모델링 Chapter 1 (0)	2021.04.14
통계기법 이해 - 빅데이터 탐색 Chapter 3 (0)	2021.04.13
데이터 탐색 - 빅데이터 탐색 Chapter 2 (0)	2021.04.13

noti note