<---google adsense---> <---/google adsense---> 데이터 탐색 - 빅데이터 탐색 Chapter 2 :: noti note
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 데이터 탐색 기초

1) 데이터 탐색 개요

(1) 데이터 탐색의 개념

 

 

 

(2) 탐색적 데이터 분석(Exploatory Data Analysis; EDA)의 4가지 주제(특징)

 

 

 

 

(3) 개별 변수 탐색 방법

 

 

(4) 다차원 데이터 탐색 방법

 

 

 

2) 상관관계 분석

(1) 상관관계 분석의 개념

 

 

(2) 변수 사이의 상관관계의 종류

 

 

 

(3) 상관관계의 표현 방법

 

 

(4) 상관관계 분석의 분류

 

 

 

3) 기초통계량 추출 및 이해

 

 

(1) 중심 경향성의 통계량

 

 

 

(2) 산포도의 통계량

 

 

(3) 데이터의 분포를 나타내는 통계량

 

 

 

4) 시각적 데이터 탐색

(1) 히스토그램

 

 

(2) 막대형 그래프

 

 

(3) 박스 플롯

 

 

(4) 산점도

 

 

 

2. 고급 데이터 탐색

1) 시공간 데이터 탐색

(1) 시공간 데이터

 

 

 

(2) 시공간 데이터 탐색 절차

 

 

2) 다변량 데이터 탐색

(1) 다변량 데이터

 

(2) 변량 데이터 탐색

 

 

(3) 다변량 데이터 탐색 도구

 

 

 

3) 비정형 데이터 탐색

(1) 비정형 데이터의 개념

 

 

 

(2) 비정형 데이터의 유형

 

 

(3) 비정형 데이터의 탐색 방법

 

 

 

(4) 비정형 데이터 탐색 플랫폼 구성 예시

 

 

 

 

 

 

 

 

 

 

 

 

 

 

핵심

  1. 변환 기법 - 로그, 제곱근, 역수 변환
  2. 저항성은 데이터의 부분적 변동에 민감하게 반응하지 않는다.
  3. EDA의 도구 - 도표, 그래프, 요약 통계
  4. eda의 4가지 주제 - 저항성, 잔차 해석, 현시성, 자료 재표현
  5. 다중상관분석은 3개 이상의 변수 간 관계 강도 측정
  6. 서열척도로 측정된 변수간의 상관계수 - 스피어만, 등간척도/비율척도 - 피어슨
  7. 수치 - 피어슨
  8. 순서 - 스피어만 순위상관
  9. 명목 - 카이제곱
  10. 스피어만 순위상관계수 - 단조 증가함수로 변환하여 다른 변수를 나타낼 수 있는 정도, 두 변수간의 비선형적인 관계도 나타낼수 있음
  11. 변동계수(CV) = 표준편차 / 평균
  12. 왼쪽 편포  skewness < 0
  13. 오른쪽 편포 skewness > 0 ;최빈값<메디안<평균
  14. 링크드인 - 카프카
  15.  HDFS - 마스터/슬레이브 구조, 분산형 파일 시스템
  16.  

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형

+ Recent posts