<---google adsense---> <---/google adsense---> noti note :: noti note
반응형

주최

데이콘, 크라우드웍스, 피씨엔

대회 개요

  • 국내 인공지능 기반 Large-Scale 이미지 분류 알고리즘 개발 저변 확대 모색
  • 고성능 딥러닝 알고리즘의 확보를 통한 개발기간의 단축과 개발비용 감소
  • 불균형 데이터셋을 해결하기 위한 집단지성 활용

개발 목표

대용량 이미지에서 랜드마크 이미지를 분류하는 인공지능 알고리즘 개발

분야

컴퓨터 비전 | 이미지 분류 | GAP

링크

dacon.io/competitions/official/235585/overview/prize#prize-info

 

랜드마크 분류 AI 경진대회

출처 : DACON - Data Science Competition

dacon.io

 

후기

이 대회는 정말 무지막지한 리소스가 필요했던 것으로 기억이 난다. 당시에 2080ti라는 좋은 리소스를 가지고 있었음에도 불구하고 2~3일을 학습해야만 어느정도 결과를 볼 수 있었었다.(물론 대회하면서 회사 업무를 병행하는 것이 쉽지도 않았다.)

 

랜드마크 분류대회는 Computer Vision분야에 몸을 담고 있거나, Kaggle을 좀 해보신 분이라면 다들 알고 계실거라 생각한다. Kaggle에서 매년 진행하는 대회이기 때문이기도 하고 크고 많은 이미지를 학습해야 할 때 참고할만한 code와 discussion이 많기 때문이다.

 

이 대회를 참가했던 이유는 간단하다.

1. 2080ti 구매

2. 늘 kaggle landmark clf 대회 참가하고 싶었다.

3. 데이콘대회에 캐글 수상자 솔루션을 적용 시킨다면 어떨까? 라는 생각이 들었다.

 

위 2가지 이유 때문인데 사실 2번이 1번에 종속되어 있다. 로컬gpu가 없었기 때문에 2번을 하지 못했었다. 물론 코랩을 사용해서 할 수도 있긴 하겠지만, 코랩 프로를 써본 사람으로써 중간에 자꾸 끊기는 것도 짜증이 났었고 24시간 제한 시간도 불편했었다.(그럼에도 불구하고 코랩을 이용해서 딥러닝 하시는 분들은 리스펙합니다)

 

이 대회를 처음으로 pytorch-lighting을 사용해봤는데, multi-gpu를 사용하시는 분들에게 유용할 것 같다는 생각이 들었는데 gpu할당이 쉬웠기 때문이다. 나중에 2개 이상의 gpu를 사용하시는 분들이라면 pytorch-lighting을 추천한다.

 

참고로 데이콘의 랜드마크 대회와 캐글의 랜드마크 대회는 성격이 꽤 다르므로 참고하길 바란다.(캐글의 경우 라벨이 없는 데이터도 있었기 때문에, 이를 극복하려는 trial and error가 많이 있었던 것으로 안다. 나의 경우에는 이러한 부분을 제거하고 모델 아키텍처, 학습/검정 방법, 앙상블 기법 등을 많이 사용했다.

 

솔루션

늘 그렇듯이 베이스라인 모델을 먼저 구축하고 다양한 실험을 하는 것으로 목표를 세웠다.

 

단, 이번에는 캐글 솔루션을 이해해야 했기 때문에 이 부분에서 상당한 시간이 소요되었다. 대회를 참가했었도 아니여서 대회 자체에 대한 이해도도 낮았었고 이는 늘 "why?"라는 의문부호가 따라다녔다.

 

 

데이터가 매우 많았고 large image 특성 상 256x256으로 resize을 한 뒤 학습을 하여도 gradient exploding현상이 발생하였다. 이 현상에 대한 원인을 정확히 진단을 하진 못하였지만 조사해본 결과 high lr, large scale image 등이 있었다. 최대한 방지하기 위해서 batch size와 start lr을 컨트롤 했었다.

 

 

 

 

'CV Strategy'

Multi-Stratified KFold를 이용하여 각 랜드마크 클래스당 추출하여 진행했다. 

아쉬운 점은 5fold를 하지 못한점이다.(학습이 느렸기 때문에)

 

 

'Model'

Efficientnet b1~b3를 사용하였다. (앙상블)

 

 

'Model Architecture'

차후에 마저 작성

 

 

'Augmentation'

이 대회의 핵심은 이미지 사이즈였다. 후에 상위권에 들은 팀에게 들은 이야기인데 이미지 사이즈를 크게 해서 학습을 한 후 낮은 lr로 깊은 학습을 진행했다고 했다. 점수차이가 오밀조밀했기 때문에 이러한 테크닉이 유효했던 것 같다.

 

 

'Learning Technique'

차후에 마저 작성

 

 

'Ensemble'

simple average ensemble을 하였다.(b1~b3)

 

최종 결과

8/436

결과는 생각보다 아쉬웠지만 그래도 만족한다.

내가 가진 리소스를 최대한 활용했다고 생각하기 때문에...

 

 

참고

solution github

github.com/hyeonho1028/landmark-classification

 

hyeonho1028/landmark-classification

랜드마크 분류 AI경진대회에서 캐글 1~3등 솔루션을 적용했습니다. Contribute to hyeonho1028/landmark-classification development by creating an account on GitHub.

github.com

kaggle solution

https://www.kaggle.com/c/landmark-recognition-2020/discussion/187821
https://www.kaggle.com/c/landmark-recognition-2020/discussion/190983

 

Google Landmark Recognition 2020

Label famous (and not-so-famous) landmarks in images

www.kaggle.com

 

Google Landmark Recognition 2020

Label famous (and not-so-famous) landmarks in images

www.kaggle.com

 

반응형
반응형

주최

서울대학교 병원

아워랩(수면의학 분야 의료기기 연구개발 기업)

대회 개요

수면 데이터는 인생의 1/3을 차지하는 주요 라이프 로그 데이터
수면다원검사 결과 이미지를 이용한 수면 단계 분류 모델링에 도전하라

수면 다원 검사란

수면다원검사는 대상자가 수면을 취하며 뇌파, 심전도, 호흡 등의 생체 신호를 측정하는 검사입니다.
수면 기사 또는 수면전문의는 측정된 여러 신호들을 종합적으로 분석해 수면 단계 분류, 이상 호흡 검출, 움직임 및 각성 검출 등을 판독합니다. 이는 수면무호흡증, 기면병, 렘수면 장애 등 수면과 관련된 여러 질환을 진단하는 기반이 됩니다.

문제 정의

수면다원검사 이미지 데이터를 기반으로 각 이미지의 수면 단계(Wake, N1, N2, N3, REM) 분류

포스터

대회 포스터

후기

대회가 끝난 지 약 한 달이 지난 시점에서 후기를 적으려고 하니 벌써 기억이 가물가물한 부분이 있다. 최대한 정리해서 적어보았으니, 후에 비슷한 대회를 하는 분들에게 도움이 되길 바란다.

 

이 대회의 가장 큰 특징은 '폐쇄망에서 딥러닝 모델을 개발'하는 것이었다.

이런 환경에서 개발하는 것은 팀원뿐만 아니라 본인도 태어나서 처음 경험하는 진귀한 경험이었다고 생각한다.

 

주최 측에서 이런 환경을 제공한 이유는 간단하다. 민감정보인 '의료 데이터' 였기 때문에 데이터를 실제로 보거나 다운로드하는 행위를 방지하기 위해서였다.

 

여차저차 이러한 환경에서 개발하면서 발생한 문제점들을 적어보았다.

1. env 셋팅 에러

2. 모델 사전 다운로드 (pretrained models)

3. 데이터를 보지 못함

 

먼저 1번의 경우

우리 팀은 miniconda를 이용하여 환경셋팅을 했고, sleep이라는 새로운 env를 만듦으로써 그 안에 라이브러리를 올려놓았었다. 그러나, gpu가 잡혀있지 않은 불상사가 발생하였다. 아래에 간단히 정리해 보았다.

 

base 환경 gpu 잡혀있음
(주최측에서 기본 환경에는 잡아준 듯 하다)
라이브러리 설치
sleep 환경 gpu 안잡혀있음
cudnn 미설치? 원인은 미상이다.
yaml file을 이용하여 설치했었는데...
라이브러리 미설치

 

이해가 정확히 될지는 모르겠지만 이러한 이유로 base환경에서는 opencv 등의 라이브러리가 없고, sleep환경에서는 gpu가 잡히지 않는 현상이 있었다. 이때 굉장히 고생했던 게 sleep에 올리면서 저장된 temp(conda libarary install file)를 찾아서 일일이 library를 install 하는 노가다 작업을 했다. 이 글을 읽는 독자님들께서는 폐쇄망에서 작업할 때 특히 모든 것을 검토하길 바란다.

 

2번의 경우

우리 팀의 경우 timm에 존재하는 다수의 models weight를 다운로드를 해놓았었다. 그러나, 대회를 진행하던 와중 디스크 용량 문제로 모델을 지워달라는 연락을 받았고 눈물을 머금고? 사용하지 않을 것 같은 모델들을 상당수 삭제했다. 결국 원래의 계획이었던 se-resnet 모델을 앙상블로 사용하려 했던 것을 철회하고 다른 모델을 적용할 수밖에 없었다. (최종 솔루션은 efficientnet b0 ~ b4 앙상블)

 

3번의 경우

분석 직군을 몸담고 계시는 분들이라면 다들 느끼실 감정이라고 생각한다. 데이터를 보지 않고 분석하는 말 그대로 사막에서 눈감고 진주알을 찾아야 하는 격이다. (이 보다는 쉬울 것 같다.) 이거에 대한 팁은 다수의 경험이 필요하다고 생각한다. 논문이나 캐글 등 다양한 사례를 서치하고 준비하는 게 최선 아닐까...

 

솔루션

우리의 전략은 간단했다.

'학습효율을 극대화해서 짧은 대회 기간 동안 다양한 실험을 하자'

이 점이 다른 팀과의 차이점이 아니었을까 생각한다. (다른 팀의 솔루션을 듣지 못했으므로 본인의 뇌피셜인 것을 고려해 주었으면 좋겠다.) 

 

1. 3채널 이미지 -> 1채널 이미지 (score 하락에 비해서 학습시간이 1/3정도로 감소)

2. AMP(Automatic Mixed Precision) 적용 (학습시간이 정확히 얼마나 줄었는지는 기억이 가물가물한데 확실히 줄었던 것으로 기억한다. 마찬가지로 score는 소폭 하락)

3. Dataloader를 10개로 만들어서 각 에폭마다 다른 loader를 학습하게 만들었다. (비슷한 데이터였기 때문에 효과를 볼 수 있었던 방법이지 않았을까 생각한다; 최종 13~15 epochs 까지만 학습, 학습시간을 매우 매우 단축시켜 준 방법)

 

지금 돌아보면 3번의 경우에는 문제가 있었던 방법이다. 경험적으로 1번 데이터셋을 학습한 후 2번 데이터셋을 학습하면 1번 데이터셋에 대한 건 모델이 잊어버리는(정확히는 weight가 소실되는) 경향이 있기 때문이다. 여기서 가능했던 이유는 모든 데이터셋이 비슷한 그림과 사이즈였기 때문이 아닐까 생각한다.

 

 

이 3가지로 12시간? 정도면 모델 하나를 실험하기엔 충분했다.

 

 

'CV Strategy'

이 또한 분석을 하는 사람이라면 중요한 것을 알 것이다. 우리 팀은 user_id와 label을 이용하여 Multi-Stratified KFold를 진행하였다. 직관적으로 score가 상승하였는지는 모르겠지만(label만을 이용한 Stratified KFold와 비교하였을 때) 일반화를 위해서는 이 방법이 더 타당하다고 생각했다. (사람마다의 수면 패턴이 상이하다는 논문을 본 적이 있어서 사람도 라벨의 한 부분으로 파악하였다.)

 

 

'Model'

Efficientnet b0~b4을 사용하였다. (앙상블)

VIT(Vision Transform)도 사용했었는데 결과는 평범했다. epoch을 늘리면 괜찮을 까 싶어서 늘렸더니 overfit이 발생하였다.

디스크 용량상 다른 모델은 삭제하였기 때문에 실험을 많이 하지는 못했다.

 

'Model Architecture'

Kaggle Competition인 'Mechanisms of Action(MoA) Prediction'에서 차용한 아이디어(요즘 트랜드이기도 하다)로써 Meta data와 CNN 이후의 feature extraction된 feature를 concatenate를 진행 후 dense layer를 구축했다.

Meta data의 경우 수면 시간, 수면에 들기 시작한 시간 등의 feature를 user_id마다 만들어준 후 사용하였다.

이를 적용한 뒤 overfit을 상당히 방지할 수 있게 되었다.

 

'Augmentation'

Masking을 사용했다. (신호의 중간중간을 가려줌으로써 overfit을 방지하였다.)

blur, gaussian noise를 사용 (마찬가지로 신호에 noise를 부여함으로써 overfit을 방지하였다.)

 

'Learning Technique'

Image size는 변환하지 않고 그대로 사용했다.

warmup scheduler를 사용하였고 cosine annealing을 기반으로 사용했다.

CE(categorical cross entropy) Label smoothing을 적용했다.

 

 

 

최종 결과

1등

정말 오랜만에 달성한 1등이라서 더 기뻤고 상금도 기뻤다.

 

고생한 팀원들에게 박수를 👏👏

 

 

 

참고

대회 링크

maic.or.kr/competitions/3/infomation

 

MAIC

MAIC Copyright 2020. MAIC All Rights Reserved.

maic.or.kr

 

주최 github

github.com/AI-Challange/Sleep

 

AI-Challange/Sleep

Contribute to AI-Challange/Sleep development by creating an account on GitHub.

github.com

 

solution github

github.com/hyeonho1028/Sleep_AI_Challenge_SNU_2021

 

hyeonho1028/Sleep_AI_Challenge_SNU_2021

Code for 1st place solution in Sleep AI Challenge SNU Hospital - hyeonho1028/Sleep_AI_Challenge_SNU_2021

github.com

관련기사

www.medigatenews.com/news/3074356460

 

반응형

'Competition > 기타 대회' 카테고리의 다른 글

랜드마크 분류 AI 경진대회 참여 후기  (0) 2021.04.21
반응형

여러모로 탈도 많은 시험이였던 것 같습니다.

 

원래 작년 12월에 볼 예정이였던 시험이 코로나로 인해 취소되고 올해 보게 되었는데요.

 

난이도는 10점 만점에 6점 정도 된것 같습니다. (저는 전공자+Adsp합격자 입니다) 솔직히 문제 퀄리티가 너무 낮아서 어떻게 평가해야할지도 모르겠네요. 

 

공부한 기간은 총 5일정도이고 교재는 수제비를 사용했습니다.

 

아무래도 분석기법이나 용어에는 익숙해서 편하게 공부한 것 같습니다.

 

 

합격결과 추가

무난하게 합격했습니다. (1과목이 무서웠네요)

 

실기 결과

역시나 무난했습니다. 작업형 제 2유형에서 0점 처리 받은 분들이 많아 항의? 한다는 분들이 많은거 같은데... 완만하게 잘 해결되었으면 좋겠습니다.

리뷰 : https://cafe.naver.com/sqlpd/21412

 

 

국가 기술 빅데이터 분석기사

국가기술 자격

  • 관련 근거

국가기술자격법 및 동법 시행령

 

  • 빅데이터분석기사 정의

빅데이터 이해를 기반으로 빅데이터 분석 기획, 빅데이터 수집·저장·처리, 빅데이터 분석 및 시각화를 수행하는 실무자를 말한다.

 

  • 빅데이터분석기사의 필요성

전 세계적으로 빅데이터가 미래성장동력으로 인식돼, 각국 정부에서는 관련 기업투자를 끌어내는 등 국가·기업의 주요 전략분야로 부상하고 있다.

국가와 기업의 경쟁력 확보를 위해 빅데이터 분석 전문가의 수요는 증가하고 있으나, 수요 대비 공급 부족으로 인력 확보에 어려움이 높은 실정이다.

이에 정부차원에서 빅데이터 분석 전문가 양성과 함께 체계적으로 역량을 검증할 수 있는 국가기술자격 수요가 높은 편이다.

 

  • 빅데이터분석기사의 직무

대용량의 데이터 집합으로부터 유용한 정보를 찾고 결과를 예측하기 위해 목적에 따라 분석기술과 방법론을 기반으로 정형/비정형 대용량 데이터를 구축, 탐색, 분석하고 시각화를 수행하는 업무를 수행한다.

 

 

필기시험

1. 빅데이터 분석 기획

  • 빅데이터의 이해
    • 빅데이터 개요 및 활용
      • 빅데이터의 특징
      • 빅데이터의 가치
      • 데이터 산업의 이해
      • 빅데이터 조직 및 인력
    • 빅데이터 기술 및 제도
      • 빅데이터 플랫폼
      • 빅데이터와 인공지능
      • 개인정보 법/제도
      • 개인정보 활용
  • 데이터분석 계획
    • 분석방안수립
      • 분석 로드맵 설정
      • 분석 문제 정의
      • 데이터 분석 방안
    • 분석 작업 계획
      • 데이터 확보 계획
      • 분석 절차 및 작업 계획
  • 데이터 수집 및 저장 계획
    • 데이터 수집 및 전환
      • 데이터 수집
      • 데이터 유형 및 속성 파악
      • 데이터 변환
      • 데이터 비식별화
      • 데이터 품질 검증
    • 데이터 적재 및 저장
      • 데이터 적재
      • 데이터 저장

 

2. 빅데이터 탐색

  • 데이터 전처리
    • 데이터 정제
      • 데이터 정제
      • 데이터 결측값 처리
      • 데이터 이상값 처리
    • 분석 변수 처리
      • 변수 선택
      • 차원 축소
      • 파생변수 생성
      • 변수 변환
      • 불균형 데이터 처리
  • 데이터 탐색
    • 데이터 탐색 기초
      • 데이터 탐색 개요
      • 상관관계 분석
      • 기초통계량 추출 및 이해
      • 시각적 데이터 탐색
    • 고급 데이터 탐색
      • 시공간 데이터 탐색
      • 다변량 데이터 탐색
      • 비정형 데이터 탐색
  • 통계기법 이해
    • 기술통계
      • 데이터오약
      • 표본추출
      • 확률분포
      • 표본분포
    • 추론통계
      • 점추정
      • 구간추정
      • 가설검정

 

3. 빅데이터 모델링

  • 분석모형 설계
    • 분석 절차 수립
      • 분석모형 선정
      • 분석모형 정의
      • 분석모형 구축 절차
    • 분석 환경 구축
      • 분석 도구 선정
      • 데이터 분할
  • 분석기법 적용
    • 분석기법
      • 회귀분석
      • 로지스틱 회구분석
      • 의사결정나무
      • 인공신경망
      • 서포트벡터머신
      • 연관성분석
      • 군집분석
    • 고급 분석기법
      • 범주형 자료 분석
      • 다변량 분석
      • 시계열 분석
      • 베이지안 기법
      • 딥러닝 분석
      • 비정형 데이터 분석
      • 앙상블 분석
      • 비모수 통계

 

4. 빅데이터 결과 해석

  • 분석모형 평가 및 개선
    • 분석모형 평가
      • 평가 지표
      • 분석모형 진단
      • 교차 검증
      • 모수 유의성 검정
      • 적합도 검정
    • 분석모형 개선
      • 과대적합 방지
      • 매개변수 최적화
      • 분석모형 융합
      • 최종모형 선정
  • 분석결과 해석 및 활용
    • 분석 결과 해석
      • 분석모형 해석
      • 비즈니스 기여도 평가
    • 분석결과 시각화
      • 시공간 시각화
      • 관계 시각화
      • 비교 시각화
      • 인포그래픽
    • 분석결과 허용
      • 분석모형 전개
      • 분석결과 활용 시나리오 개발
      • 분석모형 모니터링
      • 분석모형 리모델링

 

 

 

 

실기시험

차후에 업데이트 예정

 

 

 

합격 기준

필기시험 합격 기준은 과목당 100점 만점으로

1. 전 과목 40점 이상

2. 전 과목 평균 60점 이상 

달성 입니다.

 

 

실기시험은 100점을 만점으로 60점 이상 받으면 됩니다.

 

 

후기

공부는 수제비 책으로 진행하였습니다.

 

수제비가 생각보다 적중률이 낮은 것 같다고 느꼈는데, 다른 책도 비슷하지 않을까 생각합니다. (그래도 적당히 비슷하게 나오긴 했습니다. ㅎㅎ)

 

위에서 난이도 6점으로 말씀드렸던 이유는 각 과목당 8/20 (8문제) 정도는 맞출 수 있는 난이도이지 였던 것 같습니다. 합격하려면 물론 60점을 넘겨야 하지만, 공부를 열심히 하신 분들이라면 충분히 맞출 수 있었다고 생각합니다.

 

첫 회차여서 그런지 이슈가 꽤 있더군요

 

1. 장소 안내 부족

2. 문제 오류 및 안내 부족

3. Adsp?가 떠오르는 문제 유형

 

 

 

1. 저는 잠원중학교에서 시험을 봐서 장소에 대한 이슈는 없었는데, 우송대학교에서 보신분들은 이슈가 꽤 있으시더라고요. (서캠퍼스/동캠퍼스 이슈, 수험표와 다른 캠퍼스 장소). 시험을 못 볼수도 있는 이슈인데 장소고지를 더 구체적으로 할 필요가 있다고 생각합니다.

 

2. 이건 시험 보신분들이면 다들 공감하실거 같은데 정~말정말 문제가 많았습니다. 상대적으로 갓-큐넷이 떠오르더라고요. 문제 퀄리티가.. 오탈자는 기본이고, 4지 선다 보기가 1. (가) 2. (나) 3. (다) 4. (가) (나) (다) 가 뭔지요..

수능문제가 이렇게 나왔다면 9시 뉴스 헤드라인 감인데 말이죠

 

가장 큰 문제는 시험지 앞에 있는 복수정답 안내이슈입니다. 대부분의 수험생이 못 본 것으로 알고 있는데, 이런 중요한 안내사항은 당연히 안내가 따로 필요하다고 생각합니다. (아나운서가 이런거나 알려주지..., 기본적으로 시험지에 적혀 있는 안내사항은 다 읽어주는 걸로 알고 있는데 말이죠 허허허허허허허)

 

ex) 박스플롯에서 볼 수 없는 것은? (평균, 분산, 최대값, 이상치) 이런 문제에서 답은 1번과 2번을 골라야 하는 어처구니 없는 상황을 겪었습니다. (아 물론 plot setting 을 통해서 평균을 볼 수 도 있겠죠. 그렇다고 한다면, 다른 문제에서도 다 반례를 찾을 수 있으니 basic plot 으로 생각해서 문제가 있다고 생각합니다. 암튼, 코로나로 인해서 약 4개월 정도 밀린 시험이라고 하기에는 완성도가 매우 떨어졌습니다.)

 

 

3. 데이터 전문가, AI전문가를 육성하기 위한 목적의 시험으로 알고 있습니다. 근데 저는 사조사(사회조사분석사) 자격증이 떠오르는 걸까요? 문제자체에서 전문가 냄새가 하나도 안났습니다. 단순히 통계학 기반의 문제들이 많았고 난이도 있는 문제들은 문제 수준이 높은 게 아니라 말장난 때문에 난이도가 있다고 느껴졌습니다. 

ex) 신경망에서 dropout은 특정 신경을 끊어버리는 것이다. - 노드를 비활성화한다는 표현이 좀 더 범용적이고 일반적인 표현이 아닐까 생각해 봅니다. 

 

이러한 이슈를 극복하기 위해서는 필기시험지는 공개할 필요가 있다고 봅니다.

이슈 안만들려고 공개 안하는게 아닌가 생각도 들고... 

 

저는 기도메타로 60점 넘기를 기원해 보겠습니다.

 

 

다음 회차에 시험이 어떻게 나올지는 모르겠는데 도움이 되길 바라며 제가 기억나는 문제 키워드들을 적어 놓았으니 다음 회차에 보시는 분들은 참고하시길 바랍니다.

 

 

 

  1과목
빅데이터 분석기회
2과목
빅데이터 탐색
3과목
빅데이터 모델링
4과목
빅데이터 결과해석
1 ETL Boxplot 후진 소거법 bias, variance
2 Deep Learning 개념 변수 선택 인공신경망 개념 인공신경망
하이퍼 파라미터
3 분석 프로세스 5단계 학습데이터 imblanced CNN 계산 scatter plot
4 지도학습 파생변수 잔차진단 bar chart
5 비식별화 처리기준 불량률 계산 (조건부 확률)  SVM 불균형 데이터셋
6 비식별화 특징(개념)? 정규확률 계산 MDS(다차원 척도법) roc curve
7 데이터 형태를 파악? 검정하는 것 MLE $\theta$ 계산 라쏘, L1 규제 내용으로 나옴 혼동행률
8 최적화 그래프 분석 모델링 절차 파라미터, 하이퍼파라미터 차이
9 개인정보보호법 상관계수 로지스틱 K means 군집
10 정형데이터 품질 보증 병렬 차트 FP, TP계산 F1 스코어
11 EDA의 의미 Z-score 계산(p-value 이용) 부스팅(GBM) 모델선택
12 모델링 개념 점추정 베이지안 확률계산 적합도 검정
13 진단 분석 1종오류 2종오류 홀드아웃 인포그래픽
14 Outlier 차원의 저주 비지도학습 모델 선택 방법
15 데이터 수집 방법 중앙값(선수들 연봉, 평균이 옳은가 중앙값이 옳은가) 분류 민감도, 특이도 설명
16 분석 성숙도 층화추출 군집 모형진단
17 개인정보수집 동의안 Class imbalanced 시계열 Data분석 결과 활용
18 Bottom-up 분석 확률분포 ( 포아송나왔었음) 비정형 Data 시계열
19 데이터 품질 평가 확률분포 랜덤 포레스트 선형 회귀
20 데이터 거버넌스 t분포, z분포 K-fold 시계열 그래프 보고  추세, 계절성, 예측 판단

 

 

 

 

 

 

데이터 진흥원 시험에 대한 정보가 많은 카페입니다. 정보가 필요하신 분은 참고하셔도 좋을 것 같습니다.

 

cafe.naver.com/sqlpd

 

데이터 전문가 포럼 (빅데이터분석기사... : 네이버 카페

빅데이터분석기사, ADP, ADsP, SQLP, SQLD, DAP, DAsP, 자격증 취득 등 데이터 전문가 커뮤니티입니다.

cafe.naver.com

 

 

한국 데이터 산업 진흥원은 각성해야 할지도?

 

복수정답

www.dataq.or.kr/www/board/view.do?bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjUwOTYyNH0=&boardKind=notice

데이터 진흥원(위 링크)에 원본 글이 있으니 참고하시길 바랍니다.

반응형
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 분석 결과 해석

1) 분석 모형 해석

(1) 데이터 시각화의 개념

 

 

(2) 데이터 시각화 기능

 

 

(3) 데이터 시각화 목적

 

 

(4) 데이터 시각화 유형

 

(5) 빅데이터 시각화도구

 

 

(6) 데이터 시각화 절차

 

 

(7) 시각화 분석을 위한 데이터 유형

 

 

 

 

 

2) 비즈니스 기여도 평가

(1) 비즈니스 기여도 평가의 개념

 

 

 

(2) 비즈니스 기여도 평가지표

 

 

 

(3) 비즈니스 기여도 평가 고려 사항

 

 

2. 분석 결과 시각화

1) 시공간 시각화

(1) 시간 시각화

 

 

(2) 공간 시각화

 

 

 

 

2) 관계 시각화

 

 

(1) 관계 시각화의 개념

 

(2) 관계 시각화의 유형

 

 

(3) 관계 시각화의 해석

 

 

 

3) 비교 시각화

(1) 개념

 

 

(2) 유형

 

 

(3) 분석

 

 

 

 

4) 인포그래픽

 

(1) 개념

 

 

(2) 유형

 

 

 

(3) 활용방법

 

 

 

3. 분석 결과 활용

1) 분석 모형 전개

 

(1) 빅데이터 모형 운영 시스템 적용 방안

 

 

 

(2) 빅데이터 모형의 운영 및 개선방안 수립

 

 

2) 분석 결과 활용 시나리오 개발

 

(1) 분석 결과에 따른 활용 분야 분류

 

 

 

(2) 분류 결과를 토대로 적용 가능한 서비스 영역 도출

 

 

(3) 분류 결과를 토대로 적합한 신규 서비스 모형 도출

 

 

 (4) 서비스 모형에 따른 활용 방안 제시

 

 

 

3) 분석 모형 모니터링

 

(1) 분석 모형 모니터링 개념

 

 

(2) 분석 모형 모니터링 솔루션

 

 

(3) 분석 모형 성능 모니터링

 

 

(4) 분석 모형 모니터링 고려 사항

 

 

4) 분석 모형 리모델링

 

(1) 분석 모형 리모델링 개념

 

 

(2) 분석 모형 리모델링 절차

 

 

 

(3) 분석 모형 리모델링 고려 사항

 

 

 

 

 

 

 

 

 

핵심

  1. 시각화의 기능 = 설명, 탐색, 표현
  2. 분포 시각화 = 파이 차트, 도넛 차트, 트리맵 / 버블 차트 = 관계 시각화
  3. 관계 시각화 = 산점도, 버블차트, 히스토그램 / 체르노프 페이스 = 비교 시각화
  4. 공간 시각화 = 등치선도, 도트맵, 카토그램 / 히트맵 = 비교 시각화
  5. 히트맵 = 열분포 형태의 그래픽 출력
  6. 시각화 도구 = 태블로, 인포그램, 차트블록
  7. 시각화 절차 = 구조화 $\rightarrow$ 시각화 $\rightarrow$ 시각표현
  8. 범주,비율/추세,패턴/관계,연결
  9. 영역차트 분기별 매출을 region으로 view
  10. 비교 시각화 = 플로팅 바 차트, 히트맵, 체르노프 페이스, 스타 차트, 평행 좌표 그래프
  11.  

 

 

 

 

반응형
반응형

본 포스팅은 제가 공부한 것을 정리한 내용입니다.

 

1. 분석 모형 평가

1) 평가지표

(1) 회귀 모형의 평가지표

 

 

 

(2) 분류 모형의 평가지표

 

 

 

 

 

2) 분석 모형 진단

(1) 데이터 분석 모형의 오류

 

 

 

(2) 데이터 분석 모형 검증

 

 

(3) 분석 모형 시각화

 

 

 

 

(4) 분석 모형 진단

 

 

 

3) 교차 검증

(1) 교차 검증(Cross Validation) 개념

 

 

(2) 교차 검증의 종류

 

 

 

4) 모수 유의성 검정

(1) 모집단과 모수 단계

 

 

(2) 모집단의 평균에 대한 유의성 검정

 

 

(3) 모집단의 분산에 대한 유의성 검정

 

 

5) 적합도 검정

(1) 적합도 검정 개념

 

 

(2) 적합도 검정 기법 유형

 

 

2. 분석 모형 개선

1) 과대 적합 방지

(1) 과대 적합의 개념

 

 

 

(2) 과대 적합 방지하기

 

 

 

2) 매개변수 최적화

(1) 매개변수의 개념

 

 

(2) 매개변수 최적화의 개념

 

 

(3) 매개변수 종류

 

 

(4) 매개변수 최적화 과정

 

 

3) 분석 모형 융합

(1) 취합(Aggregation) 방법론

 

 

(2) 부스팅 방법론

 

 

4) 최종 모형 선정

(1) 최종 모형 평가 기준 선정

 

 

(2) 최종 모형 분석 결과 검토

 

 

(3) 알고리즘별 결과 비교

 

 

 

 

 

 

 

핵심

  1. SSE : 회귀 모형의 평가에 많이 사용되는 평가지표이며 오차 제곱합으로 계산되어짐
  2. SSR : 회귀 모형의 평가지표 중 회귀 제곱합계
  3. SST : 전체 제곱합
  4. AE : 평균 오차
  5. 일반화의 가능성은 데이터를 확장하여 적용할 수 있는지에 대한 평가 기준
  6. precision(정밀도) = $TP\over{TP+FP}$
  7. specificity(특이도) = $TN\over{TN+FP}$
  8. auc의 값은 항상 0.5~1의 값을 가지며 1에 가까울수록 좋은 모형이다
  9. 민감도=재현율=$TP\over{TP+FN}$
  10. MAPE = $100\over{n}$ $\sum_{i=1}^n$ $\left\vert y_i-\hat{y}\over{y_i} \right\vert$
  11. 학습오류 = 주어진 데이터 집합에 부차적인 특성과 잡음이 있다는 점을 고려하여 그것의 특성을 덜 반영하도록 분석 모형을 만들어 생기는 오류
  12. LOOCV = 전체 데이터에서 1개 샘플만을 Test에 사용하고 나머지 (N-1)개는  Training에 사용하는 교차 검증 방법
  13. K-Fold에서 K값이 증가하면 수행시간과 계산량이 증가한다.
  14. 홀드아웃은 데이터 마이닝을 위해 데이터를 분할하는 방법으로 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 학습용과 시험용으로 분리하여 사용한다.
  15. Holudout Cross Validation은 전체 데이터에서 Test데이터만큼 학습에 사용할 수 없어서 데이터 손실이 발생하는 교차 검증 기법이다.
  16. LpOCV = 10개의 샘플 데이터를 p=2일경우 교차 검증은 몇번인가? ${}_{10}C_2 = 45$
  17. 정규성 확인하기 위한 방법 = 샤피로-윌크 검정, K-S Test, 콜모고로프-스미르노프 적합성 검정 / 히스토그램, qq플랏
  18. 더빈-왓슨테스트 = 회귀모형 오차항이 자기상관이 있는지에 대한 검정
  19. 관측된 데이터가 가정된 확률을 따르는지 확인하기 위하여 사용하는 적합도 검정 방법은 카이제곱 검정이다.
  20. shapiro.test() = 샤피로-윌크 검정
  21. ks.test() = K-S Test
  22. 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검정하기 위해 사용되는 검정은 카이제곱검정
  23. 두 모집단 분산간의 비율에 대한 검정 = F-검정
  24. 인공신경망의 복잡도는 은닉층의 수나 모델의 수용력 등으로 결정
  25. 페이스팅 = 학습 데이터를 중복하여 사용하지 않고 학습 데이터 세트를 나누는 기법(비복원 추출)
  26. 랜덤 서브스페이스 = 학습 데이터를 모두 사용하고 특성은 샘플링하는 방식
  27. 랜덤 패치 = 학습 데이터와 독립변수 차원 모두 일부만 랜던하게 사용
  28. 중복을 허용하여 학습 데이터 세트를 나누는 기법 = 배깅(복원추출)
  29. 최종모형 선정의 절차 : 평가기준선정 $\rightarrow$ 분석 결과 검토 $\rightarrow$ 알고리즘별 결과 비교

 

 

 

 

 

 

 

 

 

 

 

 

 

 

반응형
반응형

아이들 디펜스 아레나 

 

Tier Graph, 티어표 공유합니다.

 

play.google.com/store/apps/details?id=kr.co.billionairegames.ida&hl=ko&gl=US

 

아이들 디펜스 아레나 - Google Play 앱

▣ 게임 특징 ▣ ■ 던전 디펜스 전략 육성 RPG 스트레스 받는 현대인의 필수 게임 - 스킬 자동 시전, 접속하지 않아도 강해지는 방치형 RPG, 매일 10분만 투자해도 최강의 마왕이 될 수 있습니다.

play.google.com

관심 있으신 분들은 위의 링크에서 다운 받으시길 바랍니다.

 

 

 

게임 팬카페 입니다.

가입하시면 더 많은 정보를 얻으실 수 있습니다.

https://cafe.naver.com/idledefencearena

 

아이들 디펜스 아레나 공식카페 : 네이버 카페

던전 디펜스 전략 육성 RPG를 즐겨보세요.

cafe.naver.com

 

 

 

 

 

초반 등급표 (lv 1~100)
중반 등급표 (Lv 100~200)
후반 등급표 (Lv 200~340)

 

 

쿠폰번호는

 

CAFE3000

 

입니다.

 

반응형
반응형

title: "linear algebra"
author: "hyeonho lee"
date: "2018년 12월 18일"
output:
pdf_document:
toc: true
latex_engine: xelatex
html_document: default
word_document:
highlight: tango
mainfont: NanumGothic
header-includes :

  • \usepackage{kotex}
  • \usepackage{setspace}
  • \usepackage{booktabs}

\newpage

1 vector

벡터는 2차원 이상의 값을 가질 수 있다.
$\vec{v}=(5,0)=\begin{bmatrix} 5\ 0 \end{bmatrix}$
$\vec{a}=\begin{bmatrix} 3\ 4 \end{bmatrix}$, 벡터의 길이를 구할 수 있다.
또한 실수공간 좌표를 $R^2=real;; coordinate;;space$로 표현하기도 한다.
$two;;dimensional$이라고도 한다.
$R^3=3D;;real;;coordinate;;space$ : 3-tuples

vector의 연산

원점을 꼭 vector의 꼬리로 둘 필요는 없다.

덧의 경우 차원이 같으면 그냥 하면 된다. vector b의 꼬리를 vector a의 머리에 두는 것이 +연산이 라고 할 수 있다. 교환법칙은 성립한다. visual적으로도 개념적으로 이해...

스칼라와의 곱
마찬가지로 곱하면 된다. 단, visual, 개념적으로 이해하면 매우 좋다.
scalar(스칼라)와 scale up(확대하다)의 어원이 같다.
스칼라의 곱은 벡터를 확대화한다.
negative scalar을 곱하면 vector의 방향이 바뀐다.\

뺄셈의 경우
vector a의 꼬리에서 vector b의 꼬리가 시작된다.

단위벡터(=unit vector)

unit vector의 경우 $\vec{a}$대신에 $\hat{a}$를 사용한다.
2차원이라고 가정하면, 주로 $\hat{i}$가 수평방향 즉 단위벡터 i라고 하고 $\hat{j}$가 수직방향 단위벡터 j라고 한다.
따라서 vector v는 $2\hat{i}+3\hat{j}$라고 할 수 도있다.
$\vec{v}=\begin{bmatrix} 2\ 3 \end{bmatrix}$

직선의 매개변수

t라는 매개변수를 사용하여 다차원의 식들을 선형대수학스러운, 간단하게 표현 할 수 있다.

\newpage

2 선형결합과 생성(=linear combination)

선형결합이란 단순히 다 더하라는 의미이다.
선형결합은 상수배를 한후, vector끼리 더하는 연산이다. 선형의 말이 붙는 이유는 상수배를 하기 때문이다.
(2차원일때)어떠한 vector를 만든다면 2개의 벡터의 선형결합으로 만들 수 있다.\

3 선형종속과 독립

선형독립이란(linear independence)

한 벡터에 대한 스칼라 결합이 가능하다... 이것은 선형종속이다 라고 말 한다.
집합의 한 벡터를 집합의 다른 벡터의 선형결합으로 나타낼 수 있다는 것을 말한다.
기저의 개념이 나오는데, 효과적으로 $R^2$ 공간에서 나타낼 수 있는 벡터 2개의 느낌.
예를들어 3개의 방향성을 제시한다면 $R^3$공간, 즉 3개의 basis를 가진다 라고 하고 선형독립이라고 결론을 내릴 수 있다.

선형종속(linear dependence)

한 벡터를 여러개의 벡터로 표현 할 수 있다.
선형결합을 했을 때 $=0$이 된다면 이것은 선형종속이라고 이야기 한다.
단 $c_1, c_2$가 모두 0이라면, 이것은 선형독립이다.

4 부분공간과 부분공간의 기저

선형부분 공간

선형 부분공간(linear subspace)
V subspace of $R^n$은 V는 영벡터를 포함하는 것을 의미한다. $\vec{X}$ is V=;$c\vec{X}$ in V를 의미한다. vector a와 vector b가 V에 속하면 연산후의 결과도 V에 속한다.
closed under multiplecation
$R^2$ 공간에 대한 이해

부분공간의 기저

V = span($\vec{v_1}, ..., \vec{v_n}$) 일 때, 선형독립이다.
S is a basis for V
T is linearly dependent : T is not a basis for V
기저는 최소한의 공간이다. 어떠한 공간을 생성하는데 필요한 최소한의 벡터집합이라고 할 수 있다.
예를들어 S는 $R^2$를 생성하고 선형독립이라면, 집합S는 $R^2$의 기저라고 할 수 있다.
그렇다면 S가 $R^2$의 유일한 기저일까?
그것은 아니다. 무한개의 기저가 존재한다.
standard basis 집합 $T={\begin{bmatrix} 1\ 0 \end{bmatrix}, \begin{bmatrix} 0\ 1 \end{bmatrix}}$

5 벡터의 내적과 외적

벡터의 내적과 벡터의 길이

vector addition, scalar multiplication
Dot Product(벡터의 내적) : $\vec{a} \cdot \vec{b}$ : result(scalar)
vector length : definition($||\vec{a}||=\sqrt{a_1^2+...+a_n^2}$)
자기 자신의 내적 - vector length와 동일

벡터 내적의 성질 증명

$\vec{v} \cdot \vec{w}$와 $\vec{w} \cdot \vec{v}$ 동일
= communtation property(교환 법칙), 결합법칙, 분배법칙 성립
proof는 찾아보자

코시-슈바르츠 부등식의 증명

영벡터가 아닌 두 벡터가 존재한다.
$|\vec{x} \cdot \vec{y}| \le ||\vec{x}||\cdot||\vec{y}||$
$|\vec{x} \cdot \vec{y}| = ||\vec{x}||\cdot||\vec{y}||$ <=> $\vec{x}=c\vec{y}$
이 때에만 해당되는 데 이것을 코시-슈바르츠 부등식이라고 부른다. Cauchy–Schwarz inequality
이것은 선형대수학의 증명에 상당히 많이 사용된다.\

벡터의 삼각부등식

벡터 사이의 각 정의하기

점과 법선벡터를 이용하여 R3에서 평면 정의하기

벡터의 외적이란?

증명 : 외적과 각의 사인값과의 관계

내적과 외적의 비교/직관

벡터의 삼중적의 확장

평면방정식의 법선 벡터

점과 평면 사이의 거리

평면 사이의 거리

6 가감법으로 연립방정식을 풀기 위한 행렬

행 사다리꼴 행렬을 이용하여 3차 연립방정식과 4개의 변수 풀기

행렬을 이용하여 선형계 풀기

행 사다리꼴을 이용하여 선형계는 해가 없다는 것을 알아보기

7 영공간과 열공간

행렬 벡터의 곱

행렬의 영공간이란?

반응형

'Machine Learning' 카테고리의 다른 글

ISLR을 공부하면서...2  (0) 2021.04.14
ISLR을 공부하면서...  (0) 2021.04.14
반응형

title: "Machine learning"
author: "Hyeonho Lee"
date: "2018년 11월 6일"
output:
pdf_document:
toc: true
latex_engine: xelatex
html_document: default
word_document:
highlight: tango
mainfont: NanumGothic
header-includes :

  • \usepackage{kotex}
  • \usepackage{setspace}
  • \usepackage{booktabs}

\newpage

1 선형회귀

  1. 선형회귀는 양적 반응변수를 예측하는 유용한 도구이다.
  2. 중요한 질문들...
    1) X와 Y사이에 상관관계가 있는가
    2) X와 Y사이에 얼마나 강한 상관관계가 있는가
    3) 여러 X들 중 Y에 기여하는 X는?
    4) Y에 대한 각 X 효과를 얼마나 정확하게 추정할 수 있는가
    5) 미래의 Y에 대해 얼마나 정확하게 예측할 수 있는가
    6) 상관관계는 선형인가
    7) X들 사이에 시너지 효과가 있는가(상호작용 항)

1.1 단순선형회귀

  1. 단순선형회귀는 매우 간단한 기법으로, 하나의 설명변수 X에 기초하여 양적 반응변수 Y를 예측한다. 이 기법은 X와 Y 사이에 선형적 상관관계가 있다고 가정한다. 수학적으로 선형적 상관관계는 다음과 같이 나타낸다.
    $$Y\approx\beta_0+\beta_1+\varepsilon$$

  2. 계수 추정
    1) 실제로 $\beta_0$와 $\beta_1$은 알려져 있지 않다. 그러므로 $Y\approx\beta_0+\beta_1+\varepsilon$을 사용하여 예측하기 전에 데이터를 이용하여 계수를 추정해야 한다.
    2) n의 데이터 포인트의 개수라고 할 때, n개의 데이터 포인트에 가능한 한 가깝게 되도록 하는 절편 $\hat{\beta_0}$와 기울기 $\hat{\beta_1}$을 찾고자 한다.
    3) 가까움(closeness)을 측정하는 방법은 여러 가지가 있으나, 대표적으로는 최소제곱 기준을 최소화하는 것이다.
    4) $RSS=e_1^2+e_2^2+...+e_n^2$이며, RSS는 잔차제곱합이라고 칭한다. 잔차란, $e_i=y_i-\hat{y_i}$을 칭한다.
    5) $RSS=(y_1-\hat{\beta_0}-\hat{\beta_1}x_1)^2+(y_2-\hat{\beta_0}-\hat{\beta_1}x_2)^2+...+(y_n-\hat{\beta_0}-\hat{\beta_1}x_n)^2$으로 다시 나타낼 수 있고, 미적분을 사용하여 수식을 정리하면
    6) $\hat{\beta_1}=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2}$와 $\hat{\beta_0}=\bar{y}-\hat{\beta}_1\bar{x}$임을 알 수 있다. 추정치 쌍 $(\hat{\beta_0},\hat{\beta_1})$는 RSS를 최소화하는 값임을 알 수 있다.

  3. 계수 추정값의 정확도 평가
    1) X와 Y의 실제 상관관계는 어떤 알려지지 않은 함수 $f$dp eogo $Y=f(x)+\varepsilon$의 형태를 가지며 $\varepsilon$은 평균이 영인 랜덤오차항이다. 만약 $f$가 선형함수로 근사된다면 이 관계는 $Y=\beta_0+\beta_1X+\varepsilon$이라고 할 수 있다.($\beta_0$는 절편이고 즉 X=0일 때 Y의 기대값이고, $\beta_1$은 기울기이고 X의 한 유닛 증가에 연관된 Y의 평균 증가임을 알 수 있다.), 오차항의 존재는 단순한 모델로 나타낼 때 수반되는 여러 가지 한계를 위한 것이다.
    2) 오차항의 존재는 매우 중요하다. X와 Y의 실제 관계는 선형적이지 않을 수 있고, Y값의 변화를 초래하는 다른 변수들이 있을 수 있으며, 측정 오차가 있을 수 있다.(오차항은 보통 X와 독립이라고 가정한다.)
    3) 모회귀선과 최소제곱선 사이의 차이는 매우 작고 구별하기 어려울 수 있다. 자료가 하나밖에 없는데 두 개의 다른 직선이 설명변수와 반응변수의 상관관계를 기술하는 것은 무엇을 의미할까...근본적으로 이 두 직선의 개념은 표본의 정보를 사용하여 큰 모집단의 특징을 추정하는 표준통계적 방법의 확장이다. 어떤 확률변수 Y의 모평균 $\mu$를 알고자 한다고 해보면 $\mu$는 알려져 있지 않다. 그러나 우리는 Y의 n개 관측치를 알 수 있고, 이것을 사용하여 $\mu$를 추정할 수 있다. 합리적인 추정값은 $\hat{\mu}=\bar{y}=\frac1n\sum_{i=1}^ny_i$이다. 이것을 표본평균이라 부른다.
    4) 선형회귀와 확률변수의 평균값 추정 비유는 bias의 개념에서 보면 적절하다. 표본평균 $\hat{\mu}$를 사용하여 $\mu$를 추정한다면, $\hat{\mu}$은 평균적으로 $\mu$와 동일하다고 기대된다는 점에서 이 추정값은 편향되지 않은 것이다. 이것은 어떤 하나의 특정 관측치셋에서는 과대추정할 수 있고, 또 다른 관측치셋에 대해서는 과소추정할 수 있다는 것을 의미한다. 그러나 아주 많은 관측치셋으로부터 얻은 $\mu$의 추정값들을 평균할 수 있으면 이 평균값은 $\mu$와 정확하게 동일한 값이 될 것이다. 그러므로, 비편향 추정량은 실제 파라미터를 조직적으로 과대추정 또는 과소추정하는 것이 아니다.
    5) 비편향성질 - 이것은 최소제곱계수추정에 대해서도 성립한다. 특정 데이터셋에 대해 $\beta_0$와 $\beta_1$을 추정하면 그 추정값을 true $\beta_0$와 $\beta_1$과 일치하지는 않을 것이다. 그러나 아주 많은 수의 데이터셋에 대해 얻은 추정값들을 평균할 수 있으면 이 추정값들의 평균값은 정확하게 일치할 것이다. 다른 데이터셋으로부터 추정된 최소제곱선들의 평균은 실제 모회귀선에 매우 근접한다.
    6) 하나의 $\hat{\mu}$는 $\mu$를 상당히 과소추정 과대추정한다는 것을 알 수 있다. 그렇다면 얼마나 다를 것인가? 일반적으로 이 질문에 대한 답은 $SE(\hat{\mu})$으로 표현하는 $\hat{\mu}$의 표준오차를 계산하는 것이다. 표준오차의 식은 대체로 $Var(\hat{\mu})=SE(\hat{\mu})^2=\frac{\sigma^2}n$이다.(평균에 대한 표준오차)
    7) 그렇다면 $\hat{\beta_0}$와 $\hat{\beta_1}$의 표준오차는 어떻게 계산할까? $SE(\hat{\beta_0})^2=\sigma^2[\frac1n+\frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar{x})^2}]$, $SE(\hat{\beta_1})^2=[\frac{\sigma^2}{\sum_{i=1}^n(x_i-\bar{x})^2}]$으로 구할 수 있다.
    8) 위 $\beta$에 대한 표준오차 식들이 유효하려면 각 관측치에 대한 오차 $\varepsilon_i$가 곹옹의 분산 $\sigma^2$과 무상관이라는 가정이 필요하다.
    9) 표준오차는 주로 계수들에 대한 가설검정을 하는 데 사용될 수 있다. ( H0 : X와 Y 사이에 상관관계가 없다. H1 : X와 Y사이에 어떤 상관관계가 있다.) 수학적으로 이 가설은 $\beta_1=0$과 $\beta_1\ne0$ 인지를 검정하는 것과 같다.

  4. 모델의 정확도 평가
    1) 귀무가설을 기각하고 대립가설을 채택했다면, 모델이 데이터에 적합한 정도를 수량화하고자 할 것이다. 선형회귀적합의 질은 보통 잔차표준오차(RSE)와 $R^2$를 사용하여 평가한다.
    2) 잔차표준오차(RSE) = $\sqrt{\frac1{n-2}RSS};=;\sqrt{\frac1{n-2}\sum_{i=1}^n(y_i-\hat{y_i}^2)}$이며, 각 관측치에 오차항 $\varepsilon$이 관련되어 있다. 이러한 오차항 때문에 실제 회귀선을 알아도 X로부터 Y를 정확하게 예측할 수 없을 것이다. RSE는 $\varepsilon$의 표기준편차에 대한 추정값으로, 대략 반응변수 값이 실제 회귀선으로부터 벗어나게 될 평균값을 의미한다.
    3) $R^2$ 통계량 = $\frac{TSS-RSS}{TSS};=;1-\frac{RSS}{TSS}$이며, RSE의 데이터에 대한 모델의 적합성결여를 나타내주는 절대적 측도가 되는 것과는 다르게, Y의 단위로 측정되므로 적정한 RSE가 무엇인지 항상 명확환 것은 아니다. 적합도에 대한 다른 측도를 제공하며, 설명된 분산의 비율형태를 나타낸다(0과 1사이의 값만을 가진다.)
    4) $R^2$는 RSE에 비해 해석이 쉽다는 장점이 있다. 왜냐하면, RSE와는 달리 그 값이 항상 0과 1사이에 있기 때문이다. 좋은 $R^2$값이 무엇인지에 대한 결정은 어렵지만, 일반적으로 응용에 따라 다르다. 또한, $R^2$은 X와 Y 사이의 선형상관관계에 대한 측도이다. 다음과 같이 정의되는 상관계수도 X와 Y 사이의 선형상관관계의 측도이다. $Cor(X,Y)=\frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum_{i=1}^n(y_i-\bar{y}^2)}}$이다. 이것은 선형모델의 적합성을 평가하기 위해 $R^2$ 대신 $r=Cor(x,Y)$를 사용할 수 도 있음을 의미한다. 단순선형회귀에서 $R^2=r^2$임을 보여줄 수 있다. 다중선형회귀에서는 통용되지 않는 개념이나, 변수쌍 사이의 연관성을 수량화 하기 때문에 $R^2$을 다르게 접근한다.

1.2 다중선형회귀

  1. 단순선형회귀는 단일 설명변수를 기반으로 반응변수를 예측하는 유용한 기법이다. 하지만 실제로는 보통 하나보다 많은 설명변수가 관련된다. 두 개의 추가적인 설명변수를 포함하기 위해 Y에 대한 분석을 어떻게 확장할 것인가. 한가지 방법은 매우 단순한 방법이다. 각각의 X에 대해 단순선형 회귀를 사용하는 것이다. 하지만 이 방법은 만족할만한 방식이 아니다. 우선 X들에 대해 Y를 예측하는 것이 어떻게 예측하는지 명확하지 않다. 왜냐하면 서로 다른 회귀방정식에 연관되어 잇기 때문이다. 두번째로 각각의 회귀계수를 추정하는 데 다른 X를 고려하지 않는다. 만약 여러개의 X들 중 $X_1과 X_2$가 상관되어 있으면 Y에게 영향을 미치는 것이 다르기 때문이다. 그러므로 단순선형회귀를 확장하여 다중선형회귀를 사용한다. 이것은 하나의 모델에서 각 설명변수에 다른 기울기 계수를 할당하면 된다. $Y=\beta_0+\beta_1X_1...+\beta_pX_p+\varepsilon$는 다중선형회귀모델이며, $\beta_j$는 다른 설명변수들은 변동되지 않을 때 $X_j$의 한 유닛 증가가가 Y에 미치는 평균 효과로 해석된다.

  2. 회귀계수의 추정은 단순선형회귀와 같이 최소제곱법을 사용하여 추정할 수 있다. $RSS=\sum_{i=1}^n(y_i-\hat{y_i})^2=\sum_{i=1}^n(y_i=\hat{\beta_0}-\hat{\beta_1}x_{i1}-...-\hat{\beta_p}x_{ip})$로 RSS를 최소화 하도록 $\beta_0, \beta_1, \beta_2, ..., \beta_p$를 선택한다. 또한 단순선형회귀와는 다르게 다중선형회귀추정값은 다소 복잡한 형태를 가지며 가장 쉬운 표현방식은 행렬대수를 사용하는 것이다. 또한 단순선형회귀는 상관관계가 있음을 나타낼수도 있다. 그러나 다중회귀는 그 반대결과를 보일 수도 있다.(해변에서 파는 아이스크림과 상어의 공격 그리고 온도에 대한 문제)

  3. 몇가지의 중요한 것들
    1) 설명변수들 $X_1, X_2, .., X_p$ 중 적어도 하나는 반응변수를 예측하는 데 유용한가 : 단순선형회귀에서는 단순히 $\beta_1=0$인지 검사하면 결정 할 수 있다. 그러나 다중회귀에서는 H0 : $\beta_1=\beta_2=...=\beta_p=0$, H1 : 적어도 하나의 $\beta_j$는 영이 아니다. 로 이루어진다. 이 가설은 F통계량을 계산하면서 이루어진다. $(F=\frac{(TSS-RSS)/p}{RSS/(n-p-1)}$). p value와 F통계량에 대한 이슈가 있다. p value는 변수들과 반응변수 사이에 어떤 상관관계가 있는지 잘못 결론 내릴 가능성이 매우 높다. 하지만 F통계량은 설명변수의 개수를 조정하므로 이런 문제가 없다. 따라서, 만약 H0이 참이면, 설명변수의 개수 또는 관측횟수에 상관없이 F통계량의 p value가 0.05보다 작아지게될 가능성은 단지 5%이다.
    2) Y를 설명하는 데 모든 설명변수들이 도움이 되는가? 또는 설명변수들의 일부만이 유용한가(중요 변수의 결정) : 위의 내용처럼 다중회귀분석의 첫 번째 단계는 F-통계량을 계산하여 관련된 p-값을 살펴보는 것이다. 만약 p value에 근거하여 적어도 하나의 설명변수는 반으변수와 상관성이 있다는 결론에 도달한다면 그 설명변수가 어느 것인지 궁금할 것이다. 그러나 p가 크다면 잘못된 결론에 도달할 가능성이 높다. 이 때 어느변수가 반응변수와 상관성이 있는지 결정하는 것을 변수선택이라고 한다. 변수선택과 더불어 어느 모델이 최고인지 계산하는 지표는 여러가지 지표가 있다. Mallows $C_p$, AIC, BIC, Adjusted $R^2$가 포함된다. 모든 모델을 계산하는 방법은 $2^p$의 계산량이지만 모든 걸 계산할 수 없기에 효율적이고 고전적인 방법 3가지가 있다. 전진선택법, 후진소거법, 단계별방법이 있다.

     (1) 전진선택법
     (2) 후진소거법
     (3) 단계별방법

    3) 모델은 데이터에 얼마나 잘 맞는가(모델 적합) : 앞에서 언급했다 싶이 수치적 측도로 가장 흔히 사용되는 두가지는 RSE와 $R^2$이다. 이 값들은 단순선형회귀에서와 같은 방식으로 계산되고 해석된다. 단순회귀에서 $R^2$은 반응변수와 설명변수의 상관계수의 제곱이다. 다중선형회귀에서 이것은 반응변수와 적합된 선형모델 사이의 상관계수 제곱인 $Cor(Y,\hat{Y})^2$과 동일하다. 사실 적합된 선형모델은 모든 가능한 선형모델 중에서 이 상관계수가 최대로 되는 것이다. 중요한 포인트는 $R^2$가 변수를 추가할수록 증가하는데, RSE도 증가할 수 있다는 점이다. 추가적으로 과대추정, 과소추정하는 경향이 있는 모델의 경우, 선형회귀를 사용해서는 정확하게 모델링할 수 없다. 이것이 시사하는 것은 시너지 또는 상호작용 효과가 있어 매체를 함께 결합하는 것이 더 좋은 (선형모델을 확장하여) 모델을 만들 수 있다.
    4) 주어진 설명변수 값들에 대해 어떤 반응변수 값을 예측해야 하고 그 예측은 얼마나 정확한가(예측) : 세가지의 명확하지 않은 것이 연관되어 있다.

     (1) 축소 가능 오차(계수추정의 부정확도) : 계수추정의 부정확도는 신뢰구간을 계산하여 $\hat{Y}$가 $f(X)$에 얼마나 가까운지 결정한다.
     (2) 축소 가능 오차(모델 편향) : $f(X)$에 대해 선형모델을 가정하는 것은 거의 항상 현실에 대한 근사이기 때문에 모델 편향이라고 하는 잠재적으로 축소가능한 오차가 있다. 그러므로 선형모델을 사용할 때 실제 표면에 대한 최상의 선형 근사를 추정하는 것이다. 그러나 이부분에서는 이러한 차이를 무시하고 선형모델이 올바른 것으로 간주한다.
     (3) 축소 불가능 오차 : 모델의 랜덤오차 때문에 반응변수 값을 와벽하게 예측할 수는 없다. 예측구간은 신뢰구간보다 항상 더 넓다. 이유는 예측구간은 $f(X)$에 대한 추정오차와 각 포인트가 모회귀평면과 얼마나 다른지에 대한 불확실성 둘 다 포함하기 때문이다.

1.3 선형다중회귀의 기본 가정(중요)

1) 회귀모형은 모수에 대해 선형인 모형이다. $Y_i=\beta_0+\beta_1X_{1i}+\beta_2X_{2i}+\varepsilon_i$
2) 독립변수 $X_1i, X_2i$는 비확률이다.(nonstochastic)
3) 오차항의 평균은 영이다. $E(\epsilon_i)=0$
4) 오차항의 분산은 모든 관찰지에 대해 $\sigma^2$의 일정한 분산을 갖는다.(등분산성 : homoskedasity = Var($\epsilon_i$)=$\sigma^2$)
5) 서로 다른 오차항은 상관이 없다. : $Cov(\epsilon_i, \epsilon_j) = 0$, 오차항은 서로 독립적이며, 그들의 공분산은 0이다.
6) 오차항은 각 독립변수와 독립적이다. : $E(X_i, \epsilon_i) = 0$
7) 오차항이 정규분포를 따른다.
8) 여기부터는 다중회귀의 가정이다.
9) 독립변수간에는 정확한 선형관계가 없다.
10) 관측된 값들의 수는 독립변수의 수보다 최소한 2는 커야한다.

1.4 회귀모델에서 다른 고려할 사항

위에서의 선형회귀모델은 모든 변수가 양적이라고 가정하였다. 그러나 실제로는 질적변수도 굉장히 많다.

  1. 질적 설명변수
    1) 레벨(수준) 수가 2인 설명변수 : 단순히 2개의 가능한 값을 가지는 지시변수(indicator variable) 또는 가변수(dummy variable)를 생성해서 해결한다.
    2) 레벨(수준) 수가 3 이상인 설명변수 : 질적 설명변수의 레벨 수가 2보다 클 때, 하나의 가변수로는 가능한 모든 값을 나타낼 수 없다. 이러한 경우 가변수를 하나 더 만들어서 해결한다.

  2. 선형모델의 확장
    1)
    2) 가산성 가정의 제거
    3) 비선형 상관관계
    4)
    5)
    6)
    7)

  3. 잠재적 문제 : 선형회귀모델을 특정 자료에 적합할 때 생길 수 잇는 문제가 굉장히 많다. 이중 흔한 것은
    1) 반응변수 - 설명변수 상관관계의 비선형성
    2) 오차항들의 상관성
    3) 오차항의 상수가 아닌 분산
    4) 이상치
    5) 레버리지가 높은(영향력이 큰) 관측치
    6) 공선성

1.5 선형회귀와 KNN의 비교

\newpage

2 선형모델 선택 및 Regularization

subset(부분집합) 선택

Shrinkage 방법

차원축소 방법

고차원의 고려

\newpage

3 선형성을 넘어서(비선형성)

다항식회귀

계단함수

기저함수

회귀 스플라인

평활 스플라인

국소회귀

일반화가법모델

\newpage

4 트리 기반의 방법

의사결정트리의 기초

배깅, 랜덤 포레스트, 부스팅

반응형

'Machine Learning' 카테고리의 다른 글

Linear Algebra  (0) 2021.04.14
ISLR을 공부하면서...  (0) 2021.04.14

+ Recent posts