신경망 기반의 자연어 처리를 공부하였습니다. ( 최근 동향 )
- 2001 | Neural Language Models
- 2008 | Multi-task Learning
- 2013 | Word Embeddings
- 2013 | Neural networks for NLP
- 2014 | Sequence-to-sequence Models
- 2015 | Attention
- 2015 | Memory-based Networks
- 2018 | Pretrained Language Models
언어 모델링은 일반적으로 RNN을 적용할 때 사용하는 언어입니다.
http://karpathy.github.io/2015/05/21/rnn-effectiveness/
많은 분들이 Andrej Karpathy blog를 보시지 않았을까 생각합니다. 저 또한 RNNs을 공부하면서 참고했던 곳 중 하나입니다. 이 단순한 게시물에서 제시한 언어 모델링이 많은 발전을 통해 현재의 모델에 도달하였습니다.
Word embeddings : word2vec의 목적은 언어 모델링을 단순화하는 것에 의미가 있습니다.
Sequence-to-sequence models : 이러한 모델들은 한 번에 한 단어를 예측하여 output sequence를 생성합니다.
Pretrained language models : 이 방법들은 transfer learning을 위한 언어 모델의 표현을 사용합니다.
최근의 자연어발전은 언어 모델 개발에 치중되어 있는데, real nlp을 위한 다른 방법과 모델이 필요성을 어필합니다. ( raw form을 이용한 학습은 한계가 존재할 것이라고 합니다. )
2008 | Multi-task Learning
Multi-task Learning(이하 MTL)는 여러 작업에 대해 훈련된 모델들 간에 파라미터를 공유하는 일반적인 방법입니다. 신경망에서는 다른 layer들의 가중치를 묶음으로써 쉽게 수행할 수 있습니다. 이러한 아이디어는 93년 Rich Caruana가 제안하였으며 당시에는 도로 추적 및 폐렴 예측에 적용되었습니다.
직관적으로 MTL은 모델이 많은 태스크에 유용한 표현을 학습하도록 합니다. 이것은 일반적으로 낮은 레벨의 표현들을 학습하고 모델의 attentions 또는 제한된 학습 데이터가 있을 때 유용합니다.
MTL은 2008년 Collobert와 Weston이 NLP용 신경망에 처음으로 적용하였습니다.
위에서 보는 것과 같이 서로 다른 작업에 대해 훈련 된 두 모델 간의 look-up table(word embedding matrices)가 공유됩니다.
word embedding을 공유하면 모델 안에서 가장 많은 수의 파라미터를 구성하는 word embedding matrix의 일반적인 low-level 정보를 공유할 수 있습니다. word embedding를 사전 훈련하고 지난 몇 년간 채택된 텍스트에 대해 CNN을 사용하는 것과 같은 아이디어를 주도했습니다.
관련 : research.fb.com/facebook-researchers-win-test-of-time-award-at-icml-2018/
MTL은 광범위한 NLP 태스크에서 사용되며 기존, NLP repertoire에서 유용한 도구가 되었다고 할 수 있습니다. 파라미터 공유는 일반적으로 정의되어 있긴 하지만, 다른 공유 패턴을 학습할 수 있습니다. 모델의 일반화 능력을 평가하기 위해서 multiple tasks평가가 증가함에 따라 MTL이 중요해지고 있고 전용 벤치마크도 제안되었습니다. (Wang et al., 2018; McCann et al., 2018).
MTL 자세히 : ruder.io/multi-task/
해당 내용은 사실과 다를 수 있습니다.
정정이 필요한 부분은 댓글로 작성 부탁드립니다. ( 혹은 reference추천도 감사합니다. )
감사합니다.
'Deep Learning > Natural Language Processing' 카테고리의 다른 글
History of Natural Language Processing(NLP) - Chapter.04 (0) | 2021.03.25 |
---|---|
History of Natural Language Processing(NLP) - Chapter.03 (0) | 2021.03.25 |
History of Natural Language Processing(NLP) - Chapter.01 (0) | 2021.03.25 |