<---google adsense---> <---/google adsense---> History of Natural Language Processing(NLP) - Chapter.02 :: noti note
반응형

신경망 기반의 자연어 처리를 공부하였습니다. ( 최근 동향 )

 

  • 2001 | Neural Language Models
  • 2008 | Multi-task Learning
  • 2013 | Word Embeddings
  • 2013 | Neural networks for NLP
  • 2014 | Sequence-to-sequence Models
  • 2015 | Attention
  • 2015 | Memory-based Networks
  • 2018 | Pretrained Language Models

 

 

언어 모델링은 일반적으로 RNN을 적용할 때 사용하는 언어입니다.

http://karpathy.github.io/2015/05/21/rnn-effectiveness/

 

The Unreasonable Effectiveness of Recurrent Neural Networks

There’s something magical about Recurrent Neural Networks (RNNs). I still remember when I trained my first recurrent network for Image Captioning. Within a few dozen minutes of training my first baby model (with rather arbitrarily-chosen hyperparameters)

karpathy.github.io

많은 분들이 Andrej Karpathy blog를 보시지 않았을까 생각합니다. 저 또한 RNNs을 공부하면서 참고했던 곳 중 하나입니다. 이 단순한 게시물에서 제시한 언어 모델링이 많은 발전을 통해 현재의 모델에 도달하였습니다.

 

Word embeddings : word2vec의 목적은 언어 모델링을 단순화하는 것에 의미가 있습니다.

Sequence-to-sequence models : 이러한 모델들은 한 번에 한 단어를 예측하여 output sequence를 생성합니다.

Pretrained language models : 이 방법들은 transfer learning을 위한 언어 모델의 표현을 사용합니다.

 

최근의 자연어발전은 언어 모델 개발에 치중되어 있는데, real nlp을 위한 다른 방법과 모델이 필요성을 어필합니다. ( raw form을 이용한 학습은 한계가 존재할 것이라고 합니다. )

 

 

2008 | Multi-task Learning

Multi-task Learning(이하 MTL)는 여러 작업에 대해 훈련된 모델들 간에 파라미터를 공유하는 일반적인 방법입니다. 신경망에서는 다른 layer들의 가중치를 묶음으로써 쉽게 수행할 수 있습니다. 이러한 아이디어는 93년 Rich Caruana가 제안하였으며 당시에는 도로 추적 및 폐렴 예측에 적용되었습니다.

직관적으로 MTL은 모델이 많은 태스크에 유용한 표현을 학습하도록 합니다. 이것은 일반적으로 낮은 레벨의 표현들을 학습하고 모델의 attentions 또는 제한된 학습 데이터가 있을 때 유용합니다. 

 

 

 

MTL은 2008년 Collobert와 Weston이 NLP용 신경망에 처음으로 적용하였습니다. 

Figure 1: Sharing of word embedding matrices ( Collbert & Weston, 2008; Colobert et al., 2011)

위에서 보는 것과 같이 서로 다른 작업에 대해 훈련 된 두 모델 간의 look-up table(word embedding matrices)가 공유됩니다.

word embedding을 공유하면 모델 안에서 가장 많은 수의 파라미터를 구성하는 word embedding matrix의 일반적인 low-level 정보를 공유할 수 있습니다. word embedding를 사전 훈련하고 지난 몇 년간 채택된 텍스트에 대해 CNN을 사용하는 것과 같은 아이디어를 주도했습니다.

관련 : research.fb.com/facebook-researchers-win-test-of-time-award-at-icml-2018/

 

Facebook researchers win Test of Time Award at ICML 2018 - Facebook Research

We are pleased to announce that Facebook research scientists Ronan Collobert and Jason Weston won the 2018 International Conference on…

research.fb.com

 

MTL은 광범위한 NLP 태스크에서 사용되며 기존, NLP repertoire에서 유용한 도구가 되었다고 할 수 있습니다. 파라미터 공유는 일반적으로 정의되어 있긴 하지만, 다른 공유 패턴을 학습할 수 있습니다. 모델의 일반화 능력을 평가하기 위해서 multiple tasks평가가 증가함에 따라 MTL이 중요해지고 있고 전용 벤치마크도 제안되었습니다. (Wang et al., 2018; McCann et al., 2018).

MTL 자세히 : ruder.io/multi-task/

 

An Overview of Multi-Task Learning for Deep Learning

Multi-task learning is becoming more and more popular. This post gives a general overview of the current state of multi-task learning. In particular, it provides context for current neural network-based methods by discussing the extensive multi-task learni

ruder.io

 

 

 

 

 

 

 

 

 

해당 내용은 사실과 다를 수 있습니다.

정정이 필요한 부분은 댓글로 작성 부탁드립니다. ( 혹은 reference추천도 감사합니다. )

감사합니다.

반응형

+ Recent posts