[ICLR 2020] Mogrifier LSTM 논문 정리
ICLR 2020 NLP 논문 읽기 (3)
Abstract만 읽고 정리해보기
- Recurrent network는 언어를 모델링하는데 필요한 일반화와 체계성이 부족
- LSTM 모델의 확장 → 입력과 context 간 상호작용이 더 풍부 (rich)
- language modeling에서 일반화 성능이 개선 (Penn Treebank, Wikitext-2)
- Enwik8을 제외한 모든 dataset에서 SOTA → LSTM과 Transformer의 큰 gap을 줄였다고 봄
Mogrifier?
저자는 Language model의 일반화 능력을 향상하기 위해서, LSTM의 확장을 제안하였다. LSTM의 input x가 이전 단계의 h_prev의 output에 따라 gate되고, 마찬가지로 h도 이전 단계의 output에 따라 gate되는 방식이다. 이러한 방식을 mutual gating이라고 하였는데. 이 과정을 여러 라운드를 진행한다. 마지막에 업데이트된 x와 h_pred가 LSTM으로 feed 되는 것이다.
It’s like a transmogrifier without the magic: it can only shrink or expand objects.
이러한 과정이 마치 Transmogrifier 같아 이름을 Mogrifier LSTM으로 지은 듯하다.
(transmogrify: to completely alter the form of something in a surprising or magical manner, 놀랍거나 마법 같은 방식으로 어떤 것의 형태를 완전히 바꾸다.)
수식으로 Mogrifier를 나타내면 다음과 같이 나타낼 수 있다.
이러한 mutual gating을 수식으로 나타낸 것과 맨 마지막 (highest index)를 가져와서 LSTM에 넣는 것과 같다는 것을 보여준다.
My Discussion
사실 Language Modeling 분야의 논문을 처음 읽어봐서 Experiment 쪽을 정리하는 부분이 낯설었다. 단순하게 논문 제목을 읽고 새로운 모델이 나왔구나하고 읽게 되었는데, Language Modeling 분야라는 것을 보고 관심이 그 쪽으로가게 된 것 같다. 아이디어가 간단하면서도 꽤 좋은 결과를 보여서 신기했다. 그리고 실험을 하면서의 가정을 한 세션으로 정리하였는데 그 부분이 굉장히 인상적이였다. 증명하기 위해서 여러 가정을 한 것에 대한 고찰을 적어놓은 것이 나한테는 연구를 할 때 어느 관점으로 가정을 생각할 지 도움을 줄 수 있을 것 같다. (시간 있을 때, 여기에 Hypothesis 세션도 정리해서 추가해야지!)