[ICLR 2020] A Mutual Information Maximization Perspective of Language Representation Learning 논문 정리

Jiwung Hyun

6 min readMay 24, 2020

ICLR 2020 NLP 논문 읽기 (2)

[paper]

Abstract만 읽고 정리해보기

word sequence의 서로 다른 부분들 사이의 mutual information (상호 정보)에 대하여 lower bound인 objective function을 maximize하는 방식의 새로운 word representation learning method를 제시
이러한 공식이 고전 word embedding model (e.g. skip-gram)과 최신 contextual embeddings (e.g. BERT, XLNet) 을 통합하는 관점을 제시
새로운 self-supervised task를 구성하는 데 사용할 수 있는 기본 framework 또한..?
컴퓨터 비전에서 성공적이였던 mutual information maximization에 기반한 related method의 예시를 제시
global sentence representation과 문장의 n-grams 간의 mutual information을 maximize하는 간단한 self-supervised objective를 제시
이러한 분석들이 자연어 처리, 컴퓨터 비전, 오디오 처리 등 여러 영역에서의 representation learning methods에 어느 정도 관점을 제시하였다고 봄

Mutual Information Maximization

I(A, B) = H(A) − H(A | B) = H(B) − H(B | A)

Mutual information에 대한 식은 다음과 같다. 학습의 목표는 이를 maximize하는 함수 f의 파라미터를 학습하는 것이다. 하지만, neural network 같이 구성된 함수 f일때, 이를 학습하는 것이 쉽지 않다. 따라서 이 I(A,B)의 lower bound로 resort할 필요가 있었고, Noise Contrastive Estimation (NCE) 기반인 InfoNCE가 실전에서 잘 먹히는 lower bound이라서 이를 채택하였다.

이 objective 기반으로 학습된 representation은 contrastive learning으로도 알려져있다.
또한, InfoNCE는 cross-entropy와도 연관이 있다. InfoNCE를 maximize 하는 것은 standard cross-entropy loss를 maximize 하는 것과 유사하다.

그리고 Skip-gram, BERT, 그리고 XLNet를 InfoNCE의 instance로 해석하였다.

InfoWord

요약부터 하면 InfoWord의 objective function은 MLM (Masked Language Modeling)의 objective function과 DIM (Deep InfoMax)의 objective function의 weighted combination으로 이루어져 있다.

InfoWord의 objective function

MLM (Masked Language Modeling) 은 BERT의 메인 objective function이고,

DIM (Deep InfoMax)는 컴퓨터 비전 즉, 이미지에 대한 mutual information maximization learning method이다. 이 DIM이 maximize하는 mutual information이 local features와 global features라는 점을 sequence로 적용하였다. global feature는 masked sentence를 사용하였고, local feature로는 masked된 부분의 n-grams를 사용하였다. encoder는 하나의 Transformer를 사용하였다. 따라서, DIM의 objective function은 다음과 같다.

x^_i:j이 i부터 j까지 masked된 sentence, x_i:j가 i부터 j까지의 n-gram spanning이다. g_w가 encoder, 즉 Transformer이다.

My Discussion

수식에 이리 치이고 저리 치인 논문이였다. 읽히는 것은 쉬운데 (그만큼 잘 쓰여진 논문) 이해하기가 어려웠다. 결국 이 논문은 서로 다른 skip-gram, BERT, XLNet을 결국 하나로 통합하여 해석할 수 있다는 점에서 의의가 있는 듯하다. 또한 문장의 local representation과 global representation의 mutual information을 maximize하는 새로운 방식을 제안했는데, masked sentence와 그 mask된 부분을 n-gram으로 local feature를 잡을 생각을 한 것이 특이하였다. 고전 기계학습 쪽의 mutual information이나 고전 자연어 처리의 꽃이였던 n-gram feature의 재발견, 재해석으로도 생각할 수 있겠다.

[ICLR 2020] A Mutual Information Maximization Perspective of Language Representation Learning 논문 정리

Abstract만 읽고 정리해보기

Mutual Information Maximization

그리고 Skip-gram, BERT, 그리고 XLNet를 InfoNCE의 instance로 해석하였다.

InfoWord

My Discussion

Sign up to discover human stories that deepen your understanding of the world.

Free

Membership

Written by Jiwung Hyun

No responses yet