[ICLR 2020] A Mutual Information Maximization Perspective of Language Representation Learning 논문 정리

Jiwung Hyun
6 min readMay 24, 2020

--

ICLR 2020 NLP 논문 읽기 (2)

[paper]

Abstract만 읽고 정리해보기

  • word sequence의 서로 다른 부분들 사이의 mutual information (상호 정보)에 대하여 lower bound인 objective function을 maximize하는 방식의 새로운 word representation learning method를 제시
  • 이러한 공식이 고전 word embedding model (e.g. skip-gram)과 최신 contextual embeddings (e.g. BERT, XLNet) 을 통합하는 관점을 제시
  • 새로운 self-supervised task를 구성하는 데 사용할 수 있는 기본 framework 또한..?
  • 컴퓨터 비전에서 성공적이였던 mutual information maximization에 기반한 related method의 예시를 제시
  • global sentence representation과 문장의 n-grams 간의 mutual information을 maximize하는 간단한 self-supervised objective를 제시
  • 이러한 분석들이 자연어 처리, 컴퓨터 비전, 오디오 처리 등 여러 영역에서의 representation learning methods에 어느 정도 관점을 제시하였다고 봄

Mutual Information Maximization

I(A, B) = H(A) − H(A | B) = H(B) − H(B | A)

Mutual information에 대한 식은 다음과 같다. 학습의 목표는 이를 maximize하는 함수 f의 파라미터를 학습하는 것이다. 하지만, neural network 같이 구성된 함수 f일때, 이를 학습하는 것이 쉽지 않다. 따라서 이 I(A,B)의 lower bound로 resort할 필요가 있었고, Noise Contrastive Estimation (NCE) 기반인 InfoNCE가 실전에서 잘 먹히는 lower bound이라서 이를 채택하였다.

InfoNCE

이 objective 기반으로 학습된 representation은 contrastive learning으로도 알려져있다.
또한, InfoNCE는 cross-entropy와도 연관이 있다. InfoNCE를 maximize 하는 것은 standard cross-entropy loss를 maximize 하는 것과 유사하다.

그리고 Skip-gram, BERT, 그리고 XLNet를 InfoNCE의 instance로 해석하였다.

요약하자면 이 표만 봐도 되긴 합니다…

InfoWord

요약부터 하면 InfoWord의 objective function은 MLM (Masked Language Modeling)의 objective function과 DIM (Deep InfoMax)의 objective function의 weighted combination으로 이루어져 있다.

InfoWord의 objective function

MLM (Masked Language Modeling) 은 BERT의 메인 objective function이고,

MLM objective function

DIM (Deep InfoMax)는 컴퓨터 비전 즉, 이미지에 대한 mutual information maximization learning method이다. 이 DIM이 maximize하는 mutual information이 local features와 global features라는 점을 sequence로 적용하였다. global feature는 masked sentence를 사용하였고, local feature로는 masked된 부분의 n-grams를 사용하였다. encoder는 하나의 Transformer를 사용하였다. 따라서, DIM의 objective function은 다음과 같다.

DIM objective function

x^_i:j이 i부터 j까지 masked된 sentence, x_i:j가 i부터 j까지의 n-gram spanning이다. g_w가 encoder, 즉 Transformer이다.

My Discussion

수식에 이리 치이고 저리 치인 논문이였다. 읽히는 것은 쉬운데 (그만큼 잘 쓰여진 논문) 이해하기가 어려웠다. 결국 이 논문은 서로 다른 skip-gram, BERT, XLNet을 결국 하나로 통합하여 해석할 수 있다는 점에서 의의가 있는 듯하다. 또한 문장의 local representation과 global representation의 mutual information을 maximize하는 새로운 방식을 제안했는데, masked sentence와 그 mask된 부분을 n-gram으로 local feature를 잡을 생각을 한 것이 특이하였다. 고전 기계학습 쪽의 mutual information이나 고전 자연어 처리의 꽃이였던 n-gram feature의 재발견, 재해석으로도 생각할 수 있겠다.

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

--

--

Jiwung Hyun
Jiwung Hyun

No responses yet

Write a response