[EMNLP 2020] Coreferential Reasoning for Language Representation 논문 정리

Jiwung Hyun
13 min readJan 27, 2021

--

연구실 논문 세미나 (1) / EMNLP 2020 논문 읽기 (2)

[paper] [github] [pre-trained model]

Reference

[1] Deming Ye, Yankai Lin, Jiaju Du, Zhenghao Liu, Peng Li, Maosong Sun, Zhiyuan Liu, Coreferential Reasoning for Language for Language Representation, The 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP 2020)

연구실에서 새롭게 논문 세미나를 진행하게 되면서 첫 발표로 CorefBERT를 준비하게 되었다. 아직 자연어 처리를 공부하고 있는 사람도 있어서 읽기 쉽고, BERT와 관련 있으면서 아이디어도 나름 심플한 논문을 준비했다.

Outline

  • Abstract + Introduction
  • CorefBERT
  • Experiment
  • Ablation Study

Abstract + Introduction

BERT와 같은 언어 표현 모델은 주로 입력 텍스트에서 문맥상 의미있는 정보를 뽑아낼 수 있는 능력을 모델링하기 위하여 대규모 말뭉치에 self-supervised로 사전 학습한다.

실제로 이런 사전학습된 언어 모델은 간단한 fine-tuning을 통하여 다양한 하위 task에 좋은 성능을 보인다.

하지만, 현재 사전 학습을 기반으로 하는 언어 표현 모델의 objective는 마스킹된 토큰을 복구하는 것이다. 그러기 위하여, 텍스트 내 local semantic 정보와 syntactic 정보를 얻어내는 것이 목표이다.

이는, 여러 문장 간에 발생하는 long-distance connection에 대하여 모델링되지 않을 수 밖에 없다. long-term dependency에 대한 문제 중에 저자진은 Coreference에 집중하였다. 이에 대하여 모델이 명확하게 처리할 수 없다는 것이다. (그리고, Coreference는 전체 텍스트를 이해하는데 있어서 필수적이다!)

Coreference?
Two or more expressions in a text refer to the same entity

Coreference Example
Antoine published The Little Prince in 1943. The book follows a young prince who visits various planets in space.
* 여기서 The book이 The Little Prince를 가리킨다는 것을 우리는 알 수 있다.

따라서, 저자진은 언어 표현 모델에서 Coreferential reasoning 성능을 개선하는 것이 연구의 동기가 되었다.

CorefBERT는 context 내 coreferential 관계들을 뽑아낼 수 있는 능력을 갖는다. (자세한 내용은 CorefBERT 섹션에서!)

기존 baseline과 비교했을 때, coreferential reasoning이 필요한 downstream NLP task에서는 상당한 improvement를 보이면서 일반적인 NLP task에서는 이전 모델과 견줄만할 성능을 보였다. (자세한 내용은 Experiment 섹션에서!)

CorefBERT

An illustration of CorefBERT’s training process (from paper)

CorefBERT는 BERT와 같이 bidirectional Transformer 구조를 사용한다. 차이점은 학습 task에 있다.

  • MLM (Masked Language Modeling): 기존 BERT에서 제안된 task로, 일반적인 언어 이해를 학습하기 위한 task
  • MRP (Mention Reference Prediction): coreferential reasoning 능력을 강화하기 위해 새롭게 제안된 task

Mention Reference Masking

해당 Task를 수행하기 위해서 마스크된 토큰을 생성하는 데 있어서 Mention Reference Masking이라는 전략을 사용한다. 기존 마스크된 토큰을 생성하는 방식은 랜덤으로 토큰은 마스킹한다. 그 대신, MRM은 시퀀스 내 반복된 mention들에 대한 토큰들에 한하여 마스킹한다.

  • 가정: 시퀀스 내 반복된 mention들은 각각 서로를 참조한다.
    (즉, 같은 entity라고 가정)

mentions들 중 하나를 마스크 토큰으로 바꾸고, 이를 채우는 것이 목표이다. 이것이 coreference 정보를 뽑아낼 수 있기를 기대한 방식이다.

다음은 MRM의 과정이다.

  1. 문장 내 명사들을 mention이 될 수 있다고 가정하였고, POS tagging tool을 사용하여 주어진 시퀀스 내 모든 명사를 뽑는다.
  2. 각 그룹에 속한 mention들은 같은 명사를 포함하도록 여러 그룹으로 클러스터화한다.
  3. 서로 다른 그룹 내에서 마스크될 토큰을 선택한다.

최종 마스킹된 토큰을 만드는 과정에서 MLM (기존 BERT 마스킹)과 MRP의 비율은 4:1이며, MRP에서 15%의 토큰이 샘플링되고, 그 중 80%를 [MASK], 10%를 랜덤 단어, 나머지 10%를 그대로 나두었다. (이 설정은 BERT의 MLM에서 가져온 것)

또한, whole word masking 전략을 채택하였는데, 이는 마스크된 단어나 mention에 속한 subword도 다 마스킹을 하는 것이다. (Josh et al., 2020)

Copy-based Training Objective

마스킹 전략은 알겠다. 어떻게 loss 구할거냐!

sequence-to-sequence task에 사용된 copy mechanism을 기반으로, 마스크된 토큰을 주어진 시퀀스 내에서 찾아서 copy하여 채우도록 하는 copy-based training objective를 제안하였다.

전체 시퀀스 X에 대하여 마스킹된 i번째 토큰에 대하여 j번째 토큰을 copy하여 복구할 확률은 아래 식과 같다.
(h는 Transformer를 통과한 hidden states를 의미하고, V는 토큰 유사도에 대한 각 dimension의 중요도를 측정하기 위한 학습 가능한 parameter이다.)

The probability of recovering the masked token x_i by copying from x_j

현재의 식은 token-level이지만, 마스킹된 토큰을 만들 때 whole word masking을 사용하였기 때문에, word-level로 확장할 필요가 있다. 이는 마스킹된 단어의 맨 앞과 맨 뒤의 토큰에 대한 확률을 구하고 곱하여 구해진다.
(이 두 토큰이 전체 단어에 대한 핵심 정보를 일반적으로 커버할 수 있다고 한다. — Lee et al., 2017; He et al.,2018)

word-level copy-based training objective by applying token-level copy-based training objective on both start and end tokens of the masked word

마스킹된 명사가 시퀀스 내에서 multiple referring words가 있을 수 있기 때문에, 모든 corresponding words에 대하여 구한다.
(이는 question answering에서 여러 개의 답이 있을 수 있는 상황을 핸들하기 위해 주로 사용된다고 한다.)

the loss of Mention Reference Prediction (MRP)

Experiment

Training Details

CorefBERT의 학습은 BERT의 파라미터로 initialize 되어 시작한다. 학습 데이터로는 영어 위키피디아를 선정하였다. POS tagging tool은 spaCy를 사용하였다고 한다.

BERT에서 사용된 하이퍼파라미터를 모두 동일 시 하였고, MRP loss와 MLM loss에 대한 비율을 1:1, 1:2, 2:1로 실험한 결과 1:1이 가장 좋은 성능을 보였다고 한다.
(+ 추가적으로 BERT 뿐만 아니라, RoBERTa에 대해서도 동일하게 진행하였다. — CorefRoBERTa)

Extractive Question Answering

이 task는 question과 passage가 주어졌을 때, 정답을 passage 내 span을 선택하여 찾는 task이다. 그 중, coreferential reasoning을 요구하는 QUOREF (Question Requiring Coreferential Reasoning dataset)에 대하여 실험을 진행하였다. 기존 BERT보다 4% 좋은 결과를 보였으며, CorefRoBERTa-large 모델의 경우 SOTA를 달성하였다.

Results on QUOREF (EM, F1)

꼭, Coreferential reasoning에 한정되지 않은 여러 QA 데이터셋에 대해서도 BERT와 비교하여 검증하였다. MRQA 벤치마크 중 6개(SQuAD, NewsQA, TriviaQA, SearchQA, HotpotQA, Natural QA)에 대하여 실험을 하였으며, 모두 기존 BERT보다 좋은 결과를 보였다.

Performance (F1) on six MRQA extractive question answering benchmarks

Relation Extraction

이 task는 주어진 text에서 두 entity 간의 관계를 찾는 task이다. 해당 task로는 DocRED 데이터셋를 선정하였다. 데이터셋의 17.6%는 coreferential reasoning으로 풀리는 유형이라고 한다. 이전 연구 및 BERT 베이스라인보다좋은 성능을 보였다. (0.5~0.7 F1)

Results on DocRED measured by micro ignore F1 and micro F1

Fact Extraction and Verification

이 task는 신뢰 가능한 corpora와 함께 제시된 주장을 검증하는 task이다. 해당 task로 FEVER 데이터셋에 대하여 실험을 진행하였다. SOTA 모델인 KGAT (Liu et al., 2020b)에서 BERT(혹은 RoBERTa)를 사용한 부분을 CorefBERT(혹은 CorefRoBERTa)로 대체하였으며, KGAT에 CorefRoBERTa-large 모델을 사용한 결과가 SOTA를 달성하였다.

Results on FEVER test set by label accuracy (LA) and FEVER

Coreference Resolution

Coreference resolution은 같은 entity를 나타내는 표현끼리 link하는 task이다. GAP, DPR, WSC, Winogender, PDP 데이터셋에 대하여 실험을 진행하였다. 기존 BERT baseline보다 좋은 결과를 보였고, coreference resolution task만을 위한 모델이 WikiCREM과 비교했을 때도 GAP을 제외한 데이터셋에서 모두 좋은 성능을 보였다.

Results on coreference resolution test sets

GLUE benchmarks

꼭 coreferential reasoning 능력을 요구하는 task가 아닌 기존 자연어 이해에 대한 다운스트림 task에 대한 성능 평가를 위해 GLUE benchmark에 대한 실험을 진행하였다. 기존 BERT와 비슷한 성능을 보였다. 이는 저자진이 제안한 마스킹 전략과 loss가 일반적인 자연어 능력을 해하지는 않는다는 것을 보였다고 주장한다.

Test set performance metrics on GLUE benchmarks

Ablation Study

마지막으로 ablation study에서는 기존 BERT에서 저자진이 채택한 전략들을 적용했을 때, 어떤 성능 차이가 있는지에 대하여 실험하였다.

CorefBERT가 BERT -NSP + MRM + copy-based training objective라고 했을 때,

  1. BERT
  2. BERT -NSP
  3. BERT -NSP + WWM
  4. BERT -NSP + MRM
  5. CorefBERT (BERT -NSP + MRM + copy-based training objective)

으로 실험하여, NSP, WWM, MRM의 영향을 보는 것이다.

실험 대상 task는 Extractive QA와 Relation Extraction을 진행하였다.

Ablation study

NSP는 다른 논문에서 밝혀졌듯이, 빼는 것이 좋은 것이 보여졌다. 또한, WWM과 MRM이 추가되었을 때는 큰 성능 차이가 없었고 오히려 떨어지기도 했다. 하지만, 이렇게 마스크 토큰을 만든 전략에 따른 objective가 추가되었을 때, 모델이 가장 좋은 성능을 보이면서 objective의 중요성을 보인듯하다.

Conclusion + My comment

다시 정리하자면, 새롭게 제안된 task인 Mention Reference Prediction을 적용하여 학습한 CorefBERT는 BERT보다 강력한 coreferential reasoning 능력을 갖는다.

실험 결과로 여러 NLP task에서 기존 BERT보다 좋은 결과를 보인 것은 물론 SOTA를 달성하기도 하였다.

저자진이 제시한 추후 연구 방향이 있다.

  1. MRP training에서 distant supervision 가정을 도입했는데, 여기서 자동으로 labeling하는 과정에서는 필연적으로 잘못된 labeling이 발생한다. 이를 해결해야 한다. (spaCy POS tagging을 사용한 것에 대한)
  2. distant supervision 가정에서 텍스트 내 대명사는 고려하지 않았지만, 대명사는 coreferential reasoning에서 중요한 역할을 하기 때문에 이를 고려하는 방법을 생각할 필요가 있다.

만약에 이 논문에 관심이 있다면, 이 추후 연구방향에 관해서 생각해보는 것도 좋을 것 같다.

--

--

Jiwung Hyun
Jiwung Hyun

No responses yet