- 토큰을 무작위로 마스킹하는 대신, 연속된 임의의 범위를 마스킹하고, 마스킹 된 전체 내용을 예측하도록 범위 경계 표현을 훈련함으로써 BERT를 확장한다.
- SpanBERT는 question-answering이나 coreference resolution와 같은 span selection task(텍스트의 범위를 예측하는 태스크)에 주로 사용된다.
coreference resolution - 임의의 개체(entity)를 표현하는 다양한 명사구들을 찾아 연결해주는 자연어처리 문제.
1. Introduction
- BERT와 같은 Pre-Training 방법은 individual words나 subword units을 mask하는 self-supervised training을 사용하여 강력한 성능향상을 보여줬다.
- 그러나 많은 NLP Task는 두개 이상의 텍스트 범위 사이의 관계에 대한 추론을 포함한다.
"What teams met in the finals in this 2022World Cup?" 라는 질문이 주어졌을때 'France, Argentina'를 예측하는 것은 다음 단어가 France라는 것을 알때 Argentina를 예측하는것보다 훨씬 어렵다.
2. Model
- Span BERT의 접근방식은 BERT에서 영감을 얻었지만, 세 가지 방식에서 기존 BERT와 차이점이 존재한다.
1. random individual token이 아닌 random contiguous token을 mask한다. 2. 각 training example에 대해 하나의 연속된 text segment만 샘플링하므로 BERT의 NSP 태스크를 사용하지 않음. 3. Span Boundary Objective(SBO)를 제안했다. (span의 주변 토큰들을 이용하여 전체 masked span을 예측)
1) Span Masking
- token sequence의 15%가 masking되어있도록 만든다.
- 이때 span length를 짧은 길이에 편향된 기하 분포(geometric distribution), $l$ ~ $Geo(p)$에서 샘플링한다.
preliminary trial에 따라 기하 분포의 파라미터 $p$는 0.2로 설정하고 $ㅣ_{max} $로 설정한다. 결과적으로 span의 평균길이가 3.8이 되었다.