[ 1 ] Vision-language pretraining멀티모달에서도 BERT 같은 접근이 가능하다!이를 가능하게 만든 것은 대규모 vision-language 데이터셋의 등장이다. Conceptual Captions라는 데이터셋은 이미지와 캡션 쌍을 수작업 없이 웹에서 자동으로 수집하여 약 3,310,000 쌍의 대규모 데이터셋을 구축할 수 있었다. Conceptual Captions이 등장하기 전, 가장 규모가 컸던 MS-COCO 데이터셋이 약 120,000개의 이미지를 가지고 있었다. Conceptual Captions는 수작업이 필요하지 않은 데이터셋으로 구축되어 MS-COCO보다 무려 25배 이상 데이터셋 크기를 증가시켰다. 그렇다면 이 데이터를 어떤 모델로 학습시킬까? [ 2 ] VILBE..