'2025/06/05 글 목록

19강 Vision Language Pretraining

[ 1 ] Vision-language pretraining멀티모달에서도 BERT 같은 접근이 가능하다!이를 가능하게 만든 것은 대규모 vision-language 데이터셋의 등장이다. Conceptual Captions라는 데이터셋은 이미지와 캡션 쌍을 수작업 없이 웹에서 자동으로 수집하여 약 3,310,000 쌍의 대규모 데이터셋을 구축할 수 있었다. Conceptual Captions이 등장하기 전, 가장 규모가 컸던 MS-COCO 데이터셋이 약 120,000개의 이미지를 가지고 있었다. Conceptual Captions는 수작업이 필요하지 않은 데이터셋으로 구축되어 MS-COCO보다 무려 25배 이상 데이터셋 크기를 증가시켰다. 그렇다면 이 데이터를 어떤 모델로 학습시킬까? [ 2 ] VILBE..

멀티모달인공지능 2025.06.05

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

하수하따 록기장

2025/06/05 1

티스토리툴바