하수하따 록기장

  • 홈
  • 태그
  • 방명록

2025/06/05 1

19강 Vision Language Pretraining

[ 1 ] Vision-language pretraining멀티모달에서도 BERT 같은 접근이 가능하다!이를 가능하게 만든 것은 대규모 vision-language 데이터셋의 등장이다. Conceptual Captions라는 데이터셋은 이미지와 캡션 쌍을 수작업 없이 웹에서 자동으로 수집하여 약 3,310,000 쌍의 대규모 데이터셋을 구축할 수 있었다. Conceptual Captions이 등장하기 전, 가장 규모가 컸던 MS-COCO 데이터셋이 약 120,000개의 이미지를 가지고 있었다. Conceptual Captions는 수작업이 필요하지 않은 데이터셋으로 구축되어 MS-COCO보다 무려 25배 이상 데이터셋 크기를 증가시켰다. 그렇다면 이 데이터를 어떤 모델로 학습시킬까? [ 2 ] VILBE..

멀티모달인공지능 2025.06.05
이전
1
다음
더보기
프로필사진

하수하따를 실천하는 블로그!

  • 분류 전체보기 (99)
    • 이산수학 (10)
    • 컴퓨터구조 (7)
    • 운영체제 (8)
    • 자연어처리 (12)
    • 데이터베이스 (2)
    • 컴퓨터네트워크 (9)
    • 엣지컴퓨팅 (10)
    • 멀티모달인공지능 (3)
    • Flutter (6)
    • Boj (15)
    • 알고리즘 (9)
    • 응용통계학 (2)
    • 키보드 제작기 (0)

Tag

백준, cs224n, 자연어처리, 운영체제, 정렬알고리즘, 유클리드알고리즘, 4차산업혁명시대의이산수학, 그리디, 유클리드호제법, OSTEP, flutter, BOJ, 컴퓨터구조, C++, 알고리즘, 플러터, 연습문제풀이, OS, 김대수, 이산수학,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

티스토리툴바