1) Limitation of CLIPCLIP은 Data Scale을 매우 늘려(4억 개의 image-text pair) Contrasitive Learning 기반의 pre-training을 수행했고, Zero-shot image classification과 Zero-shot image-text retrieval 도 수행할 수 있게 되는 성과를 보여주었다. 그러나 이러한 CLIP에도 한계점이 존재한다. 크게 세 가지로 정리할 수 있다. 1️⃣ 첫째, CLIP은 Vision과 Language 모달리티 간의 상호작용이 약하다. 아래 CLIP의 아키텍처를 보면 모달리티 간 상호작용이 이루어지는 부분은 Text 임베딩과 이미지 임베딩의 코사인 유사도를 구하는 것이다. 독립적으로 각각의 모달리티에서 임베딩을 ..