멀티모달인공지능 2

[EECS-498-007-598-005] 8. Image Captioning (3)

1. Drawback of Seq2Seq Architecture지난 시간 배웠던 Seq2Seq 아키텍처에서는 다음과 같은 문제가 있었다. 1. Encoder에서 Decoder로 넘겨주는 정보가 마지막 hidden state, 즉 하나의 임베딩 벡터 뿐이므로 문장이 길어질 수록 하나의 임베딩 벡터에 모든 정보를 다 잘 담기 어렵다는 문제가 발생한다. 이를 Information bottleneck 이라고 한다.2. 또한 Encoder와 Decoder 사이의 상호작용이 없다. 전달하는 것은 Encoder에서 Decoder로 넘기는 임베딩 벡터 하나 뿐이다. 이러한 문제를 해결하기 위해 등장한 후속 연구가 Attention Mechanism 이다. 2. Attention Mechanism in Machine..

CNN(Convolution Neural Network)이란

🌟 CNN(Convolution Neural Network, 합성곱 신경망)은 이미지 처리에 널리 사용되는 딥러닝 모델이다. Convolution Layer와 Pooling Layer를 반복적으로 거치며 이미지의 특징을 추출한 뒤, 이 특징들을 가지고 Fully Connected Layer에서 Classification을 수행한다.  ▶︎ CNN의 등장 배경 : FCN이 이미지 처리에 적합하지 않음기존 Fully Connected Layer로만 이루어진 Neural Network는 단일 1차원 벡터를 input으로 받고, hidden layer를 거쳐 output을 내놓는다. 하지만 정형데이터화 된 이미지는 'width * height * channel'의 배열이므로 기존 Neural Network에 ..