지난 포스팅에서 우리는 Word2vec의 손실함수를 Optimization 하는 과정에 대해 배웠다. (참조 2024.03.19 - [자연어처리] - [자연어처리 CS224N] #2-1. Word2Vec Optimization (SGD)) 그런데 지난 글에서 알아본 바로는 우리는 cross entropy 연산을 통해 구한 오차로부터 임베딩 테이블에 있는 모든 단어에 대한 임베딩 벡터 값을 업데이트 한다고 했다. 단어 집합의 크기가 매우 크다면 이 작업은 굉장히 오랜 시간이 걸릴 것이다. 크게 중요하지 않은 계산까지도 모두 거쳐야 하기 때문에 연산량이 매우 많고 비효율적이다. 그래서 이를 해결하기 위해 negative sampling을 사용한다. 이 방법은 Word2vec이 학습 과정에서 전체 단어 집합이..