카테고리 없음
Word2Vec의 방법론 두가지(CBow, Skip-gram)
ROSEV
2021. 8. 1. 17:53
Word2Vec은 말그대로 단어를 벡터로 나타내는 방법으로, 많이 사용되는 임베딩 방법중 하나입니다.
컴퓨터는 글자를 0과 1로 표현해야, 이해할 수 있기 때문에 벡터화를 해주는 것입니다.
임베딩은, 벡터화를 할 때 0과 1로 나타내는 것에서 연속적인 값을 가질 수 있도록 합니다. 즉 기존 원핫인코딩으로 (0,1)로만 표현하게 되면 두 문장의 유사도를 계산 할 수 없습니다 왜냐하면 내적이 0 이 되기 때문입니다 그래서 두 문장의 관계를 임베딩으로 표현하여 연속적인 [0.44, 0.22]를 벡터로 나타내는 것입니다.
1) CBow
: 주변 단어에 대한 정보를 기반으로 중심 단어의 정보를 예측하는 모델
2)Skip-gram
중심 단어의 정보를 기반으로 주변 단어의 정보를 예측하는 모델
