
[NLP] 언어모델의 평가 지표 - PPL, BLEU score
·
AI
이미지 태스크와 달리 NLP에서는 모델의 성능을 평가하기 위해서는 정답 문장과 예측 문장 사이의 연관성을 평가해야 한다. BLEU score(↑) : 정답 문장과 예측 문장 사이에 n-gram이 겹치는 정도의 기하평균 PPL score(↓) : token 예측 확률 q의 역수를 기하평균 - “혼란이 적어질수록, 원하는 결과를 얻을 수 있는 확률이 높아진다” BLEU score BLEU score를 이해하기 위해서는 precision과 N-gram에 대한 이해가 선행되어야 한다. precision : #(correct words) / (length_of_prediction) N-gram : 연속적인 단어들을 의미 -> 둘을 합치면? 각 N-gram 에서의 precision을 구할 수 있다. BLEU sco..