[NLP] 언어모델의 평가 지표 - PPL, BLEU score
·
AI
이미지 태스크와 달리 NLP에서는 모델의 성능을 평가하기 위해서는 정답 문장과 예측 문장 사이의 연관성을 평가해야 한다. BLEU score(↑) : 정답 문장과 예측 문장 사이에 n-gram이 겹치는 정도의 기하평균 PPL score(↓) : token 예측 확률 q의 역수를 기하평균 - “혼란이 적어질수록, 원하는 결과를 얻을 수 있는 확률이 높아진다” BLEU score BLEU score를 이해하기 위해서는 precision과 N-gram에 대한 이해가 선행되어야 한다. precision : #(correct words) / (length_of_prediction) N-gram : 연속적인 단어들을 의미 -> 둘을 합치면? 각 N-gram 에서의 precision을 구할 수 있다. BLEU sco..
[PyTorch] Transformers 라이브러리 #2
·
AI
Hugging Face 🤗 사에서 제공하는 Transformers Course를 한국어 버전으로 혼자 공부하며 정리한 글입니다. 1장에서 소개한 pipeline() 함수를 대체하기 위해, 직접 model과 tokenizer를 함께 사용한다. tokenizer는 텍스트 입력을 수치 데이터(numerical data)로 변환하고, 이 수치 데이터를 다시 텍스트로 변환하는 기능을 수행한다. model은 적합한 모델 아키텍처를 불러와 학습을 진행하는 기능을 수행한다. 파이프라인은 전처리, 모델로 입력 전달, 후처리의 3단계를 한 번에 실행한다. 모델 / 토크나이저 불러오기 config() 기본 설정에서 모델을 생성하는 방법도 있지만, 보통 사전 학습된 Transformer 모델을 로드해온다. from_pretr..
[PyTorch] Transformer 라이브러리 #1
·
AI
Hugging Face 🤗 사에서 제공하는 Transformers Course를 한국어 버전으로 혼자 공부하며 정리한 글입니다. Transformers 라이브러리의 첫 번째 도구, pipeline() 함수 이용하기 파이프라인 함수에 텍스트가 입력되면, 주요 3가지 단계가 내부적으로 실행된다. preprocessing 입력 텍스트 모델에 전달 postprocessing zero shot classification 파이프라인에서는 기존에 라이브러리에서 제공하는 레이블이 아닌 새로운 레이블 집합을 사용해서 텍스트를 분류할 수 있도록 하는 classifier이다. pipeline에서 기본적으로 제공하는 라이브러리로 사용할 수 있다. from transformers import pipeline classifier..
[데이터베이스] #3 데이터 모델링, 관계 데이터 모델
·
Computer Science
04. 데이터 모델링 현실 세계의 데이터를 컴퓨터 세계의 데이터베이스로 옮기는 과정을 데이터 모델링이라고 한다. 사람 머릿속에 코끼리를 연상시킬 수 있는 중요한 데이터를 찾아 개념 세계로 옮기는 단계와, 이를 컴퓨터 세계에 저장하는 구조를 결정해서 표현하는 단계로 나누어 진행한다. 현실 세계에서 코끼리에 대한 중요 데이터를 추출해서 개념 세계로 옮기는 작업을 개념적 모델링이라고 하고, 개념 세계의 데이터를 컴퓨터의 데이터베이스 구조로 표현하는 작업을 논리적 모델링이라고 한다 데이터 모델은 데이터 모델링의 결과를 표현하는 도구로, 개념적 데이터 모델과 논리적 데이터 모델로 나눌 수 있다. 개념적 데이터 모델 : 현실 세계를 개념 세계로 추상화했을 때 어떤 요소로 이루어져 있는지 표현하는 개념적 구조. ex..