[PyTorch] Transformer 라이브러리 #1
·
AI
Hugging Face 🤗 사에서 제공하는 Transformers Course를 한국어 버전으로 혼자 공부하며 정리한 글입니다. Transformers 라이브러리의 첫 번째 도구, pipeline() 함수 이용하기 파이프라인 함수에 텍스트가 입력되면, 주요 3가지 단계가 내부적으로 실행된다. preprocessing 입력 텍스트 모델에 전달 postprocessing zero shot classification 파이프라인에서는 기존에 라이브러리에서 제공하는 레이블이 아닌 새로운 레이블 집합을 사용해서 텍스트를 분류할 수 있도록 하는 classifier이다. pipeline에서 기본적으로 제공하는 라이브러리로 사용할 수 있다. from transformers import pipeline classifier..
[데이터베이스] #3 데이터 모델링, 관계 데이터 모델
·
Computer Science
04. 데이터 모델링 현실 세계의 데이터를 컴퓨터 세계의 데이터베이스로 옮기는 과정을 데이터 모델링이라고 한다. 사람 머릿속에 코끼리를 연상시킬 수 있는 중요한 데이터를 찾아 개념 세계로 옮기는 단계와, 이를 컴퓨터 세계에 저장하는 구조를 결정해서 표현하는 단계로 나누어 진행한다. 현실 세계에서 코끼리에 대한 중요 데이터를 추출해서 개념 세계로 옮기는 작업을 개념적 모델링이라고 하고, 개념 세계의 데이터를 컴퓨터의 데이터베이스 구조로 표현하는 작업을 논리적 모델링이라고 한다 데이터 모델은 데이터 모델링의 결과를 표현하는 도구로, 개념적 데이터 모델과 논리적 데이터 모델로 나눌 수 있다. 개념적 데이터 모델 : 현실 세계를 개념 세계로 추상화했을 때 어떤 요소로 이루어져 있는지 표현하는 개념적 구조. ex..
[NLP] BERT 논문 리뷰, 개념 정리
·
논문 리뷰
👩🏻‍💻 본 포스팅은 개인적 공부를 위해 BERT를 정리한 포스팅으로, 오류가 있을 수 있습니다.1. Introduction 이전에 언어 모델 pre-training 연구들이 많이 되어 옴. pre-trained 언어 모델을 적용하는 데에는 총 두 가지 방법이 존재했음. feature-based ELMo는 pre-trained representation을 추가적 피처로 사용하는 task-specific 모델들을 다룸. fine-tuning GPT는 최소한의 task-specific 파라미터를 사용하는 대신, 모든 pre-trained 파라미터를 “전부”를 파인튜닝하여 사용하였음. 두 모델은 전부 pre-training 단계에서 단방향 언어 모델이 사용하는 동일한 함수를 사용함. 특히 파인튜닝을 요구하는 ..
[데이터베이스] #2 데이터베이스 시스템
·
Computer Science
데이터베이스 시스템 데이터베이스에 데이터를 저장하고, 이를 관리하여 조직에 필요한 정보를 생성해주는 시스템 -> 정보 : 데이터를 토대로 의미있는 내용을 도출한 것 스키마와 인스턴스 스키마 데이터베이스에 저장되는 데이터 구조와 제약조건을 정의한 것 class, definition의 개념 인스턴스 스키마에 따라 데이터베이스에 실제로 저장된 값 object, 실체화된 내용임 3단계 데이터베이스 구조 ANSI/SPARC에서 데이터베이스를 쉽게 이해하고 이용할 수 있도록 하나의 데이터베이스를 관점에 따라 세 단계로 나눔. 외부 단계 : 개별 사용자 관점 데이터베이스 하나에 대해 여러 개의 외부 스키마가 존재할 수 있음 개별 사용자마다 필요한 데이터가 다르므로 -> 사용자마다 정의하는 외부 스키마가 다름 실제로는..
[데이터베이스] #1 데이터베이스 기본 개념, 관리 시스템 DBMS
·
Computer Science
데이터베이스의 정의 => 특정 조직의 여러 사용자가 공유하여 사용할 수 있도록 통합해서 저장한 운영 데이터의 집합 공유 데이터 - 특정 조직의 여러 사용자가 함께 소유하고 이용할 수 있는 공용 데이터 통합 데이터 - 최소의 중복과 통제 가능한 중복만 허용하는 데이터 혹시 중복이더라도, 통제가 가능하다. 통합을 활용하면 중복을 최소화할 수 있음 저장 데이터 - 컴퓨터가 접근할 수 있는 매체에 저장된 데이터 운영 데이터 - 조직의 주요 기능을 수행하기 위해 지속적으로 꼭 필요한 데이터 데이터베이스의 특징 실시간 접근 모아서 한 번에 처리하지 않고, 사용자의 응답에 최선을 다해 빠른 속도로 응답함 계속 변화 동시 공유 내용 기반 참조 일반적인 programming language와의 차이가 존재함. progr..
[Computer Vision] ResNet (Deep Residual Learning for Image Recognition)
·
논문 리뷰
👩🏻‍💻 본 포스팅은 개인적 공부를 위해 ResNet을 정리한 포스팅으로, 오류가 있을 수 있습니다. 1. Introduction - Background, Problem Statement 딥러닝 모델에 있어 network 'depth'의 중요성이 대두되며, deeper networks (layer를 층층이 쌓아 깊게 쌓은 구조)들이 많이 등장하기 시작했다. 다만, layer를 깊게 쌓게 되면 layer를 쌓을수록 정확도가 떨어지는 degradation 문제가 발생한다. 이 degradation 문제는 오버피팅에 의해서 발생하는 것이 아니다(오버피팅이라면 train 에러는 낮되, test 에러는 높아야함). 아래 Figure 1에서 볼 수 있듯 깊은 56번째 layer에서는 train과 test 모두 에러..
[PyTorch] M1, M2 칩으로 Pytorch GPU 사용하기
·
AI
글쓴이는 현재 M2 맥북 에어 환경에서 딥러닝 학습을 진행하고 있다. 본래 tensorflow 기반의 학습만 진행하다가 이번에 새로 pytorch 환경을 사용하게 되어서 Apple Silicon OS에서 pytorch 환경을 구축하게 되었다.cuda 환경은 MacOS와 호환이 불가하기 때문에,  M1 M2 환경에서 pytorch를 사용할 수 있는 mps 장치 적용 방법에 대해서 알아보도록 하겠다. 💻 MPS란?MPS 백엔드는 MacOS 장치에서 PyTorch 에코시스템을 확장하고 GPU에서 작업을 설정하고 실행할 수 있는 기존 스크립트 기능을 제공한다. 1. torch version 확인하기터미널을 키고, python과 torch 라이브러리 설치가 우선적으로 진행되어야 한다.torch 1.12.0 이상..
[RecSys] DeepFM : A Factorization-Machine based Neural Network for CTR Prediction
·
논문 리뷰
👩🏻‍💻 본 포스팅은 개인적 공부를 위해 추천시스템 모델인 DeepFM을 정리한 포스팅으로, 오류가 있을 수 있습니다. Introduction - Background, Problem Statement user behavior에서 사용되는 feature interaction이 복잡해짐에 따라, CTR을 maximize하는 것이 recsys에서 중요한 부분이 되었다. 다만 high-order interaction이나 low-order interaction을 모두 고르게 반영하는 모델이 부족하였다. - Difficulties / Existing Work *배경지식 low-order feature interaction, high-order feature interaction low-order feature in..
[이코테] 4장 구현
·
알고리즘
👩🏻‍💻 본 포스팅은 '(이코테 2021) 이것이 취업을 위한 코딩 테스트다 with 파이썬' 교재를 공부하고 풀이하며 정리한 글입니다. 예제 4-1 import sys n = int(sys.stdin.readline()) x,y = 1,1 dx = [0,0,-1,1] dy = [-1,1,0,0] move = ['L','R','U','D'] plans = sys.stdin.readline().split() for plan in plans: for i in range(len(move)): if plan==move[i]: if x + dx[i] > n or y + dy[i] > n or x + dx[i]< 1 or y + dy[i]