[NLP] BERT 논문 리뷰, 개념 정리
·
논문 리뷰
👩🏻‍💻 본 포스팅은 개인적 공부를 위해 BERT를 정리한 포스팅으로, 오류가 있을 수 있습니다.1. Introduction 이전에 언어 모델 pre-training 연구들이 많이 되어 옴. pre-trained 언어 모델을 적용하는 데에는 총 두 가지 방법이 존재했음. feature-based ELMo는 pre-trained representation을 추가적 피처로 사용하는 task-specific 모델들을 다룸. fine-tuning GPT는 최소한의 task-specific 파라미터를 사용하는 대신, 모든 pre-trained 파라미터를 “전부”를 파인튜닝하여 사용하였음. 두 모델은 전부 pre-training 단계에서 단방향 언어 모델이 사용하는 동일한 함수를 사용함. 특히 파인튜닝을 요구하는 ..
[Computer Vision] ResNet (Deep Residual Learning for Image Recognition)
·
논문 리뷰
👩🏻‍💻 본 포스팅은 개인적 공부를 위해 ResNet을 정리한 포스팅으로, 오류가 있을 수 있습니다. 1. Introduction - Background, Problem Statement 딥러닝 모델에 있어 network 'depth'의 중요성이 대두되며, deeper networks (layer를 층층이 쌓아 깊게 쌓은 구조)들이 많이 등장하기 시작했다. 다만, layer를 깊게 쌓게 되면 layer를 쌓을수록 정확도가 떨어지는 degradation 문제가 발생한다. 이 degradation 문제는 오버피팅에 의해서 발생하는 것이 아니다(오버피팅이라면 train 에러는 낮되, test 에러는 높아야함). 아래 Figure 1에서 볼 수 있듯 깊은 56번째 layer에서는 train과 test 모두 에러..
[RecSys] DeepFM : A Factorization-Machine based Neural Network for CTR Prediction
·
논문 리뷰
👩🏻‍💻 본 포스팅은 개인적 공부를 위해 추천시스템 모델인 DeepFM을 정리한 포스팅으로, 오류가 있을 수 있습니다. Introduction - Background, Problem Statement user behavior에서 사용되는 feature interaction이 복잡해짐에 따라, CTR을 maximize하는 것이 recsys에서 중요한 부분이 되었다. 다만 high-order interaction이나 low-order interaction을 모두 고르게 반영하는 모델이 부족하였다. - Difficulties / Existing Work *배경지식 low-order feature interaction, high-order feature interaction low-order feature in..