[부스트캠프 AI Tech] RecSys Level 02 - Movie Recommendation KPT 회고
·
AI
Level 2 마무리부스트캠퍼가 된지 어느덧 15주가 지나, 마지막 Level(과정)만을 남겨두고 있다. 지난 포스팅에서 Lv1 첫 프로젝트 회고를 작성했고 이번 포스팅에서는 Lv2 마지막 경진대회형 프로젝트에서 진행한 작업 과정, 그리고 정신적 성장을 위한  KPT 회고까지 작성해보려 한다.이번 대회는 추천시스템 벤치마크 데이터셋인 MovieLens 데이터를 바탕으로 영화 추천 시스템을 구축해, 높은 Recall@10 값을 도출하는 것이 최종 목표이다.문제 정의/목표문제: 사용자의 영화 시청 이력을 기반으로 다음에 시청할 영화 및 좋아할 영화를 Top-K 형태로 추천해야 한다.목표: 정의한 문제의 핵심은 다음에 시청할 영화와 중간에 비어있는 timestamp에 시청했을 영화를 예측하는 것으로, seq..
[부스트캠프 AI Tech] RecSys Level 01 KPT 회고
·
AI
어느새 부스트캠프의 RecSys 도메인에 참여한 지도 7주차가 되었다.매일매일 코어타임마다 zoom에 접속해 팀원들과 공부도 하고 오피스아워나 마스터클래스를 통해 현업자 분들에게 다양한 인사이트를 공유받기도 했다. 살면서 이렇게 짧은 시간 내에 많은 것을 배우고, 다양한 사람들을 만날 수 있었던 환경도 없었다고 생각한다. 내일부터 Level 02가 시작되는데 가장 회고하기 좋은 시점인 지금 배운 것들과 느낀 것들을 이야기해보고자 한다. 학습 커리큘럼에 대해 이야기해보자면 5주 간 DL/ML의 이론과 코드에 대해 습득했고, 지난 6주차부터 팀원들과 함께 비트코인의 등락률을 예측하는 시계열 경진대회에 참가했다. 짧은 시간 내에 많은 것들을 얻었기 때문에 대회 과정에서 새로 습득한 지식들과 느낀 점 , 또 한..
[Python] 자연어처리 - TfidfVectorizer
·
AI
직접 지정한 키워드들을 바탕으로 각 텍스트가 키워드의 특성을 얼마나 반영하고 있는지를 임베딩으로 나타내기 위해 TF-IDF 매트릭스를 사용하기로 했다.공식문서TF-IDF주로 문서간 유사성/연관성을 판단하고 싶을 때 사용한다.단어(term) 별로 문서의 정보를 얼마나 가지고 있는지를 나타내는 값이다.TF - Term Frequency문서가 있을 때 단어가 여러번 출현하면, 문서와 연관성이 높은 단어일 것이다 -> tf score를 높게 측정그러나, TF score만 고려한다면 불용어까지 연관성을 높게 책정할 위험성 ↑IDF - Inverse Document Frequency어느 문서에서나 자주 등장하는 단어들은 문서와 연관성이 낮은 단어일 것이다. -> idf score를 낮게 측정 => 문서 또는 문장에..
[자료구조] 우선순위 큐 (파이썬 heapq 사용법)
·
알고리즘
queue란?큐는 가장 먼저 삽입된 데이터를 가장 먼저 삭제하는 FIFO(First in First out) 자료구조형이다. rear(한쪽 끝)에 데이터가 추가되고,front(다른쪽 끝)에서 데이터가 삭제되는 방식이다.heap이란?우선순위 큐를 구현하기 위해서는 다양한 자료형을 사용할 수 있는데 그 중 힙은 완전 이진 트리를 기반으로, 삭제 / 삽입에 O(log n) 소요되어 효율적으로 구현할 수 있다.최소 힙 또는 최대 힙으로 나뉘며, 최소 힙은 부모 노드가 자식 노드보다 작거나 같은 값을 가지는 구조이다.파이썬의 heapq 라이브러리는 최소 힙을 사용해서 priority 값이 낮을수록 먼저 삭제 된다. 우선순위 큐heap 힙 자료구조는 우선순위 큐를 구현하기 위해 사용하는 자료구조이다.우선순위 큐는 ..