본문 바로가기

분류 전체보기22

[Python] 자연어처리 - TfidfVectorizer 직접 지정한 키워드들을 바탕으로 각 텍스트가 키워드의 특성을 얼마나 반영하고 있는지를 임베딩으로 나타내기 위해 TF-IDF 매트릭스를 사용하기로 했다.공식문서TF-IDF주로 문서간 유사성/연관성을 판단하고 싶을 때 사용한다.단어(term) 별로 문서의 정보를 얼마나 가지고 있는지를 나타내는 값이다.TF - Term Frequency문서가 있을 때 단어가 여러번 출현하면, 문서와 연관성이 높은 단어일 것이다 -> tf score를 높게 측정그러나, TF score만 고려한다면 불용어까지 연관성을 높게 책정할 위험성 ↑IDF - Inverse Document Frequency어느 문서에서나 자주 등장하는 단어들은 문서와 연관성이 낮은 단어일 것이다. -> idf score를 낮게 측정 => 문서 또는 문장에.. 2024. 7. 30.
[자료구조] 우선순위 큐 (파이썬 heapq 사용법) queue란?큐는 가장 먼저 삽입된 데이터를 가장 먼저 삭제하는 FIFO(First in First out) 자료구조형이다. rear(한쪽 끝)에 데이터가 추가되고,front(다른쪽 끝)에서 데이터가 삭제되는 방식이다.heap이란?우선순위 큐를 구현하기 위해서는 다양한 자료형을 사용할 수 있는데 그 중 힙은 완전 이진 트리를 기반으로, 삭제 / 삽입에 O(log n) 소요되어 효율적으로 구현할 수 있다.최소 힙 또는 최대 힙으로 나뉘며, 최소 힙은 부모 노드가 자식 노드보다 작거나 같은 값을 가지는 구조이다.파이썬의 heapq 라이브러리는 최소 힙을 사용해서 priority 값이 낮을수록 먼저 삭제 된다. 우선순위 큐heap 힙 자료구조는 우선순위 큐를 구현하기 위해 사용하는 자료구조이다.우선순위 큐는 .. 2024. 6. 14.
[프로그래머스] lv3. 순위 (파이썬 Python) 순위 문제n명의 권투선수가 권투 대회에 참여했고 각각 1번부터 n번까지 번호를 받았습니다. 권투 경기는 1대1 방식으로 진행이 되고, 만약 A 선수가 B 선수보다 실력이 좋다면 A 선수는 B 선수를 항상 이깁니다. 심판은 주어진 경기 결과를 가지고 선수들의 순위를 매기려 합니다. 하지만 몇몇 경기 결과를 분실하여 정확하게 순위를 매길 수 없습니다.선수의 수 n, 경기 결과를 담은 2차원 배열 results가 매개변수로 주어질 때 정확하게 순위를 매길 수 있는 선수의 수를 return 하도록 solution 함수를 작성해주세요. 입출력 예시 제한사항- 선수의 수는 1명 이상 100명 이하입니다.- 경기 결과는 1개 이상 4,500개 이하입니다.- results 배열 각 행 [A, B]는 A 선수가 B 선수.. 2024. 5. 30.
[백준] 🥈10816번 숫자 카드2 10816번 문제숫자 카드는 정수 하나가 적혀져 있는 카드이다. 상근이는 숫자 카드 N개를 가지고 있다. 정수 M개가 주어졌을 때, 이 수가 적혀있는 숫자 카드를 상근이가 몇 개 가지고 있는지 구하는 프로그램을 작성하시오. 입력첫째 줄에 상근이가 가지고 있는 숫자 카드의 개수 N(1 ≤ N ≤ 500,000)이 주어진다. 둘째 줄에는 숫자 카드에 적혀있는 정수가 주어진다. 숫자 카드에 적혀있는 수는 -10,000,000보다 크거나 같고, 10,000,000보다 작거나 같다.셋째 줄에는 M(1 ≤ M ≤ 500,000)이 주어진다. 넷째 줄에는 상근이가 몇 개 가지고 있는 숫자 카드인지 구해야 할 M개의 정수가 주어지며, 이 수는 공백으로 구분되어져 있다. 이 수도 -10,000,000보다 크거나 같고, .. 2024. 5. 12.