Abstract
범용적으로 사용되는 LLM에서 high-stake domain의 경우 hallucination, reasoning 등의 issue에 대한 논의가 많이 진행되어 왔다.
구체적 지식을 활용하는 task에서는 explainable KG를 도입하는 시도들이 진행되어 왔으나, triple로 구조화된 knowledge graph와 추상적인 자연어를 결합하는 태스크에서 challenge가 있어 왔다.
본 논문은 1. KG에서 구체적 지식을 효과적으로 추출하는 방법, 2. reasoning model인 LLM이 structured graph를 더 잘 이해할 수 있도록 하는 method를 제시한다.
Retrieving Candidate Knowledge Triples
question $q$와 knowledge graph \mathcal{G}를 기반으로 knowledge를 추출하기 위해 CoT 프롬프팅을 활용한다.
$q$에 대한 LLM의 reasoning process를 ${c^1, ..., c^j}$로 표현한 뒤, reasoning 과정과knowledge triple $t \oplus \mathcal{G_t}$를 KG retrieval model에 넣은 값의 유사도를 비교해, triple candidate를 형성한다.
Utilizing KGs Effectively and Efficiently in LLMs
Language model이 상식, 도메인 지식을 동반하는 답변을 할 수 있도록 knowledge graph를 사용하는 추세이며, 그 중 Retrieval-augmented method는 reasoning 과정의 사실성을 높일 수 있도록 정보(question-relevant triples, subgraphs)를 knowledge graph로부터 추출한다. LLM이 KG 형태의 representation 이해를 높일 수 있도록, 본 논문은 3가지 방법을 도입한다.
- YAML format KG
- 기존 format은 하나의 head entity에서 파생되는 relation이 많을 경우, 중복되는 token 개수가 많아질 수 있다.
- YAML 포맷으로 데이터를 저장한다면, triple을 linearize하며 token 개수를 줄여 efficiency를 향상할 수 있다.
- YAML format은 현재 사전학습된 LLM에게 익숙치 않은 문법일 수 있기에, 본 논문은 3가지 graph-related instruction-tuning tasks를 제시한다.
- Entity-level tasks ⇒ LLM이 entity의 neighbor에 기반해 reasoning
- Relationship-level tasks ⇒ entity 사이의 관계를 reasoning
- Graph-level tasks ⇒ KG의 semantic(문법?)을 이해하고 자연어로 convert
- KG-to-text dataset 사용
- <Instrution과 $l$ 이전 token들>을 기반으로 predict된 token $l$이 있을 때, label값에 해당하는 $y^l$과 cross-entropy loss 기반 학습을 진행한다.

- Continual KG Pre-training
- KG에 임베딩된 structured knowledge를 LLM이 더 잘 이해할 수 있도록 Knowledge Graph를 통째로 YAML 포맷에 맞추어 학습시킨다.
- KG structure인 pre-training data $x$를 기반으로 LLM이 KG structure를 이해하는 것을 목적으로 한다.

- KG-based Reasoning Training
- KG를 multi-hop reasoning에 어떻게 활용할지
- retrieve된 noisy knowledge를 어떻게 관리할지
- ⇒ 파인튜닝되지 않은 Retrieval Model과 reasoning 능력이 뛰어난 LLM을 사용해 LLM이 Knowledge Graph를 더 잘 사용할 수 있게끔 한다.