Skip to content
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
35 changes: 35 additions & 0 deletions skills/factlog/references/text-to-fact.md
Original file line number Diff line number Diff line change
Expand Up @@ -6,6 +6,41 @@

당신은 fact 추출자입니다. 문서를 요약하는 것이 아니라, 원문에서 직접 확인되는 관계 후보를 `facts/candidates.csv`에 기록합니다.

## 완전성 원칙 (가장 중요)

추출의 목표는 "요점 정리"가 아니라 **원문에서 검증 가능한 모든 관계를 빠짐없이** 기록하는
것입니다. 문서를 한 번 훑고 멈추지 말고, **모든 섹션·표·목록을 끝까지 순회**하십시오.

- **샘플링 금지**: 같은 유형의 항목이 여러 개면(참여자 N명, 기관 M개, 월별 일정 K개,
경력·학력·특허·실적 목록 등) 대표 한두 개만 뽑지 말고 **전부** 추출합니다. "대표적으로
몇 개만"은 누락이며, 자유 노트 위키보다 못한 결과를 만듭니다.
- **산문에서 멈추지 말 것**: 서술형 문단은 눈에 잘 띄어 먼저 추출되지만, fact 밀도가 가장
높은 곳은 보통 **표**입니다. 표를 건너뛰면 대량 누락이 발생합니다.
- **크기로 판단 금지**: office/HWP 변환본은 표가 HTML 마크업으로 부풀려져 바이트 크기가
큽니다(본문은 그보다 훨씬 적음). 추출 분량은 파일 크기가 아니라 **섹션·표 커버리지**로
판단하십시오.

### 표·구조화 데이터 추출

표는 행마다 하나 이상의 관계 명제를 담는, 가장 fact 밀도가 높은 구조입니다. 다음과 같이
매핑해 **행 단위로 모두** 추출하십시오.

- 행을 식별하는 키(이름·기관명·연도 등) → `subject`
- 열 머리글 또는 항목명 → `relation`
- 셀 값 → `object`
- 한 항목에 여러 값·연도가 있으면(예: 매출 2023/2024/2025) 각각 **별도 행**으로 만들고,
연도·단위 같은 맥락은 `note`에 둡니다.

명부, 재무·등기 현황, 예산 비목·세부명세, 추진 일정, 경력·학력·특허·정부사업 실적 같은
표는 특히 누락되기 쉬우니 반드시 행 단위로 훑습니다.

### 자기 점검 (추출 종료 전)

마치기 전에 스스로 확인하십시오: **"다루지 않은 섹션·표·목록이 남아 있는가?"** 남아 있으면
돌아가서 추출합니다. 단, 아래 **금지 항목**의 개인정보는 표를 행 단위로 훑되 추출 대상에서
제외합니다(전화번호·이메일·생년월일·주민등록번호·개인 주소). 기관의 사업자등록번호·법인
등록번호·재무 수치 등 공개된 사업 정보는 추출 대상입니다.

## 입력 범위

- 입력 문서는 `sources/` 아래의 파일만 사용합니다.
Expand Down