프로젝트 배경
1) 예상 리스크 및 대응 계획 - 동일 인물 확인을 위해 LLM 호출 비용과 판별 정확도 사이의 균형을 맞추는 구조화 프롬프트 설계 - 900명 기부자 대상 매일 정기 크롤링 시 API 요청 한도·속도 제한 내에서 안정적 수집 파이프라인 유지 - 내부 DB 기부자 레코드와 뉴스 수집 결과 간 매핑 오류를 자동 감지하고 담당자 검토 큐로 분리하는 데이터 정합성 워크플로 설계 2) 프로젝트 목표 -
프로젝트 성과
LLM 동명이인 판별 파이프라인 설계
기부자 프로필(직함·소속·생년월일)을 컨텍스트로 주입하는 구조화 프롬프트를 설계하고, 판별 신뢰도 점수와 판별 근거를 JSON으로 반환해 담당자 검토 우선순위 자동 정렬 구조를 구축합니다.
골든 타이밍 스코어 산출 엔진 구현
뉴스 감성·이슈 유형·접촉 이력을 YAML 가중치 기반으로 합산하는 스코어 엔진을 구현하고, 고점수 기부자 대상 맞춤 접촉 메일 초안을 Claude API로 자동 생성하는 워크플로를 설계합니다.
멱등 감사 로그 파이프라인 설계
모든 수집·LLM 판별 요청과 응답을 PostgreSQL JSONB audit_log에 보존하여 오류 발생 시 데이터 재처리가 가능한 멱등 파이프라인 구조를 구현합니다.
Celery Beat 정기 크롤링 스케줄러 구현
Redis 브로커 기반 Celery Beat로 기부자 900명 대상 매일 정해진 시각에 뉴스 API 크롤링을 실행하고, 소스별 요청 속도 제한을 고려한 배치 분산 수집 구조를 설계합니다.
핵심 기능
진행 단계
데이터 수집 파이프라인 구축
2026.04.
Celery Beat + Redis로 정기 크롤링 스케줄러 구성, Naver/Google News API 연동, 기부자 900명 ID 매핑 테이블 설계
프로젝트 상세
1) 포트폴리오 소개 재단 기부자 900명을 대상으로 매일 뉴스를 자동 수집하고, LLM 기반 동명이인 판별·요약, 기부 제안 타이밍 점수화를 통합한 내부 CRM 대시보드를 설계·구현합니다. 담당자 10명이 효율적으로 기부자 접근 시점을 파악할 수 있도록 전체 파이프라인을 단일 UI로 통합합니다. 2) 작업 범위 - 통합 모니터링 대시보드: 수집된 뉴스 건수, 판별 대기 건수, 오늘의 골든 타이밍 기







