포트폴리오
1) LLM 기반 데이터 메타 검색 서비스 제공
- 배경
- 사내 50,000여 개 테이블 메타데이터가 분산·방치되어 있어 기존 키워드 검색(ES 기반)으로는 Precision 62%, 평균 탐색 120초 소요. 이를 개선하기 위해 RAG 아키텍처를 도입하고, 검색·추천·설명·카테고리화 기능을 단계적으로 개선
- 역할·기여
- BGE M3 임베딩으로 메타데이터 벡터화 → LLM 기반 자연어 챗봇 서비스 제공
- 임베딩 벡터 간 유사도 계산으로 Top‑N 테이블 추천 기능 추가
- 사내 용어사전·샘플데이터 활용 LLM 기반 컬럼·테이블 설명 생성 → 누락된 설명 100% 보완
- 클러스터링으로 카테고리화, LLM으로 다중 해시태그 자동 부착
- Next.js로 자연어 질의 UI 개발
- Airflow 기반 임베딩, 컬럼/테이블 설명 생성, 해시태그 생성 파이프라인 구축
- Kubernetes 클러스터에 컨테이너 배포·운영, ArgoCD·GitHub Actions로 CI/CD 파이프라인 구축
- 성과
- 검색 Precision 62% → 88% (+26%p)
- 평균 응답 시간 120초 → 30초 (–75%)
- 추천 클릭률(CTR): 15% → 35% (+20%p)
- 설명 커버리지: 68% → 100% (+32%p)
- 월 평균 조회 건수: 1,200 → 1,800 (+50%)
- 배운 점
- 사용자 피드백의 중요성: 사용자 질의 로그를 분석 및 피드백을 기반으로 프롬프트 개선 및 클러스터링 개수를 조정함하여 검색 정밀도와 생성 결과물 품질 향상 시킴
- 도메인 용어 사전 중요성: 사내 용어사전 RAG를 통해 테이블/컬럼 설명 생성 품질 향상
- GitOps 기반 CI/CD의 안정성: ArgoCD·GitHub Actions로 배포 프로세스를 자동화하여, 변경점 반영 속도가 3배 개선 및 롤백 리스크 감소
- 모니터링 지표의 중요성: Precision·응답 시간·CTR 등 핵심 메트릭을 대시보드로 모니터링하여, 문제 발생 시 빠른 원인 파악과 대응이 가능해짐
2) 데이터 디스커버리 플랫폼 개발 & 아키텍처 팀 리딩
- 배경
- 메타 데이터 카탈로그 부재로 신규·비정형 데이터 탐색이 어려움
- 역할·기여
- Datahub 기반 메타 카탈로그 설계·구축
- Airflow DAG로 메타 파이프라인 자동화, 모니터링 태스크 구현
- Kubernetes 환경에 Datahub·Airflow·서비스 컴포넌트 배포 자동화
- ArgoCD로 GitOps 워크플로우 운영, 팀원 4명 온보딩·코드 리뷰 리딩
- 성과
- 플랫폼 가용성 99.5% → 99.9%
- 3개월간 신규 사용자 600 → 1800 (+300%)
- 배운 점
- 확장 가능한 데이터 거버넌스 아키텍처 설계
- 협업과 코드 리뷰를 통한 팀 생산성 극대화
3) 반도체 설비 데이터(12TB/일) 배치 파이프라인 구축
- 배경
- 하루 12TB 규모 설비 로그 데이터를 안정적·정시 처리해야 하는 과제
- 역할·기여
- Airflow DAG 설계 및 스케줄링
- Spark 기반 ETL 스크립트로 데이터 정제·변환 구현
- 작업 성공/실패, 소요 시간, 처리량 대시보드 구축
- 장애 알림·자동 재수행 로직 적용
- 성과
- 파이프라인 성공률 92% → 99.8%
- 배치 처리 시간 4h → 2.5h (–37.5%)
- 수동 개입 건수 1건/분기
- 배운 점
- 대용량 ETL 최적화를 위한 병렬 처리·리소스 튜닝
- 모니터링·알림 자동화로 운영 효율성 확보