포트폴리오

1) LLM 기반 데이터 메타 검색 서비스 제공

배경

사내 50,000여 개 테이블 메타데이터가 분산·방치되어 있어 기존 키워드 검색(ES 기반)으로는 Precision 62%, 평균 탐색 120초 소요. 이를 개선하기 위해 RAG 아키텍처를 도입하고, 검색·추천·설명·카테고리화 기능을 단계적으로 개선

역할·기여

BGE M3 임베딩으로 메타데이터 벡터화 → LLM 기반 자연어 챗봇 서비스 제공
임베딩 벡터 간 유사도 계산으로 Top‑N 테이블 추천 기능 추가
사내 용어사전·샘플데이터 활용 LLM 기반 컬럼·테이블 설명 생성 → 누락된 설명 100% 보완
클러스터링으로 카테고리화, LLM으로 다중 해시태그 자동 부착
Next.js로 자연어 질의 UI 개발
Airflow 기반 임베딩, 컬럼/테이블 설명 생성, 해시태그 생성 파이프라인 구축
Kubernetes 클러스터에 컨테이너 배포·운영, ArgoCD·GitHub Actions로 CI/CD 파이프라인 구축

성과

검색 Precision 62% → 88% (+26%p)
평균 응답 시간 120초 → 30초 (–75%)
추천 클릭률(CTR): 15% → 35% (+20%p)
설명 커버리지: 68% → 100% (+32%p)
월 평균 조회 건수: 1,200 → 1,800 (+50%)

배운 점

사용자 피드백의 중요성: 사용자 질의 로그를 분석 및 피드백을 기반으로 프롬프트 개선 및 클러스터링 개수를 조정함하여 검색 정밀도와 생성 결과물 품질 향상 시킴
도메인 용어 사전 중요성: 사내 용어사전 RAG를 통해 테이블/컬럼 설명 생성 품질 향상
GitOps 기반 CI/CD의 안정성: ArgoCD·GitHub Actions로 배포 프로세스를 자동화하여, 변경점 반영 속도가 3배 개선 및 롤백 리스크 감소
모니터링 지표의 중요성: Precision·응답 시간·CTR 등 핵심 메트릭을 대시보드로 모니터링하여, 문제 발생 시 빠른 원인 파악과 대응이 가능해짐

2) 데이터 디스커버리 플랫폼 개발 & 아키텍처 팀 리딩

배경

메타 데이터 카탈로그 부재로 신규·비정형 데이터 탐색이 어려움

역할·기여

Datahub 기반 메타 카탈로그 설계·구축
Airflow DAG로 메타 파이프라인 자동화, 모니터링 태스크 구현
Kubernetes 환경에 Datahub·Airflow·서비스 컴포넌트 배포 자동화
ArgoCD로 GitOps 워크플로우 운영, 팀원 4명 온보딩·코드 리뷰 리딩

성과

플랫폼 가용성 99.5% → 99.9%
3개월간 신규 사용자 600 → 1800 (+300%)

배운 점

확장 가능한 데이터 거버넌스 아키텍처 설계
협업과 코드 리뷰를 통한 팀 생산성 극대화

3) 반도체 설비 데이터(12TB/일) 배치 파이프라인 구축

배경

하루 12TB 규모 설비 로그 데이터를 안정적·정시 처리해야 하는 과제

역할·기여

Airflow DAG 설계 및 스케줄링
Spark 기반 ETL 스크립트로 데이터 정제·변환 구현
작업 성공/실패, 소요 시간, 처리량 대시보드 구축
장애 알림·자동 재수행 로직 적용

성과

파이프라인 성공률 92% → 99.8%
배치 처리 시간 4h → 2.5h (–37.5%)
수동 개입 건수 1건/분기

배운 점

대용량 ETL 최적화를 위한 병렬 처리·리소스 튜닝
모니터링·알림 자동화로 운영 효율성 확보