아래 글 중 Data engineering 부분만 번역/정리하여 작성한 글입니다.
거시적 관점 : 생태계의 복잡성
- 데이터/AI 생태계는 언제까지 이렇게 트렌디 할까?
- 모든 회사가 SW 뿐만 아니라 데이터 회사가 되고 있다.
- 과거: 데이터는 각 회사에서 RDB에 데이터를 모으고 대시보드를 만드는것을 의미했다
- 현재: 지능형 자동화된 기업의 시대
- 분석/운영 목적으로 수많은 내부 프로세스와 외부 응용분야에 데이터와 AI를 내장시키고 있다.
- 회사 지표를 실시간으로 사용하고, AI 챗봇, 이탈율 예측, 보안 위협이 실시간 감지, 공급망이 자동으로 수요 변동에 적응하는 등
- 이러한 변화는 데이터 인프라와 ML/AI의 공생관계에 의해 만들어졌다.
- 2010년대 초, 엄청난 양의 데이터를 활용하기 위해 기술 구축에 초점을 둔 빅데이터 시대
- 10년 넘운 AI알고리즘(딥 러닝)에 빅데이터를 적용하여 놀라운 결과를 얻음 → AI의 흥분의 물결을 촉발
- AI는 데이터 인프라 개발을 위한 주요 요인이 되었다. AI를 사용하여 응용프로그램을 구축하기 위해서는 더 좋은 데이터 인프라가 필요하다.
- 21년까지 빅데이터 AI등이 하이프 사이클을 겪긴했다.
- 자동화와 ML/AI는 결국 동일한 메가 트렌드이다.
Data/AI 가속화 → 클라우드 DW/ Lake 성장
- DW는 데이터 인프라의 근본적인 요구 중 하나인 모든 데이터를 어디에 저장할것인가를 해결한다.
- 빅데이터 이야기가 나온지 15년이 지난 지금 해당 문제는 오래전에 해결됬다 생각할수도 있지만, 그렇지 않다.
- Hadoop의 성공은 약간 fake였다고도 볼수있다.
- 엄청난 양의 데이터를 처리하고 가치를 추출할 수있다는 인사이트를 주었긴함
- 다만 기술적 복잡성으로 소규모 회사로의 적용은 어려웠음
- 오늘날 클라우드 DW (snowflake, amazon redshift, googld bigquery)와 데이터 레이크(Databricks)는 비용이 크지 않고, 유지보수에 많은 리소스를 투입하지 않더라도 운영할수있도록 서비스를 제공한다.
- 이제서야 소규모 회사 또한 BigData를 저장하고 처리할수 있게 되었다. Data/AI 분야의 중요한 허들이 사라졌다.
- 클라우드 DW는 전체 데이터 및 AI 생태계에 대한 시장 규모를 증가시킴. 사용 편의성과 사용량 기반 가격책정으로 DW는 모든 회사가 데이터 회사가 될수있는 관문이 되었다.
- DW가 주변 에코시스템을 사용할 수 있게 해주었다.
- ETL, ELT, Reverse ETL, DW중심 quality tool, metrics store, augmented analytics 등
- “modern data stack” (which we discussed in our 2020 landscape)
- 많은 창업자들이 modern data stack을 스타트업 출시의 기회로 보았고 투자가 집중되었다 (DBT, Fiventran 등)
- DW부분을 아웃소싱할수있고, 나머지 고부가가치 프로젝트에 집중할수 있게 됬다.
- 실시간 처리, 증간분석, 기계학습과 같은 것들에 더 집중 가능
- 모든 종류의 데이터 및 AI 플랫폼에 대한 수요 증가로 이어진다
- 더 많은 고개 수요가 DATA/ML 인프라 회사에 더 큰 혁신을 창출
Snowflake vs Databrick
- DW는 전체 데이터 산업 전반에 중요한 영향을 미친다.
- 실제로 DW/Lake 사업이 크게 성장하고 있다.
- DW/LAKE가 시간이 자나면서 100% 시장 침투를 할수있을것이라고 믿는 사람들도 있다.
- snowflake
- 가장 최근 2분기 실적에서 저년 대비 103% 성장
- 169% NRR(매출 지속률 , 이번달에 획득한 매출이 내년 이때 쯤 어느정도가 될지.. 기존고객이 계속 유지하고 비용을 지불할것을 의미함)
- 2028년 매출 $10B 목표
- 2020년 9월 IPO는 SW IPO사상 가장 큼. 현재 시점에서 $95B 시총
- 클라우드 DW회사로서, 주로 많은 야의 구조화 된 데이터를 저장하고 처리하는 DB
- BI와 연결하여 과거와 현재 성과에 대한 분석을 위해 사용되었다.
- SQL을 활용하여 사용자 접근이 쉽다.
- Databrick
- 8월 31일에 $38B가치로 $1.6B 펀딩 완료
- 2013년에 시작된 프레임워크
- 구조화되지 않은 대량의 데이터(텍스트, 오디오, 비디오)를 처리하는 오픈소스
- Spark사용자들은 데이터 구조화를 신경쓰지 않고, 어떤 데이터든 담s는 Data lake를 구축하는데에 사용하였다.
- Databrick은 고객이 데이터 레이크를 만들수 있도록 Delta를 만들고, ML/AI를 지원하기 위해 ML Flow를 만들었다.
→ 최근 두 회사는 서로를 향해 나가고 있다.
- Databrick
- Datalake에 DW기능을 추가하기 시작
- SQL사용 가능하게, Tableau, MS Power BI 등 BI tool을 추가할 수있도록
- DataLake와 DW의 장점을 결합한 플랫폼인 레이크하우스
- AI에 BI 기능을 추가
- Snowflake
- DW를 lake처럼 보이게 하기 시작
- 2020년 11월 오디오, 비디오, PDF, 이미지와 같은 비정형 데이터에 대한 지원 발표 & 최근 프리뷰 런칭
- BI에 AI를 추가 - Dataiku, DataRobot 등에 투자 및 파트너쉽
→ 결국 두 기업은 본인 기업이 모든 데이터의 중심이 되길 원한다.
- 본인 플랫폼에서 구조화가 됬든 안됬든 모든 데이터를 저장하고, BI, AI/ML를 실행시키기 원한
물론, 비슷한 비전을 가진 기업들도 있다 AWS, GCP같은 클라우드 기업들..
- Databrick/Snowflake와 클라우드 기업들과는 친구이자 적이다.
- Snowkflake는 AWS기반으로 성장
- Databricks는 MS와 강력한 파트너십 다른 클라우드에서도 지원가능하도록 확장 중
- Snowflake, Databrticks의 비즈니스 모델이 클라우드 벤더의 컴퓨팅을 재판매 한다고 강조하였으며, 클라우드 기업의 가격 정책으로 인한 영향을 많이 받음
Bundling, Unbundling, Consolidation
- Snowflake, Databrick이 업계 통합 물결일까? 다른 업체들도 있다...
- Confluent
- kafka기반 실시간 데이터 분야를 넘어 unify the processing of data in motion and data at rest를 목표로함
- Dataiku
- Data 전처리, DataOps, MLOps, 시각화, AI등 다양한 기능을 한 플랫폼에서 제공
- 최신 데이터 스택의 출현은 기능 통합의 또 다른 예
- 데이터 추출 ~ DW ~ BI 로 연결되는 기업은 사실상 동맹이다
- 점점 더 성숙해 지면서 데이터 산업은 "트랜잭션 vs. 분석", "배치처리 vs. 실시간", "BI vs AI" 같은 Technology Divide를 넘어서 진화해 가야한다.
- 업계가 성장함에 따라 업계리더들은 통합을 가속화할 것이다.
- 계속 여러 벤더/플랫폼/tool과 지속적으로 협력할것
Financings, IPOs, M&A: A Crazy Market
pass
The 2021 MAD Landscape & What’s New this Year
pass
데이터 인프라의 Key 트렌드
2020
- Modern Data Stack
- 데이터 엔지니어링 자동화
- DA(Data Analyst)의 중요성 증가
- DataLake와 DW가 합쳐질까?
- Complexity remains
2021
- Data Mesh
- DataOps에게 바쁜 한해
- 실시간
- Metrics store
- Reverse ETL
- 데이터 공유
Data Mesh
- 2019년 Zhamak Dehghani 아줌마가 How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh 에서 소개
- 2020~21사이에 많은 발전
- 아래 블로그 post에 정리가 잘되어있다.
- 복잡한 파이프라인을 관리하는 오케스트레이션 엔진(Airflow, Prefect, Dagster)같은 것들이 더 중요해질것이다.
- 데이터 저장소와 파이프라인 컴플라이언스 & 거버넌스 측면이 더 중요해짐. Data Lineage의 필요성이 강화 (OpenLineage, DataKin)
DataOps에게 바쁜 한해
- DataOps 개념은 예전부터 있었으나, 최근에야 활성화 되었다.
- 데이터 세계의 DevOps
- 데이터 파이프라인을 구축/관리 하고, 데이터 카탈로그를 통해 올바른 데이터셋을 찾고, 데이터 소스와 사용자가 필요한 작업을 수행하는데 필요한 모든 것
- DevOps와 마찬가지로 방법론, 프로세스, 사람, 플랫폼 및 tool의 조합
- 넓은 맥락에서 DE(Data Engineering)은 SW Engineering의 정교함과 자동화 수준보다 훨씬 뒤처지고있다.
- Data observaility
- 데이터 다운타임을 제거하기 위한, 자동모니터링, 알람
- Data Linage, Data quality가 핵심
- Data linage: 데이터 파이프라인의 flow를 통해 이슈가 어디서 났는지 이해하고, 어디서 온 데이터인지 이해하는것 (관련기업 : Datakin and Manta)
- Data Quality: ①룰을 명시하는 것, ② ML기반 quality issues를 감지하는 것
- SW의 SRE(Site Reliability Engineering)과 같은 개념의 Data Reliability Engineering(DRE)
- DRE는 데이터 인프라의 운영, 규모, 안정성을 해결하는 엔지니어링이다. (alerting, communication, knowledge sharing)등의 틀들이 등장할것이다
- SRE 관련 내용은 하기 link 참고
- 데이터 접근제어 및 거버넌스 : 데이터를 쉽게 찾을 수 있도록 카탈로그 기능을 제공
- Collbra, Alation 같은 기업에서 제공
- 오픈소스 Data catalog Amundsen(Lyft에서 시작)기반 Atlan, Stemma 기업
실시간
- 배치는 이메일, 실시간은 메시지/카톡이다
- 실시간 데이터 처리는 10~15년전 빅데이터 부터 화제가 되었으며, 특히 Hadoop MapReduce를 통한 Spark(Micro Batch framework)의 성공을 촉발시켰다.
- 온라인 사기탐지, 온라인광고, Netflix스타일 추천 등에 활용
- Conflunet사의 성공은 실시간 데이터 생태계를 가속시켰다.
- ClickHouse : 오픈소스 Yandex에서 시작한 실시간 분석 DB. $50M를 투자 받음
- Imply: 오픈소스 Druid에서 시작한 실시간 분석 플랫폼 $70M를 투자받음
- Meroxa : R-DB를 DW에 실시간으로 연결하는 데 중점을 둠
Metrics store
- 데이터 및 데이터 사용의 빈도와 복잡성이 증가하고 있다.
- 이로인해 데이터 불일치로 인한 문제가 많아 졌다...
- 아래와 같이 활용처에 상관없이 metric logic 을 한곳에서 관리
- 한번 정의한 것을 어디서든 사용한다
- 메트릭 저장소는 DW위에 저장되며, BI, 분석, 운영에 다양하게 사용
- 로직이 변경된다면 일괄적으로 모두에게 적용되도록
- 표준화하고 검증된 형식으로 소비자에게 메트릭을 제공한다. = 서로다른 팀의 데이터 사용자가 자체 버전을 빌드/유지 관리할 필요가 없다.
Reverse ETL
- 기존에는 다양한 소스로부터 데이터를 추출하여 클라우드 DW에 저장하는것이 ETL/ELT의 큰 목표였다.
- 최근 1년동안 Reverse ETL이 급부상하였다.
- DW에 모인 데이터들을 다시 CRM, Marketing system, 등 비즈니스 어플리켕리션으로 다시 이동하여, 통합/파생 데이터를 활용
- DW데이터를 각 legacy에게 재배포하여, 사일로를 없앤다.
데이터 공유
- 기업 내에서 뿐아니라, 기업간에도 데이터 공유 및 데이터 공동 작업이 증가하였다.
- 기업은 공급망 가시성, ML 교육 등의 다양한 이유로 공급업체, 파트너, 고객 등과 데이터를 공유할수 있다.
- 조직 간 데이터 공유는 특히 데이터 클라우드 공급업체의 주요 주제였다.
- 2021. 5월 Google: 데이터 세트를 결합하고 조직 안팎에서 대시보드 및 ML 모델을 포함한 데이터/지식을 공유하는 플랫폼인 Analtics Hub를 출시. analytics hub에서 금융 서비스를 타겟팅한 제품인 DataShare도 출시
- 2021. 5월 Databricks: 조직간 안전한 데이터 공유 오픈소스 프로토콜 delta share를 발표
- 2021. 6월 Snowflake: DM의 전반적인 가용성과 안전한 데이터 공유를 위한 추가기능 발표
- Habr (기업데이터 교환 제공업체), Crossbeam(고객 ecosystem 플랫폼)
- 조직 간 데이터 공유는 비즈니스에 추가 효과를 줄수있기에 Cloud 공급업체에게 특히 중요하다.
- 클라우드 공급업체간 경쟁이 심화되고있는 상황에서, 기업간 데이터를 공유하는 것은 해당 클라우드 공급업체에 락인 될수있는 주요 요인이 될것이다.
ML/AI의 주요 동향
pass