2021년 Data Engineering 트렌드
2021년 Data Engineering 트렌드

2021년 Data Engineering 트렌드

설명
The 2021 Machine learning, AI and Data (MAD) Landscape 중 Data engineering 부분 정리
Last Updated
Last updated March 25, 2023
태그
DE
Data Engineering
💡
아래 글 중 Data engineering 부분만 번역/정리하여 작성한 글입니다.

거시적 관점 : 생태계의 복잡성

  • 데이터/AI 생태계는 언제까지 이렇게 트렌디 할까?
  • 모든 회사가 SW 뿐만 아니라 데이터 회사가 되고 있다.
 
  • 과거: 데이터는 각 회사에서 RDB에 데이터를 모으고 대시보드를 만드는것을 의미했다
  • 현재: 지능형 자동화된 기업의 시대
    • 분석/운영 목적으로 수많은 내부 프로세스와 외부 응용분야에 데이터와 AI를 내장시키고 있다.
    • 회사 지표를 실시간으로 사용하고, AI 챗봇, 이탈율 예측, 보안 위협이 실시간 감지, 공급망이 자동으로 수요 변동에 적응하는 등
 
  • 이러한 변화는 데이터 인프라와 ML/AI의 공생관계에 의해 만들어졌다.
    • 2010년대 초, 엄청난 양의 데이터를 활용하기 위해 기술 구축에 초점을 둔 빅데이터 시대
    • 10년 넘운 AI알고리즘(딥 러닝)에 빅데이터를 적용하여 놀라운 결과를 얻음 → AI의 흥분의 물결을 촉발
    • AI는 데이터 인프라 개발을 위한 주요 요인이 되었다. AI를 사용하여 응용프로그램을 구축하기 위해서는 더 좋은 데이터 인프라가 필요하다.
    • 21년까지 빅데이터 AI등이 하이프 사이클을 겪긴했다.
    • 자동화와 ML/AI는 결국 동일한 메가 트렌드이다.
 

Data/AI 가속화 → 클라우드 DW/ Lake 성장

  • DW는 데이터 인프라의 근본적인 요구 중 하나인 모든 데이터를 어디에 저장할것인가를 해결한다.
    • 빅데이터 이야기가 나온지 15년이 지난 지금 해당 문제는 오래전에 해결됬다 생각할수도 있지만, 그렇지 않다.
    • Hadoop의 성공은 약간 fake였다고도 볼수있다.
      • 엄청난 양의 데이터를 처리하고 가치를 추출할 수있다는 인사이트를 주었긴함
      • 다만 기술적 복잡성으로 소규모 회사로의 적용은 어려웠음
    • 오늘날 클라우드 DW (snowflake, amazon redshift, googld bigquery)와 데이터 레이크(Databricks)는 비용이 크지 않고, 유지보수에 많은 리소스를 투입하지 않더라도 운영할수있도록 서비스를 제공한다.
 
  • 이제서야 소규모 회사 또한 BigData를 저장하고 처리할수 있게 되었다. Data/AI 분야의 중요한 허들이 사라졌다.
      1. 클라우드 DW는 전체 데이터 및 AI 생태계에 대한 시장 규모를 증가시킴. 사용 편의성과 사용량 기반 가격책정으로 DW는 모든 회사가 데이터 회사가 될수있는 관문이 되었다.
      1. DW가 주변 에코시스템을 사용할 수 있게 해주었다.
          • ETL, ELT, Reverse ETL, DW중심 quality tool, metrics store, augmented analytics 등
          • 많은 창업자들이 modern data stack을 스타트업 출시의 기회로 보았고 투자가 집중되었다 (DBT, Fiventran 등)
      1. DW부분을 아웃소싱할수있고, 나머지 고부가가치 프로젝트에 집중할수 있게 됬다.
          • 실시간 처리, 증간분석, 기계학습과 같은 것들에 더 집중 가능
          • 모든 종류의 데이터 및 AI 플랫폼에 대한 수요 증가로 이어진다
          • 더 많은 고개 수요가 DATA/ML 인프라 회사에 더 큰 혁신을 창출
 

Snowflake vs Databrick

  • DW는 전체 데이터 산업 전반에 중요한 영향을 미친다.
  • 실제로 DW/Lake 사업이 크게 성장하고 있다.
  • DW/LAKE가 시간이 자나면서 100% 시장 침투를 할수있을것이라고 믿는 사람들도 있다.
 
  • snowflake
    • 가장 최근 2분기 실적에서 저년 대비 103% 성장
    • 169% NRR(매출 지속률 , 이번달에 획득한 매출이 내년 이때 쯤 어느정도가 될지.. 기존고객이 계속 유지하고 비용을 지불할것을 의미함)
    • 2028년 매출 $10B 목표
    • 2020년 9월 IPO는 SW IPO사상 가장 큼. 현재 시점에서 $95B 시총
    •  
    • 클라우드 DW회사로서, 주로 많은 야의 구조화 된 데이터를 저장하고 처리하는 DB
    • BI와 연결하여 과거와 현재 성과에 대한 분석을 위해 사용되었다.
    • SQL을 활용하여 사용자 접근이 쉽다.
  • Databrick
    • 8월 31일에 $38B가치로 $1.6B 펀딩 완료
    • 2013년에 시작된 프레임워크
    • 구조화되지 않은 대량의 데이터(텍스트, 오디오, 비디오)를 처리하는 오픈소스
    • Spark사용자들은 데이터 구조화를 신경쓰지 않고, 어떤 데이터든 담s는 Data lake를 구축하는데에 사용하였다.
    • Databrick은 고객이 데이터 레이크를 만들수 있도록 Delta를 만들고, ML/AI를 지원하기 위해 ML Flow를 만들었다.
    •  
       
→ 최근 두 회사는 서로를 향해 나가고 있다.
  • Databrick
    • Datalake에 DW기능을 추가하기 시작
    • SQL사용 가능하게, Tableau, MS Power BI 등 BI tool을 추가할 수있도록
    • DataLake와 DW의 장점을 결합한 플랫폼인 레이크하우스
    •  
    • AI에 BI 기능을 추가
  • Snowflake
    • DW를 lake처럼 보이게 하기 시작
    • 2020년 11월 오디오, 비디오, PDF, 이미지와 같은 비정형 데이터에 대한 지원 발표 & 최근 프리뷰 런칭
    • BI에 AI를 추가 - Dataiku, DataRobot 등에 투자 및 파트너쉽
→ 결국 두 기업은 본인 기업이 모든 데이터의 중심이 되길 원한다.
  • 본인 플랫폼에서 구조화가 됬든 안됬든 모든 데이터를 저장하고, BI, AI/ML를 실행시키기 원한
 
 
물론, 비슷한 비전을 가진 기업들도 있다 AWS, GCP같은 클라우드 기업들..
  • Databrick/Snowflake와 클라우드 기업들과는 친구이자 적이다.
    • Snowkflake는 AWS기반으로 성장
    • Databricks는 MS와 강력한 파트너십 다른 클라우드에서도 지원가능하도록 확장 중
  • Snowflake, Databrticks의 비즈니스 모델이 클라우드 벤더의 컴퓨팅을 재판매 한다고 강조하였으며, 클라우드 기업의 가격 정책으로 인한 영향을 많이 받음

Bundling, Unbundling, Consolidation

  • Snowflake, Databrick이 업계 통합 물결일까? 다른 업체들도 있다...
 
  • Confluent
    • kafka기반 실시간 데이터 분야를 넘어 unify the processing of data in motion and data at rest를 목표로함
  • Dataiku
    • Data 전처리, DataOps, MLOps, 시각화, AI등 다양한 기능을 한 플랫폼에서 제공
  • 최신 데이터 스택의 출현은 기능 통합의 또 다른 예
  • 데이터 추출 ~ DW ~ BI 로 연결되는 기업은 사실상 동맹이다
  • 점점 더 성숙해 지면서 데이터 산업은 "트랜잭션 vs. 분석", "배치처리 vs. 실시간", "BI vs AI" 같은 Technology Divide를 넘어서 진화해 가야한다.
 
  • 업계가 성장함에 따라 업계리더들은 통합을 가속화할 것이다.
  • 계속 여러 벤더/플랫폼/tool과 지속적으로 협력할것
 
 

Financings, IPOs, M&A: A Crazy Market

pass
 

The 2021 MAD Landscape & What’s New this Year

pass
 

데이터 인프라의 Key 트렌드

2020
  • Modern Data Stack
  • 데이터 엔지니어링 자동화
  • DA(Data Analyst)의 중요성 증가
  • DataLake와 DW가 합쳐질까?
  • Complexity remains
2021
  • Data Mesh
  • DataOps에게 바쁜 한해
  • 실시간
  • Metrics store
  • Reverse ETL
  • 데이터 공유
 

Data Mesh

  • 2020~21사이에 많은 발전
  • 아래 블로그 post에 정리가 잘되어있다.
  • 복잡한 파이프라인을 관리하는 오케스트레이션 엔진(Airflow, Prefect, Dagster)같은 것들이 더 중요해질것이다.
  • 데이터 저장소와 파이프라인 컴플라이언스 & 거버넌스 측면이 더 중요해짐. Data Lineage의 필요성이 강화 (OpenLineage, DataKin)

DataOps에게 바쁜 한해

  • DataOps 개념은 예전부터 있었으나, 최근에야 활성화 되었다.
  • 데이터 세계의 DevOps
  • 데이터 파이프라인을 구축/관리 하고, 데이터 카탈로그를 통해 올바른 데이터셋을 찾고, 데이터 소스와 사용자가 필요한 작업을 수행하는데 필요한 모든 것
  • DevOps와 마찬가지로 방법론, 프로세스, 사람, 플랫폼 및 tool의 조합
  • 넓은 맥락에서 DE(Data Engineering)은 SW Engineering의 정교함과 자동화 수준보다 훨씬 뒤처지고있다.
 
  • Data observaility
    • 데이터 다운타임을 제거하기 위한, 자동모니터링, 알람
    • Data Linage, Data quality가 핵심
    •  
    • Data linage: 데이터 파이프라인의 flow를 통해 이슈가 어디서 났는지 이해하고, 어디서 온 데이터인지 이해하는것 (관련기업 : Datakin and Manta)
    • Data Quality: ①룰을 명시하는 것, ② ML기반 quality issues를 감지하는 것
 
  • SW의 SRE(Site Reliability Engineering)과 같은 개념의 Data Reliability Engineering(DRE)
  • DRE는 데이터 인프라의 운영, 규모, 안정성을 해결하는 엔지니어링이다. (alerting, communication, knowledge sharing)등의 틀들이 등장할것이다
  • SRE 관련 내용은 하기 link 참고
 
  • 데이터 접근제어 및 거버넌스 : 데이터를 쉽게 찾을 수 있도록 카탈로그 기능을 제공
  • Collbra, Alation 같은 기업에서 제공
  • 오픈소스 Data catalog Amundsen(Lyft에서 시작)기반 Atlan, Stemma 기업
 

실시간

  • 배치는 이메일, 실시간은 메시지/카톡이다
  • 실시간 데이터 처리는 10~15년전 빅데이터 부터 화제가 되었으며, 특히 Hadoop MapReduce를 통한 Spark(Micro Batch framework)의 성공을 촉발시켰다.
 
  • 온라인 사기탐지, 온라인광고, Netflix스타일 추천 등에 활용
  • Conflunet사의 성공은 실시간 데이터 생태계를 가속시켰다.
 
  • ClickHouse : 오픈소스 Yandex에서 시작한 실시간 분석 DB. $50M를 투자 받음
  • Imply: 오픈소스 Druid에서 시작한 실시간 분석 플랫폼 $70M를 투자받음
  • Meroxa : R-DB를 DW에 실시간으로 연결하는 데 중점을 둠
 

Metrics store

  • 데이터 및 데이터 사용의 빈도와 복잡성이 증가하고 있다.
  • 이로인해 데이터 불일치로 인한 문제가 많아 졌다...
 
  • 아래와 같이 활용처에 상관없이 metric logic 을 한곳에서 관리
  • 한번 정의한 것을 어디서든 사용한다
  • 메트릭 저장소는 DW위에 저장되며, BI, 분석, 운영에 다양하게 사용
  • 로직이 변경된다면 일괄적으로 모두에게 적용되도록
  • 표준화하고 검증된 형식으로 소비자에게 메트릭을 제공한다. = 서로다른 팀의 데이터 사용자가 자체 버전을 빌드/유지 관리할 필요가 없다.
notion image

Reverse ETL

  • 기존에는 다양한 소스로부터 데이터를 추출하여 클라우드 DW에 저장하는것이 ETL/ELT의 큰 목표였다.
  • 최근 1년동안 Reverse ETL이 급부상하였다.
 
  • DW에 모인 데이터들을 다시 CRM, Marketing system, 등 비즈니스 어플리켕리션으로 다시 이동하여, 통합/파생 데이터를 활용
  • DW데이터를 각 legacy에게 재배포하여, 사일로를 없앤다.

데이터 공유

  • 기업 내에서 뿐아니라, 기업간에도 데이터 공유 및 데이터 공동 작업이 증가하였다.
  • 기업은 공급망 가시성, ML 교육 등의 다양한 이유로 공급업체, 파트너, 고객 등과 데이터를 공유할수 있다.
 
  • 조직 간 데이터 공유는 특히 데이터 클라우드 공급업체의 주요 주제였다.
    • 2021. 5월 Google: 데이터 세트를 결합하고 조직 안팎에서 대시보드 및 ML 모델을 포함한 데이터/지식을 공유하는 플랫폼인 Analtics Hub를 출시. analytics hub에서 금융 서비스를 타겟팅한 제품인 DataShare도 출시
    • 2021. 5월 Databricks: 조직간 안전한 데이터 공유 오픈소스 프로토콜 delta share를 발표
    • 2021. 6월 Snowflake: DM의 전반적인 가용성과 안전한 데이터 공유를 위한 추가기능 발표
    • Habr (기업데이터 교환 제공업체), Crossbeam(고객 ecosystem 플랫폼)
    •  
    • 조직 간 데이터 공유는 비즈니스에 추가 효과를 줄수있기에 Cloud 공급업체에게 특히 중요하다.
    • 클라우드 공급업체간 경쟁이 심화되고있는 상황에서, 기업간 데이터를 공유하는 것은 해당 클라우드 공급업체에 락인 될수있는 주요 요인이 될것이다.

ML/AI의 주요 동향

pass