2021년 Data Engineering 트렌드

2021년 Data Engineering 트렌드

설명

The 2021 Machine learning, AI and Data (MAD) Landscape 중 Data engineering 부분 정리

Last Updated

Last updated March 25, 2023

author

Hanmil Lee

태그

DE

Data Engineering

💡

아래 글 중 Data engineering 부분만 번역/정리하여 작성한 글입니다.

Red Hot: The 2021 Machine Learning, AI and Data (MAD) Landscape

Full resolution version of the landscape image here It's been a hot, hot year in the world of data, machine learning and AI. Just when you thought it couldn't grow any more explosively, the data/AI landscape just did: rapid pace of company creation, exciting new product and project launch

Red Hot: The 2021 Machine Learning, AI and Data (MAD) Landscape

https://mattturck.com/data2021/

Red Hot: The 2021 Machine Learning, AI and Data (MAD) Landscape

거시적 관점 : 생태계의 복잡성

데이터/AI 생태계는 언제까지 이렇게 트렌디 할까?

모든 회사가 SW 뿐만 아니라 데이터 회사가 되고 있다.

과거: 데이터는 각 회사에서 RDB에 데이터를 모으고 대시보드를 만드는것을 의미했다

현재: 지능형 자동화된 기업의 시대

분석/운영 목적으로 수많은 내부 프로세스와 외부 응용분야에 데이터와 AI를 내장시키고 있다.
회사 지표를 실시간으로 사용하고, AI 챗봇, 이탈율 예측, 보안 위협이 실시간 감지, 공급망이 자동으로 수요 변동에 적응하는 등

이러한 변화는 데이터 인프라와 ML/AI의 공생관계에 의해 만들어졌다.

2010년대 초, 엄청난 양의 데이터를 활용하기 위해 기술 구축에 초점을 둔 빅데이터 시대
10년 넘운 AI알고리즘(딥 러닝)에 빅데이터를 적용하여 놀라운 결과를 얻음 → AI의 흥분의 물결을 촉발
AI는 데이터 인프라 개발을 위한 주요 요인이 되었다. AI를 사용하여 응용프로그램을 구축하기 위해서는 더 좋은 데이터 인프라가 필요하다.
21년까지 빅데이터 AI등이 하이프 사이클을 겪긴했다.
자동화와 ML/AI는 결국 동일한 메가 트렌드이다.

Data/AI 가속화 → 클라우드 DW/ Lake 성장

DW는 데이터 인프라의 근본적인 요구 중 하나인 모든 데이터를 어디에 저장할것인가를 해결한다.

빅데이터 이야기가 나온지 15년이 지난 지금 해당 문제는 오래전에 해결됬다 생각할수도 있지만, 그렇지 않다.
Hadoop의 성공은 약간 fake였다고도 볼수있다.

엄청난 양의 데이터를 처리하고 가치를 추출할 수있다는 인사이트를 주었긴함
다만 기술적 복잡성으로 소규모 회사로의 적용은 어려웠음

오늘날 클라우드 DW (snowflake, amazon redshift, googld bigquery)와 데이터 레이크(Databricks)는 비용이 크지 않고, 유지보수에 많은 리소스를 투입하지 않더라도 운영할수있도록 서비스를 제공한다.

이제서야 소규모 회사 또한 BigData를 저장하고 처리할수 있게 되었다. Data/AI 분야의 중요한 허들이 사라졌다.

클라우드 DW는 전체 데이터 및 AI 생태계에 대한 시장 규모를 증가시킴. 사용 편의성과 사용량 기반 가격책정으로 DW는 모든 회사가 데이터 회사가 될수있는 관문이 되었다.

DW가 주변 에코시스템을 사용할 수 있게 해주었다.

ETL, ELT, Reverse ETL, DW중심 quality tool, metrics store, augmented analytics 등

“modern data stack” (which we discussed in our 2020 landscape)

많은 창업자들이 modern data stack을 스타트업 출시의 기회로 보았고 투자가 집중되었다 (DBT, Fiventran 등)

DW부분을 아웃소싱할수있고, 나머지 고부가가치 프로젝트에 집중할수 있게 됬다.

실시간 처리, 증간분석, 기계학습과 같은 것들에 더 집중 가능

모든 종류의 데이터 및 AI 플랫폼에 대한 수요 증가로 이어진다

더 많은 고개 수요가 DATA/ML 인프라 회사에 더 큰 혁신을 창출

Snowflake vs Databrick

DW는 전체 데이터 산업 전반에 중요한 영향을 미친다.

실제로 DW/Lake 사업이 크게 성장하고 있다.

DW/LAKE가 시간이 자나면서 100% 시장 침투를 할수있을것이라고 믿는 사람들도 있다.

snowflake

가장 최근 2분기 실적에서 저년 대비 103% 성장
169% NRR(매출 지속률 , 이번달에 획득한 매출이 내년 이때 쯤 어느정도가 될지.. 기존고객이 계속 유지하고 비용을 지불할것을 의미함)
2028년 매출 $10B 목표
2020년 9월 IPO는 SW IPO사상 가장 큼. 현재 시점에서 $95B 시총

클라우드 DW회사로서, 주로 많은 야의 구조화 된 데이터를 저장하고 처리하는 DB
BI와 연결하여 과거와 현재 성과에 대한 분석을 위해 사용되었다.
SQL을 활용하여 사용자 접근이 쉽다.

Databrick

8월 31일에 $38B가치로 $1.6B 펀딩 완료
2013년에 시작된 프레임워크
구조화되지 않은 대량의 데이터(텍스트, 오디오, 비디오)를 처리하는 오픈소스
Spark사용자들은 데이터 구조화를 신경쓰지 않고, 어떤 데이터든 담s는 Data lake를 구축하는데에 사용하였다.
Databrick은 고객이 데이터 레이크를 만들수 있도록 Delta를 만들고, ML/AI를 지원하기 위해 ML Flow를 만들었다.

→ 최근 두 회사는 서로를 향해 나가고 있다.

Databrick

Datalake에 DW기능을 추가하기 시작
SQL사용 가능하게, Tableau, MS Power BI 등 BI tool을 추가할 수있도록
DataLake와 DW의 장점을 결합한 플랫폼인 레이크하우스

AI에 BI 기능을 추가

Snowflake

DW를 lake처럼 보이게 하기 시작
2020년 11월 오디오, 비디오, PDF, 이미지와 같은 비정형 데이터에 대한 지원 발표 & 최근 프리뷰 런칭
BI에 AI를 추가 - Dataiku, DataRobot 등에 투자 및 파트너쉽

→ 결국 두 기업은 본인 기업이 모든 데이터의 중심이 되길 원한다.

본인 플랫폼에서 구조화가 됬든 안됬든 모든 데이터를 저장하고, BI, AI/ML를 실행시키기 원한

물론, 비슷한 비전을 가진 기업들도 있다 AWS, GCP같은 클라우드 기업들..

Databrick/Snowflake와 클라우드 기업들과는 친구이자 적이다.

Snowkflake는 AWS기반으로 성장
Databricks는 MS와 강력한 파트너십 다른 클라우드에서도 지원가능하도록 확장 중

Snowflake, Databrticks의 비즈니스 모델이 클라우드 벤더의 컴퓨팅을 재판매 한다고 강조하였으며, 클라우드 기업의 가격 정책으로 인한 영향을 많이 받음

Bundling, Unbundling, Consolidation

Snowflake, Databrick이 업계 통합 물결일까? 다른 업체들도 있다...

Confluent

kafka기반 실시간 데이터 분야를 넘어 unify the processing of data in motion and data at rest를 목표로함

Dataiku

Data 전처리, DataOps, MLOps, 시각화, AI등 다양한 기능을 한 플랫폼에서 제공

최신 데이터 스택의 출현은 기능 통합의 또 다른 예

데이터 추출 ~ DW ~ BI 로 연결되는 기업은 사실상 동맹이다

점점 더 성숙해 지면서 데이터 산업은 "트랜잭션 vs. 분석", "배치처리 vs. 실시간", "BI vs AI" 같은 Technology Divide를 넘어서 진화해 가야한다.

업계가 성장함에 따라 업계리더들은 통합을 가속화할 것이다.

계속 여러 벤더/플랫폼/tool과 지속적으로 협력할것

Financings, IPOs, M&A: A Crazy Market

pass

The 2021 MAD Landscape & What’s New this Year

pass

http://mattturck.com/wp-content/uploads/2021/12/2021-MAD-Landscape-v3.pdf

데이터 인프라의 Key 트렌드

2020

Modern Data Stack

ETL vs ELT

데이터 엔지니어링 자동화

DA(Data Analyst)의 중요성 증가

DataLake와 DW가 합쳐질까?

Complexity remains

2021

Data Mesh

DataOps에게 바쁜 한해

실시간

Metrics store

Reverse ETL

데이터 공유

Data Mesh

2019년 Zhamak Dehghani 아줌마가 How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh 에서 소개

2020~21사이에 많은 발전

아래 블로그 post에 정리가 잘되어있다.

분산형 데이터 분석 아키텍처-데이터 매쉬

Data mesh는 빅데이터 분석 시스템의 아키텍쳐 스타일로, 마이크로 서비스 아키텍처 (이하 MSA)컨셉과 유사하게 데이터 분석 시스템을 각각의 분산된 서비스 형태로 개발 관리하는 아키텍쳐 모델이다. 이번 글에서는 차세대 데이터 분석 시스템 아키텍처인 Data mesh에 대해서 알아본다.

분산형 데이터 분석 아키텍처-데이터 매쉬

https://bcho.tistory.com/1379

분산형 데이터 분석 아키텍처-데이터 매쉬

How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh

Zhamak Dehghani Zhamak is a principal technology consultant at Thoughtworks with a focus on distributed systems architecture and digital platform strategy at Enterprise. She is a member of Thoughtworks Technology Advisory Board and contributes to the creation of Thoughtworks Technology Radar. It is centralized, monolithic and domain agnostic aka data lake.

How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh

https://martinfowler.com/articles/data-monolith-to-mesh.html

How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh

복잡한 파이프라인을 관리하는 오케스트레이션 엔진(Airflow, Prefect, Dagster)같은 것들이 더 중요해질것이다.

데이터 저장소와 파이프라인 컴플라이언스 & 거버넌스 측면이 더 중요해짐. Data Lineage의 필요성이 강화 (OpenLineage, DataKin)

DataOps에게 바쁜 한해

DataOps 개념은 예전부터 있었으나, 최근에야 활성화 되었다.

데이터 세계의 DevOps

데이터 파이프라인을 구축/관리 하고, 데이터 카탈로그를 통해 올바른 데이터셋을 찾고, 데이터 소스와 사용자가 필요한 작업을 수행하는데 필요한 모든 것

DevOps와 마찬가지로 방법론, 프로세스, 사람, 플랫폼 및 tool의 조합

넓은 맥락에서 DE(Data Engineering)은 SW Engineering의 정교함과 자동화 수준보다 훨씬 뒤처지고있다.

Data observaility

데이터 다운타임을 제거하기 위한, 자동모니터링, 알람
Data Linage, Data quality가 핵심

Data linage: 데이터 파이프라인의 flow를 통해 이슈가 어디서 났는지 이해하고, 어디서 온 데이터인지 이해하는것 (관련기업 : Datakin and Manta)
Data Quality: ①룰을 명시하는 것, ② ML기반 quality issues를 감지하는 것

SW의 SRE(Site Reliability Engineering)과 같은 개념의 Data Reliability Engineering(DRE)

DRE는 데이터 인프라의 운영, 규모, 안정성을 해결하는 엔지니어링이다. (alerting, communication, knowledge sharing)등의 틀들이 등장할것이다

SRE 관련 내용은 하기 link 참고

SRE (Site Reliablity Engineering)

그동안 DevOps 담당자라고 부르짖던 사람들의 Role이 인프라 담당자인지 플랫폼 담당자인지 아니면 개발하는 운영자인지 헷갈릴때가 많았다. 갑자기 국내에서도 SRE 채용 공고가 많아지는것을 보면서 내 자신도 한번 정리를 하고 가야할것 같은 생각이 들었다. https://docs.microsoft.com/ko-kr/learn/modules/intro-to-site-reliability-engineering/ 개념정리 측면에서 위 MS Azure의 온라인 교육내용을 정리해봤다. SRE(사이트 안정성 엔지니어링)란 조직이 해당 시스템, 서비스 및 제품에서 적절한 수준의 안정성을 달성하도록 지원하는 엔지니어링 분야이다.

https://ddii.dev/job/SRE/#

SRE (Site Reliablity Engineering)

데이터 접근제어 및 거버넌스 : 데이터를 쉽게 찾을 수 있도록 카탈로그 기능을 제공

Collbra, Alation 같은 기업에서 제공

오픈소스 Data catalog Amundsen(Lyft에서 시작)기반 Atlan, Stemma 기업

실시간

배치는 이메일, 실시간은 메시지/카톡이다

실시간 데이터 처리는 10~15년전 빅데이터 부터 화제가 되었으며, 특히 Hadoop MapReduce를 통한 Spark(Micro Batch framework)의 성공을 촉발시켰다.

온라인 사기탐지, 온라인광고, Netflix스타일 추천 등에 활용

Conflunet사의 성공은 실시간 데이터 생태계를 가속시켰다.

ClickHouse : 오픈소스 Yandex에서 시작한 실시간 분석 DB. $50M를 투자 받음

Imply: 오픈소스 Druid에서 시작한 실시간 분석 플랫폼 $70M를 투자받음

Meroxa : R-DB를 DW에 실시간으로 연결하는 데 중점을 둠

Metrics store

데이터 및 데이터 사용의 빈도와 복잡성이 증가하고 있다.

이로인해 데이터 불일치로 인한 문제가 많아 졌다...

아래와 같이 활용처에 상관없이 metric logic 을 한곳에서 관리

한번 정의한 것을 어디서든 사용한다

메트릭 저장소는 DW위에 저장되며, BI, 분석, 운영에 다양하게 사용

로직이 변경된다면 일괄적으로 모두에게 적용되도록

표준화하고 검증된 형식으로 소비자에게 메트릭을 제공한다. = 서로다른 팀의 데이터 사용자가 자체 버전을 빌드/유지 관리할 필요가 없다.

notion image

The missing piece of the modern data stack

In the evidently tiny professional circles that I run in, the "modern data stack" is having a moment. The concept, which is a new framework to move data around an organization and make it available for people to use and analyze, is inspiring conferences, historical retrospectives, listicles, how-to guides, and companies themselves.

https://benn.substack.com/p/metrics-layer

The missing piece of the modern data stack

Reverse ETL

기존에는 다양한 소스로부터 데이터를 추출하여 클라우드 DW에 저장하는것이 ETL/ELT의 큰 목표였다.

최근 1년동안 Reverse ETL이 급부상하였다.

DW에 모인 데이터들을 다시 CRM, Marketing system, 등 비즈니스 어플리켕리션으로 다시 이동하여, 통합/파생 데이터를 활용

DW데이터를 각 legacy에게 재배포하여, 사일로를 없앤다.

데이터 공유

기업 내에서 뿐아니라, 기업간에도 데이터 공유 및 데이터 공동 작업이 증가하였다.

기업은 공급망 가시성, ML 교육 등의 다양한 이유로 공급업체, 파트너, 고객 등과 데이터를 공유할수 있다.

조직 간 데이터 공유는 특히 데이터 클라우드 공급업체의 주요 주제였다.

2021. 5월 Google: 데이터 세트를 결합하고 조직 안팎에서 대시보드 및 ML 모델을 포함한 데이터/지식을 공유하는 플랫폼인 Analtics Hub를 출시. analytics hub에서 금융 서비스를 타겟팅한 제품인 DataShare도 출시
2021. 5월 Databricks: 조직간 안전한 데이터 공유 오픈소스 프로토콜 delta share를 발표
2021. 6월 Snowflake: DM의 전반적인 가용성과 안전한 데이터 공유를 위한 추가기능 발표
Habr (기업데이터 교환 제공업체), Crossbeam(고객 ecosystem 플랫폼)

조직 간 데이터 공유는 비즈니스에 추가 효과를 줄수있기에 Cloud 공급업체에게 특히 중요하다.
클라우드 공급업체간 경쟁이 심화되고있는 상황에서, 기업간 데이터를 공유하는 것은 해당 클라우드 공급업체에 락인 될수있는 주요 요인이 될것이다.

ML/AI의 주요 동향

pass

관련 Post

2021년 Data Engineering 트렌드

The 2021 Machine learning, AI and Data (MAD) Landscape 중 Data engineering 부분 정리

2021년 Data Engineering 트렌드

https://hmdev.vercel.app/2021%EB%85%84-Data-Engineering-%ED%8A%B8%EB%A0%8C%EB%93%9C

2021년 Data Engineering 트렌드

관계형DB vs 컬럼형DB

집합 이론을 기반으로 하는 시스템인 관계형 데이터베이스 관리 시스템 (RDBMS) 방대한 툴킷(트리거, 저장프로시저, 진보된 인덱스) ACID(Atomic: 원자성, Consistent: 일관성, Isolated:독립성, Durable:지속성)준수에 따른 데이터 안정성 데이터의 무결성을 완벽하게 보장 → 데이터가 유실되거나 중복되면 안되는 금융쪽에선 무조건사용 뛰어난 쿼리처리 능력. 다른 데이터 스토어와 다르게 저장된 데이터를 사용하기 위한 계획을 알 필요가 없다.

관계형DB vs 컬럼형DB

https://hmdev.vercel.app/%EA%B4%80%EA%B3%84%ED%98%95DB-vs-%EC%BB%AC%EB%9F%BC%ED%98%95DB

관계형DB vs 컬럼형DB

ETL vs ELT 비교하기

ETL vs ELT: 5 Critical Differences

ETL vs ELT 비교하기

https://hmdev.vercel.app/ETL-vs-ELT-%EB%B9%84%EA%B5%90%ED%95%98%EA%B8%B0

ETL vs ELT 비교하기