现代数据技术栈的生态发展
Continual的Jordan Volz在2022年第一季度发表了文章《Who's Who in the Modern Data Stack Ecosystem (Spring 2022)》,分享了对现代数据技术栈发展的见解,并总结了相关公司及趋势。
融资与生态繁荣
过去一个季度,Dbt、Airbyte、RudderStack等公司在融资方面表现突出。Dbt估值达到46亿美金,Airbyte两年内估值超过15亿美金,显示现代数据技术栈生态系统仍处于投资热潮。
三大趋势解析
- 超越SQL:新工具涌现
虽然SQL仍是核心,但因其局限性,市场需要更多超越SQL的工具,如支持无代码数据处理或兼容多种编程语言的工程师工具。
- 实时数据处理
当前主流云端数据仓库对实时场景支持不足,Materialize、Confluent的KSQL等新产品专注于提升实时数据处理能力。
- 竞争传统数据技术栈
尽管公有云的弹性优势吸引新兴企业,但传统企业迁移成本高,采用现代数据技术栈的动力不足。未来技术创新和投资回报将成为关键。
2022春季版生态概览
以下为2022年春季版现代数据技术栈的主要组成部分及相关进展:
- 云端数据仓库
主流工具:Snowflake、BigQuery、Redshift、Databricks;新兴公司:Firebolt、Dremio。
- 数据集成与事件追踪
数据集成主流工具:Fivetran、Airbyte、Stitch;值得关注的新星:Hevo Data。事件集成主流工具:Segment、RudderStack、Snowplow。
- 数据建模与转化
主流选择:dbt。
- 人工智能与机器学习
主流选择:Continual。
- 数据分析/BI与指标存储
BI主流产品:Looker、Mode、Tableau等;值得关注的产品:Sigma、Lightdash等。指标存储主流工具:dbt、Transform、Metriql。
- 反向ETL/数据操作化
主流工具:Census、Hightouch、Rudderstack;值得关注的公司:Hevo Data。
- 数据编排
主流公司:Astronomer、Elementl、Prefect;值得关注的公司:Flyte。
- 数据治理
数据目录主流公司:Atlan、Stemma、Alation;数据可观测性主流工具:Monte Carlo、BigEye。
- 孵化期工具
- Notebook
需求日益增长,代表工具:Hex、Deepnote。
- 实时/流式
值得关注的公司:Materialize、Decodeable。
- 用户参与平台(CEP)
值得关注的公司:MessageGears、Braze。
- 数据应用
值得关注的公司:Streamlit、Columns.ai。
总结
现代数据技术栈持续吸引用户与投资商关注,形成了蓬勃发展的生态。Dbt CEO将此阶段比作“寒武纪二期”,预示更多有价值的公司将诞生,中国团队亦有望在此领域崭露头角。