发布网友 发布时间:2024-10-24 12:53
共1个回答
热心网友 时间:2024-11-09 04:53
Gartner 曾预测,到2025年,80%寻求扩展数字业务的组织可能失败,原因是它们未采用现代方法进行数据和分析治理。数据生态作为基础架构的核心,贯穿数据处理、分发与计算的整个流程。数据集中于数据仓库和数据湖后,数据集成方式发生了巨大转变,形成了现代数据技术栈,但这种现代也可能成为明日的过时。
现今,数据治理愈发重要,多数数据业务支撑仅依赖20%的数据,而80%的数据质量问题由20%的系统或人员产生。Gartner预测,2025年,80%寻求扩展数字业务的组织可能失败,原因在于未采用现代方法进行数据和分析治理。数据集成问题引起关注,现代数据技术栈底部的ETL管道成为焦点,特别是一家名为Airbyte的开源数据集成平台。
2020年,LiverRamp、Michel Tricot(RideOS前工程总监兼集成负责人)与John Lafleur(专注开发工具和B2B服务的连续创业者)共同创立了Airbyte。该团队最初专注于营销公司的数据连接,加入YC加速器后,因疫情等因素未能成功,团队决定深入数据集成领域,即今日的Airbyte。Airbyte面向数据工程领域,不局限于特定行业,提供构建连接器的图形UI及供开发人员使用的API。
团队认为,多数公司从构建自定义数据连接器开始,起初效果不错,但长期维护成本高昂。即便对于构建这些连接器的专业公司,复杂性也会阻碍其持续跟进连接器的发展。Airbyte旨在成为数据标准的复制。调研显示,多数ETL/ELT平台基于云,数据需移出基础架构,增加成本并带来数据隐私与安全风险。调研结果强化了团队选择的方向。
Airbyte吸引了越来越多关注,使用量增长显著,实现每月100%增长,每月部署500次。Accel投资了520万美元种子轮融资,之后,由Benchmark领投的A轮融资2600万美元完成。到2021年11月,Airbyte部署量达10万,连接器数量迅猛增长。随后,Altimeter Capital和Coatue Management领投了1.5亿美元B轮融资,公司估值达15亿美元,从2020年成立到2021年底,公司估值超越独角兽标准,仅用不到两年时间。
ETL与ELT区别在于ETL流程长且笨重,而ELT的核心思想是解耦,无需在加载过程前进行数据转换。ELT直接将原始数据加载到数仓中,数据清理、丰富和转换等操作在数仓内完成,允许原始数据无限期存储,进行多次转换。ELT优势包括突破性能瓶颈、简化程序、组件替换与降低维护成本等,尤其在业务敏捷变化方面提供灵活性和效率。
Airbyte的主要产品包括Extract数据抽取和Load数据加载,通过连接器连通多平台间数据,平台连接的数据源越多,平台稳定性提升,形成壁垒。Airbyte还提供Transform数据转换产品,集成开源工具Dbt,用户使用SQL语句进行数据转换。最后,Airbyte嵌入报表插件,简化BI工具和前端页面重复建设问题。
Airbyte的崛起机遇源于云数仓的发展与数据量爆发。随着云计算兴起,数据仓库云化进程加速,Snowflake云原生数仓的出现降低了企业计算和存储成本,为ELT兴起提供了土壤。企业数据量爆发,需要更灵活和敏捷的数据处理方式,而传统ETL无法满足需求。开源模式帮助Airbyte构建竞争壁垒,加速产品完善,提高市场竞争力。
Airbyte的商业模式包括免费版、云版本和企业版。开源版本提供无限连接器、复制、监控和支持,云版本提供云托管服务,按积分收费,企业版针对大数据量需求,按客户用例收费。开源模式促进了社区参与,加速了产品完善,提高了产品可靠性。资本认可了Airbyte的商业模式,B轮融资时ARR收入不足100万美元,估值达到15亿美元。
未来,数据集成市场可能具有马太效应,赢者通吃。Airbyte面临来自老玩家和新玩家的竞争,如Fivetran(56亿美金估值的独角兽企业)和Meltano(以开源模式运作,集成Singer协议)。然而,无论竞争如何激烈,Airbyte的故事与挑战将持续,关注其商业化进程。
作者简介
郑博,Aka Harbour 哈博,崔牛会非著名牛油,中年2B基础架构创业老炮,CnosDB云原生时序数据库开源社区发起人。