在当今数据驱动的商业时代,企业对于数据处理能力的要求日益严苛,不仅需要海量数据的实时写入与存储,更追求极致的查询分析速度。天眼查,作为国内领先的商业查询平台,其背后是万亿量级的商业关系图谱和实时变动的企业信息。为应对数据实时性、查询性能与系统扩展性的多重挑战,天眼查选择了基于Apache Doris构建其统一的实时数据仓库,实现了“秒级数据写入,毫秒级查询响应”的核心目标。
一、挑战:海量、实时与复杂的查询需求
天眼查的业务场景对数据处理提出了几大核心挑战:
- 数据实时性要求高:企业信息变更、司法动态、新闻舆情等需要近乎实时地更新至平台,供用户查询。
- 查询复杂度与并发量巨大:用户进行的商业关系挖掘、风险筛查等查询往往涉及多表关联、深度聚合,且面临高并发访问压力。
- 数据规模庞大:处理并存储千亿级别的企业关系与行为数据,且需保证历史数据的可分析性。
- 系统需要简化:期望用一个系统同时满足实时数据接入、交互式即席查询和离线数据分析,降低运维复杂度与成本。
二、选型:为何是Apache Doris?
在评估了多个大数据组件后,Apache Doris凭借其独特的架构优势脱颖而出,成为天眼查统一实时数仓的基石:
- 极速的查询性能:Doris采用MPP(大规模并行处理)架构,列式存储引擎和向量化执行模型,即便是对千亿级数据进行多维度分析,也能保证毫秒到秒级的查询响应,完美支持高并发即席查询。
- 高效的实时数据接入:支持通过Stream Load等方式实现秒级数据导入,能够无缝对接Kafka等消息队列,满足天眼查对数据实时更新的严苛要求。
- 统一的数据服务:Doris同时支持高吞吐的批处理数据和低延迟的实时数据,实现了“离线”与“实时”数仓的统一,简化了技术栈。
- 易用与易运维:兼容MySQL协议,开发人员可以像使用传统数据库一样轻松上手;支持在线弹性扩缩容,运维成本相对较低。
三、实践:天眼查的统一实时数仓架构
天眼查基于Apache Doris构建的数仓架构,实现了从数据接入到服务应用的流畅闭环:
- 实时数据管道:通过Flink、Kafka等组件将各种实时数据源(如企业变更流、新闻流)进行初步处理,然后利用Doris的Stream Load功能,以秒级延迟持续导入Doris实时数仓。
- 统一存储与计算层:Apache Doris作为核心存储与计算引擎,承载了所有明细数据和聚合模型。通过精心设计的表结构、分区与物化视图,在保证数据实时性的对复杂查询进行了大幅优化。
- 高效查询服务层:应用端直接通过标准SQL或JDBC/ODBC接口访问Doris。Doris的优异性能确保了前端复杂的图谱分析、风险探查等查询操作都能获得即时反馈,提升了用户体验。
- 数据管理与治理:利用Doris提供的权限管理、多租户隔离等功能,保障了数据安全与资源合理分配。
四、成效:性能与效率的飞跃
迁移至基于Apache Doris的统一实时数仓后,天眼查获得了显著的收益:
- 查询性能量级提升:大多数核心业务查询响应时间从原来的分钟级降至毫秒到秒级,复杂关联分析效率提升数十倍。
- 数据时效性革命:关键企业信息与风险变动的数据更新延迟从小时级缩短至秒级,极大地增强了数据的决策价值和用户体验。
- 架构大幅简化:合并了原有的多个在线与离线系统,降低了数据冗余,统一了数据口径,运维和开发成本显著降低。
- 支撑业务创新:强大的实时分析能力为天眼查开发更深度的商业洞察、风险监控等增值服务提供了坚实的数据基础。
五、
天眼查的成功实践表明,Apache Doris作为一款现代化的MPP分析型数据库,完全有能力支撑起超大规模数据下的实时写入与极速查询需求。其“统一、实时、极速”的特性,正帮助越来越多的企业像天眼查一样,构建简洁、高效且面向未来的数据平台,将数据价值以前所未有的速度转化为业务竞争力。在追求实时数据驱动的道路上,Apache Doris已成为一个值得信赖的关键技术选择。