在當今數據驅動的商業時代,企業對于數據處理能力的要求日益嚴苛,不僅需要海量數據的實時寫入與存儲,更追求極致的查詢分析速度。天眼查,作為國內領先的商業查詢平臺,其背后是萬億量級的商業關系圖譜和實時變動的企業信息。為應對數據實時性、查詢性能與系統擴展性的多重挑戰,天眼查選擇了基于Apache Doris構建其統一的實時數據倉庫,實現了“秒級數據寫入,毫秒級查詢響應”的核心目標。
一、挑戰:海量、實時與復雜的查詢需求
天眼查的業務場景對數據處理提出了幾大核心挑戰:
- 數據實時性要求高:企業信息變更、司法動態、新聞輿情等需要近乎實時地更新至平臺,供用戶查詢。
- 查詢復雜度與并發量巨大:用戶進行的商業關系挖掘、風險篩查等查詢往往涉及多表關聯、深度聚合,且面臨高并發訪問壓力。
- 數據規模龐大:處理并存儲千億級別的企業關系與行為數據,且需保證歷史數據的可分析性。
- 系統需要簡化:期望用一個系統同時滿足實時數據接入、交互式即席查詢和離線數據分析,降低運維復雜度與成本。
二、選型:為何是Apache Doris?
在評估了多個大數據組件后,Apache Doris憑借其獨特的架構優勢脫穎而出,成為天眼查統一實時數倉的基石:
- 極速的查詢性能:Doris采用MPP(大規模并行處理)架構,列式存儲引擎和向量化執行模型,即便是對千億級數據進行多維度分析,也能保證毫秒到秒級的查詢響應,完美支持高并發即席查詢。
- 高效的實時數據接入:支持通過Stream Load等方式實現秒級數據導入,能夠無縫對接Kafka等消息隊列,滿足天眼查對數據實時更新的嚴苛要求。
- 統一的數據服務:Doris同時支持高吞吐的批處理數據和低延遲的實時數據,實現了“離線”與“實時”數倉的統一,簡化了技術棧。
- 易用與易運維:兼容MySQL協議,開發人員可以像使用傳統數據庫一樣輕松上手;支持在線彈性擴縮容,運維成本相對較低。
三、實踐:天眼查的統一實時數倉架構
天眼查基于Apache Doris構建的數倉架構,實現了從數據接入到服務應用的流暢閉環:
- 實時數據管道:通過Flink、Kafka等組件將各種實時數據源(如企業變更流、新聞流)進行初步處理,然后利用Doris的Stream Load功能,以秒級延遲持續導入Doris實時數倉。
- 統一存儲與計算層:Apache Doris作為核心存儲與計算引擎,承載了所有明細數據和聚合模型。通過精心設計的表結構、分區與物化視圖,在保證數據實時性的對復雜查詢進行了大幅優化。
- 高效查詢服務層:應用端直接通過標準SQL或JDBC/ODBC接口訪問Doris。Doris的優異性能確保了前端復雜的圖譜分析、風險探查等查詢操作都能獲得即時反饋,提升了用戶體驗。
- 數據管理與治理:利用Doris提供的權限管理、多租戶隔離等功能,保障了數據安全與資源合理分配。
四、成效:性能與效率的飛躍
遷移至基于Apache Doris的統一實時數倉后,天眼查獲得了顯著的收益:
- 查詢性能量級提升:大多數核心業務查詢響應時間從原來的分鐘級降至毫秒到秒級,復雜關聯分析效率提升數十倍。
- 數據時效性革命:關鍵企業信息與風險變動的數據更新延遲從小時級縮短至秒級,極大地增強了數據的決策價值和用戶體驗。
- 架構大幅簡化:合并了原有的多個在線與離線系統,降低了數據冗余,統一了數據口徑,運維和開發成本顯著降低。
- 支撐業務創新:強大的實時分析能力為天眼查開發更深度的商業洞察、風險監控等增值服務提供了堅實的數據基礎。
五、
天眼查的成功實踐表明,Apache Doris作為一款現代化的MPP分析型數據庫,完全有能力支撐起超大規模數據下的實時寫入與極速查詢需求。其“統一、實時、極速”的特性,正幫助越來越多的企業像天眼查一樣,構建簡潔、高效且面向未來的數據平臺,將數據價值以前所未有的速度轉化為業務競爭力。在追求實時數據驅動的道路上,Apache Doris已成為一個值得信賴的關鍵技術選擇。