哈顿

思考与行动


转载-阿里巴巴大数据实践 总述

第一章 总述

本章主要总述了阿里巴巴大数据系统的整体架构,架构图如下:

重点如下:

1、数据采集层

日志采集:采用 Aplus.JS 进行 Web 端日志采集,UserTrack 进行 APP 端日志采集。

埋点规范:面向不同场景设定埋点规范。

数据传输:使用 TimeTunnel 进行实时和批量数据的高性能传输。

数据同步:使用 DataX 和同步中心工具,通过直连异构数据库抽取数据。

2、数据计算层

存储与计算:使用 MaxCompute 进行 PB 级的数据离线计算,StreamCompute 进行实时流计算。

数据整合:使用 OneData 方法与工具构建统一、规范、共享的全域数据体系。避免数据重复和不一致。

元数据管理:管理数据源、数据链路、数据质量等元数据。

分层设计:ODS、DWD、DWS、ADS分层,从数据资产到信息资产。

3、数据服务层

OneService 平台:基于 MySQL、HBase 等数据库,提供查询、复杂查询、实时推送等数据服务。

高性能、可扩展、高可用是数据服务的目标。

4、数据应用层

对内应用:实时监控、数据网站、分析平台,搜索、推荐、广告等。

对外应用:生意参谋等为商家提供数据服务。

开放数据能力和技术,供 ISV 和社会组织使用。

原文链接