DWH(数据仓库)基础知识指南
什么是DWH(数据仓库)?
DWH 是 “Data Warehouse” 的缩写,中文通常称为“数据仓库”。
它是一种用于整合多个系统数据、支持企业经营分析与决策的大规模数据库架构。
DWH 的特点是只用于分析(非事务处理),通过汇总后的结构化数据,帮助企业构建报表、KPI管理、趋势预测等“数据驱动”的业务模式。
DWH与普通数据库的区别
- 用途不同: 事务型数据库用于日常业务操作,DWH用于分析与统计
- 数据结构: DWH 中数据已被清洗、转换并汇总,适合分析使用
- 更新频率: DWH 通常按日、周、月批量更新,而事务系统为实时写入
- 性能优化: DWH 更重视读取性能与多维查询
DWH 是 BI(商业智能)系统的基础平台,是构建数据驱动企业的关键。
DWH的基本构成与构建流程
- 数据来源: ERP、CRM、Web系统、Excel、外部API等
- ETL处理: 提取(Extract)、转换(Transform)、加载(Load)
- 数据建模: 以事实表与维度表方式构建多维结构(星型 / 雪花型)
- 存储平台: 传统数据库、列式数据库、云数据仓库(如BigQuery)
- BI工具连接: 如Power BI、Tableau,用于可视化与分析
DWH 的构建需跨部门协调,涉及业务理解、数据治理与系统设计。
主流DWH产品与应用场景
- Snowflake: 云原生DWH,支持弹性扩展与多租户
- Google BigQuery: Google Cloud 提供的大数据分析平台
- Amazon Redshift: AWS 提供的云数据仓库服务
- Oracle Exadata: 传统大型企业常用的高性能DWH平台
- 国内工具: 阿里云 MaxCompute、华为 GaussDB(DWS) 等
DWH 广泛应用于营销分析、财务BI、客户行为分析、数据报表自动化等场景。