一、 数据采集与预处理
于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。
二、 数据存储
Hadoop是一个开放源码的框架,用于离线和大规模的数据分析。HDFS作为其核心存储引擎,在数据存储中得到了广泛的应用。
在数据存储过程中,涉及到的数据表都是成千上百列,包含各种复杂的Query,推荐使用列式存储方法,比如parquent,ORC等对数据进行压缩。Parquet 可以支持压缩选项,显著减少在磁盘上的存储空间。
三、 数据清洗
MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它大大方便了程序员在分布式系统中运行自己的程序,而无需分布式并行编程。
四、 数据查询分析
Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。
五、 数据可视化
接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流BI平台,如国外敏捷商务平台、Qlikview、Powrerbi、国内小型商务、新兴电子商务等。
在上面的每一个阶段,保障数据的安全是不可忽视的问题。
于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。
二、 数据存储
Hadoop是一个开放源码的框架,用于离线和大规模的数据分析。HDFS作为其核心存储引擎,在数据存储中得到了广泛的应用。
在数据存储过程中,涉及到的数据表都是成千上百列,包含各种复杂的Query,推荐使用列式存储方法,比如parquent,ORC等对数据进行压缩。Parquet 可以支持压缩选项,显著减少在磁盘上的存储空间。
三、 数据清洗
MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它大大方便了程序员在分布式系统中运行自己的程序,而无需分布式并行编程。
四、 数据查询分析
Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。
五、 数据可视化
接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流BI平台,如国外敏捷商务平台、Qlikview、Powrerbi、国内小型商务、新兴电子商务等。
在上面的每一个阶段,保障数据的安全是不可忽视的问题。