一生一世爱小拉吧 关注:75贴子:2,522
  • 12回复贴,共1

【大数据】

只看楼主收藏回复

把上述例子中的用户列表获取过程进行细分,有如下几个部分(见图2)。

图2
业务理解:理解业务本身,其本质是什么?是分类问题还是回归问题?数据怎么获取?应用哪些模型才能解决?
数据理解:获取数据之后,分析数据里面有什么内容、数据是否准确,为下一步的预处理做准备。
数据预处理:原始数据会有噪声,格式化也不好,所以为了保证预测的准确性,需要进行数据的预处理。
特征提取:特征提取是机器学习最重要、最耗时的一个阶段。
模型构建:使用适当的算法,获取预期准确的值。
模型评估:根据测试集来评估模型的准确度。
模型应用:将模型部署、应用到实际生产环境中。
应用效果评估:根据最终的业务,评估最终的应用效果。


1楼2017-11-16 02:00回复
    构建数据仓库的方式
    OLAP的定义
    OLAP的四个特点


    2楼2017-11-16 02:06
    收起回复
      数据仓库和数据集市的区别


      3楼2017-11-16 02:06
      回复
        数据平台架构


        4楼2017-11-16 02:08
        收起回复
          整体架构分为四个部分,数据源产生子系统、数据加载子系统、数据存储子系统、离线数据处理子系统。


          5楼2017-11-16 02:10
          回复
            元数据管理的范围将涵括数据产生、数据存储、数据加工和展现等各个环节的数据描述信息,帮助用户理解数据来龙去脉、关系及相关属性。按其描述对象的不同可以划分为三类元数据:技术元数据、业务元数据和管理元数据。这三种元数据的具体描述如下:
              技术元数据 技术元数据是描述数据系统中技术领域相关概念、关系和规则的数据,主要包括对数据结构、数据处理方面的特征描述,覆盖数据源接口、数据仓库与数据集市存储、ETL、OLAP、数据封装和前端展现等全部数据处理环节;
              业务元数据 业务元数据是描述数据系统中业务领域相关概念、关系和规则的数据,主要包括业务术语、信息分类、指标定义和业务规则等信息;
              管理元数据 管理元数据是描述数据系统中管理领域相关概念、关系和规则的数据,主要包括人员角色、岗位职责和管理流程等信息


            6楼2017-11-16 08:11
            回复
              交易数据:用于纪录业务事件,如客户的订单,投诉记录,客服申请等,它往往用于描述在某一个时间点上业务系统发生的行为。
                主数据:主数据则定义企业核心业务对象,如客户、产品、地址等,与交易流水信息不同,主数据一旦被记录到数据库中,需要经常对其进行维护,从而确保其时效性和准确性;主数据还包括关系数据,用以描述主数据之间的关系,如客户与产品的关系、产品与地域的关系、客户与客户的关系、产品与产品的关系等。
                元数据:即关于数据的数据,用以描述数据及其环境的结构化信息,便于查找、理解、使用和管理数据。


              7楼2017-11-16 08:15
              回复
                数据管理系统与数据仓库系统是相辅相成的两个系统,但二者绝不是重复的,也不是互斥的。它们有很多共同之处:
                  首先二者对企业都具有相同的价值,可以减少数据冗余和不一致性、提升对数据的洞察力,二者都是跨部门的集中式系统;
                  其次二者都依赖很多相同的技术手段,都会涉及到 ETL 技术、都需要元数据管理、都强调数据质量;
                  第三就是二者建设手段类似,都需要数据治理的规范作为指导、都需要不同系统、不同部门的协作、需要统一的安全策略。
                  但是,主数据管理系统和数据仓库 / 决策支持系统二者之间也存在很多不同:
                  处理类型不同:主数据管理 (MDM) 系统是偏交易型的系统,它为各个业务系统提供联机交易服务,系统的服务对象是呼叫中心、B2C、CRM 等业务系统;而数据仓库是属于分析型的系统,面向的是分析型的应用,是在大量历史交易数据的基础上进行多维分析,系统的使用对象是各层领导和业务分析、市场销售预测人员等;
                  实时性不同:与传统的数据仓库方案的批量 ETL 方式不同,主数据管理系统在数据初始加载阶段要使用 ETL,但在后续运行中要大量依赖实时整合的方式来进行主数据的集成和同步;
                  数据量不同:数据仓库存储的是大量的历史数据和各个维度的汇总数据,可能会是海量的,而 MDM 存储的仅仅是客户和产品等信息。
                  虽然主数据管理系统和数据仓库系统异同共存,但是二者却有着紧密的联系,并且可以互为促进、互为补充。举例而言,数据仓库系统的分析结果可以作为衍生数据输入到 MDM 系统,从而使 MDM 系统能够更好地为操作型 CRM 系统服务。
                http://www.cbdio.com/BigData/2016-04/14/content_4803027.htm


                8楼2017-11-16 08:19
                回复
                  9楼2017-11-16 08:20
                  回复
                    10楼2017-11-16 10:56
                    回复