ai中国吧 关注:10贴子:83
  • 0回复贴,共1

数据科学家的思维之路

只看楼主收藏回复

  在过去的几个月内,来自不同行业人不约而同问我能否提供一个端到端的视图,使他们了解成为一个数据科学家的思维过程。为这个问题寻找答案时,我想的不仅仅是提供一个端到端的视图过程,而是面对一个分析问题时我们应该更深入的了解他/她是怎么想的。
  接下来我将分五个板块带领大家体验数据科学家的思维之路。文章的前半部分将介绍数据科学家如何进行任务的公式化建模以及数据点的工程化,这样可以为我们后续数据科学之旅提供规范和方向。我们还将深入了解整个生命周期中的另外两个重要因素,即探索性数据分析和特征工程。这些过程在制定问题的正确模型方面是很重要的。
  当我们试图解开数据科学家的思维过程时,我们需要经历如下五个过程:

  以上是对数据科学家试着定位问题时思维迷宫的一个鸟瞰图。所以让我们沿着这些路径指示并开始踏上数据科学家思维之旅。
  一、业务探索:开始▼
  每次开始总有一些业务挑战或问题,这些困难为以后的数据科学铺平了道路。
  为了更能理解,我们先举个例子,假设一个农产品公司生产鸡蛋,然后找到我们,希望能够帮助他们预测鸡蛋的产量。为了能解决这些业务预测问题,他们给了我们内部系统中的可用历史数据。
  那你认为我们应该从哪里开始着手这个任务呢?最好的方法是对不利于我们预测的变量建立直觉和假设。我们可以称它为响应变量,在该例子中就是产蛋量。为了获得影响我们响应变量关键因素的直觉,我们必须采取一些辅助研究并且跟该公司的相关人员进行接洽。我们可以把这一阶段作为熟悉、业务发现的阶段。在这个阶段,我们建立对影响我们响应变量关键因素的直觉。这些关键因素称为独立变量或特征。通过业务发现(上面也译为发现)阶段,我们可发现影响鸡蛋产量的关键特征是温度、电力、好的水源、营养成分、鸡饲料质量、疾病流行情况、疫苗接种等。除了关键特性的识别,我们还基于特征和响应变量之间的关系上构建直觉。
  比如——
温度和鸡蛋产量上存在哪种关系?
那种鸡饲料会影响产量吗?
电力和产量之间是否有关联?
  ……


IP属地:湖南1楼2016-12-22 09:35回复