我(不是博主,这里的我指的是Shivaram Venkataraman)很高兴地宣布即将发布的Apache Spark 1.4 release将包含SparkR,它是一个R语言包,允许数据科学家通过R shell来分析大规模数据集以及交互式地运行Jobs. R语言是一个非常流行的统计编程语言,并且支持很多扩展以便支持数据处理和机器学习任务.然而,R中交互式地数据分析常常局限在单个线程运行环境中,而且只能处理适合一台机器内存的数据集.SparkR,一个R语言包,最初由AMPLab开发,提供了R语言和Apache Spark交互的前端,并且可以在R Shell中使用Spark的分布式计算引擎来分析大规模的数据集.
Spark官方正式宣布支持SparkR(R on Spark) – 过往记忆