Spark Data Source API是从Spark 1.2开始提供的,它提供了可插拔的机制来和各种结构化数据进行整合.Spark用户可以从多种数据源读取数据,比如Hive table,JSON文件,Parquet文件等等.我们也可以到http://spark-packages.org/(这个网站貌似现在不可以访问了)网站查看Spark支持的第三方数据源工具包.本文将介绍新的Spark数据源包,通过它我们可以访问 Amazon Redshift Service,这个工具包叫做spark-redshift.spark-redshift主要由Databricks维护,并且有SwiftKey等公司贡献代码.
通过spark-redshift工具包读取Redshift上的表 – 过往记忆