某城市住房的相关调查数据集(housing)共包括3000条记录和9个字段,各字段的具体字段含义如下:Longitude(经度)、latitude(纬度)、housing_median_age(房龄) 、total_rooms(房间总数)、total_bedrooms(卧室数量)、population(城市人口数量)、households(登记户数)、median_income(居民收入)、median_house_value(平均房价)。前8个字段为属性字段,第9个字段median_house_value为目标字段。在模型训练时,housing数据集中训练样本占70%,测试样本则占30%。
要求:
(1)采用两种不同的回归方法,通过编程实现分别对训练样本集的训练学习,分别生成两个不同的平均房价预测模型。
(2)分别采用上述两个不同的预测模型,通过编程实现分别对去除目标字段的测试样本集的预测,并导出预测结果(*.cvs格式)。
(3)对比实际值与预测值,通过决定系数R2和均方根误差RMSE比较两种算法的预测精度,并简单分析原因。
有会的吗