elm预测
一、背景
2.1)第一个阶段,预测目标是每天的单量,经分析发现7个工作日单量模型不同,所以每个工作日配置了一个模型,使用特征包括优惠力度,使用的算法是线性回归。Excel可以直接计算。
2.2)第二个阶段,预测目标是每天的单量,使用特征为历史1天、3天、7天单量, uv(获取不到),优惠力度,使用算法为随机森林,线性回归。 本文数据建模以周一为例。
理论知识:决策树方法在分类、预测、规则提取等领域有着广泛的应用。决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属相上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。构造决策树的核心问题是如何在每一步选择适当的属性对样本进行划分。
二、数据准备:历史1天、3天、7天单量,最近1天优惠力度,最近7天营销力度,预测当天天气情况晴天/小雨/大雨等
三、数据预处理
以周一数据为例
3.1)描述统计
数据显示我们建模数据有33条
3.2)数据完整性,类型描述
3.3)哑变量处理
天气类型为晴天、小雨、大雨,转化为类型1、类型2、类型3,不符合机器学习,需转化为哑变量特征处理,转化为0和1
四、探索性分析
4.1)目标销量分析
指标1偏度为:0.165267,峰度为-0.714559。说明预测结果相对不集中,略微右偏。同时峰度为-0.714559 K < 0 ,数据平峰,数据相对不集中,离群值较少。
偏度是统计数据分布偏斜方向和程度的度量,是统计数据分布的非对称程度的数字特征。
- 当 SK>0时,值越大,右偏程度越高
- 当 SK<0时,值越小,左偏程度越高
- 当 SK=0时,对称分布
峰度是指次数分布曲线顶峰的尖顶程度,是次数分布的又一重要特征,通常以正态
分布为标准。
- 当变量值的次数再众数周围分布的比较集中,使次数分布区曲线正态分布曲线顶峰更为"尖峭",称为尖顶峰度。当K > 0 ,数据尖峰,两侧存在离群值。
- 当变量值的次数再众数周围分布的比较分散,使次数分布区曲线正态分布曲线顶峰更为"平缓,称为平顶峰度。当K < 0 ,数据平峰,数据相对不集中,离群值较少。
- 当 K=0时,趋于正态分布。
4.2)探索各个变量与目标值关系
4.2)变量相关性
五、特征工程
5.1)数据拆分为实验组&空白组,80%训练,20%验证
建模随机森林模型得分
5.2)预测结果集和实际值差异
5.3)树
六、模型评估
评估指标主要采用准确率分值、MAE(mean_absolute_error(平均绝对误差))、MSE(mean_squared_error(均方误差))、RMSE((Root Mean Square Error)均方根误差)
各个指标含义如下:
有偏性(ME):AVG(yi'-yi)
平均绝对差值(MAE):AVG(|yi'-yi|)
均方误差(MSE):∑(yi'-yi)^2/n
均方根误差(RMSE):sqrt(∑(yi'-yi)^2/n)
6.2)重要性分布如下图,可以看到前1天和前3天订单对结果干预影响很大,最近7天营销系数明显重要于前1天的营销系数。天气对结果干预营销较小。
经过上述步骤,可以得到各个模型的结果如下:
平均绝对误差(Mean Absolute Error, MAE):是绝对误差的平均值,可以更好地反映预测值误差的实际情况
均方误差(Mean Square Error, MSE):是真实值与预测值的差值的平方,然后求和的平均,一般用来检测模型的预测值和真实值之间的偏差
均方根误差(Root Mean Square Error, RMSE):即均方误差开根号,方均根偏移代表预测的值和观察到的值之差的样本标准差
R²(R squared, Coefficient of determination):决定系数,反映的是模型拟合数据的准确程度,一般R² 的范围是0到1。其值越接近1,表明方程的变量对y的解释能力越强,这个模型对数据拟合的也较好
平均绝对百分比误差(Mean Absolute Percentage Error,MAPE):理论上,MAPE 的值越小,说明预测模型拟合效果越好,具有更好的精确度
不同工作日实际值和预测值拟合趋势线:
关注公众号「水沐教育科技」,在手机上阅读所有教程,随时随地都能学习。内含一款搜索神器,免费下载全网书籍和视频。

微信扫码关注公众号