1.数据底盘
从最原始的数据表或者excel中 通过sql或者hive手段 初步处理数据 形成底层数据 dwd明细或者dws轻汇
包含 运单特征、客户特征、运力特征、运营数据特征、预算指标特征、节假日特征、营销活动特征、平峰高峰特征、区域特征(全网/业务区/网点/细分地域 小区学校之类)、经济市场/特征、企业画像 用户画像 大客户特征、等等...
2.特征工程
从数据RawData的基础上 通过简单的算法模型进一步的处理。
包含 N阶差分、线性变换、离散化、连续化、归一化、非线性模型、异常与阶段、缺失值处理、统计值(均值/中位数/std/特征交叉/合并)、滑窗特征
3.特征评估
对于特征工程得出来的各种特征 进一步的评估和筛选有价值的。(不同属性的特征有最适用的评估方法 所以评估方法并不通用)
包含 PCA、方差选择法、超前和滞后效应、相关系数、决定系数、业务直觉、距离评估、信息增益、一致性、周期性、Atuo-correlation、增减集合评估 随机策略、1-plus、Knock-one-out、启发式策略、决策树策略、Roc和Auc曲线、准确率、精确率、召回率、混淆矩阵、P_value等
4.模型组件
在得到一些评估较好的特征前提下 将这些特征灌入模型组件 生成初版预测结果。主要在Python
包含
时序模型 ARMA、ARIMA、Prohet
机器学习模型 线性回归、SVM、PLS、Lasso、Ridge regression、SGD、GBDT、XGboots、LightBGM
深度学习模型 MLP(神经网络 多层感知器)、CNN(卷积神经网络)、RNN(循环神经网络)、LSTM(长短期记忆人工神经网络)、DGN(深度网格网络)、Attention、Seq2Seq(循环神经网络的变种包含encoder编码器decoder解码器)、RBM(受限玻尔兹曼机)、TPA-LSTM(注意力机制)、LSTNet(长短时间序列网格)、ARIMA(自回归移动平均模型) 等
5.模型提升
在模型组件输出的结果上 通过更高级策略规则 对模型的结果进行优化提升。
包含 加权融合、Boosting、层级配平、策略规则等



