【Clemetine】基于判别分析的电信客户分类

一、实验目的及要求

实验目的：1、用判别分析对于电信客户完成分类。
2、通过本次实验加深对判别分析的理解，为以后熟练的使用判别分析打好基础。
实验要求：1、熟练地了解判别分析的原理。
2、深入分析数据从中挖掘获取更有价值的客户信息。
3、实验结论必须符合事实。

二、实验仪器设备

计算机，打印机。

三、实验内容

（一）实验背景
随着国内电信行业进步的改革与重组和通信技术的飞速发展。面对激烈的竞争环境和飞速发展的信息技术，传统的粗放型市场运营策略发挥作用的空间已十分有限，电信运营商意识到客户才是企业生存和发展的源泉。因此，电信运营商的管理模式必须完成从以产品信总为中心”到“以客户为中心”转变。
电信运营商作为国内领先的拥有了大量电子化数据的行业在发展过程中积累了大量的客户信息数据和消费数据，这些数据真实地反应了电信客户的消费行为，它们是电信企业的重要资产和财富。电信企业希望通过深入分析数据从中挖掘获取更有价值的客户信息，建立面向电信客户的客户关系管理(CRM)系统。实践企业以客户为中心的经营理念，使服务的内容质量以及意识均得到不断提高。
（二）实验的相关知识点
1、判别分析在开始之前明确类别主要工作是建立判别规则则，对给定样品进行判定。
2、判别分析常用方法：Bayes判别法、Fisher判别法、二次判别法、距离判别法。
（三）实验原理
判别分析是多元统计中用于判别样品所属类型的一种统计分析方法，是一种在已知研究对象用某种方法已经分成若干类的情况下，确定新的样品属于哪一类的多元统计分析方法。
判别分析方法处理问题时，通常要给出用来衡量新样品与各已知组别的接近程度的指标，即判别函数，同时也指定一种判别准则，借以判定新样品的归属。所谓判别准则是用于衡量新样品与各己知组别接近程度的理论依据和方法准则。

四、实验实施步骤

（一）实验调试步骤
1、创建数据流：

2、类型节点设置，将gender类型更改为集合，
multline,voice,pager,internet,called,callwait,forward,confer,ebill的类型改为标志，custcat的方向改为输出：

3、添加过滤节点，过滤节点以选取相关字段（地区、年龄、婚姻状况、地址、收入、教育程度、行业、退休、性别、居住地和客户类别）。其他字段可以排除在此分析之外。42个已输入，31个已过滤，0个已重命名，11个已输出：

4、建立判别式模型，将方法改为逐步法，众数选择专家，先验概率选择所有组都相等，使用组内协方差矩阵，在“高级输出”对话框中，选择汇总表、区域图和步骤汇总。

5、模型浏览及分析
“高级”标签下“案件处理摘要”列出了关于样本的信息，分析如下。
（1）逐步判别式分析:
拥有大量预测变量时，逐步法有助于自动选择“最适合的”用于模型的变量。如下图6中第二列，逐步法的最初模型不包括任何预测变量。第五列，在每个步骤中，会将具有超出输入标准值（默认为 3.84）的最大 F to Enter 值的预测变量添加到模型中。

在最后一个步骤中保留在分析之外的变量具有的 F to Enter 值都小于 3.84，因此不再向分析中添加其他变量。

下图显示了每个步骤中包括在分析中的变量的统计信息。

容差指该变量的方差中不能由方程式的其他自变量解释的部分所占比例。容差很小的变量可以向模型提供的信息很少，并且可导致计算问题。F to Remove 值有助于说明从当前模型中删除某个变量（假设其他变量仍保留）时可能发生的情况。输入变量的 F to Remove 与上述步骤中的 F to Enter 相同（显示于“不包括在分析中的变量”表）。
（2）检查模型拟合：
图9（特征值）

几乎所有由模型解释的方差都源于前两个判别函数。三个函数可自动拟合，但由于第三个函数特征值极小（0.001(a)），可以完全忽视此函数而不用担心安全性。

Wilks’ lambda 认同仅有前两个函数是有用的。对于每一个函数集合,该判别式检验各组所列函数的均值相等的假设。由上图（Wilks的Lambda）可知对函数 3 的检验(0.335)具有的显著性值大于 0.10，因此该函数对模型而言意义甚微。

如上图中，当存在多个判别式函数时，用星号来标记每个变量与某典范函数的最大绝对相关度。在每个函数内部，这些标记星号 (*) 的变量将按相关度大小排序。

区域图有助于研究组与判别式函数之间的关系。结合结构矩阵的结果，区域图能对预测变量和组之间的关系提供图形化的解释。

6、添加数据审核字段：

7、创建矩阵节点：

（二）实验原始数据记录

（三）实验调试过程中存在的问题、解决问题的思路及办法
可能出现的问题：数据类型设置不合理影响判别结果
解决办法：区分并明确集合、连续、标志等不同数据类型适用的数据

五、实验总结

创建了一个判别式模型，用以基于每个用户的人口统计学信息将用户分类到四个预定义的“服务使用”组之一。利用结构矩阵和区域图，能够鉴别出那些最有助于分割客户群的变量。最后，分类结果显示模型对电子服务用户进行分类时表现欠佳。需要进一步研究来确定另一个预测变量，以便更好地对这些用户进行分类，但该模型是否可以完全能够满足我们的需求，取决于希望预测的内容。例如，如果对电子服务用户的鉴别并不关心，那么该模型可足以满足需求。这种情况可能是，将电子服务作为一种仅为吸引顾客而出售并产生微薄利润的产品。例如，如果投资的最高回报来自于附加服务或全套服务用户，则该模型能够提供所需的信息。这些结果仅基于训练数据，要评估该模型适用于其他数据的程度，可以使用分区节点保留部分记录，用于测试和验证。

【Clemetine】基于判别分析的电信客户分类

大数据系统相关栏目本月热门文章