论文编辑部-新丝路理论网_决策树与移动通信客户流失建模

百度百科

高教思政

您现在的位置: 论文编辑部-新丝路理论网 > 高教思政 > 历史文博 > 决策树与移动通信客户流失建模

决策树与移动通信客户流失建模

论文编辑部-新丝路理论网 2010-03-28 20:02:47 作者:站长来源: 文字大小:[大][中][小]

摘要本文通过数据挖掘理论，应用分类知识发现中的决策树算法，利用移动公司的实际运营数据建立训练集、测试集，经过商业理解、数据理解、数据准备、建模、评估、配置等数据挖掘流程进行移动客户流失预测模型分析。

关键词 CRM；数据挖掘；决策树

1 引言
    移动通信用户的流失问题[1]长久以来一直困扰着全球移动电话运营商，如在欧洲，每年有35%～50%的客户流失[2]；而获取一个新客户的平均成本超过700美元，这几乎相当于一个客户5年内给公司带来的净利润。在我国加入WTO以后，各运营商间开始更激烈的客户群体争夺，产品和服务的生命周期都在发生着很大的变化，客户的忠诚度和贡献度开始降低，这就要求国内移动运营商从传统的以产品为中心，以营业窗口为基础的运营模式，逐步向以客户为中心、以数据为中心、以信息为基础的模式转变，加强客户关系管理(CRM)[3]。如何对优质客户流失的倾向进行分析，如何防止客户流失，如何维系重要客户成为每一个移动运营商所面临的一个亟待解决的问题。
    通过数据挖掘[4]技术，应用的算法可以建立移动客户流失预测模型，为企业提供有价值的业务洞察力，帮助企业制订有效的市场营销战略，防止公司客户流失。
    本文以某移动通信客户市场为例，运用分类知识发现技术，以Clementine为数据挖掘工具来建立移动通信客户流失模型，帮助企业预先洞察到要流失的客户。
2 建立移动客户流失模型概要
2.1 建立移动客户流失模型的总体思路
    以移动公司提供的历史数据为基础，采用分类的方法[5]，建立预测模型，分析流失客户和在网客户的特征，然后利用流失预测模型，分析和判断现有客户是否会流失。
    分类方法[6]是数据挖掘中一项非常重要的任务，目的是构造一个分类函数或分类模型，通过分类函数把数据库中的元组映射到给定类别中的某一个，即发现一些指定的商品或事件是否属于某一特定数据子集的规则。在分类发现中，训练集的样本个数或数据对象的类别标志是已知的，分类发现的任务就是根据从训练样本中发现的规则对未知其类别的数据进行分类。
2.2 建立移动客户流失模型的技术方法
    在项目实施过程中，以数据挖掘的思想和技术为理论基础，以移动公司提供的基本业务记录为数据基础，采用决策树[7]算法进行建模。
    决策树算法是分类发现算法中最常见的一种方法，这种方法在对数据进行处理的过程中，将数据按树状结构分成若干分支形成决策树，每个分支包含数据元组的类别归属共性（相当于分类发现中的类及其特性），从每个分支中提取有用信息，形成规则。在决策树的生成过程中，其输入为训练样本数据集，决策树是其最终的输出结果，决策树的每一个决策节点对应着元组进行分类的一个决策属性，分支对应着元组按该属性进一步划分的取值特征，叶子节点代表着各个类或类的分布。
3 建立移动客户流失模型的基本流程
    建立移动客户流失模型的基本流程为：
    确定流失指标→数据抽取→数据净化→建立流失预测模型→流失结果的分析评估
3.1 确定流失指标
    在确定流失指标时，本项目主要分析了三方面的数据：
    （1）客户基本资料：包括客户年龄、性别、客户状态、在网时长、积分。
    （2）客户业务数据：包括主动呼叫次数、被动呼叫次数、免费服务次数、主动联系人数、被动联系人数、网内通话次数、联通通话次数、固话通话次数、语音费用、普通短信费用、梦网短信费用、其它费用、总费用。
    （3）客户欠费信息：包括预存款、冲销欠款、滞纳金、欠费次数。
    为了确定在模型中将要使用哪些客户流失信息及客户数据时间范围，我们取数据窗口为三个月、时间间隔为一个月、预报窗口为一个月，因此客户业务数据和客户欠费信息都取连续三个月的数据进行分析。
3.2 数据抽取
3.2.1建立表结构
    根据确定好的流失指标，开始定义字段类型，建立表结构。本项目建立的表结构DW_LS_DATA如表1所示。

表1 DW_LS_DATA的表结构
列数据类型允许 NULL 注释
ID_NO NUMBER 不允许客户号
AGE NUMBERPS(2，0) 允许年龄
BEFORE_STAT CHAR(1) 允许前一种状态
NOW_STAT CHAR(1) 允许当前状态
MARK NUMBERPS(10，0) 允许积分
OUTNUM1 NUMBERPS(10，0) 允许前一个月的呼叫次数
OUTNUM2 NUMBERPS(10，0) 允许前两个月的呼叫次数
OUTNUM3 NUMBERPS(10，0) 允许前三个月的呼叫次数
……………

3.2.2 确定字段来源
    定义好表结构之后，为了得到所需要的数据，需要从各个表中抽取所需字段。
    客户基本信息来源于：DW_BASICINFO_ALL和DCUSTMARKMSG
    客户业务数据来源于：DW_BEHAVIOR
    客户欠费信息来源于：WPAYTOTAL
3.2.3 建立临时表
    在抽取字段的过程中，会生成一些中间表，为了减少资源的占用，将这些中间表建成临时表。
在流失模型的数据抽取过程中用到了三个临时表，TINFO，TFEECON，TOWECON。TINFO的作用是将离网的客户和所有在网的客户合并在一张表内；TFEECON的作用是将业务数据合并在一张表内；TOWECON的作用是将欠费信息合并在一张表内。
3.2.4 存储过程
    准备工作做完之后，就可以利用PL/SQL建立存储过程，抽取所需字段，将抽取的记录插入到最终的表DW_LS_DATA中，数据抽取的工作即告完成。
3.3 数据的净化
    数据净化[8]是清除数据源中不正确、空值、不完整等不能达到数据挖掘质量要求的数据。数据净化可以提高数据的质量，便于数据挖掘算法的实施，从而得到更正确的挖掘结果。
3.4 建立移动客户流失模型
    建立移动客户流失模型的方法很多，如决策树、神经网络及回归等，本项目采用决策树算法建立移动客户流失模型。建立流失预测模型的整个过程如图1所示。