1、第三章数据挖掘与CRM 数据挖掘的基本知识CRM中的数据挖掘应用 4 1数据挖掘的基本知识 数据挖掘的产生背景 数据爆炸但知识匮乏 数据 一般的业务操作 通常都会产生大量的数据 如订单 库存 交易帐目 通话记录 及客户资料等 信息 如何利用企业的历史数据增进对业务情况的了解 帮助我们在业务管理及发展上作出及时 正确的判断 需要从数据成为信息 美国三大电视网电视剧广告间隙 美国自来水公司的用水高峰 如何抛弃不必要的数据 从大量数据中及时提取有用的知识 数据挖掘 从大量的数据中挖掘出有用的知识 1 Walmart and 2 NASDAQ 3 NBA AdvancedScout 数据挖掘的定义 数
2、据挖掘 DataMining技术角度的定义数据挖掘就是从大量的 不完全的 有噪声的 模糊的 随机的实际应用数据中 提取隐含在其中的 人们事先不知道的但又是潜在有用的信息和知识的过程 商业角度的定义数据挖掘是一种新的商业信息处理技术 其主要特点是对商业数据库中的海量业务数据进行抽取 转换 分析和其他模型化处理 从中提取辅助商业决策的关键性数据 知识发现 KDD 数据挖掘过程 数据挖掘 知识发现过程的核心 数据清理 数据集成 数据库 数据仓库 知识 任务相关的数据 选择 数据挖掘 模式评估 数据挖掘 多种技术的融合 数据挖掘VS传统分析方法有何区别 数据挖掘是在没有明确假设的前提下去挖掘信息 发现
3、知识 数据挖掘过程 数据挖掘过程包括 数据准备 选择 预处理 转换 确定主题读入数据 建立模型 理解模型解释与评价知识应用 分析问题 整合数据 建立模型 理解规则 预测未来 数据挖掘技术分类 数据挖掘 描述 预测 可视化 聚类 关联规则 汇总描述 分类 统计回归 时间序列 决策树 神经网络 数据挖掘的模型 1 分类 Classification 与决策树 Decisiontrees 分类分析是为了找出描述和区分数据类或概念的模型 常常通过决策树 神经网络等模型进行表示 决策树 根节点 节点 分支 叶子 CHAID决策树分析 市场分析 在贷款申请中 要对申请人的风险大小做出判断 多变量分析根据细
4、分变量区分群体的差异性程度 卡方统计值Chi square 的大小 将样本分为不同特征的细分群体 过程确定细分的目的与细分变量 人口统计变量 心理变量 行为变量 变量类型 分类变量或有序变量根据卡方值最显著的变量将样本分为不同细分群体样本量敏感 父节点样本30 子节点5 数据挖掘的模型 2 聚类 Cluster 聚类是把一组个体按照相似性归成若干类别的过程 原则 最大化类内部的相似性 最小化类之间的相似性聚类方法包括统计方法 机器学习方法 神经网络方法和面向数据库的方法 数据挖掘的模型 3 关联 Association 在购买面包的顾客中 有90 的人同时也买了牛奶 面包 牛奶 计为X Y 评
5、估关联规则的四个重要指标是 1 支持度 support 交易集中包含X和Y的交易数与所有交易数之比 记为support X Y 2 可信度 confidence 包含X和Y的交易数与包含X的交易数之比 记为confidence X Y 3 期望可信度 expectedconfidence 描述了在没有物品集X的作用下 物品集Y本身的支持度 记为E confidence Y 4 作用度 lift 作用度是可信度对期望可信度的比值 描述了物品集X对物品集Y的影响力的大小 记为Lift X Y 一股情况要求大于1 设supmin 50 confmin 50 符合条件的关联规则有哪些 A D 60 1
6、00 D A 60 75 数据挖掘的模型 4 序列模式 SequentialPattern 分析数据之间的前后 因果 关系 类似于关联分析用于发现客户潜在的购物模式先购买PC 再购买数码相机 接着还要买存储卡5天之内 X股票最多上涨10 Y股票涨幅在10 20 之间 Z股票在下星期上涨的概率为68 指标最小支持度最小可信度 4 2CRM中的数据挖掘应用 在CRM中的应用范围 客户盈利能力 客户保留 客户细分 客户倾向 渠道优化 风险管理 欺诈监测 购物倾向分析 需求预测 价格优化 案例 基于DM的客户营销管理 流失预警模型 交叉销售模型 客户行为细分模型 更多模型 营销信息预警 营销方案策划
7、绩效管理 主动营销 客户 行为数据 业务系统 数据仓库 数据挖掘 模型 行为数据 行为数据 客户挽留 营销信息层 分析企划层 管理实施层 客户行为细分 低端 中端 高端 ARPU值相似的客户需求特点却差别很大 客户细分之谜 根据ARPU值进行客户细分的方法 基于数据挖掘技术的以需求为基准的细分 客户行为 价值细分模型 海量客户行为数据 特征数据 组内行为特点相似组间行为差异较大的客户分组 客户行为细分 续 客户行为细分模型 客户流失倾向预警模型 价格敏感度模型 客户信用评分模型 交叉销售模型 营销效果预测模型 客户价值评估模型 客户行为细分模型通过上百个变量描述客户 性别 年龄 建档时间 证件
8、号码 缴款方式 信息费 应收金额 优惠金额 滞纳金应收 SMS次数 国际呼叫 呼入 呼出比例 短消息话单类型 信息长度 赠送费用 呼转类型 漫游话费 通话时长 赠送分钟数 费用类型 动态漫游号 IMSI号码 月均基本通话 月均国内长途 工作日呼叫次数 工作日呼叫时间 WAP呼叫时间 繁忙时段呼叫次数 非繁忙时段呼叫次数 SMS次数 WAP次数 IP呼叫次数 语音呼叫次数 非语音呼叫次数 月均国际长途 非IP呼叫时间 数据挖掘自动生成影响客户分组的主要因子 性别 年龄 缴款方式 SMS次数 国际呼叫 其它 优惠金额 短消息话单类型 赠送费用 费用类型 漫游次数 应收金额 IDD次数 月均国内长途
9、 月均基本通话 非语音呼叫次数 SMS次数 WAP次数 月均国际长途 语音呼叫次数 费用类型 聚类分析 根据自身所具有的特征自动聚为一些行为特点相似的群体 1 2 8 4 5 3 7 6 因素二 国内呼叫次数 因素三 IP呼叫次数 因素一 繁忙时段呼叫次数 16个组中呈现出差别明显的优势 弱势特征 各类客户人数及收入贡献一览 人数百分比 收入贡献百分比 59 61 56 41 15 08 28 51 14 89 25 91 优质 普通 弱势 示例 全球通 后付费 客户的17个客户分组 对细分客户组进行特征描述 业务推广与客户服务建议 本组市场建议业务推广建议彩信业务 统计分析发现本组客户彩信使
10、用人数比例明显大于其他16个客户分组GPRS业务 估计本组客户中有相当部分人群是商务人士客户服务建议免费赠送香港天气预报与航空公司里程积点互换空港VIP休息室 2 产品交叉销售 交叉销售研究要点 交叉销售通过研究客户的产品使用情况 消费行为特点 发现老客户的潜在需求交叉销售通过产品之间的关联 寻找实现产品捆绑销售的机会交叉销售为新产品寻找已有用户中的目标群体 相关性弱 根据产品业务关联性评分表 形成某一产品与其他产品关联关系图 以形象说明本产品与其他产品之间的关联关系 正相关或是负相关 及其关联性强弱 正向关联 负向关联 客户取消产品时作为替补品 考虑产品捆绑销售 替代性弱 相关性强 替代性强
11、 产品业务关联关系图说明 产品A与语音信箱 移动梦网 随E行 数据通信 呼转小叮铛 彩信 百宝箱 20元 0元GPRS套餐都有正向关联关系 某一产品与其他产品 业务的关联关系 次 产品A 分组普及率分析 7短信专家组 4短信潜力组用户对产品A的兴趣相当较浓 可作为大规模推广该产品的突破口 9夜间积极组 15差旅人士组 8组长途电话组根据用户行为分析 也应用有较大的交叉销售机会 产品A 客户分组交叉销售机会 问题描述 预测信用水平是好还是差 银行据此决定是否向客户发放贷款 发放多少结果描述 决策树 收入大于5万元 年 是 否 有无储蓄帐户 是否房主 是 是 否 否 批准 不批准 批准 客户信用评价 问题描述 根据客户信息 预测客户流失可能性结果描述 神经网络 输入 流失概率 0 87 输出 男 29 3000元 月 神州行 130元 月 客户流失预测 问题描述 如何决定超市中商品的摆放来增加销售额结果描述 Web图 商品陈列分析 问题描述 如何对市场进行细分 使产品满足最有价值客户结果描述 聚类分析 营销活动回应率 聚类与市场细分 问题描述 如何从众多申请经费或者纳税中发现欺诈结果描述 回归 神经网络 离群分析与欺诈识别