极简入门数据挖掘(极简入门数据挖掘)

如何快速入门数据挖掘?本文将以工程界公认的实施步骤为基础,并结合小编的多年工作经验,来给你打开数据挖掘的冰山一角。

其实工程界经过多年的实战经验,已经对数据挖掘形成了自己一套标准流程,该流程英文名叫CRISP-DM(Cross-industry Standard Process for Data Mining),中文名是“跨行业数据挖掘标准流程”,该流程是对数据挖掘生命周期的全面描述,共包含了6个步骤,其中特别注意的是该步骤并不是按照直线顺序进行,而是根据实际项目情况,经常会回到上一个步骤中。

极简入门数据挖掘(极简入门数据挖掘)(1)

那么,每步骤具体要做什么?需要注意哪些点?不急!咱们往下看。


步骤1:业务理解

业务理解是指能够界定业务问题范围和理解业务目标,并能够根据具体业务需求,制定灵活的措施。该步骤作为第一步当然是至关重要,因为它指明了数据挖掘的分析方向和范围。有句俗话说的好“方向比努力更重要”。

为了更好的理解该步骤,就以小编的工作经历给大家说一下。有一天,领导在办公室突然大叫一声:“这个月收入下滑低太刺激,客户流失太严重了,吓死宝宝了”,并走到你的面前,“小王,你不是在玩数据建模吗,建一个客户流失模型吧,看看如何挽留客户提升收入。”小编接到这个艰巨的任务,头脑中灵光一闪,明白了领导的意图应该包含了三个问题。

3)一致性分析

一致性分析包括不一致影响和不一致产生原因

不一致影响:数据不一致主要是指数据的矛盾性、不相容性等原因造成的;如果不处理会导致相反的结果;

不一致产生原因:名称不一致,如终端品牌或机型的中英文;重复存放的数据未进行一致性更新;不同数据来源的数据,统计口径不同,导致数据不一致;

(2)数据特征分析

数据特征分布包括分布分析、对比分析、统计量分析、周期性分析、贡献度分析、相关性分析。主要了解数据自身的分布情况以及数据间的关联情况。

1)分布分析

分布分析可以揭示数据的分布特征和分布类型。

针对定性数据,可以做饼形图或条形图反应分布类型;

极简入门数据挖掘(极简入门数据挖掘)(2)

针对定量数据,可以做频率图或直方图进行直观地分析;

极简入门数据挖掘(极简入门数据挖掘)(3)

2)对比分析

对比分析是指把两个相关联系的指标进行横纵向或时间序列的对比分析

绝对数比较;利用绝对数进行比较;

相对数比较;用两个有联系的指标对比计算,包括结构相对数;比例相对数;强度相对数;动态相对数;完成度相对数;

极简入门数据挖掘(极简入门数据挖掘)(4)

3)统计量分析

统计量分析是用统计指标对数据进行统计描述,主要包括集中趋势和离中趋势两方面度量

集中趋势:反应平均水平的指标,即集中程度,主要包括平均数、中位数、众数等指标。

极简入门数据挖掘(极简入门数据挖掘)(5)

离中趋势:反应变异程度的指标,即偏离平均水平的程度,主要包括极差、标准差、变异系数,四分位数间距

极简入门数据挖掘(极简入门数据挖掘)(6)

4)周期性分析

周期性分析是探索某变量的变化是否随时间呈现周期性变化,主要有年、季度、月度、周、天、时等周期变化.

极简入门数据挖掘(极简入门数据挖掘)(7)

5)贡献度分析

贡献度分析又称20/80定律。同样的投入对不同客户会产生不同的收益

极简入门数据挖掘(极简入门数据挖掘)(8)

6)相关性分析

相关性分析是指用适当的统计指标来反映连续性变量之间线性相关程度的强弱。主要分析方式包括散点图和相关性系数

散点图

极简入门数据挖掘(极简入门数据挖掘)(9)

相关系数:Pearson相关系数、Spearman秩相关系数和判定系数

极简入门数据挖掘(极简入门数据挖掘)(10)


步骤3:数据准备

数据准备是指通过将收集的数据进行清洗、集成、变换和集约等预处理,以提升数据质量,同时进一步根据对业务的理解,生成一些有业务含义的衍生变量,并最后整理成可以进行数据挖掘的宽表形式的过程。

极简入门数据挖掘(极简入门数据挖掘)(11)

数据清洗:主要删除无关数据、重复数据、平滑噪音数据、处理缺失值、异常值等;

数据集成:是将多个数据源合并存放在一个一致的数据储存中的过程;

数据变换:对数据规范化,变量离散化,构造属性,将数据转变成“适当的”形式;

数据规约:产生更小的但保持原数据完整性的新数据集,属性规约和数值数值规约;

数据准备过程将占数据挖掘整个过程的60%甚至更多时间。该过程有些书本成为特征工程,如果特征建立的好,即使建立一个简单的模型,也会产生很好的效果。


步骤4:建立模型

建立模型主要是选择和应用各种建模技术或算法,同时对它们的参数进行调整已到达最优值的过程。在明确建模技术或算法后,需要确定模型参数和输入变量。主要包括变量选择、算法选择和参数调整。

(1)变量选择

如果过多变量入选可能削弱主业务变量,结果不易解释,过少变量入选导致信息丢失,因此在变量选择过程中常用的方法,包括相关性分析,逐步向前法,逐步向后法。

(2)算法选择

现在模型算法较多,如决策树、逻辑回归、神经网络等,因此需要从多个角度考虑来选择合适的模型算法,可用从业务角度和可用性角度出发。

业务角度的考虑:是否满足业务场景和调整;

模型可用性角度考虑:决策树的结果具有可解释性,人工神经网络准确度较高,但内部是黑匣子。

(3)参数调整

参数配置不同可能会导致模型的性能显著差距。一般的做法是对每个参数选定一个范围和变化步长,通过对不同参数对比分析,选择最优的模型参数。另外建模是的数据源不同,即使方法相同,也会导致参数不同。

建立模型是数据挖掘的核心阶段,该阶段需要熟练掌握数据算法,能够根据结果来调整优化模型。


步骤5:模型评估

模型评估主要从技术和业务两个层面进行评估,一是技术人员从技术角度对模型效果进行评估,二是业务人员对模型在现实环境中的实用性进行评估。模型评估是数据挖掘走向实际应用的重要阶段。一般使用的评估方法包括混沌矩阵和ROC。

(1)分类结果混沌矩阵

极简入门数据挖掘(极简入门数据挖掘)(12)

查准率、查全率和准确率指标越高模型性能越好。

(2)ROC曲线

ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。

极简入门数据挖掘(极简入门数据挖掘)(13)

ROC曲线越靠左上角或AUC的面积越大,模型的准确率越高。


步骤6:模型发布

模型发布是将构建的模型进行系统化和自动化处理,在模型实施的过程中实时监控和维护模型的运转,同时要基于业务的发展阶段和需求,对模型进行重构。

(1)总结·沉淀

回顾整个建模过程,总结经验教训,为后期的经验项目做沉淀积累;

将模型的构建过程形成文档,如 《XX模型构建说明书》

可将优秀的模型进行分享;

(2)监控·维护

建立模型监控机制和日常维护制度;能够保证模型的正常运转;

监控设计模型的硬件设施,计算能力,数据接入情况等;

(3)起点·重构

随着业务的发展变化,模型的适用性和效果可能也会发生变化,有必要对模型进行升级或重构;

随着数据源的不断丰富,也需要持续的优化模型的性能;


另外,入门后如何提升数据挖掘能力?小编的经验仅供参考。

多看:系统地看些数据挖掘或机器学习的专业书,来搭建自己完整的知识体系。如周志华的《机器学习》、《统计建模与R语言》、《数据分析与挖掘实战案例精粹》等相关书籍。

多学:对向牛人学习,关注他们写的博客(如数据铺子),微信公众号(如数据挖掘入门与实战),公开课(如斯坦福大学Andrew Ng教授《机器学习》)等

多练:可以根据经典案例代码实操,参加数据建模竞赛(如kaggle,阿里天池等),工作中的项目经验等。

只要不断的坚持学习,相信总有一天,你也可以成为数据挖掘领域的专家。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页