数据挖掘说明

数据挖掘无处不在。了解其含义、用途、优势和当前趋势。本文也将介绍领先的数据挖掘算法、技术、工具和常见问题。

什么是数据挖掘?

数据挖掘是探索和分析大量数据,从而发现有意义的模式和规则的过程。人们认为数据挖掘是数据科学领域的一门学科,它与预测性分析不同,因为预测性分析描述的是历史数据,而数据挖掘旨在预测未来的结果。另外,数据挖掘技术可用于构建机器学习 (Machine Learning, ML) 模型,后者可为诸如搜索引擎算法和推荐系统等现代人工智能 (Artificial Intelligence, AI) 应用提供动力。

数据挖掘的应用

Data Mining Applications

数据库营销和定位

零售商可通过数据挖掘更好地了解其客户。借助数据挖掘,他们能够更好地细分市场群体并定制促销活动,从而有效地深入了解不同消费者并向其提供自定义的促销活动。

信用风险管理和信用评分

银行可部署数据挖掘模型,从而预测借款人承担和偿还债务的能力。这些模型将使用各种人口统计信息和个人信息,根据分配给客户的风险等级自动选择利率。具有较好信用评分的申请人通常能获取较低利率,因为模型会使用该评分作为其评估因素。

欺诈检测和预防

金融机构可以实施数据挖掘模型,从而自动检测和阻止欺诈性交易。这种形式的计算机取证在每次交易的幕后发生,有时连消费者都不知情。通过跟踪消费习惯,这些模型将标记异常交易并即时中止支付,直到客户完成购买验证。数据挖掘算法可以自主工作,通过电子邮件或文本通知确认购买,从而保护消费者免受欺诈性交易威胁。

医疗生物信息

医疗专业人员可使用统计模型,根据风险因素预测患者出现不同健康状况的可能性。可以对人口统计、家庭和遗传数据进行建模,从而帮助患者做出改变,预防或缓解不良健康状况的发生。这些模型最近已在发展中国家部署,可在医生到达现场进行医治前帮助诊断患者并确定其优先级。

垃圾邮件筛选

数据挖掘还可用于抵御大量垃圾邮件和恶意软件。系统可以分析数百万条恶意消息的共同特征,从而为安全软件的开发提供信息。除了检测之外,该专业软件还可以更进一步,在垃圾邮件到达用户收件箱之前予以删除。

推荐系统

推荐系统目前得到在线零售商的广泛使用。预测性消费者行为建模现已成为很多组织的核心焦点,并被视为竞争的必要条件。Amazon 和 Macy’s 等公司均构建了自己的专有数据挖掘模型,用于预测需求、增强所有接触点的客户体验。Netflix 曾高调提供一百万美元的奖励,用于获取能够显著提高其推荐系统准确性的算法。最终的获奖模型将推荐准确度提高了8%以上。

情绪分析

对社交媒体数据进行情绪分析是数据挖掘的常见应用,其采用的技术被称为文本挖掘。这种方法被用于了解某一群体对某个主题的感受。文本挖掘涉及使用来自社交媒体渠道的输入和其他形式的公共内容,通过统计模式识别获取关键见解。我们还能更进一步使用自然语言处理 (Natural Language Processing, NLP) 技术,了解所使用的人类语言背后的语境意义。

定性数据挖掘 (Qualitative Data Mining, QDM)

文本挖掘技术可用于对定性研究进行结构化处理和分析,从而理解大量非结构化数据。Berkley 的研究人员发表了相关文章,深入探讨了此技术如何用于儿童福利研究。

如何进行数据挖掘

公认的数据挖掘流程包括六个步骤:

  1. 商业理解

    第一步是确定项目的目标以及数据挖掘如何帮您实现该目标。此阶段应制定相关计划,包括时间安排、行动和角色分配。

  2. 数据理解

    在此步骤中,我们需要从所有适用的数据源收集数据。此阶段通常会使用数据可视化工具来探索数据的属性,从而确保其有助于实现商业目标。

  3. 数据准备

    在此阶段将清理数据和补充缺失数据,确保准备好待挖掘数据。数据处理可能需要耗费大量时间,具体取决于待分析的数据数量和数据源数量。因此,现代化数据库管理系统 (Database Management System, DBMS) 会使用分布式系统来提高数据挖掘流程的速度,而不是让单个系统承载所有负担。相对于将组织的所有数据存放在单个数据仓库,分布式系统也更加安全。在数据处理阶段纳入故障保护措施非常重要,此举可以避免数据永久丢失。

  4. 数据建模

    在这一步中将通过数学模型,使用复杂的数据工具了解数据模式。

  5. 评估

    在这一步中,我们将评估发现成果并与商业目标进行对比,以确定是否应将其部署于整个组织。

  6. 部署

    在最后阶段,数据挖掘的成果将在日常商业运营中共享。可以使用企业商业智能平台,为自助式数据发现提供单一可信来源。

Data Mining Process

数据挖掘的优势

  • 决策自动化

    组织可借助数据挖掘持续分析数据并自动做出常规和关键决策,而不会因人为判断造成延迟。银行可以即时检测欺诈性交易、请求验证,甚至是保护个人信息,从而避免客户身份被盗用。这些模型部署于公司的运营算法中,可以独立收集、分析和处理数据,从而简化决策制定、强化组织的日常流程。

  • 准确预测和预报

    规划是每个组织的重要流程。数据挖掘有助于组织完成规划,还能根据过去的趋势和当前条件为管理人员提供可靠预测。Macy’s 通过实施需求预测模型来预测每家商店每个服装类别的需求,并据此安排适当库存,从而有效满足市场需求。

  • 削减成本

    过数据挖掘,我们可以更有效地使用和分配资源。组织可以通过准确的预测来规划和制定自动化决策,从而最大程度地削减成本。Delta 在乘客托运行李中嵌入射频识别 (Radio-Frequency Identification, RFID) 芯片,并部署了数据挖掘模型,用于识别其流程中的漏洞,并减少错误处理的行李数量。此流程提高了乘客满意度,同时降低了搜寻和重新运输遗失行李的成本。

  • 客户洞察

    公司可针对客户数据部署数据挖掘模型,从而发现所有客户的关键特征和差异。数据挖掘可用于创建角色,同时个性化每个接触点,从而提高整体客户体验。2017年,Disney 投资了超过 10 亿美元,用于打造和实施“Magic Bands”智能手环。这些手环与消费者建立了共生关系,致力于改善消费者在度假村的整体体验,同时收集消费者的活动数据,以便 Disney 进行分析,从而进一步提升客户体验。

数据挖掘的挑战

尽管数据挖掘是一个功能强大的流程,但大数据数量和复杂性的不断增加也会对其造成阻碍。公司每天会收集数艾字节的数据,而决策者需要在大型数据库中提取、分析和透彻理解数据。

  • 大数据

    大数据挑战丰富多样,并渗透到收集、存储和分析数据的每个领域。大数据面临着四大挑战:数量、种类、准确性和速度。大数据挖掘的目标是缓解这些挑战,释放数据的价值。

    数量挑战是指存储和处理组织收集的海量数据时面临的挑战。庞大的数据量会引发两大挑战:第一,找到正确的数据更加困难,第二,数据挖掘工具的处理速度会降低。

    种类挑战源于收集和存储的数据类型丰富多样。要同时处理各种数据格式,必须配备数据挖掘工具。如果不能同时对结构化和非结构化数据进行集中分析,数据挖掘的附加值就会受到限制。

    速度挑战源于创建、收集和存储新数据的速度不断增加。数量挑战与不断增加的存储需求有关,种类挑战与不断扩展的数据类型有关,而速度挑战与快速提升的数据生成速率有关。

    最后,我们面临着准确性挑战,即并非所有数据都同样准确。数据可能比较混乱、不够完整、收集不当,甚至存在偏差。无论如何,收集数据的速度越快,数据中的错误就越多。准确性挑战即平衡数据数量和质量的挑战。

  • 过度拟合的模型

    当模型说明的是样本中的自然误差而非群体的潜在趋势时,就会发生过度拟合问题。过度拟合的模型通常非常复杂,会利用过多的自变量来生成预测。因此,过度拟合的风险会随着数据数量和种类的增加而提升。变量太少,模型就毫无意义,而变量太多则会限制模型的功能:只能分析已知样本数据。挑战在于减少数据挖掘模型中使用的变量数量,同时平衡其准确预测的能力。

Data Mining Challenges
  • 扩展成本

    由于数据收集速度的提升将导致数据数量和种类不断增加,因此公司必须扩展相应模型,并将其应用于整个组织。若要使用这些模型释放数据挖掘的全部优势,就需要在计算基础架构和处理能力方面进行大量投资。为了实现扩展,组织必须购买和维护功能强大的计算机、服务器和软件,从而处理公司内数量众多、种类各异的数据。

  • 隐私和安全

    数据存储需求的提升迫使许多公司转向云计算和存储。尽管云服务为数据挖掘赋予很多现代化优势,但服务的性质会产生重大的隐私和安全威胁。组织必须保护其数据免受恶意数据的侵害,从而维护其合作伙伴和客户的信任。

    由于存在数据隐私问题,组织需要针对客户数据的使用和实施制定内部规则和约束。数据挖掘是一种强大的工具,可以让企业深入了解其消费者。但是,这种了解在某种程度上是否会侵犯个人隐私? 组织必须权衡这种与客户的关系,制定政策以使消费者获益,同时向消费者传达这些政策,从而维护可信任的关系。

数据挖掘的类型

数据挖掘有两个主要流程:监督式学习和非监督式学习。

  • 监督式学习

    监督式学习的目标是预测或分类。概念化此流程的最简单方法是查找单个输出变量。如果模型的目标是预测观察值,那么我们将此流程视为监督式学习。垃圾邮件过滤器就是一个例子,它使用监督式学习将收到的电子邮件进行不需要的内容归类,并自动从收件箱中删除这些邮件。

    监督式数据挖掘方法使用的常见分析模型包括:

    • 线性回归

      使用一个或多个独立输入预测连续变量的值。房地产经纪人可使用线性回归,根据面积、床浴比、建筑年份和邮政编码来预测房屋价值。

    • 逻辑回归

      逻辑回归使用一个或多个独立输入预测分类变量的概率。银行可使用逻辑回归,基于信用评分、家庭收入、年龄和其他个人因素来预测贷款申请人违约的概率。

    • 时间序列

      时间序列模型是使用时间作为主要自变量的预测工具。零售商(如 Macy’s)可部署时间序列模型,以预测随时间变化的产品需求,并通过预测为商店准确制定计划和准备库存,使其达到所需库存水平。

    • • 分类或回归树

      分类树是一种预测性建模技术,可用于预测分类变量和连续目标变量的值。此模型将根据数据创建二进制规则集,以便将最高比例的相似目标变量分开和分组。遵循这些规则,新观察结果所从属的组将成为其预测值。

    • 神经网络

      神经网络是一种受大脑结构、神经元及其连接启发的分析模型。这些模型最初创建于 20 世纪 40 年代,但近期才得到统计学家和数据科学家的广泛使用。神经网络使用输入,并根据其大小和阈值要求“触发”或“不触发”其节点。随后此信号(或缺少此信号)会与网络隐藏层中的其他“已触发”信号结合,此流程将不断重复,直到创建输出。由于神经网络的优势之一是近乎即时的输出,因此自动驾驶汽车正在部署这些模型,以准确有效地处理数据,从而自主做出关键决策。

    • K 近邻

      K 近邻方法用于根据过去的观察结果对新观察结果进行分类。与前几种方法不同,K 近邻属于数据驱动型,而非模型驱动型。此方法不对数据做出潜在假设,也不使用复杂的流程来解释其输入。K 近邻模型的基本概念是通过识别其最近的 K 个邻居并为其分配多数值来对新观察结果进行分类。很多推荐系统会嵌套此方法,用于识别和分类类似的内容,并随后由更大的算法提取。

Types of Data Mining
  • 非监督式学习

    非监督式任务侧重于理解和描述数据,以揭示其中的基本模式。推荐系统采用非监督式学习来跟踪用户模式,并为其提供个性化建议,从而增强客户体验。

    非监督式数据挖掘方法使用的常见分析模型包括:

    • 群集

      群集模型可将类似的数据进行分组。它们最适用于描述单个实体的复杂数据集。相似建模就是一个例子,这种方法用于对相似分段进行分组、识别群集,以及定位类似现有群组的新群组。

    • 关联分析

      关联分析也称为购物篮分析,用于识别经常一起出现的项目。超市经常使用此工具来识别搭配产品,然后将搭配产品分散放置在商店各处,从而鼓励顾客浏览更多商品,增加购买量。

    • 主成分分析

      主成分分析用于说明输入变量之间隐藏的相关性,以及创建被称为主成分的新变量,主成分具备与原始数据相同的信息,但变量较少。通过减少用于传达相同级别信息的变量数量,分析师可以提高监督式数据挖掘模型的效用和准确性。

  • 实践中的监督式和非监督式方法

    尽管您可以独立使用这两种方法,但在分析过程中,这两种方法经常结合使用。每种方法都具有其独特优势,结合使用可以提高数据挖掘模型的稳健性、稳定性和整体效用。监督模型可从派生于非监督式方法的嵌套变量受益。例如,分析师可以使用回归模型中的集群变量删除模型中的冗余变量并提高其准确性。由于非监督式方法揭示了数据中的潜在关系,因此分析师应使用非监督式学习的见解来提升其监督式分析。

数据挖掘工具

数据挖掘解决方案多种多样,因此彻底了解您的具体目标并将其与正确的工具和平台进行匹配非常重要。

RapidMiner

RapidMiner 是使用 Java 编写的开源软件。RapidMiner 是执行预测分析的最佳平台之一,可为深度学习、文本挖掘和机器学习提供集成环境。该平台可以使用内部部署或基于云的服务器,已经得到各大组织的使用。RapidMiner 完美平衡了自定义编码功能和用户友好型界面,因此,那些在编码和数据挖掘方面具有坚实基础的用户可以最有效地使用该平台。

Orange

Orange 是一款使用 Python 编写的基于组件的开源软件。Orange 具有无痛数据预处理功能,是用于基本数据挖掘分析的最佳平台之一。Orange 采用面向用户的方法进行数据挖掘,具有独特的用户友好型界面。然而,它的主要缺点之一是外部数据连接器集合非常有限。对于需要用户友好型数据挖掘功能和使用内部存储的组织而言,Orange 是理想之选。

Mahout

Mahout 由 Apache Foundation 开发,是一个开源平台,专注于非监督式学习流程。该软件擅长针对集群、分类和协作筛选创建机器学习算法。Mahout 适合那些具有更高级背景的个人。该程序允许数学家、统计学家和数据科学家创建、测试和实施自己的算法。尽管 Mahout 的确包含组织可以轻松部署的几个全包式算法(例如推荐器),但由于该平台较大,因此需要具备更专业的背景才能充分利用其全部功能。

Microstrategy

MicroStrategy 是一款商业智能和数据分析软件,可作为所有数据挖掘模型的补充。借助广泛的本地网关和驱动,该平台可以连接到任何企业资源并分析其数据。MicroStrategy 擅长将复杂数据转换为可访问的可视化信息,以便在整个组织进行分发。该软件可以实时跟踪和分析所有数据挖掘模型的性能,并为决策者清晰地显示这些见解。用户可以将 MicroStrategy 与数据挖掘工具搭配使用,从而创建高级数据挖掘模型、在整个组织进行部署,并根据其见解和在市场中的表现制定决策。

常见问题

什么是数据挖掘?
为何需要进行数据挖掘?
有哪些数据挖掘示例?
数据挖掘流程是怎样的?
有哪些数据挖掘技术?
数据挖掘有哪些优势?
数据挖掘面临着哪些挑战?
数据挖掘和数据发现有何不同?
数据挖掘的未来趋势是什么?
什么是网络挖掘?
有哪些优秀的数据挖掘工具?
如何评估数据挖掘模型?
什么是关系数据挖掘?