Logo cn.artbmxmagazine.com

数据,文本和情感挖掘

目录:

Anonim

数据挖掘可以定义为通过探索大量数据来发现新的重要关系,趋势和模式的过程。

拥有大量可用信息以及各种计算机工具的使用,导致对数据的分析导致以所谓的数据挖掘或数据挖掘为框架的不同专业技术的应用。

从文本和感觉数据中挖掘数据

数据挖掘中使用的技术旨在自动发现以有序方式存储在大型数据库中包含的信息中的知识。主要目的是通过使用允许识别模式,神经网络,模糊逻辑,遗传算法和许多其他高级数据分析技术的技术来分析数据,从而找到模式,轮廓和趋势。

如今,数据挖掘已在金融和银行层面的许多科学领域中用于市场和企业分析,在公共和私人健康领域,在教育层面,在工业过程中,医学,生物学和生物工程以及电信和其他领域。(佩雷斯·洛佩兹和桑坦·冈萨雷斯,2007年)

在本文中,您将回顾数据挖掘的概念,其应用以及对组织决策的重要性。

什么是数据挖掘?

数据挖掘被理解为一组用于提取和获取在不同数据库中找到的有效,详细和非常有用的信息的技术。它对于决策非常有用,因为它有助于预测未来的趋势和行为,使其成为组织的强大工具。

数据挖掘或英语中的数据挖掘,与采矿业中使用的程序相关,它通过爆炸使地球上升到地面来从地球上提取矿物。遵循同样的技术,数据挖掘会爆炸数据库,以便从数据库中提取隐藏的信息。

数据挖掘使用各种算法工具和技术,在数据库中搜索感兴趣的隐藏模式,以便以一定程度的概率预测未来并预测情况。这样,可以发现可预测的信息,无论多么熟练,任何人都无法轻易找到。数据挖掘可以在任何硬件和软件平台上实现,并且可以集成到在线信息系统中。(Reinosa&Maldonado,2012)

数据挖掘的历史

数据挖掘并不是什么新鲜事物,它始于六十年代,当时统计学家当时使用了数据捕鱼,数据挖掘或数据考古等术语。八十年代后期,人们开始谈论KDD,该词的英文缩写代表从数据中提取知识的过程,而数据挖掘是其中的一部分。从那年起,创建了几家致力于提供与数据挖掘相关的服务的公司,随后又出现了许多其他公司。到目前为止,有一百多家公司致力于数据挖掘。 (费利克斯,2002年)

NCR公司的一名雇员为美国商店的Osco Drugs进行了一项研究,其中有一个著名的1992年数据挖掘实施成功案例。这项研究的结果表明,在晚上5到7点之间,购买彼此无关但同时携带的两种物品的频率更高:尿布和啤酒。然后得出的结论是,当时被送去购买尿布的许多父母也都端着几罐啤酒,这种情况被商店用来将冰箱和啤酒放置在尿布展示架附近,以增加购买者的意愿。通过选择或一时冲动。这是使用数据挖掘时发现的意外结果的示例,以及组织根据这些发现可以做出的决策。敏捷地使用获得的结果非常重要,因此,除非按原样使用数据挖掘,否则数据挖掘是无用的。 (Reinosa&Maldonado,2012)

商业情报

数据挖掘起源于信息系统,其目的是收集有关某个主题的信息以做出决策。随着新软件和硬件的出现,组织被计算机化,信息系统开始支持公司的基本流程,例如销售,生产,人力资源等,这些被称为管理信息系统。 。随着时间的流逝,公司需要有一个基础来帮助他们做出决策;出现了满足这些需求的称为DSS(决策支持系统)的工具,例如EIS和OLAP,以及各种数据挖掘技术工具。

EIS(执行信息系统)是一组工具和信息系统,使公司高管可以访问活动及其管理的状态。它们使您可以立即报告公司中发生的任何更改,因为它可以通过关键指标分析组织的日常状况。定期要求提供的信息类型通常是每周销售,部分余额和库存水平,同时用电子表格中的图形表示。(佩雷斯·洛佩兹和桑坦·冈萨雷斯,2007年)

OLAP(在线分析处理)可轻松处理和转换数据以产生新数据。OLAP的目标是简化对大量数据的查询。

数据挖掘工具旨在提取模式和趋势,以预测未来的行为。数据挖掘对数据进行分析,而OLAP和EIS有助于访问信息,从而可以进行更有效的分析,这意味着它们可以为数据挖掘提供支持。

每种工具的使用将取决于组织的目标,为此,它必须从一个基本问题开始,如下表所示: (布拉加,瓦伦西亚和卡瓦哈尔,2009年)

为了使上述系统正常工作,必须有一个内部或外部历史数据的集合的数据仓库或仓库,该仓库描述了面向某个领域的上下文或研究区域,该领域或研究区域允许应用工具以进行以下操作:描述,汇总和分析数据以帮助决策。

为了加载或馈送数据,使用了称为ETL(提取,转换,加载)的系统,该系统负责读取数据,合并新数据,创建密钥等。下图说明了这些系统的工作方式

数据挖掘技术

数据挖掘技术分为预测性,描述性和辅助性两类,其组织方式如下图所示

您如何创建数据挖掘模型?

要应用数据挖掘,您可以执行以下六个步骤:

  • 定义问题数据准备数据探索模型的生成模型的探索和验证模型的实现和更新

在下图中,您可以看到这些步骤

可以看出,这是一个循环过程,这意味着如果找到的数据不足以创建模型,或者模型不足以实现建议的目的。然后必须重复相同的步骤以创建新模型。

定义问题

创建挖掘模型的第一件事是定义问题并考虑如何使用数据来解决问题。

此时,将分析业务需求,定义问题范围,评估模型的方式以及建立数据挖掘项目的特定目标。为此,可以提出以下问题:

  • 你在找什么?您想找到什么样的关系?问题是否反映出解决了策略要解决的问题?您想从数据挖掘模型中做什么?预测,寻找有趣的模式或关联?您要预测什么结果?您拥有什么数据以及每一列中包含哪种类型的信息?如果有表,它们之间有什么关系?使用数据之前是否需要清除,汇总或处理数据?它们是季节性的吗,它们能准确地代表公司的流程吗?

准备数据

下一步是合并和清除上一步中标识的数据。这些数据可能不一致或分散,例如客户在产品上市之前就购买了产品,或者在距家2万公里的商店购买了产品。

此清理不仅涉及删除无效数据,还寻找隐藏在数据中的相关性,确定最准确的数据源,并确定最适合分析的列。

探索数据

在创建数据挖掘模型时,您必须了解数据以便做出最佳决策,为此,您必须使用探索技术,例如计算最小值和最大值,计算均值和标准差并检查数据的分布。

产生模型

在数据挖掘的第四步中,要做的是使用在数据探索中获得的知识来生成模型,为此,必须定义要使用哪些数据列以创建结构数据挖掘。

探索和验证模型

数据挖掘过程的下一步是探索先前获得的模型,并在部署之前验证它们是否有效。通过测试模型,您可以看到哪个模型为最初提出的问题提供了最佳结果。

如果尚未创建任何模型,请返回到先前的步骤以重新考虑问题或重新研究原始集中的数据。

部署和更新模型

最后,必须实施在生产环境中最有效的模型,该模型可以根据公司的需求执行不同的任务。

模型可以执行的任务包括:

  • 进行预测,以便以后用于制定业务决策创建内容查询以从模型中检索规则,公式和统计信息将模型的功能嵌入应用程序中(Microsoft,2014)

数据挖掘应用

当前,数据挖掘可以用于以下各个领域:

  • 进行财务分析:将其应用于银行或金融部门,其目的是提供可以进行可靠的系统分析的数据。这样一来,就可以预测贷款付款,分析客户信贷政策,对客户进行分类和分组以创建专门的报价并检测可能的欺诈和金融犯罪。在零售部门:专门从事此类活动的商店每天收集来自销售,购买历史和货运的大量信息。借助这些数据,可以做出预测,从而使商店能够提供更好的服务并促进其保留。在这些情况下,数据挖掘可以做到:
    • 分析销售,客户,产品,时间和区域分析销售活动的有效性以个性化方式推荐产品
    在电信方面:在该行业中,数据挖掘可用于识别电信模式,它有助于促进欺诈活动的发现并更好地利用资源,从而提高服务质量。(兰塔雷斯,2014年)

什么是文本挖掘?

文本挖掘是信息的位置,分析和组织,目的是创建在查看文档时无法清晰看到的新信息。获得的新信息可以是仅通过阅读文档无法识别的模式,趋势或相关性,这些文档可以是Internet页面,电子邮件,数据库中的字段或文本文件,没有任何格式。

文本挖掘或文本挖掘包含三个基本活动:

  • 检索信息:选择适当的文本提取这些文本中包含的信息:关键数据,事实和事件使用数据挖掘来查找这些关键文本之间的关联(galeon.com,2016年)

文本挖掘是如何完成的?

可以遵循以下四个阶段来实现数据挖掘:

第一阶段:确定目标是为了澄清调查中要寻找的内容,并确定限制和限制,以达到需要加深的程度。

第二阶段:通过选择,分析和减少从中提取信息的文本或文档来处理数据。这是消耗最多时间的阶段

第三阶段:指定要使用的模型或技术,这取决于设定的目标和要执行的任务

第四阶段:分析结果,以便使用发现的信息做出最适合组织的决策。(galeon.com,2016)

文本挖掘应用

  • 提取信息:可用于从网络上找到的大量文本中提取信息,从而允许定义实体及其关系,揭示重要信息并促进对数据的理解分类文档:允许您检索和导航文件,尤其是在文件中保留其活动和项目历史记录的公司中。为此,应用文本挖掘算法对文档进行分组,并从每个组的每个组中获取描述性信息,以便更好地理解它们。摘要的准备:可以获得一组文档的一般描述关于特定主题。从这个意义上讲,这些方法可分为两类:提取摘要和摘要摘要知识提取:使用文本挖掘可以根据从文档中提取的信息创建知识模型。

什么是情感或观点挖掘?

意见或情感挖掘可以定义为一系列自然语言处理,计算语言学和文本挖掘技术的应用,其目的是从人们在博客或评论中发布的信息中提取主观信息。在线产品。通过这种分析,可以获得重要的信息,无论是正面的还是负面的。

挖掘意见或情感时,将应用文本挖掘,可以通过两种方式完成:

  • 极性检测:其目的是确定一个观点是消极还是正面,同时尝试在既定范围内获取数值,以获得与某个观点相关的等级。能够根据用户的评论或意见来确定产品的特征,并通过这些特征获得极性。(Brainsins,2015年)

结论

数据,文本和情感挖掘为分析数据和文本提供了非常有用的工具,这些工具可以同时识别有助于决策的行为模式。可以将多种用途用于数据,文本和情感挖掘,但是每个组织都应根据解决问题的初始方法来确定使用哪种类型的技术。

参考书目

  • Braga,LP,巴伦西亚,LI和Carvajal,SS(2009)。数据挖掘简介。圣保罗:全国出版者联合会Brainsins。 (2015)。资料来源:http://www.brainsins.com/es/blog/mineriaopiniones/3555Cesar Perez Lopez,DS(2007)。数据挖掘:技术和工具。马德里:国际汤普森百科全书Paraninfo saEnrique Jose Reinosa,加利福尼亚(2012)。数据库。墨西哥:Allfaomega.galeon.com。 (2016年4月2日)。 Galeon.com。来源:http://textmining.galeon.com/Lantares。 (2014)。从http://www.lantares.com/blog/mineria-de-datosaplicaciones-que-ya-son-una-realidadMicrosoft获得。 (2014)。摘自:https://msdn.microsoft.com/esmx/library/ms174949%28v=sql.120%29.aspxPerez Lopez,C.,&SantínGonzález,D.(2007年)。数据挖掘:技术和工具。马德里:汤姆森国际版Paraninfo。

谢谢

感谢Orizaba技术学院给我提供专业培训的机会,并感谢Fernando Aguirre yHernández教授在他的《行政工程基础知识》中与我们分享的所有知识,以学习和完善我撰写高质量科学文章的技能。

图片摘自《数据挖掘概论》 Luis Pablo Vieira Braga等人。2009年

图片摘自CésarPerezLópez和DanielSantínGonzález的《数据挖掘:技术和工具》一书

图片摘自CésarPerezLópez和DanielSantínGonzález的《数据挖掘:技术和工具》一书

下载原始文件

数据,文本和情感挖掘