数据挖掘。利用技术优势

介绍

（Riquelme，Ruiz和Gilbert，2006年）指出，数字革命使数字化信息易于捕获，处理，存储，分发和传输。随着计算和相关技术的重大进步以及它们在生活各个方面的用途的扩展，大量信息继续被收集并存储在数据库中。

因此，组织必须利用自己的优势来利用这种技术，以便面对当今存在的挑战，例如保持与客户的持久关系。（Braga，Valencia和Carvajal，2009年）指出，组织如今面临的最大挑战是维持利润丰厚的客户群，不再是组织生产，降低成本或提供的服务，尽管它们是必要条件，但它们已不足以在全球竞争激烈的市场中取胜。

作者建议，通过对客户的了解，组织应该能够解释其目标，期望和愿望。他们认为（Braga等，2009）可以通过“数据挖掘”或“以客户为中心的数据挖掘”（这是技术和方法的集合）来实现的。促进获取和保留适合公司的市场部分的方法（市场份额）。良好护理和降低成本的目标也适用于非营利性组织，无论是否是政府组织。知道客户的企业将为他们提供更好的服务。

本文将说明数据，文本和情感挖掘由什么组成，以及组织如何使用这种技术，不仅可以获得与其他组织相比的竞争优势，而且可以更好地专注于他们的产品。和/或从其消费者和客户那里获得的信息服务。

数据挖掘

（Braga等，2009）解释说，数据挖掘提供了一种自动的方法来发现数据模式，而没有纯粹基于人类直觉的分析的偏见和局限。

他们还解释说，以客户为导向的数据挖掘可提供有关客户特征和行为的知识。因为留住客户的成本比获得新客户的成本低。

作者解释说，数据挖掘包括一组用于描述和预测大量数据的技术。因此，它通常与数据库关联，尤其是与“数据仓库”关联。这些数据库允许快速集成来自不同来源的数据。

（Joyanes，2016）认为，数据挖掘是指在数据库，数据仓库或数据集市中搜索有价值的业务信息的过程。

数据挖掘可以执行两个基本操作：

预测趋势和行为识别以前未知的模式。正常的商业智能应用程序通常可为用户提供有关已发生事件的洞察力，数据挖掘可帮助解释正在发生的事情并预测将来会发生什么。

数据挖掘是一个使用统计，数学，人工智能和机器学习技术来提取和识别有用信息的过程，这些有用信息可以从大型数据库，数据仓库或数据集市中获取知识。

（Pérez，2007）将数据挖掘定义为通过检查大量数据来发现新的重要关系，模式和趋势的过程。

（Riquelme et al。，2006）指出，数据库中的知识发现（KDD）定义为识别数据中有效，新颖，对用户有用和可理解的重要模式的过程，并且该过程它是交互式且迭代的，包含以下步骤：

了解应用程序领域：此步骤包括相关的先验知识和应用程序目标提取目标数据库：收集数据，评估数据的质量以及对数据进行探索性分析以使其熟悉。准备数据：包括数据清理，转换，集成和缩减。试图提高数据质量，同时减少随后应用的学习算法所需的时间数据挖掘：如上所述，这是该过程的基本阶段。它由以下一项或多项功能组成：分类，回归，聚类，汇总，图像检索，规则提取等。解释：解释发现的模式以及对其进行可视化的可能性。使用发现的知识：利用创建的模型

由于我们已经可以看到KDD的基本阶段是数据挖掘，因此，在下面，我们将说明其功能包括：

分类：在预定义的类别中对数据进行分类回归：此模型的目的是使数据与变量的实际值匹配聚类：指的是对象类别中的记录，观察值或个案的分组类似。集群是一组与另一个集群中的记录相似且不同的记录。这些规则指的是发现不同属性之间的关联关系和功能依赖性。总结或总结：这些模型提供了对数据子集的紧凑描述序列分析：对顺序模式进行了建模，例如对时间，序列的分析基因等目的是对过程的状态进行建模，或者提取并报告随时间变化的偏差和趋势。

数据挖掘应用

（Riquelme等人，2006）提到数据挖掘的一些重要任务包括识别现有技术的应用程序，以及为传统或新的应用程序领域开发新技术，例如电子商务和生物信息学。

实际上，可以在所有产生数据的人类活动中应用数据挖掘的领域包括：

商业和银行业务：客户细分，销售预测，风险分析医学和药学：疾病的诊断和治疗的有效性安全和欺诈检测：面部识别，生物识别，不允许访问网络等。非数值信息检索：文本挖掘，网络挖掘，图像，视频，语音和文本的搜索和多媒体数据库中的识别天文学：新星和星系的识别地质，采矿，农业和渔业：区域识别卫星图像数据库中用于不同作物或捕捞或采矿的用途的确定环境科学：识别自然和/或人工生态系统的功能模型以改善其观测，管理和/或控制社会科学：研究舆论流向。城市规划：根据社会人口统计学价值确定有冲突的社区。

文字挖掘

（Matallana&Delgado，2010）认为文本挖掘是数据挖掘的一种特殊形式，它允许从大型信息存储库（结构化与非结构化）中以文本形式提取知识。其目标类似于数据挖掘的目标，即发现文献收藏中行为的隐性模式和新知识。

文本挖掘应用数学和统计技术以及文本的语义分析。文本挖掘是应用自动方法分析和构造文本数据以从结构化和非结构化信息中创建有用知识的过程。

根据这些作者的说法，文本挖掘的重点是发现一组文本中有趣的模式和新知识，其目的是发现大量文本信息中的新趋势，偏差和关联。

（Joyanes，2016）解释说文本挖掘在各种文档中搜索，挖掘和发现文本，这也称为文本数据挖掘，作者认为实用意义是从中推导出高质量信息的过程。某个文本。

文本分析试图在一组文本中找到有助于更好决策的模式，其目的是改善决策。文本分析旨在捕获非结构化的，已处理的数据，并从中创建结构化的数据，以用于分析和报告过程。

（Joyanes，2016）认为文本数据在几乎所有组织和公司以及整个行业中都具有巨大的影响潜力。允许捕获，解析和最终文本分析的学习方法对组织至关重要。

感觉采矿

（Joyanes，2016）指出，情感挖掘专注于分析短信和其他媒体格式中存在的感觉和观点，并允许发现观点或嵌入在文本消息中的感觉，在Twitter帖子等中对构成它的股东和工人的切实利益。

众所周知，观点或情感挖掘是指自然语言处理，计算语言学和文本分析以从材料来源中识别和提取主观信息。

自从Web 2.0引入以及博客和社交网络的日益普及以来，经典情感分析发生了翻天覆地的变化。衡量情绪分析的Web应用程序是“ Twitter情绪”。情感分析现在是文本分析的一种流行用法，它可以检查并获得大量人的总体观点，这些人提供有关市场在说什么，对事物的想法和感受的信息。组织或个人。情绪分析使用来自社交媒体网站的数据。

从组织或公司的角度来看，情绪分析使您可以快速而有效地分析关于品牌或产品的言论，听取某些有影响力的用户的意见或对话，检测Internet上的趋势等。

（Joyanes，2016）宣称情感分析是一种试图将人类情感转化为数据的方法，但是通过使用现代工具，有可能实现社交媒体中意见的自发性和直接性使这些感觉变成更真实，并保留其情感内容。与非结构化内容相关的分析可以通过以下基本特征进行度量：

极性：就观点而言，是积极的，消极的甚至是中立的。

强度：表达的情感程度主观性：发出表达的来源是客观的，局部的或公正的。

情感挖掘可以有不同的应用程序，例如：

衡量员工满意度和工作环境的方法衡量客户满意度的方法是通过检测被认为可能导致客户遗弃的负面意见，通过检测客户流失风险的情况来防止流失。通过评估关于品牌，公司，产品…的竞争的观点并将其与我们的竞争进行比较，从而通过发现正面或负面的影响观点来发现我们组织不同领域的优缺点。公司声誉对某些行动，产品发布等的演变的预测。在政治投票的情况下，对选民的意见进行分析。

情感分析是自然语言处理（NLP），人工智能和文本挖掘等技术的框架，因为它从根本上寻求从文本中提取主观信息，例如推文，博客文章等

谢谢

我感谢上帝的所有祝福，并感谢他有机会改善自己。我感谢我的父母在任何时候都对我的支持，国家科学技术委员会对我的研究生学习，奥里扎巴技术学院，行政工程硕士以及基础知识的支持。行政工程学院，为我提供必要的基础，以使我成为专业人士和人类。

参考咨询

Braga，LPV，巴伦西亚，IOL和Carvajal，SS（2009）。数据挖掘导论。里约热内卢：Editora E-papers.Joyanes，LA（2016）。大数据，分析组织中的大量数据。Alfaomega Grupo编辑，美国马塔拉纳大学（Matallana，FE）和德国联合军事学院（JMC）Delgado（2010）大到小：中型公司可以触及的大公司战略。Netbiblo，佩雷斯，CL（2007）。数据挖掘：技术和工具。社论Paraninfo.Riquelme，JC，Ruiz，R.，&Gilbert，K.（2006年）。数据挖掘：概念和趋势。人工智能。伊比利亚美洲人工智能杂志，10（29）。从http://www.redalyc.org/resumen.oa?id=92502902恢复

下载原始文件