数据，文本和意见挖掘

技术的发展使得在一定程度上促进不同部门的人们的工作成为可能。例如，当人们种植产品时，从准备土地，种植，浇水，堆肥和收割开始，一切都是手工的。如今，所有这些工作都是由负责更换和帮助人员并能更快完成工作的机器完成的。

在医疗领域，机器人取得了长足的进步，甚至在人类无法接近的地方运行。在大型工厂中也发生了同样的事情，在这些工厂中，技术已在一定程度上替代了劳动力，从而实现了连续生产，无疲劳，无加班。

在行政管理领域，技术似乎可以通过信息分析来帮助决策，正如本文所看到的那样。

数据库，互联网的爆炸性增长以及自动从存储的数据中高效生成信息的技术和工具的使用使我们能够发现模式，关系和制定模型。特别是，这些技术在诸如营销策略，决策支持，财务计划，科学数据分析，生物信息学，文本分析和Web数据分析等领域已变得极为重要。

技术在这里日复一日地存在，试图补充和促进人们的工作。

数据挖掘-数据挖掘

定义

数据挖掘是允许自动地或半自动地探索大型数据库，以便找到可解释给定上下文中数据行为的重复性模式，趋势或规则的一组技术。

基本上，数据挖掘的出现是为了试图帮助理解数据存储库的内容。为此，它利用了统计实践，在某些情况下还使用了接近人工智能和神经网络的搜索算法。

通常，数据是原材料总值。一旦用户为他们赋予某些特殊含义，它们便成为信息。当专家开发或找到模型时，如果在信息和模型之间产生的解释表示附加值，那么我们就是指知识。

数据挖掘是一种新兴技术，具有许多优点：一方面，它是研究人员和业务人员之间的良好聚会点；另一方面，它为公司节省了大量资金，并开辟了新的商机。此外，毫无疑问的是，使用这种技术会涉及到无数细节的处理，因为最终产品会涉及“决策制定”。

优点

这是研究人员和商人之间的一个很好的交汇点。

这一点是指新技术的出现，而新技术通常是由为这些项目提供资金的大公司购买的。

它为公司节省了大量资金，并开辟了新的商机。

实际上，这支持了前面的观点，因为当一个项目良好时，它是由一家公司获得的，而该公司获得的资金要比其投资的多，并且借助这项技术，公司可以在市场上开拓其他机会。

使用该技术意味着要照顾很多细节，因为最终产品涉及“决策制定”。

您拥有技术并进入市场，也创造了您所提供的产品，但是您必须看到实施的效果如何，公司是成长还是衰落？，这就是这一点所指的。

它通过提供一种自动化的感觉来从传统流程和电子商务流程生成的数据量中识别关键信息，从而有助于战略和战术决策。它允许用户对决策和行动进行优先级排序，从而显示出具有较高价值的因素。目标，它还显示哪些客户群是可支配的，哪些业务部门被绕过，为什么？

它指的是这样一个事实，由于数据挖掘，您只需要担心决策问题，因为借助这项技术，它显示了各种优点和缺点，正如此处所指出的那样。

它为业务用户提供决策权，他们可以更好地了解问题和环境，并能够以最佳方式衡量行动和结果。

借助数据挖掘，可以将问题划分为不同的部门，这意味着在不同的部门中，必须在此问题的领域中有不同的专门工作组，以优化时间和资源。

生成描述性模型：在已定义的业务目标的上下文中，它允许公司（无论行业或规模如何）自动探索，可视化和理解数据，并识别影响最终结果的模式，关系和依赖性。损益表（例如增加的收入，增加的利润，成本控制和风险管理）生成预测模型：允许通过数据挖掘过程发现和识别的关系被表达为业务规则或预测模型。这些输出可以以传统格式（演示，报告，共享电子信息，嵌入在应用程序等中）进行通信，以指导公司的战略和计划。

技巧

数据挖掘技术来自人工智能和统计，这些技术无非是算法，或多或少地复杂了，这些算法应用于一组数据以获得结果。

其中最常用的是：

1.神经网络

近年来，这种人工智能技术已成为检测数据中常见类别的常用工具之一，因为它们能够检测和学习数据的复杂模式和特征。

神经网络的主要特征之一是它们能够处理不完整甚至是悖论的数据，这取决于问题是有利还是不利。另外，该技术有两种学习形式：有监督的学习和无监督的学习。

2.决策树

该技术在监督学习方法中。它的表示形式是树，其中每个节点都是一个决策，而决策又反过来生成用于数据集分类的规则。

决策树易于使用，支持离散和连续属性，可以很好地处理非重要属性和缺失值。它的主要优点是易于解释。

3.通用算法

遗传算法通过突变，繁殖和选择模仿物种的进化，并提供可用于构建和训练其他结构（如神经网络）的程序和优化。此外，遗传算法受优胜劣汰的生存原则启发。

4.聚类

他们根据距离或相似性的标准将数据分为多个预先建立的类别，也可以不将其分组，以使这些类别彼此相似且与其他类别不同。在分类器或模式识别器方面，例如在系统建模中，它的使用已提供了重要的结果。这种方法由于其灵活的性质，可以轻松地与另一种类型的数据挖掘技术结合使用，从而形成混合系统。

5.机器学习

该人工智能技术用于推断上述任何其他技术的应用结果的知识。

数据挖掘模型

通过将算法应用于数据来创建数据挖掘模型，但它不仅是算法或元数据容器：它是一组数据，统计信息和模式，可以应用于新数据以生成预测并推断关系。

数据挖掘模型的应用

数据挖掘模型可以应用于以下场景：

预测：计算销售并预测服务器负载或服务器停机时间风险和概率：选择最佳客户进行通信，确定风险方案的可能收支平衡点，将概率分配给诊断或其他目的地结果建议：确定可以一起出售的产品并生成建议顺序搜索：分析客户放置在购物车中的物品并预测可能发生的事件分组：客户或事件的分布相关元素的分组，以及亲和力的分析和预测。

数据挖掘模型的生成

生成数据挖掘模型是更大的过程的一部分，该过程范围从询问有关数据的问题和创建可以回答这些问题的模型到在工作环境中实施模型。

可以通过以下六个基本步骤来定义此过程：

1.定义问题

数据挖掘过程的第一步是明确定义问题，并考虑使用数据的方法来提供问题的答案。

此步骤包括分析业务需求，定义问题的范围，定义评估模型所依据的度量标准以及定义数据挖掘项目的特定目标。这些任务转化为如下问题：

你在找什么？您想寻找什么类型的关系？它反映了您的业务策略或流程正在试图解决的问题吗？您要根据数据挖掘模型进行预测还是只寻找有趣的模式和关联？您想要什么结果或属性？预测？它具有什么样的数据，每一列中都有什么样的信息？如果有多个表，它们之间有何关系？您需要先清理，添加或处理数据，然后才能使用它们吗？数据是季节性的吗？数据是否准确代表业务流程？

为了回答这些问题，可能需要进行数据可用性研究，以调查业务用户对可用数据的需求。如果数据不满足用户需求，则可能必须重新定义项目。

2.准备数据

数据挖掘过程的第二步是合并和清除在上一步中标识的数据。

数据可以分散在公司中并以不同的格式存储；它们还可能包含诸如丢失或错误输入之类的不一致之处。例如，数据可以显示客户甚至在产品上市之前就已经购买了产品，或者客户定期在距家2000公里的商店购买产品。

数据清除不仅涉及删除无效数据或对缺失值进行插值，还包括寻找数据中的隐藏相关性，识别最准确的数据源以及确定最适合分析的列。例如，我应该使用发货日期还是订购日期？哪些因素对销售影响最大：数量，总价或折扣价？不完整的数据，不良的数据和看起来独立但实际上紧密相关的输入会以意想不到的方式影响模型结果。

因此，在开始构建挖掘模型之前，必须确定这些问题并确定如何纠正它们。在数据挖掘中，您通常使用的是大型数据集，无法检查每个事务的数据质量。因此，您可能需要使用数据概要分析以及自动数据清理和过滤工具来探索数据并查找不一致之处。

3.探索数据

数据挖掘过程的第三步是探索准备好的数据。在构建数据挖掘模型时，您需要了解数据以做出正确的决策。探索技术包括计算最小值和最大值，计算平均值和标准偏差以及检查数据的分布。

例如，查看最大值，最小值和平均值可以确定该数据不能代表客户或业务流程，因此您应该获取更平衡的数据或查看作为基础的假设达到您的期望标准偏差和其他分布值可以提供有关结果稳定性和准确性的有用信息。标准偏差较大可能表明添加更多数据可以帮助您改善模型。偏离标准分布的数据可能会歪斜，或者可能代表真实问题的准确图片，但是很难使模型适合数据。

通过探索数据以了解业务问题，可以确定数据集是否包含错误数据，然后可以设计一种策略来纠正问题或对业务的典型行为进行更深入的描述。

4.生成模型

数据挖掘过程的第四步是构建一个或多个数据挖掘模型。

您必须定义要使用的数据列。为此，将创建一个数据挖掘结构。挖掘结构链接到数据源，但在处理之前实际上并不包含任何数据。处理采矿结构会生成可用于分析的集合体和其他统计信息。

在处理结构和模型之前，挖掘模型只是一个容器，该容器指定要用于输入的列，要预测的属性以及告诉算法如何处理数据的参数。处理模型通常称为训练。训练是指将特定的数学算法应用于结构中的数据以提取模式的过程。在训练过程中找到的模式将取决于训练数据的选择，选择的算法以及算法的配置方式。

这些参数还可以用于微调每种算法，并且可以将过滤器应用于训练数据以使用数据的子集，从而创建不同的结果。在将数据传递到模型之后，挖掘模型对象包含可以查询或用于预测的摘要和模型。

重要的是要记住，每当数据更改时，都必须更新挖掘结构和模型。

5.探索和验证模型

数据挖掘过程的第五步是探索您生成的数据挖掘模型并验证其有效性。

在生产环境中部署模型之前，最好测试一下模型是否正常工作。同样，在构建一个模型时，通常会创建多个具有不同配置的模型，并测试每个模型，以查看哪个模型为您的问题和数据提供了最佳结果。

6.实施和更新模型

数据挖掘过程的最后一步是实现在生产环境中最有效的模型。

一旦数据挖掘模型进入生产环境，就可以根据需要执行不同的任务。以下是您可以执行的一些任务：

使用模型创建可用于进行业务决策的预测创建内容查询以从模型中检索统计信息，规则或公式创建报表，使用户可以直接针对现有挖掘模型进行查询。审查和分析后更新模型当更多数据输入组织时，动态更新模型并进行不断修改以提高解决方案的有效性应成为实施策略的一部分。

文本挖掘-文本挖掘

它是计算语言学的一个分支，它试图从原则上不具有顺序或最初没有安排传输该信息的数据集中获取信息和知识。这是当今世界中一项关键技术。一种从人类的所有活动的不同角度和许多不同方面连续收集数据的程序。

文本挖掘不应与信息检索相混淆，信息检索是通过文本索引，分类，分类等自动检索相关文档。文本挖掘真正令人感兴趣的信息是那些文档中包含的信息，但是以一般的方式，也就是说，它不包含在特定的文本中，而是所有记录，文本，文档…具有的全局信息。共同的收藏。这是对馆藏中所有文本间接共享的数据的分析，也就是说，它们是馆藏将提供给专家的信息，但在创建馆藏时并未专门包括在内随后向用户传播。

文本挖掘包括三个基本活动：

信息检索，即选择相关文本提取那些文本中包含的信息：事实，事件，关键数据，它们之间的关系等。最后，将执行以前定义为数据挖掘的过程以查找关联在先前从文本中提取的关键数据中

应用领域

通常，对于所有公司，主管部门和组织而言，由于其运营，组成和活动的特征，它们会生成大量文档，并且有兴趣从所有数据量中获取信息，这对整个公司非常有用。它可以帮助您更好地了解客户，他们的习惯，喜好等是什么。

阶段

这是一种相对较新的，不断变化的技术，可以适应不同的情况，因此没有严格的方法可以始终遵循。但是，可以概括地说，这是四个主要阶段：

1.确定目标

通过这项研究澄清您要寻找的内容，定义要研究的范围并明确定义限制。

2.数据预处理

它是从中提取信息的文本或文档的选择，分析和简化。此阶段最耗时。

3.确定模型

根据设定的目标和要执行的任务，可以使用某些技术或其他技术。

4.结果分析

从提取的数据中，它将尝试查看其一致性，并寻找证据，相似性，例外情况等，这些数据可以为委托研究的专家或用户提供服务，以得出可用于改善公司某些方面的结论，公司，行政部门或组织。

意见挖掘或情感分析

意见挖掘是指自然语言处理技术，计算语言学和文本挖掘的一系列应用，旨在从用户生成的内容（例如博客评论）中提取主观信息。或产品评论。使用这种类型的技术，可以从文本注释中提取有形的直接价值，例如“正” /“负”。

通常，与意见挖掘相关的任务有两种：

极性检测：或者相同，能够确定意见是肯定还是否定。除基本极性外，您可能还希望获得某个范围内的数值，以某种方式尝试获得与某种意见相关的客观“评分”。基于特征的情感分析：或者是相同的，能够确定用户在意见书或评论中处理的产品的不同特征，对于意见书中提到的每个特征，都可以提取极性。这些类型的方法比极性检测要复杂得多，并且粒度要细得多。

结论

数据，文本和意见挖掘是分析公司或组织信息的非常重要的工具，可用于根据一段时间内出现的趋势进行预测。

管理部门采用的技术试图提供有助于组织控制的手段，以防止可能发生的错误。

这些是现在和将来的工具，这就是为什么越来越多的公司正在使用它们，这意味着每天都需要更多的专业人才。

参考书目

微软（2014）。从以下网址获取：https://msdn.microsoft.com/es-es/library/ms174949.aspx从以下网址获取：http://www.sinnexus.com/business_intelligence/datamining.aspx数据挖掘。从以下网址获得：http://mineria-datos-actualidad.blogspot.mx/2012/06/por-que-usar-datamining.html美利坚合众国。取自：http://textmining.galeon.com/

下载原始文件