数据和文本挖掘

提到什么是数据挖掘，并简要描述每个步骤以及使用此技术的目的。

介绍

如今，业务组织拥有许多必须以最有效的方式处理的信息，其中必须处理的信息包括销售，客户，馆藏（如果是医院的话），患者，治疗方法等。因此，要根据组织的发展目标，更好地了解和控制组织的信息，就会使用计算机和存储设备，例如个人计算机，USB存储器，CD，闪存，等等，因为多年来购买这些设备之一的投资成本越来越便宜，所以使用这些设备的方式也一样，但是，由于这些信息系统变得比人类本人要可靠得多，所以可以这样做。

信息系统中存储的所有这些信息都驻留在组织工作中使用的数据库中，这些数据库称为运营数据库，之所以会收到它们的名称，是因为组织通过它们执行不同的活动，例如向客户运送货物，学生注册，患者治疗，收集程序等。

一旦执行了这些操作，便会进行净化，并汇总通过主要来源获得的信息（这是上面列出的所有任务），以收集，净化和汇总信息被转移到所谓的数据仓库，可以说是一个隐喻，可以是定期的照片，这些照片通常具有公司所处的状态以及如何从过去中学习的观念。

通过这种方式，企业家们可以拥有理想的指标来控制公司的发展进程，因为他们可以在许多情况下有机会进行调查和探索，在这些情况下，企业家可以认为他们对实现目标感兴趣和关注。商业目标。

这就是数据挖掘在不久前出现的方式，它可以帮助组织的高级经理为他们所在的公司做出最佳决策。数据挖掘通过一系列“矿工”进行工作，这些矿工是一系列先前创建的算法，其任务是在组织存储在其信息系统中的信息中执行详尽的任务。这些算法寻找的材料不过是一系列可能引起关注的趋势，异常，偏差或情况，而公司可能不知道这些情况。这些算法或矿工可以帮助管理人员以更轻松的方式指导组织，从而使组织走上正确的道路。

矿工除了使用数据库外，还使用人工智能（程序可以查找处于类似情况的群体，对已知事件中的新事件进行分类等）和统计信息。但是与后者不同，后者需要对数据进行采样并进行研究，而数据挖掘则对所有数据进行研究。分析的数据越多，它就越准确，并且其检测和预测能力也会提高。” （MartínezLuna，2011年）

上面所有这些都是关于数据挖掘的内容的叙述，但是还有另一种类型的挖掘，它可以以相同的方式帮助公司实现最初建立的那些期望的目标。

对于我们人类来说，知识是我们生存的基础之一，它决定了我们的发展方向和野心。人类产生的大多数知识都是书面形式的，可以称为自然语言，例如报纸，杂志，书籍，技术报告等。但是，并非所有人都有相同的能力来处理书目内容，这就是我们可以说的，我们一生中所有人类需要完成的最常规的任务是与之互动。为了有一些好处而写。好的读者和寻求信息的人应该具备的技能是：

查找必要的信息比较不同的信息源并得出结论管理文本，例如翻译，编辑等。（蒙特斯和戈麦斯，2011年）

当发现我们的信息管理缺陷时，计算语言学成为帮助我们进行文字处理的强大工具，因为通过这种技术，信息分析可以自动进行，从而解决了以下问题：大多数人都有。

就像数据挖掘在数据集中寻找一系列模式一样，文本挖掘执行相同的活动，但除了可以查看能够检测可以分析的每个文本之间的偏差和关联的任务。

数据挖掘

通过数字时代的革命，信息管理的过程已比过去变得更加高效，这就是我们所说的数字系统内的信息过程基本上由五个步骤组成：

捕获流程存储分发传输

通过使用信息技术，全球范围内的大型组织已经在收集大量的历史数据，这些历史数据是从经验中获得的，但是随着计算机信息系统中信息的不断增长，这些数据也越来越大。

但是，管理这些大量信息有些复杂，这就是数据挖掘诞生的原因，“它的出现是为了试图理解当前可以存储的信息爆炸式增长”（Mitra和Acharya， 2003）

因此，通过使用技术，可以在相对简单的界面中存储不同类型的数据，包括图像，视频，文本和数字数据，该界面允许对信息进行良好的多媒体处理。

可以说，通过这种类型的信息混合，常规的统计过程不足以分析所获得的信息，因为统计技术侧重于样本的使用，这与使用数据的整个领域的数据挖掘相反。数据有更好的欣赏和解决方案。

通过这种方式，我们得出了什么是数据挖掘的定义，即“该过程旨在通过搜索程序以及模式和关系的识别从大型数据库中发现，提取和存储相关信息。全球，趋势，偏差和其他看似混乱的指标，这些说明可以通过此工具的各种技术来发现。” （ÁngelesLarrieta和SantillánGómez，2001年）

公司内部使用数据挖掘，以便能够利用数据库中包含的信息的价值来检测预先建立的模式，以便组织的高层管理者可以更好地了解他们管理和经营的业务。从而进行更有效的决策过程。

相对于其他信息管理技术，使用数据挖掘的优势

数据挖掘源于管理组织数据库中包含的信息的需求，与用于信息管理的其他过程相比，此过程具有一系列优势，例如：

数据挖掘为高级业务经理提供了一套关系和知识，这些知识在许多情况下是组织内部不存在的，数据挖掘可以帮助公司选择他们走公司的路线以及获得相对于其市场竞争对手的竞争优势，因为通过使用数据挖掘，只有公司唯一知道的信息才能被知道。我们人类具有以某种方式检测模式和异常的能力如此说来，这就是为什么通过使用数据挖掘可以更好地感知模式的原因，这些模式乍一看很难通过我们的简单理解来定位。

数据挖掘的结构

现在，谈到数据挖掘的结构，它基本上包括使用算法或某些计算机程序在数据库中包含的大量信息内执行搜索活动。

这些程序和算法的使用是为了能够检测某种程度上隐藏在组织历史数据中的趋势和模式。

这些程序是我们以前称为矿工的程序，这些矿工，程序或算法是由用户创建的，这些用户使用了各种数据探索技术，可以使用的技术有：

集群协会分类可视化神经网络通用算法偏差检测

所有上述所有方法都需要一个非常大的数据库，以便可以提高效率。

这些程序具有收集先前获得的信息的功能，因此，它们执行选择和搜索历史数据的活动，完成上述操作后，如果发现有趣的内容，则会显示给用户。

与其他信息搜索方法相比，“矿工”具有一个优势，即它们不需要任何专门的软件来执行搜索。这些搜索活动在用于捕获数据和信息的公司服务器和整个PC网络上执行。

数据挖掘周期

数据挖掘在包含四个步骤的循环上进行，因为在循环结束后获得的结果可以反馈到循环中，依此类推。

首先，将要执行数据挖掘过程的用户必须以相同的方式识别组织，公司或业务所存在的问题，他们必须找到可以给公司带来某种附加值的数据，并且还必须找到完成上述操作后，用户将面临检测最佳算法以用于分析获得的历史数据以使采矿程序有效运行的任务。根据先前建立的搜索标准，必须将通过数据挖掘过程获得的信息纳入决策制定，并将获得的发现提供给参与决策的委员会，同样，必须将所发现问题的知识告知所涉及的领域，以便可以采用正确的解决方案。根据根据先前建立的搜索标准发现的问题。

数据挖掘的用途和应用

可以使用数据挖掘执行的一些最重要的任务如下：

商业和银行业：客户细分，销售预测，风险分析。医学和药学：疾病的诊断和治疗的有效性安全和欺诈检测：面部识别，生物特征识别，网络访问等。非数字信息检索：文本挖掘，网络挖掘，图像，视频，语音和文本搜索以及多媒体数据库中的标识。天文学：鉴定新的恒星和星系。地质，采矿，农业和捕鱼业：在卫星图像数据库中确定不同作物或捕鱼业或勘探的使用区域。环境科学：确定自然和/或人工生态系统（废水处理厂）的运行模式，以改善其观察，管理和/或控制。社会科学：对舆论流的研究。城市规划：根据社会人口统计值确定有冲突的社区。（Riquelme，Ruíz和Gilbert，2006年）

文字挖掘

文本挖掘是研究领域中针对文字处理的最新部分。可以提供给文本挖掘的定义与数据挖掘的定义非常相似，因为两者都寻求相同的东西，但都附加到不同类型的信息上。

文本挖掘是“在文本集合中发现有趣的模式和新知识的过程，也就是说，文本挖掘是负责发现在集合中的任何文本中都不明确存在的知识的过程，但是源于其中一些内容的关联（Hearst，1999）

文本挖掘过程主要包括两个阶段：

处理阶段：在第一阶段，将可以操纵的文本转换为一系列表示形式，以简化进一步分析的方式构造它们。发现阶段：在此阶段，对中间表示进行分析，执行此任务是为了在感兴趣的文本内发现和找到有趣的模式，以及获得新知识。

根据文本处理阶段中使用的过程，将获得内容表示的类型。可以用于数据挖掘中的文字处理的策略如下。

前期

起诉

表示形式

发现类型

1.分类

2.全文

3.信息提取

4.矢量主题

5.词序

6.数据表

7.主题水平

8.语言模式

9.实体之间的关系

图1.1文本挖掘的最新状态（Montes和Gómez，2011年）

如图1.1所示，用于文本分析的三种方法在结果表示中受到了一定的限制，这使得很难发现并了解一些更复杂的事物，例如他们可以：

共识趋势偏差

但是，为了更好地理解上述内容，建议您使用概念图，以便更好地表示所分析的文本。

即便如此，根据概念图进行信息分析也会带来与文本的句法分析和语义分析有关的两种类型的问题。文本转换为概念图形的一些示例是：

科学文章部分医疗记录部分法律案件部分

但是，没有方法可以正确解释概念图，文本挖掘可以作为处理此类信息的基本部分，并可以根据使用的参数为其提供最佳的含义。用于文本挖掘过程。

结论

可以看出，数据挖掘是一个非常重要的工具，它能够解释公司的发展方向，同时考虑到随着时间的推移获得的历史数据，这种类型的挖掘将能够发现与问题相关的趋势。组织或可能会通过使用数据挖掘周期发现的某些专有信息而为您提供某种类型的优势，就其本身而言，文本挖掘提供的功能几乎与数据挖掘相同，但附加于从大量文本中发现新知识。

参考资料

密西根州的安吉莱斯·拉里埃塔（Angels Larrieta）和AM的圣迪兰·戈麦斯（SantillánGómez）（2001年）。数据挖掘：概念，特征，结构和应用。（1999）。整理Tet数据挖掘过程。的ACL ´99：计算语言学协会第37届年会。马里兰州：马里兰大学，马丁内斯·卢纳（GL）（2011年10月）。数据挖掘：如何在干草堆中找到针头。（UANL，Ed。）Ingenierías，XIV（53），63. 2016年3月23日检索，Mitra，S.和Acharya，T.（2003）。数据挖掘：多媒体，软计算和生物信息学。约翰·威利父子（John Wiley&Sons），《蒙蒂·戈麦斯（Montes yGómez），米》（2011）。文本挖掘：新的计算挑战。DF，墨西哥：国家政治研究所，Riquelme，JC，Ruiz，R。，和Gilbert，K。（2006）。数据挖掘：概念和趋势。人工智能，10（29）。

谢谢

我要非常特别地感谢我在Orizaba技术学院学习的行政管理硕士课程的行政管理基础知识，但主要要感谢我的教授Fernando Aguirre y Hernandez博士鼓励研究和阅读的欲望关于不同的有趣主题。

下载原始文件