Logo cn.artbmxmagazine.com

挖掘:数据,文本,感觉

目录:

Anonim

自从第一个人类开始交流以来,就需要始终了解周围出现的一切事物,而且,他们正在寻找一种掌握手头信息的方法,以便能够执行某些任务。活动,这些活动是在一个社会,一个组织甚至一个国家中进行的个人或团体活动。

过去,为了能够访问某种形式的数据,信息,统计数据,只有通过书籍,文本,与其他人交谈,通过我们自己的经验,或者最幸运的是,才有可能访问首先是计算机,实际上并没有让他们保存很多信息,甚至没有传输很多信息,还有其他工具。所有这些极大地阻碍了访问和共享信息的过程,因为找到该人所需的数据或信息花费了很多时间和精力。

如今,数据和信息的创建,生成和分发方式已经发生了很大的变化,因为对于任何人而言,无论身在何处,它都非常容易。我们可以找到有关特定国家/地区的经济,产品营销,正在兴起并促进我们的生活方式的新技术等信息;此信息存储在大型数据库中。

是的,虽然看起来一切都非常完美,因为实际上几乎可以在单击时就找到任何信息,但是由于生成了数百万个数据,因此很难选择最佳或最可靠的信息。最新。

我们经常在各种情况下收听数据挖掘,这是一种非常有效的工具,可以更好地选择个人或组织在需要时需要的数据和信息,这是一种非常有效的工具。同样,从该工具中出现了其他文本和情感挖掘,它们与数据挖掘具有相同的基础,只是它们正朝着其他方面发展。

关键概念。

为了促进有关“挖掘(数据,文本,情感)”主题的阅读过程,将引用一些定义,这些定义被认为对于读者来说很重要:

数据挖掘

“这是一组允许自动或半自动浏览大型数据库的技术,目的是寻找可解释给定上下文中数据行为的重复模式,趋势或规则。” (Sinnexus,2016)

文字挖掘

“这是负责发现信息的过程,该过程在馆藏的任何文本中都没有明确存在,而是源于其中一些内容的关联。” (Rochina,2017年)

情感挖掘

“它指的是使用自然语言处理,文本分析和计算语言学来识别和提取资源中的主观信息。” (维基百科,2018)

数据挖掘的起源

数据挖掘是一个相对较新的话题,因为它已经被使用多年了。数据挖掘的关键部分,换句话说,允许其正确操作的元素已被用于调查不同领域的更多时间,例如统计,自主学习,人工智能等。 。今天,由于功能强大的信息搜索引擎和数据库的改进比过去更加广泛,因此数据挖掘工具有了长足的进步。

关于数据挖掘概念的第一个想法是在50年代的十年间进行的,这要归功于数据工程的研究。那些当时致力于计算的人生成了不同类型的信息列表,例如有关某些产品,过程的信息,所有这些信息都存储在一种计算机中,该计算机是组织中的主要计算机它帮助经理在某个问题上做出最佳决策。

有了这些,第一个专门用于信息处理的系统是为公司的董事或负责人设计的,不幸的是,这些系统太沉重,无法保存太多信息,对于那些不熟悉计算的人也是如此。他们不容易理解。

在1960年代,产生了第一个数据库管理系统,但对于不熟悉这些概念的人来说,它们还不是完全“可消化的”。

在80年代的十年间,已经创建了称为数据仓库的系统,该系统解决了以前的数据库系统所存在的问题。数据仓库的存在使该主题的专家对所有这些都有了新的认识,这些分析变得自治了,并提供了删除某些信息的机会。

数据库和数据挖掘的历史,摘自(Martínez,2010年)

数据库和数据挖掘的历史,摘自(Martínez,2010年)

数据挖掘

如今,数字文化带来的革命赋予了数据,信息的捕获,存储和处理相对容易的能力,而且,执行所有此过程的价格相对较低它花费了几年前。

近年来,存储在计算机系统或数字数据库中的数据量和多样性的增加以无法想象的方式增加了。

自组织成立或创建以来一直在积累的所有数据,都必须具有充当公司自身记忆的功能,并且同样在不久的将来对预示某些数据或信息很有用。

为了执行分析任何公司产生的大量数据的过程,传统的管理数据和信息的程序以及不同的统计方法已不再足够,换句话说,是必需的。

当组织需要做出决策时,它将始终基于有关某个数据源中收集的过去事件的信息或数据。从其对应的数据库(可以是自动的或半自动的)中提取此信息在当前已经具有很大的相关性,因此开发了各种程序以能够高效地进行处理,这些工具之一是数据挖掘。

数据挖掘的主要目的是检测组织已从数据库中获取的知识,这将为员工在制定决策时提供各种便利。

数据挖掘结合了人工智能,图形可视化,数据库和统计分析等不同的半自动技术,因此组织可以基于收集到的所有数据和信息获取一些知识,因为仅靠采矿是无法做到的代表公司的一些价值。在数据分析技术工具的发展过程中,数据挖掘可能是最重要的。

数据挖掘的概念(或英文名称为DataMining)来自山丘和组织中存储的大量数据的类比。这些数据位于小山内,隐藏在岩石和灌木丛之间;如果深入挖掘,您会发现可以被分类为具有重要价值的“宝石”的不同岩石,换句话说,如果您深入地搜索数据,则可以找到对于建立知识而言具有重要价值的信息。

需要数据挖掘的过程

能够进行正确的数据挖掘的第一步是识别要搜索的数据类型。为此,您必须考虑需要哪些数据,可以将其放置在何处以及如何获取它们。

一旦拥有了它们,就必须做好准备,将它们以所需或允许的格式存储在数据库中,或者还可以选择生成仓库(这是采矿中最复杂的部分之一)数据)。当数据已经以数据库接受的格式存储时,继续选择仅需要的数据,并删除对组织不重要的数据。

我们必须清楚我们要实现或找到的目标(必须在继续进行利用数据挖掘的数据分析之前完成此工作),而且,我们必须牢记哪些工具或流程它们对于继续该过程至关重要。在使用了我们决定使用的工具之后,您必须对如何解密所获得的结果有所了解,以便能够得出结论,这些结论对组织是否真的有用,并能够对其进行分类,以备将来使用。

由于您拥有对当前组织有用的数据和信息,因此将对它们进行讨论和分析,以便对正在讨论的情况做出最佳决策。

一旦根据从数据挖掘中获得的数据做出了决定,我们便会评估发生了什么,为了实现这一目标,必须观察和研究结果,看看有没有好处,有什么好处。总成本,以便能够对流程进行总体评估以作为反馈。在整个反馈期内,数据将趋于变化,有可能会找到新的工具或方法,而且显然必须重新计划下一个数据挖掘周期。

通过综合,数据挖掘过程必须经历以下步骤:

  • 处理数据选择最适合情况的特征选择算法以删除所需的数据和信息分析,解释和评估。

数据挖掘过程,摘自(Egonzales,2008年)

数据挖掘技术

根据(Ahumada,2016),数据挖掘技术通常分为预测性,描述性和辅助性,它们分别为:

  • 回归分析,方差和协方差分析,时间序列,Boyesian方法,遗传算法。

临时分类:

  • 判别树,决策树和神经网络。

事后分类:

  • 集群细分
  • 依赖关系多维标度降维探索性分析
  • SQL和查询工具。

数据挖掘做什么?

本质上,数据挖掘是一个过程,这就是为什么必须包括模型拟合或必须基于某些数据指定标准的原因。通常,这些调整属于统计类,因为将给出松弛度,以便模型可以具有一定的误差。

数据挖掘需要算法,算法将具有预测(基于已知数据)和描述(基于已建立的模式)的功能。其中一些任务如下:

  • 该任务旨在识别类别组以描述数据。这些类别同样可以是排他性的,也可以是排他性的,它们都是基于分层表示的,甚至可以允许重叠。
  • 数据挖掘具有映射功能,换句话说,可以将某些数据分类到任何预先建立的类中,这将有助于在更短的时间内找到某些数据。
  • 数据挖掘的这一部分是基于找到一种方法的,该方法可以帮助我们找到数据子集的某种压缩描述。更复杂的过程包括理解规则,多元可视化以及解释各种变量之间功能关系的能力。前述过程通常以交互方式用于数据的分析和研究以及自动报告的生成中。
  • 该任务的主要目的是找到一个模型,通过该模型定义变量之间的依赖关系。我们可以在这些模型中找到两个级别,分别是:
    • 结构层次:我们通常以图表的形式找到该层次,变量在本地相互依赖定量层次:借助数字刻度,它详细说明了这些依赖关系的“大小”。

概率依存网络必须利用条件独立性来指定模型的结构设计及其概率。

  • 这项任务的主要目的是获得数据的映射位置,并使其成为具有实际值的预测变量。可以为该任务提供的一些示例是:预测特定森林的某个区域中有多少生物量,正在通过微波对其进行分析;同样,人们有能力根据先前的诊断结果计算出患者没有死亡的可能性。

文字挖掘

数据挖掘是词处理研究和技术领域中一个新兴的技术领域。它的解释方式与数据挖掘的方式相同,换句话说,它是一种可以规定新的有吸引力的模式或标准并产生新知识的方法,但是代替占用数据,将使用大量文本。

可以说,文本挖掘的主要目的是寻找某些文本中未明确规定的新知识。

文本挖掘的各个阶段,摘自(戈麦斯,2001年)

同样,数据挖掘倾向于执行以下任务:

  • 检索数据和信息,即选择最适合组织所寻找内容的文本提取嵌入在某些文本中但被忽略的有价值的信息,这些信息可能是:事实,关键字,重要事件,通过采用与数据挖掘类似的方法,文本挖掘还希望找到必要的数据,从而为公司创造新的知识。

根据(Nuño&Machado),文本挖掘使用的一些技术如下:

  • 文本分类检索信息并提取关键文本机器学习自然语言处理

文本挖掘过程

如上所述,文本挖掘是一种相对较年轻的技术,它可以改变其过程并可以适应不同的情况,但是仍然没有成熟的方法来指导我们。

但是,您可以使用以下步骤:

文本挖掘的步骤,自己的阐述,信息来自(Gómez,2001)

情感挖掘

数据挖掘是自然语言处理,计算语言学和文本挖掘的一系列技术执行,其主要目的是从协作者或任何其他个人开发的内容中消除内在信息,例如:在现有的不同社交网络,博客或评论组中每天进行评估的产品。

情感挖掘跨越了各个研究领域,它们与主观元素的分析有着一定的联系,这些主观元素隐含在不同用户生成的元素中。因此,因此,感觉挖掘可以发现可以执行的两种任务。

极性表征

它是关于是否可以将意见分类为肯定或否定的,这对于用户是否有用。另外,有可能能够在既定范围内产生数值。

基于特征的感觉研究。

它强调发现某些用户撰写的意见中规定的产品或服务的不同特征的能力。

论文提案。

在Córdoba-Orizaba地区的SME中实施数据挖掘,以更好地管理组织。

目的。

优化组织内部的信息流,将有用的与无效的分开,从而加快决策速度。

谢谢。

我感谢我的家人,感谢我的支持和鼓励,使他们每天都在继续前进,感谢Orizaba技术研究所和CONACYT向我敞开大门,让我继续获得行政管理硕士学位,并感谢Fernando Aguirre yHernández博士在“行政管理基础知识”研讨会上用您的知识激励我,以执行分配的每篇文章。

结论。

组织和在其中工作的任何协作者都参与了大量信息,挖掘活动,这些活动可以是任何类型(数据,文本或感觉),它们将提供某些工具和技能,这些工具和技能对于识别,选择,处理非常必要,研究和评估已收集的数据,以便能够生成信息,并在以后使其知识对于在其中工作的组织和协作者非常有用。

当对公司的未来做出不同的决策时,挖掘可能会非常有帮助,因为在这些决策的帮助下产生的所有信息的目的都是以更好的方式组织构想并确保这些内容的准确性,因此做出最佳决定时毫无疑问。

同样,它可以用作技术策略,任何类型的挖掘都可以提高竞争优势,因为它可以优化组织中的各种流程,尤其是上述决策。

参考书目。

上午阿马达(2016年4月7日)。Gestiopolis。从https://www.gestiopolis.com/mineria-datos-textos-sentimientos-2/#autores获取

Egonzales。(2008年4月4日)。专着。从http://www.monografias.com/usuario/perfiles/egonzalez/monografias获得

戈麦斯(MM)(2001)。文本挖掘:新的计算挑战。国家职业技术学院,2-13。

马丁内斯(BB)(2010)。BUAP。从http://bbeltran.cs.buap.mx/Ceneval.html获得

Nuño,RR和Machado,EF(nd)。Galeon.com。取自http://textmining.galeon.com/

奥拉洛(J. 数据库和软件工程中的自动知识提取。瓦伦西亚理工大学。

Rochina,P.(2017年4月25日)。INESEM数字杂志。从https://revistadigital.inesem.es/informatica-y-tics/text-mining/获得

Sinnexus。(2016)。Sinnexus。取自https://www.sinnexus.com/business_intelligence/datamining.aspx

维基百科。(2018年4月18日)。维基百科,免费的百科全书。从https://es.wikipedia.org/wiki/An%C3%A1álisis_de_sentimiento获得

挖掘:数据,文本,感觉