Logo cn.artbmxmagazine.com

数据,文本和感觉的挖掘。组织中的大数据

目录:

Anonim

介绍

毫无疑问,人类拥有的最宝贵的价值是知识,这些年来,知识以不同的方式被存储。

如今,可以通过数据或信息的名称来了解这些知识,这些数据或信息不仅可以存储,还可以进行分析以获得结果。

这就是数据,文本和情感挖掘概念的诞生方式,旨在预测未来并促进决策。

数据挖掘,文本和情感的概念由于存在大量信息而成为当今社会的主题,该概念已在日常生活的不同领域得到发展,例如教育,健康,生物学,市场分析,电信,仅举几例。

它们是识别行为模式的计算机化过程,以便对未来的行为做出预测。

数据库的历史

由于多年来个人的专业化,因此需要保护他们产生的信息,例如调查或财产所有权,有关人口的基本信息,包括死亡,出生和结婚证书。

随着时间的流逝,人类对这些信息的物理保护感到不满意,因此他们逐渐开发了有助于数据管理和大量存储的电子设备。

在20世纪,注册了诸如光电,磁带外观,第一台计算机(例如UNIVAC)等各种技术,但直到60年代末,才发表了一篇文章,定义了基础模型。数据本身。

如今,管理着能够生成,收集和处理大量信息的大型数据库;这些特征逐渐被最大化,变得越来越强大(Martínez,E.,2000)。

组织内的大数据

由于各种因素或诸如“云”之类的存储介质,组织更频繁地使用该术语。大数据使用诸如文本挖掘,数据挖掘和情感挖掘之类的工具来促进决策,使组织效率更高。

得益于先进的技术,存储的大小以及组织使用这些元素所产生的成本都在增加。

组织的主要目标是提高效率并获得更高的回报,因此他们将结构化或常规技术以及非结构化或半结构化技术添加到数据分析中,例如上述的矿业公司,这些公司从照片,音频,视频,书籍等。

他们能够尽快从分析的数据中得出结论,所有这些都是为了获得竞争优势,通常在这种意义上处理的数据如下:

  • 来自传统(交易)公司的数据。有关客户,供应商,供应品等的一般信息。数据传感器生成的数据。通常,它们是自生产以来集成到不同设备中的传感器,它们也称为智能仪表,包括芯片社交数据。互联网提供的所有社交网络都包括在内,其中最著名的是Twitter或Facebook,以及摄影和音频之类的元素。通常由移动技术设备提供,这些设备可以是平板电脑,智能手机或通过Skype(Joyanes,L.,2013年)

数据挖掘

它的诞生归功于信息技术的不断管理,-有不同的作者负责描述它,因此将提到已确定的最重要的定义。

“数据挖掘最初可以定义为通过检查大量数据来发现新的重要关系,模式和趋势的过程”(Pérez,C.&Santín,D.,2008)

数据挖掘被认为是人工智能,统计分析,数据库和图形可视化的半自动技术的组合,以获取未在数据中明确表示的信息,并且可能比数据挖掘更有用。离开。(Martínez,E.,2000)

数据挖掘的目标

由于大量信息的存在和所谓信息技术的巨大进步,已经产生了用于其分析和控制的专门技术。

这些技术提议对包含的信息进行精确的识别,即不仅以文本方式,还通过不同的工具(例如算法,神经网络,数据分析)发现信息的模式和趋势。一些(Pérez,C.&Santín,D.,2008)

数据和信息管理在整个历史过程中经历了不同的阶段,最终达到了数据挖掘的目的,因此有必要考虑以下表示形式以提供更清晰的概念:

数据挖掘的操作

该技术可以识别并提取足以“理解”数据和信息的模式,从而建立行为预测。

数据挖掘的一个明显例子是其阶段的所谓ETL(提取,转换,加载),即数据读取,合并,转换,维护和数据规划(Pérez,C。&Santín,D。 (2008年),该模型的介绍如下:

文字挖掘

该技术基于从一定数量的信息中获取或找到有关某个项目的有用信息的信息,通常在专门软件中找到这些信息

该技术着重于发现现有信息的多样性之间的模式,趋势和关联。文本挖掘涵盖以下领域:

  • 文本分类文本分类簇生成关联发现偏差检测趋势分析汇总构建(Montes,M.,s / f)

文本挖掘过程分为两个阶段:

  • 首先称为处理。以结构和另一个发现调用的形式进行文本表示的地方。描述了要发现的目标,例如模式或趋势(Tan,1999)

通常,被认为是文本挖掘的系统具有简单的表示形式,并且可以识别某些要考虑的关键字,这有助于分析和解释,因此可以说,它们的表示形式受到既定趋势的限制。

文本挖掘应用

文本挖掘适用于各个领域,最突出的是:

  • 安全方面。它用于监视信息的不同来源,以及对可能的密文进行更详细的研究。这是研究的一个新发展方面,它对自然语言处理,计算,生物信息学(包括计算语言学)进行了分析,暴露了分析组织与客户之间的关系这一事实,从而避免了它们的丢失。学术申请。在许多情况下,当发布各种文章时,要求建立索引,这是指以特定方式建立的一定数量和质量的边的存在。

感觉采矿

所谓的“情感挖掘”是文本挖掘的派生,在这种情况下,我们尝试通过不同的媒体(例如电子邮件,Facebook)(包括不同的搜索引擎)来识别客户或用户的意图。网络拥有的那些。

数据挖掘的基本过程如下:

  • 试图理解文本或将其与特定项目联系起来,例如与一家特殊的公司,饭店或旅行社联系,此后,确定客户的意图,并在构成该短语的短语上加上正号或负号。否定的,例如,如果单词“ great”在数据库中被分类为好,则添加肯定标签;否则,如果单词“ poor”被分类为坏,则添加否定标签。

通过对这些标签的分析,组织可以更好地了解其消费者的意见和痛苦。(佩雷斯,S.,2016)

采矿中的伦理

在某些数据库中处理的信息来自用户,他们在许多情况下并不完全意识到不同的组织会出于他们认为适当的目的使用它。

电子购买,付款,电话呼叫等都是每天产生的信息,并且已被正确记录,社会并不知道它产生的大量信息以及它们可能引起的危险(加里加,A.,2004)

由于有了这些信息,数据挖掘显示了可以与社会建立以获得某些利益的影响的类型。

但是,并非所有事情都不利于这些采矿作业,该技术支持组织分析员工的行为和技能,从而提高员工效率。

即使通过跟踪浏览器或电子邮件,也可以查询合作者是否正在寻找新的工作机会,或者他是否提出了损害公司自身活动(包括恐怖主义)的任何行为。(Franganillo,J., 2010)

参考书目

  • Franganillo,J.(2010年)。数据挖掘的伦理意义。 《 ThinkEPI年鉴》,加里加(2004)。个人数据和基本权利的处理Joyanes,L.(2013)。大数据:分析组织中的大量数据(第一)。墨西哥DF:Alfaomega。Martínez,E。(2000)。数据挖掘,一种决策工具。联阿特派团。从http://132.248.9.195/pd2001/287820/Index.html Montes,M.(s / f)中恢复。文本挖掘:新的计算挑战。墨西哥DF:IPN。取自http://ccc.inaoep.mx/~mmontesg/publicaciones/2001/MineriaTexto-md01.pdfPérez,C.,&Santín,D.(2008)。数据挖掘,技术和工具(Ediciones Paraninfo SA)。西班牙。从https://books.google.com.mx/books?id=wzD_8uPFCEC&printsec=frontcover&dq =矿工%C3%ADa + de + datos&hl = es419&sa = X&sqi = 2&redir_esc = y#v =一页&q =矿工%C3%ADa%20de%20datos&f =falsePérez,S.(2016)。情绪分析。委内瑞拉中央大学,谭。 (1999)。技术水平和挑战,Proc。来自高级数据库的研讨会知识发现。文本挖掘。
下载原始文件

数据,文本和感觉的挖掘。组织中的大数据