Logo cn.artbmxmagazine.com

大数据。数据分析与架构

目录:

Anonim

大数据是一个术语,描述了每天都会泛滥业务的大量结构化和非结构化数据。但是,重要的不是数据量。大数据最重要的是组织如何处理数据。可以对大数据进行分析,以获得可以做出更好决策和战略业务转移的想法。(PowerData,2015年)。

大数据管理信息系统

大数据描述了一种整体信息管理策略,该策略包括并集成了许多新型数据和数据管理以及传统数据(ORACLE,2014年)。

在更广泛的定义中,必须考虑4 V,以便更好地理解该概念的范围:

它指的是数据量,应注意的是,更多的容量并不等于更多的数据,因此在大数据中,有必要对大量信息进行低密度处理。ORACLE说Hadoop数据它们必须是无结构的(具有未知值),例如,网页上的点击,社交网络上甚至移动应用程序上的消息,网络上的现有流量等。大数据的工作是将这些数据转换为有用的信息。所指的存储大小可能从数十兆字节不等 数百PB,具体取决于每个组织。

Hadoop的

由于并行编程的困难,Hadoop系统具有减轻开发人员工作的功能,提供了一个可帮助用户,分发文件的生态系统 在节点中,允许并行执行多个过程。Hadoop系统具有用于数据监视的控制模块,允许集成附加组件,用于简化存储信息的工作,处理,监视和咨询。

经常说当前的数据或信息具有价值,但是拥有它们并不会产生任何效用,但是必须为它们发现一些应用程序。有许多定量和研究技术可以从这些数据中提取价值,其中一个明显的例子就是对许多公司进行的客户偏好分析,从而能够提供相关报价,其中包括位置等数据。

能够存储和处理所有信息需要付出一定的成本,但是,由于对在线行为分析的需求不断增加,因此在计算和数据存储方面的价格有所下降,因此大量的统计分析无需细分或仅使用样本的大量信息。

能够一起处理所有信息的事实要求对决策进行创新,从而使其更加精确。发现有价值的信息的过程需要该领域的分析人员或专家,用户和执行人员的参与。这样,大数据必须学会预测人类行为,识别模式,以便提供行为预测。

品种

这方面涉及非结构化数据以及可以分类为半结构化的数据,其中包括文本,音频和视频。所有这些数据都需要进行额外的处理才能产生某些含义,并需要使用元数据支持。换句话说,这个方面试图量化信息的复杂性并降低它。

了解它们之后,可以将非结构化数据作为结构化数据进行处理,即可以对其进行汇总,对齐和绘制以进行审核。但是,如果从已知来源获得的数据发生变化而没有事先通知,则会带来更大的复杂性,这会给分析带来负担。

速度

它是接收数据并执行某些操作(例如分析或处理数据)的速率。为了获得更高的速度,不仅需要以字节为单位,而且还需要读取能力,这需要高存储容量,因此诸如云存储和互联网速度之类的技术的重要性至关重要。

例如,某些物联网应用程序 (物联网),具有状态和安全性汇总,这些汇总需要实时操作以及评估。

另一个例子是可以立即使用Internet的智能产品,它们可以实时工作,并提供相关信息,例如使用情况统计信息,安全性,位置等。这就是电子商务应用程序尝试使用这些变量的方法,将智能手机的位置与个人喜好混合在一起,以通过广告进行报价。从操作的角度来看,为手机设计的应用程序具有庞大的用户群和更广泛的网络流量,因此体验和响应期望必须是立竿见影的。

描述

一旦明确了所有这些原则,就应该指出,大数据就是一个数据集,而这些数据集又是这些数据集的组合,其数量,价值,种类和速度使其难以捕获,记录,管理,处理并在必要的时间内通过常规技术和工具(例如关系数据库,统计数据和可视化程序包)进行分析。

由于特定数据集的大小会随着时间的流逝而不断变化,因此尚未定义特定数据集的大小,因为它会随着时间的流逝而不断变化,目前尚无定论。从30 TB。因此,由于当前使用的技术(例如Internet搜索信息,社交网络以及其中发生的互动)生成的许多数据都是非结构化的,因此本质上极其复杂。 Twitter,Google等),页面记录,设备传感器(测量值,GPS位置),笔记本电脑,智能手机和呼叫中心记录,包括机械和车辆。

为了能够有效地使用大数据,必须将其与常规商业应用程序(例如ERP或CRM)的结构化数据(关系数据库)结合起来。

重要性

大数据为许多公司有时不知道应该回答的问题提供了答案,这就是该工具在业务级别上极为有用的原因,因为它提供了参考点。所需的信息量使数据可以按公司要求的任何方式成型。通过这样做,他们能够以更易于理解的方式发现问题。

能够收集大量数据并允许在其中发现特定趋势的事实使公司能够以敏捷,高效和流畅的方式做出决策。需要特别强调的一点是,它可以使您在问题影响公司声誉或损害其利益之前就消除问题区域。

大数据可帮助组织通过分析利用其信息,从而识别增长或改进的机会。这可以实现智能业务移动,更有效的运营,更高的利润和客户满意度。应通过此工具考虑收益,例如:

降低成本 加速决策 产生产品并

服务

降低成本

必须掌握最强大和潜在的数据技术,例如Hadoop系统和基于云的分析。这些产生了成本优势,因为涉及到存储大量数据时,在接下来的几年中大量供应显示出指数级增长,这也使我们能够确定更有效的营销方式。

更快的决策

关于Hadoop系统,其速度和信息分析能力以及分析新数据源的能力,使公司能够立即使信息可用(作为摘要或所需的特定数据) ),并根据他们所学的知识(人工智能)做出决策。

产生新产品/服务

大数据提供了分析和衡量客户需求的能力,因此,通过对他们的信息进行分析可以使他们满意,从而可以确定地了解他们的需求或需求。通过分析,公司可以创建新产品和服务来满足其客户的需求。他们甚至可以产生他们不知道的新需求。

应用

正如之前所观察到的那样,大数据的影响力是无法想象的,实际上限制是由同一家公司设定的,因为这取决于他们如何处理信息。以下是此工具可在各个领域中使用的方式:

健康

大数据包含医疗保健行业中的大量信息。主要是患者记录,一般和专门的健康计划,保险和范围信息的一部分,并且也难以管理信息。所有这些数据提供了应用分析时的关键信息。因此,数据分析技术对医疗保健至关重要。通过分析这些大量信息,几乎可以立即提供患者诊断和治疗选择,从而在无法挽回的疾病面前创造了攻击疾病的可能性。

行政

管理面临的主要挑战之一是在总体预算紧张的情况下确保质量并提高运营效率。大数据可以通过技术简化运营,使管理层可以更广泛地了解活动。

广告

随着越来越多的智能手机以及具有GPS集成的设备的使用,广告商可以将消费者定位在特定商店附近,例如餐馆,书店或咖啡店。这为服务提供商创造了机会,例如获得更多收入,获得新的线索,定位并取得成功。

营业额

客户服务对于所有企业都变得极为重要,并且客户对细节的要求越来越低,因此,随着聪明的买家对零售商的期望,销售量也在不断增长。确切了解他们的需求以及何时需要。

大数据可以使零售商满足这些需求。借助来自客户忠诚度计划,购物习惯和其他来源的无穷数据,零售商不仅对客户有深刻的了解,而且还可以预测趋势,推荐新产品并提高盈利能力。

旅游

由于这对于旅游业至关重要,因此必须考虑到顾客的满意度,但是这一特征很难衡量,尤其是在适当的时候。例如,度假村和赌场只有很小的机会扭转不良的客户体验。大数据分析使这些公司能够收集客户数据,应用分析并在为时已晚之前立即发现潜在问题。

大数据挑战

大数据的特殊特征使其数据质量面临许多挑战:

品种 速度 真实性

数据来源和类型的多样性

由于源,数据类型和结构复杂,因此数据集成的难度增加。

大数据的数据源是巨大的:

  • 互联网和移动数据物联网数据专门公司收集的部门数据 实验数据。

数据类型还包括:

  1. 非结构化数据类型:文档,视频,音频等。半结构化数据类型:软件,电子表格,报告,结构化数据类型

只有20%的信息是结构化的,如果我们不执行数据质量项目,可能会导致许多错误。

数据量

正如我们已经看到的,数据量巨大,这使在合理时间内执行数据质量过程变得复杂。

很难快速收集,清理,集成和获取高质量数据。将非结构化类型转换为结构化类型并处理该数据需要很长时间。

挥发性

数据变化很快,因此有效期非常短。为了解决这个问题,我们需要非常高的处理能力。

如果做得不好,基于这些数据的处理和分析可能会得出错误的结论,从而可能导致决策错误。

没有统一的数据质量标准

1987年,国际标准化组织(ISO)发布了ISO 9000标准,以保证产品和服务的质量。但是,直到1990年代才开始对数据质量标准进行研究,直到2011年ISO才发布ISO 8000数据质量标准。

这些标准需要成熟和完善。此外,对大数据质量数据的研究才刚刚开始,几乎没有任何结果。

大数据的质量是关键,这不仅是为了获得竞争优势,而且是要防止我们基于错误数据而造成严重的战略和运营错误,从而带来非常严重的后果。

数据治理计划

治理是指确保在数据库中对数据进行授权,组织并具有必要的用户权限,同时尽可能减少错误,同时保持隐私和安全性。要在这些特性之间实现轻松的平衡是困难的,尤其是当托管和处理数据的位置和方式不断变化的现实时。

细粒度数据访问

没有精细的控制,您将无法进行有效的数据治理。

这些粒度控制可以通过访问控制表达式来实现。这些表达式使用分组和布尔逻辑来控制灵活的数据访问和授权,并具有基于角色的权限和可见性设置。

在最低级别,机密数据通过隐藏而受到保护,在最高级别,数据科学家和BI分析师之间有机密合同。这可以通过数据屏蔽功能和不同的视图来完成,在这些视图中,尽可能地锁定原始数据,并逐渐提供更多访问权限,直到在顶部,管理员可以看到更多。

您可以具有不同的访问级别,从而提供了更高的集成安全性。

数据保护

没有安全保障,就无法进行管理。重要的是要建立一个良好的边界并在数据周围放置防火墙,并与现有的身份验证系统和标准集成在一起。在身份验证方面,公司与经过验证的系统同步非常重要。

有了身份验证,就可以了解如何与LDAP,Active Directory和其他目录服务集成。身份验证支持也可以支持Kerberos之类的工具。但是重要的不是创建单独的基础架构,而是将其集成到现有结构中。

加密

保护周边并验证所有被授予的粒度数据访问之后的下一步是确保从数据管道的一端到另一端对文件和个人身份信息(PII)进行加密和标记。

一旦超出范围并可以访问系统,保护PII数据就非常重要。该数据需要加密,以便无论谁有权访问它,他们都可以运行所需的扫描而不会暴露任何数据。

审计与分析

未经审核,该策略将不起作用。在流程的每个步骤中,这种可见性和责任级别使IT能够“管理”数据,而不是简单地设置访问策略和控制并希望获得最佳结果。这也是公司在每天查看数据的方式以及用于管理和分析数据的技术不断变化的环境中保持最新策略的方式。

我们正处于大数据和IoT(物联网)的初期,能够跟踪访问并识别数据中的模式至关重要。

审核和解析就像跟踪JavaScript对象符号(JSON)文件一样简单。

统一数据架构

最终,监督业务数据管理策略的IT经理必须考虑详细访问,身份验证,安全性,加密和审核的细节。但是它不应该就此停止。相反,您应该考虑这些组件中的每一个如何集成到您的全局数据体系结构中。您还需要考虑从数据收集和存储到BI,分析和其他第三方服务,该基础结构将如何需要可扩展和安全。数据治理既涉及技术本身,也涉及对战略和执行的重新思考。

它超出了一组安全规则。它是一个独特的体系结构,在其中创建这些角色并在整个平台及其所带的所有工具之间进行同步。

论文提案

提案1

使用大数据来分析韦拉克鲁斯社会的信息,并能够通过监视网络上的活动来预防犯罪并防止犯罪,该活动有助于个人的路由和更正。

主张2

提出改进社交结构的建议,从落后者扩展以实现更快的整合。

参考资料

数据管理专家。(2012年10月)。大数据:这是什么?

它的重要性,挑战和治理。2018年3月,来自PowerData网站:https://www.powerdata.es/big-data

ORACLE。(2014年8月)。业务大数据。2018年3月,来自ORACLE拉丁美洲网站:https://www.oracle.com/lad/big-data/index.html

Quer,A.(2013年9月5日)。大数据和Hadoop有何关系?2018年3月,来自PowerData网站:https://blog.powerdata.es/el-valor-de-la-gestion-dedatos/bid/328879/c-mo-se-relaciona-big-data-y-hadoop

______________________

开源系统,用于存储,处理和分析大量数据。

兆兆字节(TB),相当于10 12个字节,即1,000,000,000,000(十亿)字节。

PB(PB)等于10 15字节,即1,000,000,000,000,000字节。

由名称指定并配置为系统或用户的完整独立单元的逻辑信息或数据集。

在同一位置合并在一起的多个元素的交点或并集点。

扩展或增加可能是指IT项目的可安装升级。

描述对象的信息内容的一组数据,称为资源。

物联网为曾经通过闭路连接的对象(例如通信器,照相机,传感器等)提供动力,并使它们可以通过网络网络进行全局通信。

下载原始文件

大数据。数据分析与架构