Logo cn.artbmxmagazine.com

Microsoft SQL Server 2008中的数据仓库和信息系统

目录:

Anonim

信息系统分为两类(Casares,2003年):

  • 操作系统:以反映交易记录或日常运营的公司的状态和目标为目标的系统,因此被称为在线交易处理(OLTP)系统。他们的目标是测量和控制重要业务变量的发展,以从累积数据中识别,预测和预测趋势。

自计算机时代开始以来,组织就一直使用来自操作系统的数据来满足其信息需求。有些提供对操作应用程序中包含的信息的直接访问。其他人则从其运营数据库中提取数据,以各种非结构化的方式将其组合起来,以尝试为用户提供其信息需求(Casares,2003年)。

Bill Inmon是最早写关于数据仓库的文章的作者之一,他根据数据存储库的特征定义了一个数据仓库(Inmon,2007年):

面向主题:组织数据库中的数据,以便将与同一事件或实际对象相关的所有数据元素链接在一起。

随时间变化:记录数据随时间的变化,以便可以生成的报告反映这些变化。

非易失性:信息不会被修改或删除,一旦存储了数据,它将成为只读信息,并保留以备将来参考。

集成的:数据库包含组织的所有操作系统的数据,并且所述数据必须一致。

数据市场是特定区域中数据仓库中数据的子集。从设计的角度来看,适用于数据仓库的所有内容都应用于数据市场(Inmon,2007年)。

维度模型是数据仓库系统中使用最多的模型,这与OLTP系统中使用的关系模型不同。该模型基于维度,该维度表示信息的类别,属性表示维度中的单个级别,可能存在表示不同属性之间关系的属性层次结构,最后是包含感兴趣数据的事实表,具有一定的粒度级别。粒度是将存储在事实表中的最低级别的信息。设计事实表的第一步是确定粒度。

尺寸设计图:

  • 星型方案:中心的事实表连接到一组维度表雪花方案:上一个方案的细化,其中一些维度被归一化为较小的表事实星座:多个事实表共享维度表。它们被可视化为事实的星座。

行政管理认识到提高效率的一种方法是最好地利用组织内已经存在的信息资源数据仓库目前是大型机构的关注重点,因为它为组织提供了一个更好地利用各种操作应用程序管理的信息的环境(Casares,2003年)。

数据仓库的体系结构包括三个级别(Casares,2003年):

  • 源数据库(生产数据库和历史数据库);具有从生产基地(数据仓库)提取的摘要数据的数据库;面向用户的界面,用于提取决策信息。经典的是:查询和报告,多维分析和数据挖掘。

源数据库:由生产数据库和历史数据库组成。这些数据库可以在不同类型的系统中实现:BD关系,BD地理,BD文本,文件等。它们的共同特征是它们存储原子数据项,这些原子数据项与生产数据相关,但可能太精细而不能用作决策的基础。此外,这些数据库中数据质量的概念基于这些记录的一致性,无论它们与问题的相关性如何。

数据仓库中的一个重要组成部分是数据字典(元数据),其中描述了存储的数据,以便于通过数据仓库开发工具访问它们。数据字典在存储的数据和它们表示的概念之间建立对应关系,以方便最终用户提取信息。

面向用户的界面,可提取信息以供决策:

  • 复杂查询和报告的界面:它们允许用户根据数据仓库中包含的信息并通过数据字典进行描述来构建图形和报告。这些工具的一些典型功能是:报表中数据的动态分组和取消分组,报表字段顺序的更改,以图形形式(条,饼,点等)可视化查询结果。这些工具以查询语言生成表达式,以检索请求的数据(通常为SQL),连接到数据存储,检索结果并根据给定的规范对其进行格式化。
  • 数据分析产品(OLAP):它们允许按维度表示问题数据。例如,如果是关于在不同区域中销售产品,则问题的一个维度是区域,另一个是产品,而另一个是时间。这样,可以立即从一个维度基于另一个维度进行数据分析查询。
  • 数据挖掘工具:它们使您能够探索数据仓库,以搜索数据之间未知或意外的关系。

建立数据仓库的主要动机如下(Casares,2003年):

  • 有信息系统来支持决策;有数据库可以从组织中存储的历史信息中提取知识;设计数据库可以执行未知查询。

Microsoft SQL Server 2008提供了一个用于构建和维护数据仓库的平台,以下是与它们相关的一些新功能和最佳实践:

-数据压缩

数据压缩通过允许更有效地利用存储容量来减少存储表和索引所需的空间。

每篇文章或每页都有压缩的可能性。按文章进行压缩以可变宽度格式存储所有字段,按页面进行压缩的功能相同,但是在同一页面上的文章之间进行。页面级词典用于存储公共值,并且公共列值前缀在页面上仅存储一次。两种压缩形式都可以应用于表和索引。

-透明的数据加密

透明数据加密允许通过加密数据库文件来安全地存储数据。SQL Server直接执行加密和解密,使该过程对连接的应用程序透明。如果同时使用数据压缩和加密,则必须按此顺序执行操作。

-资源总督

资源调控器允许管理员控制和分配资源(如处理器和内存)到最高优先级的应用程序。

-热添加处理器和内存

SQL Server Enterprise 64位版本允许热添加处理器和内存,而无需关闭服务器或限制现有连接。

-合并运营商

新的MERGE运算符简化了从源加载数据仓库的过程。这个新操作员在源数据库中区分新文章和更新文章,并在数据仓库中采取适当的措施。

-新型的空间数据

新的空间数据类型GEOGRAPHY和GEOMETRY允许将空间数据直接存储在SQL Server 2008中。GEOGRAPHY允许以GPS应用程序使用的三个维度表示大地测量数据,而GEOMETRY则可以表示二维平面中的点。还与Virtual Earth集成在一起,可以用图形表示物理位置。

所有这些新功能使Microsoft SQL Server 2008成为用于创建和维护数据仓库的高级工具。

参考书目

CASARES,C。(2003)数据仓库。

INMON,B.(2007年)公司信息工厂。Inmon咨询服务。

MICROSOFT(2008)SQL Server 2008数据仓库最佳实践。

微软(2008)SQL Server 2008的新增功能

Microsoft SQL Server 2008中的数据仓库和信息系统