数据和信息挖掘

采矿的简单定义：

在矿山中挖掘矿物，金属，珠宝等的过程或业务。

数据挖掘：什么是数据挖掘？

总览

通常，数据挖掘（有时称为数据或知识发现）是从不同角度分析数据并将其汇总为有用的信息，可用于增加收入，降低成本或两者的信息的过程。。数据挖掘软件是用于数据分析的一系列分析工具之一。它使用户可以分析来自许多不同维度或角度的数据，对其进行分类并总结所识别的关系。从技术上讲，数据挖掘是在大型关系数据库中查找模式或字段之间的相关性的过程。

持续创新

尽管数据挖掘是一个相对较新的术语，但技术不是。多年来，公司一直使用功能强大的计算机筛选大量超市扫描仪数据并分析市场研究报告。但是，计算能力，磁盘存储和统计软件方面的不断创新极大地提高了分析的准确性，同时降低了成本。

例

例如，中西部的一家连锁超市使用Oracle的软件数据挖掘功能来分析本地购物模式。他们发现，当男人在星期四和星期六购买尿布时，他们也倾向于购买啤酒。更详细的分析表明，这些购物者通常在星期六进行每周购物。但是，在星期四，他们只购买了一些物品。零售商得出的结论是，应该购买啤酒才能在下周末使用。连锁超市可以通过多种方式使用这一新发现的信息来增加收入。例如，他们可以将啤酒滤网移近尿布滤网。和，他们可以确保在星期四以全价出售啤酒和尿布。

数据挖掘的基础

数据挖掘技术是产品研发过程漫长的结果。这种发展始于最初将业务数据存储在计算机上，并随着数据访问的改进而不断发展，最近又出现了允许用户实时浏览其数据的技术。数据挖掘使这一演化过程不仅可以访问导航和追溯数据，还可以传递前瞻性和主动信息。数据挖掘已经准备好在商业社区中应用，因为它依赖于三种已经足够成熟的技术：

大规模数据收集具有多个强大处理器的计算机数据挖掘算法

业务数据库正以前所未有的速度增长。 META Group最近对数据仓库项目进行的调查发现，有19％的受访者超出了50 GB的存储水平，而59％的受访者则预期会超过50 GB。在某些行业中，例如零售业，这些数字可能更高。使用具有多个并行处理器的计算机技术，可以以经济高效的方式满足对改进计算引擎的支持需求。数据挖掘算法采用了至少已有10年历史的技术，但直到最近才被实现为成熟，可靠且可理解的工具，其性能远远超过了旧的统计方法。

在从业务数据到业务信息的演变过程中，每个新步骤都建立在前一个步骤的基础上。例如，动态数据访问对于数据导航应用程序中的追溯至关重要，而存储大型数据库的能力对于数据挖掘则至关重要。

数据，信息和知识

数据

数据是计算机可以处理的事实，数字或文本。如今，组织正在以不同的格式和不断增长的数据库来积累大量数据。这包括：

运营或交易数据，例如销售，成本，库存，工资单和会计等非运营数据，例如行业销售，预测数据和宏观经济数据元数据，有关数据的数据是的，例如逻辑数据库布局或数据字典定义

信息

所有这些数据之间的模式，关联或关系都可以提供信息。例如，零售交易数据点的分析可以提供有关什么产品在何时销售的信息。

知识

信息可以转换为历史模式和未来趋势的知识。例如，可以根据促销活动来分析有关超市销售的摘要信息，以洞悉消费者的购买行为。因此，制造商或零售商可以确定哪些商品最容易受到促销活动的影响。

数据仓库

数据捕获，处理能力，数据传输和存储功能的巨大进步使公司能够将其各种数据库集成到数据存储单元中。数据仓库定义为集中的数据管理和检索过程。像数据挖掘一样，数据仓库是一个相对较新的术语，尽管概念本身已经存在了很多年。数据仓库代表了维护组织中所有数据的中央存储库的理想愿景。需要集中数据以最大程度地提高用户访问和分析的能力。技术的惊人进步使这一愿景成为许多公司的现实。和，数据分析软件的巨大进步也使用户可以自由访问此信息。数据分析软件是支持数据挖掘的工具。

数据挖掘可以做什么？

数据挖掘主要由关注消费者的公司（零售，财务，通信和营销组织）使用。它使这些公司能够确定“内部”因素（例如价格，产品定位或员工技能）与“外部”因素（例如经济指标，竞争和客户人口统计信息）之间的关系。并且，它使他们能够确定对销售，客户满意度和公司利润的影响。最后，它允许他们“向下钻取”摘要信息以查看详细的交易数据。

通过数据挖掘，零售商可以使用客户的购买POS记录根据个人的购买历史发送特定的促销信息。通过挖掘评论或保修卡的人口统计信息，零售商可以开发产品和促销活动以吸引特定的客户群。

例如，百视达娱乐（Blockbuster Entertainment）采矿是他们的历史视频租借数据库，可以分别向度假客户推荐。美国运通可以根据其每月支出的分析向持卡人推荐产品。

沃尔玛是大规模数据挖掘以改变其供应商关系的先驱。沃尔玛捕获了来自6个国家/地区的2900多家商店的销售点交易，并将数据连续流式传输到其7.5 TB的海量Teradata数据存储中。沃尔玛使3500多家供应商能够访问有关其产品的数据并进行数据分析。这些供应商使用此数据在商店展示级别识别客户购买模式。他们使用此信息来管理本地仓库库存并确定新的营销机会。 1995年，沃尔玛团队处理了超过一百万个复杂数据查询。

美国国家篮球协会（NBA）正在探索一种可以与篮球比赛的图像记录结合使用的数据挖掘应用程序。先进的浏览器软件可以分析球员的动作，以帮助教练编排比赛和策略。例如，对1995年1月6日纽约尼克斯队与克利夫兰骑士队之间比赛的逐个比赛表的分析是，当马克·普莱斯（Mark Price）担任后卫时，约翰·威廉姆斯（John Williams）尝试了四次射门跳，做每个。 Advanced不仅找到了这种模式，而且还解释了这一点很有趣，因为它与该场比赛中骑士的49.30％的平均命中率相差很大。

通过使用NBA的通用时钟，教练可以自动使用视频片段显示威廉姆斯尝试的每一个镜头，而无需花费数小时的视频。这些剪辑展示了一个非常成功的挡拆游戏，其中Price解除了尼克的防守，然后找到威廉姆斯进行空位跳投。

数据挖掘如何工作？

尽管大规模的信息技术已经发展起来，分析系统和交易是分开的，但是数据挖掘提供了两者之间的联系。数据挖掘软件根据未定义用户的查询来分析存储的交易数据中的关系和模式。有几种类型的分析软件可用：统计，机器学习和神经网络。通常，将寻求四种类型的关系中的任何一种：

类：存储的数据用于按预定组定位数据。例如，一家饭店连锁店可以提取顾客购买数据，以确定顾客何时光顾以及他们通常订购什么。该信息可用于增加流量，以获取当天的特色菜。

组：数据项根据逻辑关系或消费者偏好进行分组。例如，可以提取数据以识别市场细分或消费者亲和力。

关联：可以提取数据以识别关联。啤酒尿布的例子就是联合开采的例子。

顺序模式：从预期趋势和行为模式中提取数据。例如，户外装备零售商可能根据消费者对睡袋和步行鞋的购买来预测背包的购买可能性。

数据挖掘由五个主要元素组成：

提取货运交易数据并将其转换为数据仓库系统，在多维数据库系统中存储和管理数据，从而可以访问数据，业务分析师和信息技术专业人员。使用软件应用程序分析数据以有用的格式（例如图形或表格）显示数据。

提供不同级别的分析：

人工神经网络：通过训练学习的非线性预测模型，并类似于结构中的生物神经网络。遗传算法：在遗传算法中使用遗传组合，变异和自然选择等过程的优化技术基于自然演化概念的设计决策树：代表决策集的树状结构。这些决策生成用于数据集分类的规则。特定的决策树方法包括分类和回归树（CART）和自动卡方检测交互（CHAID）。 CART和CHAID是用于对数据集进行分类的决策树技术。它们提供了一组规则，可以将这些规则应用于新的（未分类的）数据集，以预测哪些记录将具有给定的结果。 CART段是通过创建2切片路径创建的一组数据，而CHAID段使用卡方检验来创建多切片路径。 CART通常比CHAID所需的数据准备量少。最近邻方法：一种技术，该技术根据一组卡片中与卡片最相似的k个类别的组合对数据集中的每个记录进行分类。历史数据（其中k 1）。规则归纳：基于统计意义从数据中提取有用的规则数据可视化：多维数据中复杂关系的可视化解释。图形工具用于说明数据关系。

需要什么技术基础设施？

如今，数据挖掘应用程序可用于大型机，客户端/服务器和PC平台的所有大小的系统。系统的价格范围从最小的应用程序的几千美元到最大的应用程序的100万美元。整个企业中的应用程序大小通常从10 GB到超过11 TB。NCR可以交付超过100 TB的应用程序。有两个关键的技术因素：

数据库大小：处理和维护的数据越多，所需的系统越强大。查询的复杂性：查询越复杂，正在处理的查询数量越多，功能越强大。所需的系统。

关系数据库存储和管理技术适用于许多小于50 GB的数据挖掘应用程序。但是，此基础结构需要进行重大改进以支持最大的应用程序。一些供应商已添加了广泛的索引功能以提高查询性能。其他人则使用新的硬件体系结构，例如大规模并行处理器（MPP）来实现查询时间的数量级改进。例如，NCR的MPP系统链接了数百个高速奔腾处理器，从而实现了比大型超级计算机更高的性能水平。

文字挖掘

文本挖掘是一个新兴的领域，它试图从语言的自然文本中提取有意义的信息。它可以广泛地表征为分析文本以提取对特定目的有用的信息的过程。与数据库中存储的数据类型相比，文本是结构化的，无定形的，并且在算法上难以处理。但是，在现代文化中，文本是正式交换信息的最常用工具。文本挖掘领域通常会处理其功能是传达事实，信息或观点的文本，并且即使成功仅是部分成功，尝试自动从所述文本中提取信息的动机也令人信服。。

短语“文本挖掘”通常用于指代分析大量文本和自然语言并检测词汇或语言使用模式以尝试提取可能有用的信息的任何系统。

文本挖掘和数据挖掘

就像数据挖掘可以广泛地描述为在数据中查找模式一样，文本挖掘也涉及在文本中搜索模式。然而，两个表面的相似性掩盖了真正的差异。数据挖掘可以更全面地表征为提取隐式，先前未知和潜在有用的数据。信息隐含在输入数据中：它是隐藏的，未知的，并且如果不借助自动数据挖掘技术就很难提取出来。但是，通过文本挖掘，提取出的信息会清晰，准确地显示在文本中。它根本没有被隐藏，大多数作者都确保他们表达清楚，明确，并且从人类的角度来看，“迄今未知”的唯一含义是人力资源的限制使人们无法自己阅读文本。当然，问题在于信息的编制方式不适合自动处理。文本挖掘致力于以适合计算机直接使用的形式带来文本，而无需人工干预。文本挖掘致力于以适合计算机直接使用的形式带来文本，而无需人工干预。文本挖掘致力于以适合计算机直接使用的形式带来文本，而无需人工干预。

尽管从哲学上讲有明显的区别，但是从计算机的角度来看，问题是非常相似的。在提取最详细信息时，文本与原始数据一样不透明。

数据和文本挖掘的另一个共同要求是提取的信息必须“潜在有用”。从某种意义上讲，这意味着可行–能够为自动采取的行动提供基础。在数据挖掘的情况下，可以以相对独立于域的方式来表达此概念：可操作的模式是允许对来自同一源的新数据进行非平凡预测的模式。可以通过对成功和失败进行计数来衡量性能，可以使用统计技术来比较同一问题上的不同数据挖掘方法，等等。然而，在许多文本挖掘情况下，以独立于特定域的方式来描述“可操作”的含义要困难得多。这使得很难找到公平和客观的成功衡量标准。

在许多数据挖掘应用程序中，对“潜在有用”的解释不同：成功的关键是提取的信息必须易于理解，因为它有助于解释数据。当结果供人类食用而不是自动使用时，这是必需的。此标准不太适用于文本挖掘，因为与数据挖掘不同，输入本身是可以理解的。具有可理解的输出的文本挖掘等效于总结大量文本的显着特征，这本身就是一个子字段：摘要文本。

文本挖掘和自然语言处理

文本挖掘似乎涵盖了自动自然语言处理的全部功能，并且可能还包含更多内容，例如，除了分析链接结构（例如学术文献中的书目参考和网络文献中的超链接）外，还包括自然语言处理传统领域之外的有用信息来源。但是实际上，大多数文本挖掘工作有意识地拒绝了古典自然语言处理的更深层次和更多认知方面，转而倾向于类似于实际信息检索中所使用的那些表面技术。

在自然语言处理资源这一主题的历史发展过程中，可以最好地理解其原因。该领域的根源在于1940年代末和1950年代初的机器翻译项目，他们的爱好者认为基于词对词翻译的策略将提供端庄且有用的粗略翻译，可以轻松地将其精化为更准确的内容。，使用基于主要解析的技术。但是，这些引人注目的，投入大量资金的项目的唯一结果是清楚地实现了自然语言，即使在文盲儿童高峰期，它也是一种极其复杂的介质，不会屈服于简单的技术。从根本上讲，它取决于我们认为的“常识”知识，尽管它是自然原因，但每天都很难编码和使用算法。

由于这些令人尴尬且广为人知的失败，研究人员删除了“玩具世界”，尤其是几何对象，形状，颜色和堆叠的“块世界”（其语义清晰明了，可以编码的操作））。但是渐渐地它变得成功了，尽管《玩具世界》虽然最初给人留下了深刻的印象，但并没有转化为现实文本的成功。在众所周知的同名儿童故事系列之后，世界的玩具技术很好地处理了人工构造的句子，我们称之为“迪克和简”。但是当他们面对真实的文本时，无论是精心构建和编辑的文本，还是在实时约束下（例如随意对话）制作的文本，它们都会惨遭失败。

同时，其他领域的研究人员只需要处理实际的文本，以及所有的古怪之处，特质和错误。例如，压缩方案应该适用于所有文档（无论其内容如何），并且即使灾难性地处理了异常文件（例如完全随机输入或二进制文件），也可以避免灾难性的失败。信息检索系统必须索引所有类型的文档，并允许它们以任何主题或语言正确性进行有效定位。文本摘要算法和提取的关键在于它们必须对任何文本文件都做得体面。这些领域的工作系统和实践是单独的主题，因为大多数语言是独立的。它们通过将输入视为数据而不是语言来进行操作。

文本挖掘是这种“真实文本”思维方式的结果。接受的可能不多，无限制输入可以做什么，处理大量文本的能力是否可以补偿相对简单的技术？

有趣的是，数据挖掘也从学科之间的艰难关系历史演变而来，在这种情况下，机器学习源于实验计算机科学，具有在理论上完全建立的特殊评估和统计方法，但是基于测试的传统明确提出了假设，而不是寻找新信息。早期的机器学习研究人员对统计知识知之甚少。早期的结构化统计假设研究人员仍然不了解机器学习中的并行工作。结果是，两个领域同时出现了类似的技术（例如，建立决策树和最近的邻居），直到后来他们才采取平衡的方法。

情感挖掘

电脑可以很好地处理数字，但是它们会压抑感觉吗？

博客和社交网络的出现围绕个人意见产生了市场：意见，评级，推荐和网络上的其他表达形式。对于计算机科学家来说，这快速增长的数据量正在为诱使互联网用户的集体意识打开一个诱人的窗口。

围绕情感分析的一个新兴领域正在围绕计算世界的一个尚未探索的前沿成形：将人类情感的多变转化为硬数据。

“体现认知”的理论表明，各种心理活动都反映在身体的状态中，例如姿势，手臂运动和面部表情。一项研究调查了可以通过计算机光标的移动来评估计算机用户的概况（其性别，感觉和情感经历）的程度。

在一个实验中，参与者（N = 372）观看了三个影片剪辑，每次观看两分钟，然后对他们的感受进行评分，并执行了三次简单的感知任务，我们的程序跟踪了参与者光标的路径每20毫秒。研究了从光标路径提取的特征可以揭示参与者的概况的程度。结果表明，少数轨迹变量有助于识别参与者观看的电影，观看电影时的感受以及性别。建议光标移动为挖掘动态用户配置文件提供广泛的信息。

这不仅仅是一个有趣的编程练习。对于许多公司而言，在线舆论已经成为一种可以在市场上制造或破坏产品的虚拟货币。

但是，许多公司都难以理解现在围绕在线产品的抱怨和祝贺的含义。随着情感分析工具开始成型，它们不仅可以帮助公司提高利润，而且可以随着时间的推移改变在线信息搜索体验。

几家新的情绪分析公司正试图利用公司对在线所说内容日益增长的兴趣。

旧金山Explorer Labs产品副总裁玛格丽特·弗朗西斯（Margaret Francis）说：“社交媒体曾经是25岁顾问的一个项目。” 他说，现在，高级管理人员“已经意识到这是市场情报的极其丰富的脉络”。

由CNet创始人Halsey Minor创办的风险投资公司支持的Scout Labs最近推出了一项订阅服务，该服务使客户可以监视博客，新闻文章，在线论坛和社交媒体网站，新闻中有关产品，服务或主题的观点趋势。

5月初，出票的StubHub使用了Explorer Labs的监视工具，以识别由于雨推迟了Sox Yankees-Red游戏而导致的负面博客情绪的突然上升。

官方体育馆错误地告诉数百名球迷该游戏已被取消，而StubHub否认球迷要求退款，认为这场比赛实际上是在进行。但是在网上发现啤酒问题后，该公司向受影响的粉丝提供了折扣和信用。他目前正在重新评估自己的恶劣天气政策。

StubHub客户服务总监John Whelan说：“对我们来说，这是煤矿中的一条金丝雀。”

基于扬克斯的Jodange为在线发布者提供了一项服务，使他们可以合并来自超过45万个来源的意见数据，包括主流新闻来源，博客和Twitter。

根据前康奈尔大学计算机科学教授克莱尔·卡迪（Claire Cardie）和匹兹堡大学的扬·维比（Jan Wiebe）的研究，该服务使用了一种复杂的算法，该算法不仅可以评估特定主题的观点，还可以确定观点最为坚定的观点持有者。有影响。

乔丹格（Jodange）的早期投资者包括美国国家科学基金会（National Science Foundation），目前正在研究一种新算法，该算法可以使用情感数据来预测未来的发展，例如预测报纸社论对公司股价的影响。

同样，《金融时报》最近推出了Newssift，这是一个实验性程序，可以跟踪新闻中有关商业主题的情绪，还提供了专门的搜索引擎，该引擎可以让用户按主题，组织，地点，人物和主题。

使用Newssift，沃尔玛最近的一次搜索显示，人们对该公司经营状况的看法是积极的，比率为二比一。但是，当使用建议的术语“力量与联盟”完善搜索时，积极与消极感觉的比率就会接近一对一。

这些工具可以帮助公司查明特定问题对客户认知的影响，帮助他们以适当的营销和公共关系策略做出回应。

对于休闲网民，更简单的情感分析化身以Tweetfeel，Twendz和Twitrratr等轻量级工具的形式出现。这些站点使用户可以在特定主题上关注Twitter用户。

例如，在Tweetfeel上进行的快速搜索显示，有77％的Twitter用户喜欢电影“ Julie&Julia”。但是，对Twitrratr的相同搜索显示出几次失败。该网站对一条推文“朱莉和朱莉娅真的很可爱”给予否定评级。该消息以“我们在此之后都感到非常饥饿”结尾，并且系统使用“饥饿”一词来表示消极感觉。

尽管勘探实验室使用了更高级的算法，但Jodange和Newssift使用了高级分析来避免此类陷阱，但是这些服务都无法完美运行。弗朗西斯说：“我们的算法的准确率约为70％至80％，”他的用户可以对不准确的结果进行重新分类，因此系统可以从他们的错误中吸取教训。

然而，将人类语言的stuff琐转换为二进制值将永远是一门不完善的科学。马里兰州郊区咨询公司Plana Alta的创始人塞思·格莱姆斯（Seth Grimes）表示：“情感与传统事实大相径庭”，他指出许多文化因素和语言细微差别使转换成串的书面文字变得困难简单地支持或反对。他说：“罪人，当应用于巧克力蛋糕时，这是一个好词。”最简单的算法工作是基于简单的二进制分析（“爱”是好，“恨”是坏），通过关键字进行扫描以将语句分类为肯定还是否定。但是，这种方法无法捕捉到使人类语言栩栩如生的微妙之处：讽刺，讽刺，语和其他习语。可靠的情感分析需要分析语言学中的许多灰色阴影。

雅虎研究员博庞（Bo Pang）说：“这是一种可以用微妙的方式表达的信心。”他是第一本有关情感分析的学术著作之一，《观点挖掘与情感分析》。

为了得出陈述的真实意图，Pang开发了软件，该软件分析了几种不同的过滤器，包括极性（陈述是正面还是负面），强度（表达的情感程度是什么？）和主观性（部分或公正的形式是来源）。

例如，大量的形容词通常表示高度的主观性，而口头和名词陈述则倾向于更为中立的观点。

随着情绪分析算法变得越来越复杂，它们应该开始产生更准确的结果，这可能会指向更复杂的过滤机制。他们可能成为每天使用Web的一部分。

格赖姆斯说：“我认为，情感分析已成为搜索引擎的标准功能。”他认为，这类算法可能会开始影响一般的网络搜索目的以及在诸如电子商务，旅行预订和电影评论。

Pang设想了一个搜索引擎，该引擎将基于信任为用户详细指定结果。例如，它可能影响某些类型的查询（例如“圣安东尼奥最佳酒店”）的搜索结果顺序。

随着搜索引擎开始将越来越多的观点数据纳入其结果中，事实与观点之间的区别可能会开始模糊，以至于正如大卫·伯恩（David Byrne）所说，»所有事实都带有观点。。»

对采矿业的矛盾情绪和对情绪的操纵

在迷人的新动画电影《由内而外》中，它摄于一个11岁的女孩赖利（Riley）的脑袋，与心理学家所描述的代表六种情感中的五种的角色相遇。：喜悦，悲伤，恐惧，愤怒和厌恶。（第六种情感：惊喜，被省略了，也许是因为电影制片人像大多数商人一样讨厌惊喜。）在不暴露任何破坏者的前提下，用赖利的话来说就足够了。在这个年龄段的大多数真实女孩中，乔伊（Joy）呈现了一些从她的思想到悲伤，愤怒，恐惧以及情感圈中其他不太可爱的成员的图像。

在这部电影以及《阿凡达》和《玩具总动员》等电影中，动画师从心理学家保罗·埃克曼（Paul Ekman）绘制面部表情的细微变化的开创性工作中得到了启发和启发。有关电影中要考虑的所有动作的信息都是基于对人们的行为和情感的挖掘而得出的。但是电影制作人并不是唯一向埃克曼寻求灵感和指导的专业人士。 CIA，TSA和其他具有安全意识的组织采用面部编码活动来铲除撒谎者和恶意人员。而广告商渴望在我们甚至没有意识到做出决定之前就深入消费者的头脑，并制定我们的决定，他们在功能性磁共振成像设备的商业化以及相机对我们的小笑容，鬼脸和眼睛运动的检测中看到淘金热。他们正在尝试以微秒为单位测试广告如何使我们感觉良好，以确保将广告信息的情感障碍降到最低，并将广告所产生的欢乐或其他情感动机最大化。

公司今天做出的所有决定都是基于他们通过观察个人而填写的大型数据库，而他们提供某些类型产品的原因在于它为这些公司提供的便捷性。情感挖掘。

互联网已成为我们生活中越来越重要的一部分。互联网用户在社交媒体网络上共享信息和意见，他们可以轻松表达自己的感受，判断和个人情感。文本挖掘和信息检索技术使我们能够探索所有这些信息，并发现作者的观点，主张或主张的类型。

总而言之，在数据收集区域中进行挖掘可确定用户正在寻找的信息类型，促进大量信息，文本的使用，对特征进行分类，了解公司客户的偏好。所有这些目的都是有关方面同意的。通常，公司收集所有此类信息，以了解向客户提供哪些产品或服务，他们将如何反应以及对他们感兴趣的东西。

另一方面，由于处理所述数据的系统越来越快，信息分类已经为那些处理大量数据的人提供了很大的帮助。

参考文献：

带有Java实现的实用数据挖掘，机器学习工具和技术（2000年）。伊恩·维滕（Ian H. 社论Morgan Kaufmann Perception基于经济学和金融学中的数据挖掘和决策制定（2007年）。Ildar Batyrshin，Leonid Sheremetov，Lofti A.Zadeh。社论说明了神经相关决策和行动，神经生物学的最新观点（2010年）。B.他们会体重。

下载原始文件