如何定量分析定性数据

定性数据分析

应用于市场和舆论研究或机构和市场传播研究的定性数据分析技术几十年来一直提供有关消费者，用户和消费者话语的结构，维度和含义的有价值的信息。公民或大众传播媒介的接受者，应尊重他们的社会，政治或产品购买行为，公司品牌形象或媒体消费。

在需要初步探索性定性研究的传播，市场营销或舆论问题调查中，它一直是而且是必要的阶段。在描述之前，有必要进行探索。

非结构化研究的定性阶段包括以下总体目标：

了解小组成员的自发性话语，以他们自己的思维方式和感觉，对特定产品或服务的看法来调查有关知识，产品或品牌的识别以及他们自发定位的假想和象征性轴了解与预期，要求，一般意见有关的对象的自发性话语，以及有关对象或产品的满意度和信息水平。

这些话语-个人或小组-是定性数据，以言语字符串（'string'=字符串）或语言短语的形式表示。

这些材料（“普通”）不仅可以从定性的理论框架（心理学，心理分析，社会心理，人类学，文化，语言学，符号学或修辞学等）进行分析，解释和建模，而且可以通过使用分析加以补充定性研究中的统计。

定性数据的统计分析

记录的数据-印刷，手稿或未分级-以观察期间记下的笔记，对开放式问题的自由回答，个人访谈或小组讨论的笔录，书籍，报纸文章等形式。它们可以通过定性的定量处理进行处理。

这种方法在市场研究中并不陌生。给出的针对开放性问题和内容分析的标准解释程序包括：数据减少，关键词选择，句子中各个维度的分组，详尽类别的编辑，类别编码。但是，分析却转化为数字代码的量化，代码的计数和频率分布的获取。不论类别内容的结构和重要性。

量化定性数据的传统过程是分类，编码和制表。这样，文本数据被简化为数字数据的处理和分析。代码的频率比类别的内容更有趣。

词汇计量学方法和文本统计

词汇计量或文本统计方法得到了法国数据分析学院（Analyze desDonnées）（Benzécri，JP 1973，1976）开发的统计技术的支持。

文本数据的统计分析（ADT）是指涉及对基本语言单位（通常是单词）的出现进行计数并从这些计数结果中进行某种类型的统计分析的过程。从一开始就使用文本的量化，无需事先进行编码操作。

文本统计技术的发展意味着文本的统计分析已成为一种跨学科工具，由以下各项组成：统计，话语分析，语言学，计算，调查处理，文献研究;并且它越来越多地用于社会科学的各个领域：历史，政治，经济学，社会学，心理学等。尤其是在对社会话语的分析中，对消费者，公民以及一般而言，媒体主题进行了调查。

由JeanPaúlBenzécri贡献的数据分析技术可以分析大型数据矩阵，并将因子分析应用于大型扩展数据矩阵的n（行）xp（列）列联表。并将结果显示在感知图上。

质地数据分析方法

TEXTEXAL DATA（ADT）的统计分析

字典法文件的准备

定义与数据收集和数据清理相关的过程，以正确记录文本数据。首先，语料库（语料库的组成部分：叙述，报纸文章，报告，访谈和小组的记录，对公开问题的免费答案以及社会人口统计学，社会经济，态度变量，这些变量代表或细分访谈或组，充当预测变量的变量-独立变量-标准的变量-因变量-）研究文本分析算法在收集的数据中识别的统计单位（形式，口号，句段），并识别具有统计意义的句子。词汇计量文档的准备涉及将文本分段成单元的第二步。语料库的分割涉及区分基本单位：图形形式（两个空格之间的字母序列），座右铭（所有词根相同且含义相同的所有单词，即单词家族），重复句段（两个或两个以上单词的序列在文本数据语料库中出现多次），准段（单词按特定序列出现但性别或数字有所不同）。词汇丰富度：重复段的频率。分割文本后，第三步是建立文本的词汇表。这在词典顺序表中列出，其中显示了每个单词的标识号，语料库词汇，出现频率和以字符数衡量的单位长度，并对文本数据进行了多变量分析。第四步是在词法表或词法形式和文本的自动分类（升序分类）上应用对应因子分析（AFC），结合文本分析结果和社会人口统计学和态度变量，是从答复和文本中获得的个人或群体类型，并对多元分析的结果进行可视化处理。使用知觉图定位词典词典的语料，文本判别分析。根据文本预测研究的变量对象（观点，态度，倾向，图像轮廓等）。

SPAD.T软件包中的文本统计

SPAD.T（Système便携式倾倒唐纳德文本分析程序）程序包专门用于执行文本数据的统计分析。在市场上现有的软件中，我们认为该软件包是最完整的产品，并且在文本统计分析（ADT）的应用程序中传播最为广泛。

文字数据处理的操作步骤如下：

通过在.doc或.txt格式的磁性介质（软盘或CD-ROM）上输入文本数据（使用MS Word类型的文字处理器）来执行文本数据处理。文件具有早期版本（修订版和更正）根据ADT项目总监的准确指示进行。小组讨论的“动词”记录或个人访谈的记录是“焦点小组”参与者最重要的干预内容的文字记录或个别受访者。项目组或访谈指南的准则是这样的，即可以用数字识别每个查询模式，以便在记录主要组或单个紧急情况时可以完美地识别每个模式。定性数据处理领域，a）指南准则的项目，b）话语组织的主要标准，以便更好地概念化识别对应因子分析产生的因子，并促进它们在可视化中的可视化。定位图：从SPAD-T输出（简称SPAD）中，可以找到定位图的表格和图表，数据分析是基于调查目的进行的，目的是为了产生最终报告中所有发现的信息。

文本数据的定性分析

还有其他一些程序可以简化输入，组织和分析文本数据的任务，但不使用多元统计过程进行数据挖掘（DataMining），例如SPAD-T，STATISTICA Text Miner，DB2 Text的智能Miner等。

QSR NUD * IST（非数值非结构化数据索引搜索和理论化）程序是最著名的程序之一。

QSR NUD * IST NVivo Nvivo是定性数据处理软件，包括文本，图像，声音和视频。它允许您对文本进行编码，检索，注释和搜索。它没有预定义的最小文本单位。如果需要，分析人员可以编码一个字符。接受具有不同字体类型，大小和颜色的富文本（RTF格式）。可以通过超链接相互链接主文档，并与备忘录以及数据位（图像，音频，视频文件，电子表格，数据库，图形等）通过超链接链接，以查看各个外部查看器所需的内容。。生成ASCII格式，RTF或HTML格式的报告。

备注本身就是文档，因此也可以像原始文档一样进行编辑，编码和链接。可以使用拖放技术对其进行编码。同样在快速编码栏中，可以找到最近使用的编码。它只需单击主文档中的一个单词即可创建新的代码（节点）。您可以将应用于文本的代码显示为一系列与文本一起滚动的不同颜色的方括号。它允许根据文档在节，小节和标题中的结构自动对文档进行预编码。

您可以通过拖动，为其分配属性并将它们一起对待来定义文档集。

根据各种运算符，对字符串和字符模式以及编码区域执行文本搜索。自动编码结果。

它结合了Modeler和Model Explorer，可让您创建数据与我们的想法之间关系的全彩色图形表示。甚至可以建立不同模型之间的关系模型。您可以立即从图形转到组成图形的任何对象，直到到达主文档的文本或我们自己的注释。

允许您打印ASCII或RTF文件中所有对象的报告，并将模型保存或打印为位图图像。它生成具有不同类型定量信息的表，这些表可以导出到SPSS以进行进一步的统计处理，并且可以从SPSS或其他使用表的程序中导入数据。

可以将一个节点或一组节点导出到Decision Explorer进行进一步分析。

它具有促进团队合作和联网，管理密码和访问级别的工具。

您可以生成自动执行的只读副本，以与第三方安全地共享您的数据，从而防止未经授权就修改它们。

要查看有关NUD * IST的PowerPoint演示文稿，可以访问：http://www.analisiscualitativo.com.ar/n4index.htm

例如，另一种用于分析定性文本数据的程序是ATLAS / ti文本数据的定性分析：

Atlas / ti属于用于定性研究或

定性数据分析的程序家族（在其中，我们还将找到NUD * IST等等）。近年来，它们已开始在不同学科中使用：社会学，人类学，心理学，教育学。

尽管有文献数据库-关系数据库管理系统-例如Micro ISIS或教科文组织开发的最新版本Win ISIS。

ATRLAS / ti不只是数据存储和以后易于访问。在Atlas / ti的情况下，数据的本地化和恢复不会出现问题。但是它还有一个额外的优势，那就是它提供了一系列工具来编织最多样化的数据元素之间的关系，使解释更加明确，并能够在某个时刻“调用”所有可以支持这种方法或方法的元素。哪个论点或结论。当需要写作，将结果传达给他人时，后者尤其有价值。

原始数据和它们之间创建的关系都构成知识。在这里，在调查的背景下，当将关系，关联的结构（专注于最终目标）叠加到它们的那一刻时，知识被认为是我们数据的总和。此目的可能是一项研究，以改善公司的客户服务，博士学位论文，管理必须处理复杂关系的零件和目录的类别，调查以解决犯罪问题…或我们打算加深和扩展我们所知道的任何问题。

该程序的外观类似于文字处理器。

ATLAS / ti是一种计算机工具，其目的是促进主要是大量文本数据的定性分析。

它的重点是定性分析，并不是要使分析过程自动化，而只是帮助人类解释者大大加快了文本分析和解释所涉及的许多活动。

例如，在段落或引用中对文本的分割，编码，注释或注释的书写。

所有这些活动都属于程序运行所在的文本级别。但是，它在概念层次上得到了补充，例如在元素之间建立关系以及通过图形表示来完善模型。

有关定性文本数据分析程序的入门介绍，请访问以下网站：

统计方法附录

因子分析（AF）在ADT领域中的应用主要集中在对应因子分析（AFC），这是Jean PauBenzécri（1973，1976）开发的一种统计算法。

它是一种描述性（非解释性）方法，属于多变量相互依赖方法，可通过在缩小维度的空间中表示点云来可视化数据（可以是定性的或定量的），具体取决于点之间的几何距离。

分析过程分为四个阶段：

它基于产品的一组典型特征（属性或语义项）和该通用产品的另一组品牌。商标是根据语义量表形式的特征由一组个人提交给代表的。以每个提议商标的不同语义给出的值为基础，构建输入矩阵。在评估的标记所在的行中（Object = O j），在属性或特征的列中（Criteria = C i），在单元格或方框中，出现了特征归于标记的频率（nij）。由于所获得的因素之间存在简单的关系，因此所使用的计算算法会相对于两组说明（标记和属性）进行解释。并实现了图形表示，可以通过以下方式将接近关系可视化（通过表示中的距离）：
- 列集的每个元素（标记）与列的其他元素。行集的每个元素（属性）与行的其他元素（属性）。列集的每个元素（属性）与列集合的每个元素（标记）。
执行阶乘对应分析（AFC），首先在各行（属性）之间，然后在各列（标记）之间，将这两种分析结合起来，因为如果根据行读取它们并且根据列。因此，在输入数据矩阵的行和列的分析之间存在对偶关系，因此两种情况下的最佳近似平面都相同。重心，或者最重要的是，取自线的因子的惯性与取自列的因子的重心一致。

整个过程的结果是，在所处理的两个集合（行变量和列变量）中考虑的所有属性之间获得了定位图。

因此，结果是一个包含矩阵所有元素的单一齐次集合。

可以在N.Moscoloni和C.Satriano，C中看到带有SPAD-T的ADT应用案例。（2000）

因此，作为结论，以此方式，可以在其区分的主轴上获得所考虑的打字属性和所分析品牌的综合表示。

构成产品属性的各个点在平面上的投影将使我们能够解释获得的因子轴的重要性。

AFC是最近开发的一种相互依赖的技术，它可以简化一组属性上的对象（品牌，公司，人，单词，词组，文本等）分类的维数缩减，以及与这些属性相关的对象的感知图。

研究人员一直面临着“量化定性数据”的需求，这些定性数据是在名义变量中找到的。AFC调整非度量和非线性数据。

AFC最基本的形式是使用列联表，该表是两个类别变量的交叉表。然后，它将非度量数据转换为度量级别，并执行降维和感知图。

AFC提供了无法用其他多元方法执行的非度量数据相互依赖性的多元表示。

关于软件的LINKOTECA涉及文本数据（ADT）的定性分析和统计分析

ADT软件站点（列表由阿根廷布宜诺斯艾利斯的Lic。Ana Feldman提供）：TALTAC：www.taltac.it；密码：www.synapse-fre.com；其他软件：LEXICO（法国），INTEX，主题编辑器，M。Reinert的ALCESTE，STELLA（使用文本对象理论的搜索引擎），SATIM，HYPERBASE，ETIENE：[email protected]； SPHINX西班牙行为科学方法论协会>软件，社论和杂志：SPAD主页5.5版：： SOLARI出版社，定性分析软件：英国狮身人面像开发。用于数字和文本数据的定量和定性分析程序：SphinxSurvey版本4.0：http://www.sphinxdevelopment.co.uk/Products_sphinx.htmA人类学和定性数据分析，Pablo GustavoRodríguez，主页：http：// www。定性analysis.com。ar />定性数据分析软件StatSoft，Inc.文本数据数据挖掘程序：STATISTICA文本挖掘器：IBM，Inc. DB2文本智能挖掘器：ATLAS / ti：文本数据的定性分析：QSR的定性解决方案Resercher，Inc.定性分析软件：QSR NUD * IST NVivo版本2.0（NUD * IST的最新版本）：关于QSR NUD的演示幻灯片* IST NVivo：http://www.analisiscualitativo.com.ar/n4index.htm关于QSR NUD的演示幻灯片* IST NVivo：http://www.analisiscualitativo.com.ar/n4index.htm关于QSR NUD的演示幻灯片* IST NVivo：http://www.analisiscualitativo.com.ar/n4index.htm

注意：要分享您对这些关键概念的关注并发现在特定情况下需要应用这些资源的资源，请访问：

参考书目

Lebart，Ludovic，Morineau，Alain和Bécue，Mónica（1989年）：《SystèmePortable pour l'Analyse desDonnéesTextualles》。 SPAD-T。实用手册。 CISIA，巴黎，1989年Lebart，Ludovic和Salem，André（1994年）：Statistique Textuelle。 1994年，巴黎，杜诺德（Dunod）。JADT90（1990年）：《国际新闻日报》的行为，JADT90，巴塞罗那，1990年，UPC Servei de publicacions。 Bécue，Lebart，Rajadell编JADT93（1993年）：《第二届国际女青年统计公报》的论文集，JADT93，蒙彼利埃1993年，电信，巴黎S.HJ. Anastex ed。Benzécri，Jean Paul（1988）：“哲学家传统和数据分析中的质量和数量”，Les Cahiers de l'Analyse desDonnées，十三（I）：131-152。诺拉·莫斯科洛尼（Nora Moscoloni）译，IRICE-罗萨里奥教育科学研究所，1993年，Benzécri，吉恩·保罗（Jean Paul）（1973，1976）：《多纳一世的L'Analyse desDonnées》，《 1973。第二卷：L'Analyze des Correspondances，巴黎，Dunod，2de，Éd。 1976年。Etxeberría，Juan等。给。（1995）：数据和文本分析：马德里，社论Ra-Ma，1995。 Salem，André和Bécue，Mónica（2000）：文本统计分析：社论Milenio，马德里，2000.Bécue，Mónica（1991）：文本数据分析，CISIA-，巴黎，1991Berelson，Bernard（1952）：内容分析传播研究：New cork，III，大学出版社，Hafner Publications&Co，1971年Pecheux，Michel（1969）：迈向自动话语分析：马德里，社论Gredos，1969年Bardín，Lawrence（1977）：内容分析：马德里，Akal ，1986年。阿尔伯特·肯兹（1971）：大众媒体分析。内容分析：瓦伦西亚（Valencia），费尔南多·托雷斯（Fernando Torres）编辑，1976年。胡安·曼努埃尔和古铁雷斯（Juan）（1995年）：社会科学研究的方法和定性技术：马德里，马德里编辑报，1998年。加林多·卡塞雷斯（1998年）：社会，文化与传播研究技术：墨西哥，艾迪生·韦斯利·朗曼， 1999年。索勒（Perler），佩雷（1991）：市场营销和广告的动机研究：狄迪斯·德乌斯托（Ediciones Deusto），毕尔巴鄂（Bilbao），1991年。莫斯科洛尼·诺拉（Moscoloni），诺拉（Nora）和塞翠拉诺·塞西莉亚·拉奎尔（Satriano Cecilia Raquel）（2000年）：《作为语篇分析工具的文本分析的重要性。 “在对戒毒者放弃治疗的调查中的应用”，载于《电子杂志》，2000年11月9日，智利大学社会科学学院，第1期。 24 pp。Moscoloni，Nora（2000）：《多维数据分析的特征》，论文，“多维数据分析入门会议”（2000年8月25日），UNTREF-阿根廷特雷斯·德弗雷雷罗国立大学，第1册，系列：多维数据分析，pp。 5-19。阿根廷国立罗萨里奥大学PIAD-数据分析，多维数据分析（AMD）和智能数据分析（AID）跨学科计划：