对数线性回归的饱和模型和层次模型在房地产评估中的应用

评估员每天面临的问题是对定性变量（非数值）的分析。因为定性变量不呈现线性行为（也不可简化为线性）；通过应用常规的多元回归技术，它们可能会生成不切实际的模型，或者根本无法收敛到任何值。

对数线性回归是一种统计方法，其目的是研究定性变量的“分类”。它实质上是定性变量和数据频率（参考）的尼泊尔对数之间的多元线性回归模型，格式为：

对数线性回归模型的饱和度和层次模型应用于房地产评估1

先前的模型对应于定性变量A，B和C的完整模型（饱和）；但是以前的模型是沉重而复杂的模型。根据简约的基本原理，必须找到一个或多个更简单的模型，它们以可接受的精确度生成结果，并且我们将它们定义为“层次模型”，从某种意义上来说，如果参数为null，则它们也将是。那些低阶术语。

SPSS统计包允许通过算法确定饱和模型和最合适的层次模型。

这样，我们得到一个模型，其响应变量是数据（参考）频率（“计数”）的尼泊尔对数，而设计变量是那些用于确定属性值的定性变量。

关键词： 回归，相关，对数线性分析，对应分析，二分，定性变量，分类变量，多元分析，列联表，层次模型，饱和模型。

理论框架：

1.1什么是对数线性回归？

与多元回归模型不同，对数线性模型可以在定性（分类）二分变量或多变量变量的情况下进行更好的分析。

在对数线性分析中，可以将其定义为一种方法，其目的是研究定性（或非数字）变量之间的关系。

回归或对数线性分析是一种统计方法，其目的是研究定性变量的“分类”。

对数线性回归本质上是定性变量与数据频率（参考）的尼泊尔对数之间的多元线性回归模型，形式为：

对数线性分析的基本用途是在形成“列联表”时确定不同选择的分类变量的贡献。

1.2什么是列联表？

它被定义为“应急表”（交叉表），是两个或多个频率分布表的组合，其排列方式使得结果表的每个单元或框代表“交叉变量”的单个组合。 ”。

以这种方式，“意外事件表”允许我们检查观察到的频率，该频率属于两个或多个变量的每个特定组合。

例如：

分析两个主要城市中人口对住房或公寓的偏好之间的关系的列联表：

	住在房子里	住在阿帕特。
卡拉卡斯	10	40	五十
瓦伦西亚	30	二十	五十
	五十	五十	100

检查这些频率，我们可以确定“意外事件表”变量之间的关系（例如，加拉加斯的人口显然更喜欢住在公寓中）。

对数线性回归为我们提供了一种更复杂的方法来分析“列联表”并确定所选变量的统计相互作用。

1.3设计变量与响应变量

在多元回归技术中，我们所说的“独立变量”和“因变量”将因变量定义为由独立变量的组合所解释的变量。

在对数线性回归中，不可能说因变量或自变量，因为这是基于一系列分类（定性）变量仅关联频率的尼泊尔对数（发生或数据计数）的问题。

因此，我们将讨论“设计变量”和“响应变量”。“ 设计变量 ”是我们选择用于构建列联表的那些分类变量（二分类或多分类），“ 响应变量 ”是数据的频率或出现次数。

1.4贴合度

对数线性回归的拟合优度基于数据的观测频率与对数线性模型生成的预期频率之间的偏差（残差）的“显着性” 。

也就是说，该模型将具有更好的功能，可将观察频率与预期频率之间的差异最小化。

特定对数线性模型的显着性（p）或“拟合优度”将通过以下方式评估：传统卡方检验（）和Pearson最大似然统计检验（）（或Pearson似然比卡方，顾名思义）用英语讲）。

通过这种方式，可以满足以下参数：

卡方（）：最大Pearson的最大似然统计量（）：最大重要性（Sig。）：最小（饱和对数线性模型

2.1饱和模型的定义

对数线性分析或回归通过线性模型分析列联表中每个像元或框的频率的尼泊尔对数（Ln）。

因此，每个单元或盒的频率的Ln可以表示为对数线性模型的形成中涉及的不同变量的贡献之和。

饱和（或完整）模型定义为包含构成模型的所有可能的主要效果以及所选变量的所有可能的组合（第二，第三或第n阶效果）的模型。

因为饱和对数线性模型可以完美地再现研究数据，因为它包含所选变量的所有可能组合；假定它是一个繁重而复杂的模型，通常不是最理想的模型。

根据简约性的基本原理，必须找到一个或多个更简单的模型，它们以可接受的精确度生成结果，我们将其定义为“层次模型”，稍后将进行分析。

2.2饱和对数线性模型的示例

假设对于一个沿海城市的度假公寓估值研究，我们想研究类别变量之间的关系：

X：海景

Y：带游泳池的建筑

Z：带有访客停车位的建筑物

饱和对数线性模型的方程式为：

哪里：

表示数据（参考）和选定变量之间的相互作用的列联表的每个像元或网格的频率

表示方程式的独立项

表示定量或类别变量X的“主效应”

表示定量或类别变量Y的“主效应”

表示定量或分类变量Z的“主效应”

表示“二阶效应”或分类变量X y Y的组合

表示“二阶效应”或分类变量XýZ的组合

表示“二阶效应”或分类变量Y y Z的组合

表示“三阶效应”或类别变量X，Y和Z的组合

2.3饱和模型的缺点

饱和模型虽然显然总是正确的，但它假设方程组的数量无法控制。例如，以前的情况是九个方程。因此，它是一个沉重且极其复杂的模型。

因此，有必要针对给定的置信度，以可接受的精度搜索一个或多个更简单的模型，这些模型考虑这些频率。

在分析四阶或然表时，确定最佳对数线性回归模型可能非常困难。这是搜索更简单的相关模型的地方。

分层对数线性模型

3.1定义

分层对数线性模型定义为不同的模型，所有子集（比饱和模型低阶的等式）都来自饱和对数线性模型，它们满足以下条件：

如果参数为null，则低阶术语也将为空。所选变量之间完全独立

如果满足这些条件，则将以可接受的精度生成更简单，更优雅的Loglinear模型。

3.2层次关系

对于具有三（3）个设计变量A，B和C的模型，可以获得大量的低阶层次模型，例如：

分层三阶模型（饱和模型）：分层二阶模型分层一阶模型或任何有效组合：

3.3获取分层最佳拟合模型

3.3.1通用方法

专用于所谓“向后淘汰”的统计软件包最多使用的最佳分层模型搜索方法。

该方法结合了k（th）阶和卡方检验的使用，以找到一个层次模型或几个重要的层次模型

我们首先计算饱和模型，然后分析层次模型或高阶层次模型，消除不重要的那个阶或多个模型（）。在相同变量中消除低阶层次模型，然后分析层次模型。该过程一直进行到无法在不牺牲模型的预测能力的情况下消除更多影响的程度，保持不变或趋于减少或增加。

3.3.2使用SPSS确定对数线性回归模型

本专着的目的根本不是关于对数线性回归技术的文章。

相反，在使用非数字或定性变量的情况下，它是一种新颖的统计工具在解决与估值有关的问题上的应用。

因此，一旦以非常示意性的方式展示了对数线性模型的统计数学理论（饱和和分层），我们将使用SPSS 10.0统计软件包进行实际案例的研究。

通过对数线性模块， SPSS统计软件包可以确定饱和统计模型和分层统计模型。

在“分层模型”中，SPSS允许自动选择分层最佳拟合模型，或者允许用户选择或建模变量的任何子集。

根据SPSS的算法，此专着的开发基于最佳拟合的层次模型的自动确定。

SPSS使用前面提到的称为“向后消除”的方法来确定最佳拟合的对数线性模型。

应当注意，“后端”算法很长，在打印结果时占用大约十五（15）页的文本。

基本上，计算过程可以概括为以下一般步骤：

正确地输入在SPSS的计算程序中被发现在SPSS软件包的“数据编辑器”，以相关联的数据分析菜单。在分析菜单存在对数线性子程序或模块。在该对数线性模块，找到三（3）个子菜单：
1. 常规… Logit…

模型选择 …一旦在屏幕上找到了模型选择逻辑分析，请继续：
1. 选择要关联的“设计变量”，定义构成每个“设计变量”的数据的最小和最大范围。
定义模型的计算和输出选项E使用确定按钮开始分析。

一旦SPSS完成计算，它将以文本形式在SPSS Viewer屏幕上显示模型的输出，从那里用户可以将其打印在纸上或将输出“导出”到文本文件以用于文字处理器或电子表格。

3.4 SPSS输出的解释

评估工程师可能面临的最大问题是SPSS输出的解释。

首先，由于统计包会生成大量信息，因此您必须具有一些基本知识，您必须知道如何识别和评估这些信息。其次，必须清楚的是，SPSS软件包将生成不同级别的“应急表”，并且必须具有重新组装它们的基础知识，以便能够解释模型的结果。

SPSS专用统计软件包提供了一个标准输出，该输出通常包括：

饱和对数线性模型的生成控制对数线性模型的统计信息
1. 自由度（F.）卡方（）Pearson最大似然统计（）重要度（概率）其他控制统计
用于计算对数线性对数最佳拟合模型的反淘汰程序，其中该软件：
1. 饱和对数线性模型的一部分分析了从最高顺序到最低顺序的所有可能的层次模型。对于每个“层次模型”，指示其对应的控制统计数据，最后建议“最佳拟合层次模型”具有以下特征：
  1. “ Pearson最大可能性统计”（）：最大值“显着性”（）：最小值

产生：
1. 最佳拟合的分层对数线性模型分层对数线性模型控制统计
  1. 自由度（DF）皮尔逊的最大似然统计（）

重要性（概率）

4.0适用于房地产评估的饱和模型和层次模型的对数线性回归。

4.1对数线性回归在房地产评估中的应用

评估员每天面临的一个问题是对定性或分类变量（非数字）的分析，例如公寓景观，邻里质量，公共区域的设施，安全性；“无形特征”无疑有助于财产价值的形成或破坏。

因为定性或分类变量不呈现线性行为（也不可简化为线性）；通过应用传统的多元回归技术，包括神经网络技术；它们可能会产生不一致的结果，或者根本无法收敛到任何值。

4.2按列联表评估

因为对数线性分析的最终目标是确定“列联表”的构象。财产的估价将基于其特征在“已生成的应急表”中的位置。

因此，这里将介绍传统评估方法的另一种评估方法。

到目前为止，为了确定其价值，已经分析了该物业的物理特征（面积，年龄，位置等）。

在这种新方法中，属性的“值范围”将取决于其在“对数线性分析”生成的“列联表”中的位置。因为变量“价格”（或单价）现在只是一个“设计变量”。

在这种新的视角下，直到现在为止具有变量“价格”（或单价）的“类别”已被减少，并且已被减少为不同参数的另一个组成部分，这些参数共同可以定义商品的位置。列联表中的属性，因此确定其“值范围”。

4.3应用实例

由于该方法的新颖性和数据输入/输出解释的复杂性。在非常简单的评估模型的方法下，将逐步解释该方法。

4.3.1问题描述

它涉及委内瑞拉Barlovento（米兰达州里奥奇科附近）的几个类似开发项目中的度假公寓的估值，例如Los Canales，Las Mercedes，Lagunamar等。

因为这是一个简单的应用示例，所以仅从非常相似的公寓中选择了18个参考数据的一小部分样本。

4.3.2选择的分类变量

因为此示例说明了Logistic回归的证明，所以将仅使用以下分类变量或定性变量：

4.3.3选定的参照

所有参考资料均取自里奥·奇科（RíoChico）公共登记处的二级办公室，对应于在2003年第一季度公证的文件。

4.3.4数据编码

根据第4.3.2节中针对所选设计变量使用的标准，将准备一个编码数据矩阵，以便能够将其输入SPSS统计数据包中。

4.3.4.1设计变量的选择

4.3.4.1设计变量的编码

4.3.5 SPSS统计软件包输出的摘录

4.3.5.1对数线性模型的规范

* * * * * * * * HIERARCHICALLOGLINEAR * * * * * * * * *

数据信息

受理了18例未加权案例。

0个案例因为超出范围的因子值而被拒绝。

0例因缺少数据而被拒绝。

分析中将使用18个加权案例。

因素信息

因子水平标签

价格4

市场2

泳池2

视图2

--------------------------------------------

4.3.5.2饱和对数线性模型控制统计量

* * * * * * * * HIERARCHICALLOGLINEAR * * * * * * * * *

DESIGN 1具有生成类

价格*市场*游泳池*查看

注意：对于饱和模型，已将.500添加到所有观察到的像元中。

可以使用CRITERIA = DELTA子命令来更改此值。

迭代比例拟合算法在迭代1处收敛。

观察到的和拟合的边际总计之间的最大差值为.000

收敛标准为.250

--------------------------------------------

拟合优度检验统计

似然比卡方=.00000 DF = 0 P = 1.000

皮尔逊（Pearson）卡方=.00000 DF = 0 P = 1.000

4.3.5.3向后消除方法：所有可能的三阶，二阶和一阶效应的列表

* * * * * * * * HIERARCHICALLOGLINEAR * * * * * * * * *

PARTIAL关联的测试。

效果名称DF部分Chisq概率迭代器

价格*市场*游泳池3.044.9976 3

价格*市场*视图3.189.9794 2

价格*游泳池*查看3.000 1.0000 4

市场*游泳池*查看1.000 1.0000 3

价格*市场3 7.869.0488 4

价格* POOL 3 5.039.1690 3

市场*池1.629.4276 4

价格*查看3 5.917.1157 4

市场*视图1.777.3779 4

游泳池*查看1 7.530.0061 2

价格3 8.089.0442 2

市场1.223.6370 2

池1.896.3438 2

查看1.896.3438 2

--------------------------------------------

4.3.5.3向后消除方法：分层最佳拟合模型的选择

步骤9

最好的模型具有生成类

价格*市场

价格*查看

泳池*查看

似然比卡方= 6.33129 DF = 18 P =.995

* * * * * * * * HIERARCHICALLOGLINEAR * * * * * * * * *

最终模型具有生成类

价格*市场

价格*查看

泳池*查看

迭代比例拟合算法在迭代0处收敛。

观察到的和拟合的边际总计之间的最大差值为.000

收敛标准为.250

--------------------------------------------

对数线性最佳拟合模型如下：

4.3.5.4确定分层对数线性模型的观测和期望频率：

观察到的，预期的频率和残差。

因子代码OBS计数EXP计数残余Std残余

价格1

市场0

泳池0

查看0 3.0 2.5.45.28

视图1.0.0.00.00

泳池1

查看0 1.0 1.5 -.45 -.38

视图1.0.0.00.00

市场1

泳池0

查看0 1.0.6.36.46

视图1.0.0.00.00

泳池1

查看0.0.4 -.36 -.60

视图1.0.0.00.00

价格2

市场0

泳池0

查看0 2.0 1.7.30.23

视图1.0.0.00.00

泳池1

查看0 1.0 1.0.03.03

视图1 3.0 3.3 -.33 -.18

市场1

泳池0

查看0 1.0.8.15.16

视图1.0.0.00.00

泳池1

查看0.0.5 -.48 -.70

视图1 2.0 1.7.33.26

价格3

市场0

泳池0

查看0.0.0.00.00

视图1.0.0.00.00

泳池1

查看0.0.0.00.00

视图1.0.0.00.00

市场1

泳池0

查看0.0.6 -.64 -.80

视图1.0.0.00.00

泳池1

查看0 1.0.4.64 1.06

视图1.0.0.00.00

价格4

市场0

泳池0

查看0.0.0.00.00

视图1.0.0.00.00

泳池1

查看0.0.0.00.00

视图1.0.0.00.00

市场1

泳池0

查看0.0.6 -.64 -.80

视图1.0.0.00.00

泳池1

查看0 1.0.4.64 1.06

视图1 2.0 2.0.00.00

--------------------------------------------

拟合优度检验统计

似然比卡方= 6.33129 DF = 18 P =.995

皮尔逊卡方= 4.96161 DF = 18 P =.999

4.3.6绘制列联表

4.3.7以一种更容易理解的方式呈现“ Continence Table”的方法：

4.3.8应用示例：

4.3.8.1示例1：

成为具有以下特征的洛斯卡纳莱斯市区的度假公寓：

新公寓运河景楼，带游泳池

包含以下特征的所有行都位于“意外列表”中：

新= 1视图= 1池= 1

这将组成以下子游戏：

如列联表中所示，有四（4）个可能的价格范围（PRICE）确定待估价公寓的价值。但是当观察第四行时，会注意到期望频率最大。

因此，该公寓位于列联表中的该行中，其价格范围为PRICE =4。这表明该物业的价值在大于5500万玻利瓦尔的公寓范围内。

4.3.8.2示例2：

成为具有以下特征的洛斯卡纳莱斯市区的度假公寓：

带有游泳池的二手公寓运河景房

解：

包含以下特征的所有行都位于“意外列表”中：

新= 0VIEW = 1POOL = 1

这将组成以下子游戏：

如列联表中所示，有四（4）个可能的价格范围（PRICE）确定待估价公寓的价值。但是，当观察第二行时，会注意到期望频率最大。

因此，该公寓位于列联表中的该行中，其价格范围为PRICE =2。这表明该房产的价值在25到4000万玻利瓦尔之间的公寓范围内。

4.3.8.3示例编号3：

成为具有以下特征的洛斯卡纳莱斯市区的度假公寓：

不带游泳池的二手公寓运河景观建筑

解：

包含以下特征的所有行都位于“意外列表”中：

新= 0VIEW = 1POOL = 0

这将组成以下子游戏：

如列联表中所示，有四（4）个可能的价格范围（PRICE）确定待估价公寓的价值。但是，在查看列联表时，请注意，对于所有可能的数据组合，期望频率为0.0。

对于这种情况的逻辑结论是，没有足够的数据提供给模型以生成设计变量之间的任何类型的组合，尤其不能确定此类公寓的价值。

因此，无法使用当前的分层对数线性模型确定此单元的值

结论

在分类数据序列的情况下，分层对数线性回归技术比多重回归技术或神经网络更好地解释了统计现象的行为。尽管这两种方法都适用于分类数据序列，但是对于多种数据序列（混合分类和定量），人工神经网络和多元回归技术，多重Logistic回归模型却远远超过了分层对数线性模型。分层对数线性模型的使用是“大规模评估”不动产和个人财产的有力工具，因为它可以对预先建立的权变表中的资产进行分类。SPSS统计软件包在处理，操作和结果解释方面非常明确。在没有基本知识的情况下，将层次对数线性模型改编为供评估人员使用的简单分析工具是很麻烦的。

Ing。Roberto Piol Puppio

CIV 32.290 / SOITAVE 260

www.joinme.net/rpiol

电子邮件：[email protected]

003年11月2日

参考书目

BERRIDGE D.（1994年），“评估有序分类数据的回归模型的拟合优度”，第9届埃克塞特大学统计建模国际研讨会。 London.CAMERON T.和QUIGGIN J.（1994）“使用来自“二分选择”和后续“问卷调查”的或有估值数据进行估算。环境经济与管理杂志。即将发布。纽约，TABACHNICK BG和FIDELL LS（1996）。第三版，“使用多元统计”。纽约，哈珀·柯林斯（Harper Collins），GEORGE D和MALLERY P.（2000）“逐步使用Windows的Spss”。阿琳和培根。 Massachusetts.JOBSON JD（1992）“应用多元数据分析。第二卷。施普林格出版社。纽约。LOZARESC.，LOPEZ P.和BORRAS V.（1998年），“对数线性的互补性和拟订和分析类型中的对应关系分析”。巴塞罗那自治大学的论文。 55页79-93。 Barcelona.PIOL R.（1989-2002）“统计方法应用于房地产估价”。 SOITAVE。 Caracas.PIOL R.（2002）“神经网络应用于房地产评估”。 SOITAVE杂志。编号54 9月2,002页。 42-49加拉加斯各种各样的作家（1999）“使用spss中的多向列联表对独立性进行测试”。德克萨斯大学。 Austin VARIOUS AUTHORS（1995）“频率表的对数线性分析”，Statsoft，Inc.电子教科书。访问http://www.statsoft.com/textbook/stloglin.html WHITELEY，P.（1983）“列联表分析”。 N.Schofield和P.怀特里（编辑）。伦敦。Caracas.PIOL R.（2002）“神经网络应用于房地产评估”。 SOITAVE杂志。编号54 9月2,002页。 42-49加拉加斯各种各样的作家（1999）“使用spss中的多向列联表对独立性进行测试”。德克萨斯大学。 Austin VARIOUS AUTHORS（1995）“频率表的对数线性分析”，Statsoft，Inc.电子教科书。访问http://www.statsoft.com/textbook/stloglin.html WHITELEY，P.（1983）“列联表分析”。 N.Schofield和P.怀特里（编辑）。伦敦。Caracas.PIOL R.（2002）“神经网络应用于房地产评估”。 SOITAVE杂志。编号54 9月2,002页。 42-49加拉加斯各种各样的作家（1999）“在spss中使用多向列联表进行独立性测试”。德克萨斯大学。 Austin VARIOUS AUTHORS（1995）“频率表的对数线性分析”，Statsoft，Inc.电子教科书。访问http://www.statsoft.com/textbook/stloglin.html WHITELEY，P.（1983）“列联表分析”。 N.Schofield和P.怀特里（编辑）。伦敦。电子教科书。访问http://www.statsoft.com/textbook/stloglin.html WHITELEY，P.（1983）“列联表分析”。 N.Schofield和P.怀特里（编辑）。伦敦。电子教科书。访问http://www.statsoft.com/textbook/stloglin.html WHITELEY，P.（1983）“列联表分析”。 N.Schofield和P.怀特里（编辑）。伦敦。

应用于房地产评估的饱和模型和分层模型的对数回归。

贡献者：Ing。Roberto Piol [email protected]

二分变量（例如“有海景” = 1或“无海景” = 0）是定性/分类变量的示例。由于定性和二分变量“海景”不是线性的，因此在与其他自变量结合使用时，在多元线性回归模型中无论是定性还是定性（例如建筑面积，资产的使用年限等），基于这些混合变量正确估计或预测变量“单价”的可能性很小。

当使用定量（或数值）变量时，它们称为“预测或估计技术”。而当使用定性或分类变量时，人们就会说“分类技术”

类似于残差理论的概念，该理论在多元回归方法中用于识别一系列数据中包含的非典型数据。

培生的最大垂直度检验（LRT，L ²或G ²（这在不同的文献中是众所周知的），它是对两个模型之间拟合优度的统计检验。将一个相对更复杂的模型与一个更简单的模型进行比较，以查看它们对于特定数据集的比较效果是否很好。只有与分层嵌套的模型进行比较时，LRT才有效。也就是说，较复杂的模型仅应通过添加一个或多个变量来与简单模型有所不同。这样，通过添加其他变量，可以获得更大的拟合度。但是，有一点很重要，即添加其他变量不会显着提高较简单模型的拟合优度。 LRT维护在可能模型中进行选择的客观标准。 LRT首先比较以下形式的卡方：

即，基于自由度的差来评估卡方的自然对数的差。LRT大致遵循该模型。

可以引用该概念与多元回归因素分析的相似性。因子分析允许通过消除“非重要变量”来获得具有较少变量的更简单的多元线性回归模型，但同时在预定的置信度下保持可接受的结果。

“完全独立”测试表明，在分层模型中，所有变量都相互独立。这是通过将每个变量的Chi-Squares与“零假设”（“零假设”）进行比较而获得的（从表中获得了相应的自由度）。必须满足的条件：

如果上述成立，则表明独立的层次模型与饱和模型明显不同，这表明此层次模型包含获得良好相关性或拟合性所必需的一个或多个变量。

但是，SPSS允许将输出作为文本文件完整导出，从而使评估工程师可以将其摘要添加到评估报告中以支持操作。

模型选择子菜单…是可以找到用于确定层次模型的算法的子例程或模块；但是，这里自动确定了“饱和模型”，因为反淘汰方法从饱和模型的计算开始，如本文中已经解释的那样。

因为对数线性回归是一种专注于分类变量分类的方法，所以数据通常表示为整数（例如：对于二分变量，则为0和1）。

有关程序操作的详细说明和详细说明，请参阅《 SPSS使用手册》。

SPSS输出可能会有所不同，具体取决于用户确定的计算和输出选项。

对数线性模型在软件包输出中作为多级矩阵打印

对数线性模型在包装输出中作为多级矩阵打印

显然，变量“价格”或“单价”是数字或定量变量，因此必须“转换”为定性或分类变量。为此，将不再可能讲价格变量（单价），而只能讲“价格范围”变量。