Logo cn.artbmxmagazine.com

使用赤道线性回归应用于人口

Anonim

摘要

在本文中,线性回归应用程序已用于获取预后方程,这将有助于我们在x季度或x年内进行近似估算,从而得出发现的居民大约数量(不包括非正式任务),方法如下:从2014年到2018年第一季度的数据是从INEC的ENEMDU中提取的。

线性回归应用程序人口就业厄瓜多尔

关键词: ENEMDU(全国就业,失业和就业不足状况调查),INEC(国家统计和普查局),线性回归。

抽象

在本文中,线性回归应用程序已用于获取预测方程,这将有助于我们在四分之一或一年的轴上进行近似估算,从而得出大约数量的找到工作的居民(不包括非正式工作),

使用2014年至2018年第一季度获得的数据,这些数据摘自INEC的ENEMDU。

关键词:国家就业,失业和就业不足调查(NSEUU),国家统计和普查局(NISC),线性回归。

介绍

线性回归是一种方法,该方法可以确定数学模型以执行某些类型的投影或近似,具体取决于因变量y与自变量x之间的关系。,当比较父母和孩子的身高时,回归项首次用于人体测量学变量的研究中,结果发现,父母的身高比平均值高的孩子往往与之相等。父母很矮的父母倾向于减少与平均身高的差距;就是说,他们“回归”到平均水平,后来对该现象的理论证明进一步加强了对该特性的经验验证。线性项用于将其与其他回归技术区分开来,后者使用基于任何数学函数的模型,该函数是二次函数,多项式,多个变量,已知函数。

图1. 2个变量之间的关系类型。

线性模型是对现实的简化解释,更加敏捷,并且从数学和统计学中获得了更多的理论支持。线性回归模型通过工业应用广泛应用于从科学领域到社会领域的各个领域,因为在许多情况下都可以找到线性行为,因此可以看到回归的不同应用线性的:在物理,化学,生产,人口研究等领域 因为这些都可以由散点图中涉及不同预设点的函数表示。

何时使用线性回归?

线性回归是呈现趋势(增加或减少)的某些类型的模式的最佳模型,也就是说,简而言之,是呈现因变量(y)和时间(因变量(x)之间的线性关系的模式。如果数据表明离散点之间存在线性关系,则必须考虑数据的离散图,这将很好地表明获得这些点的预测方程的回归方法是线性回归。 。考虑要使用的回归类型非常重要,这将取决于散点图中给出的数据的行为,因为以一种或另一种方式,如果应用了回归类型,则未指明对于一组数据,在评估近似值时的误差将增加,因此,在给定标准中测得的相关系数将表明在线性回归中使用了错误的回归类型。

在本文中,将详细描述回归分析,其中涉及因变量(y)和自变量(x),它们之间将存在关系,将用一条线表示。在本研究中,将以线的斜率格式表示的方程(预测)为线,我们将基于总体数据应用线性回归

就业人口
年(X) 2014年 2014.3 2014.6 2014.9 2015年 2015.3 2015.6 2015.9 2016年 2016.3 2016.6 2016.9 2017年 2017.3 2017.6 2017.9 2018年 2018.3
全国合计 6,664,241 6,706,314 6,643,458 6,866,776 6,921,107 7,091,116 7,098,584 7,274,221 7,140,​​636 7,412,671 7,415,099 7,637,986 7,463,579 7,728,968 7,781,560 7,842,471 7,712,177 7,802,374
城市 4,481,130 4,501,505 4,529,978 4,638,310 4,647,582 4,630,745 4,707,715 4,854,005 4,840,314 4,882,929 4,889,895 5,005,457 4,971,669 5,048,482 5,125,446 5,174,135 5,169,942 5,129,893
乡村 2,183,111 2,204,809 2,113,480 2,228,466 2,273,525 2,460,371 2,390,869 2,420,216 2,300,322 2,529,742 2,525,203 2,632,529 2,491,910 2,680,487 2,656,114 2,668,336 2,542,236 2,672,481

表格1。全国,城市和农村人口中具有就业人数的人口数据

在厄瓜多尔有就业的地方,我们从全国总数中得到了数据,该总数也似乎分为农村和城市,根据这些数据,我们将继续查找和建立预测方程,以便能够进行预测以近似于人口将

在提供的数据库中找不到的一年或某季度的某个季度内找到工作,即使用预测方程式,将找到基于xy值。

线性回归模型的应用。

为了理解此方法并将其应用于要解决的主题,他从2014年至第一年的官方调查中,以官方,全国来源,城市和农村总计的就业情况开始了相关调查,以收集有关人口数据的清晰真实的信息。在2018年第二季度,重要的是要拥有大量数据,以免更改散点图,因此,将使用确定时间段的季度数据(3个月),并且使用较大的数据库有助于做出方法的决定在使用回归分析的过程中,所有这些信息均由国家机构ENEMDU(美国就业,失业和

就业不足),INEC(国家统计局)为我们提供了真实的数据,以便通过相关计算确定要执行的先前结果,如下表及其各自的离散图所示。

利用表中显示的数据,将建立预测数学函数或方程式,以拟合所示数据并通过各表的回归描述变量之间的关系。

进行回归分析时,有3个关键点:

  • 确定图上点描述的曲线类型,然后根据图确定最适合的方程类型

数据。

  • 找到预测方程,并验证邻近数据。

图2.散点图国家T

图3.城市分散图

图4.农村分散图

在进行分析时,根据图2、3、4中已经说过的内容和观察到的内容从2014年到2018年第一季度的图表中可以看到数据的行为,图1中建立了数据可以确定线性行为。

线性回归模型:

?̂ =?+ ?? (1

在哪 它将表示如下:

?=?̅-?* ?? (F1)

?̅=因变量的平均值。

?̅=自变量的平均值

在哪 它将表示如下:

[F2)

参数值???方程(1)未知,必须从获得的样本数据中估算出来,这些系数是用已知值计算的,被称为回归器。

对于回归值,使用基于最小二乘定理的方法,该方法使用来自样本(种群)的数据来确定线的特征,该特征将使偏差平方和最小化。

????(? - ?)^?(二)

哪里;

= 第i个因变量的观测值。̂ =从数据表确定的预测方程式。

替换预测方程(1),在

(2)

?(? ?? (+ ??))^?(3)该方程式将帮助我们确定变量x和预测函数的函数误差,以便预测函数以更具代表性的方式表示总数据,该误差在逼近时,此误差无非是图形上任何一点到直线(d1,d2,d3)的距离,如图5所示。等式(3)允许我们最小化等式的成员,为此,必须针对每个回归系数计算该表达式的偏导数,即,我们必须对α和β求微分,并且每个都等于零。对于偏导数,在此过程之后,我们将获得一个可以表示为矩阵系统的方程组。如下:

??? = ?? + ???????? =?∗ ??? + ?????

图5.图形中的错误表示。

相关系数。

相关系数是一个度量,它将指示变量(x,y)数据的关联程度,该度量将指示关系或依存关系的类型,该系数也

我们可以确定

根据已经给出的尺度,我们使用的回归是正确的回归图6.如果相关关系介于(-0.5; 0.5)之间,则表明存在相关关系,不建议应用线性回归。说预测方程与散点图中的分散数据不完全匹配。

图6.相关系数的接受程度。

计算相关系数的公式。

测定系数。

El coeficiente de determinación se lo simboliza con la letra ?? y no es más que el coeficiente de correlación al cuadrado, lo que el coeficiente de determinación nos indica en la regresión lineal, es probar cierto tipo de hipótesis, este coeficiente ayudara a determinar la calidad del modelo (ecuación pronóstico), para replicar resultados, y la proporción de variación de los resultados.

Procedimiento para encontrar las ecuaciones pronostico.

Para encontrar las ecuaciones pronósticos respecto a URBANO, RURAL y el TOTAL DE POBLACION que es la sumatoria de ambos respectivamente y con el cual se va a comparar la sumatoria de las ecuaciones pronóstico de RURAL, URBANO respecto al TOTAL NACIAONAL y determinar la dispersión de los resultados que en este caso se lo podrá determinar como un error entre sus partes y el total, así tendríamos aplicando la ecuación (1), y encontrando sus subtérminos (F1), (F2), respectivamente se procederá a encontrar las ecuaciones pronóstico de cada categoría:

  • Ecuaciones pronostico (RURAL).

Reemplazando en ecuación (1), tenemos;

Tabla 2. Coeficientes de regresión e intervalos de confianza (Rural).

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%
Intercepción -255885317 28788655,9 -8,88840791 1,3785E-07 -316914541 -194856093 -316914541 -194856093
Variable X 1 128126,694 14278,7071 8,97326999 1,2129E-07 97857,1871 158396,201 97857,1871 158396,201

Ecuación pronostico (URBANO).

Reemplazando en ecuación (1).

Tenemos

Tabla 3. Coeficientes de regresión e intervalos de confianza (Urbano).

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%
Intercepción -348136220 13925907,6 -24,9991764 2,9943E-14 -377657825 -318614615 -377657825 -318614615
Variable X 1 175073,532 6907,02462 25,3471707 2,4125E-14 160431,294 189715,77 160431,294 189715,77

Ecuación pronostico (TOTAL POBLACION).

Reemplazando en ecuación (1), tenemos;

Tabla 4. Coeficientes de regresión e intervalos de confianza (Total Nacional)

Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0%
Intercepción -604021371 32580998,6 -18,5390687 3,0713E-12 -673090003 -534952739 -673090003 -534952739
Variable X 1 303200,144 16159,6477 18,7627942 2,5553E-12 268943,221 337457,066 268943,221 337457,066

Como se describió anteriormente estas ecuaciones pronósticos no representan el muestral total debido a que cada una de estas ecuaciones pronostico se ajustan en una línea recta de tal manera que la distancia entre la recta y cualquier punto se aproximadamente igual y eso se lo determina como un error, entonces para que la ecuación pronostico represente de manera mucho más exacta las proyecciones se les debe de sumar el error cometido.

Factor de correlación.

El factor de correlación de cada uno de las categorías et dada por:

URBANO.

? = 0,987776078

Tabla 5. Estadísticos de la regresión Urbano.

Coeficiente de correlación múltiple

Coeficiente de determinación R^2

R^2 ajustado

Error típico

Observaciones

0,98777608
0,97570158
0,97418293
38113,6631
18

RURAL.

? = 0,913362204

Tabla 6. Estadísticos de la regresión Rural.

Coeficiente de correlación múltiple

Coeficiente de determinación R^2

R^2 ajustado

Error típico

Observaciones

0,9133622
0,83423052
0,82386992
78791,3555
18

TOTAL NACIONAL.

? = 0,978021857

Tabla 7. Estadísticos de la regresión Total Nacional.

Coeficiente de correlación múltiple

Coeficiente de determinación R^2

R^2 ajustado

Error típico

Observaciones

0,97802186
0,95652675
0,95380968
89170,5765
18

De acuerdo a la regla de correlación el resultado obtenido en los factores de correlación calculada nos determina que existe una correlación en un intervalo entre 0,5 y 1 los que indica que existe una correlación positiva muy fuerte, lo que nos indica que la fuerza de correlación de los datos es muy buena y nos asegura que el método que se ha empleado para realiza la regresión ha sido el correcto por ende el error que se ha obtenido nos corrobora toda la información previa ya que son cifras que indican un error muy depreciable.

Errores.

Total nacional.

Σ(?? − (−604021371,2 + 303200,143(?))

McGRAW HILL.

FAIRES, R. L. (Junio 2003). ANALISIS NUMERICO.

G., S. (s.f.). INTRODUCTION TO APPLIED MATHEMATHICS. ED.

Wesllesley Cambridge press.

Sánchez, A. N. (2002). Métodos Numéricos Aplicados a la Ingeniería.

Spiegel,MR(2010)。概率和统计。

下载原始文件

使用赤道线性回归应用于人口