Resumen: Teoria del Ajustamiento | Introducción a la Estadística | Contador Público (UNNE) |

Estadística I

79

UNIDAD V - TEORIA DEL AJUSTAMIENTO

1. CONCEPTO Y APLICACIONES.

Cuando dos variables cualesquiera X

i

e Y

i

están relacionadas por una expresión

matemática de cualquier tipo (por ejemplo,

ii

bXaY  o

bx

i

aeY 

) se dice que entre

ellas existe una dependencia funcional. Este tipo de dependencia es tal que a determi-

nados valores de la variable X

i

le corresponden determinados y definidos valores de la

variable Y

i

.

En cambio se dice que entre dos variables X

i

e Y

i

existe una dependencia es-

tadística cuando se presupone que entre ambas hay algún tipo de relación y a determi-

nados valores de la variable X

i

le corresponden indeterminados e indefinidos valores de

la variable Y

i

. Ejemplos de dependencia estadística son los siguientes:

 la variable X

i

es el ingreso y la variable Y

i

es el ahorro, en cuyo caso, si

bien se sabe por el imperio de las leyes económicas hay una relación directa entre el

ingreso y el ahorro, dos personas con iguales ingresos no ahorrarán lo mismo.

 la variable X

i

es el precio de un bien y la variable Y

i

es la demanda: entre

ambas variables sólo existe una dependencia estadística.

 la variable X

i

es el precio de auto y la variable Y

i

es la edad del compra-

dor: se supone que entre ambas variables sólo existe una dependencia estadística.

Por consiguiente, la dependencia estadística entre dos variables presupone la exis-

tencia de una relación entre ellas. Inicialmente, esa relación se descubre fundamental-

mente por medio de mecanismos empíricos, en especial, la observación de los fenó-

menos que ligan a ambas variables.

Cuando entre dos variables no existe dependencia estadística se dice que ellas son

estadísticamente independientes. Por ejemplo, no parece que exista dependencia es-

tadística alguna entre el precio del algodón en bruto y la producción de uva para el con-

sumo, por lo que estas dos variables serían estadísticamente independientes.

A menudo se encuentra en la práctica que existe una dependencia estadística en-

tre dos o más variables. Por ejemplo, supongamos que la variable (X) define el precio

anual del arroz y la variable (Y) las hectáreas sembradas anualmente en la provincia. Si

descubrimos la relación que liga al precio del arroz con la cantidad de hectáreas sembra-

das, podremos predecir cuantas hectáreas se sembraran cuando se producen variaciones

en los precios del bien. Se trata de problemas con una distribución que tiene dos varia-

bles X e Y, se dice que la distribución es bivariada.

El problema principal en una distribución de dos variables es el de determinar la

verdadera relación entre X e Y; es decir, como se comportan una con respecto a la otra.

Esto lo hace el análisis de regresión.

El análisis de regresión calcula una ecuación que produce valores de Y para va-

lores dados de X. Por ejemplo: para la concesionaria de autos, precio del auto y edad de

los compradores. La concesionaria que venda a personas de más edad probablemente

Estadística I

80

venderá autos más caros y los que tengan clientes jóvenes, autos más baratos. Esta rela-

ción es cierta solamente en promedios, pues ocasionalmente observaremos que hay autos

caros comprados por persona jóvenes y viceversa. El problema que se nos plantea es

establecer este tipo de relación en forma de ecuación, de tal manera que basados en la

edad de un cliente (X), podamos hallar una estimación del promedio del precio del auto

comprado (Y).

El principal objetivo del análisis de regresión es estimar el valor de una variable

aleatoria (variable dependiente o variable de respuesta) conociendo el valor de una

variable asociada (variable independiente o variable de predicción). Podemos ex-

presar esta relación mediante una ecuación matemática que ligue las variables.

La técnica del análisis de regresión no es otra cosa que un procedimiento de esti-

mación o predicción. El término “regresión” lo utilizamos simplemente porque es usual

en la estadística. Fue introducido por primera vez por Sir Francis Galton en 1877, un

experto ingles en estudios de herencia, quien encontró en sus estudios que padres altos

tendían a engendrar hijos altos y que los padres bajos mostraban tendencia a tener hijos

bajos. Pero, la estatura promedio de los hijos de padres muy altos era menor que la esta-

tura promedio de los padres, en tanto que los hijos de padres muy bajos, en promedio,

eran más altos que sus padres. Galton llamó esta tendencia hacia la estatura promedio

con el nombre de regresión.

El análisis de regresión simple indica que se estima el valor de la variable inde-

pendiente a partir de una variable dependiente, en tanto que el análisis de regresión

múltiple se ocupa de la estimación del valor de la variable dependiente en base a dos o

más variable independientes.

Para encontrar la ecuación que relaciones las variables, el primer paso es recoger

datos que muestren valores correspondientes a las variables bajo estudio. El próximo

paso es marcar los puntos sobre un sistema de coordenadas rectangulares.

La construcción del diagrama de dispersión es imprescindible y debe ser la

primera acción que realice el investigador cuando tiene los datos empíricos en su

poder. Una vez construido, es sumamente conveniente observar la disposición de los

puntos contenidos en él, lo que permite decidir si un ajuste lineal es procedente o si

corresponde un ajuste de otro tipo, aunque debe aclararse que cualquiera sea la disposi-

ción de los puntos todo diagrama de dispersión admite un ajustamiento de tipo lineal. Si

bien una disposición de puntos no lineal no estaría bien representada por una función de

primer grado, esa función, se reitera, puede calcularse perfectamente sin inconvenientes.

En todo caso, la decisión de que un ajuste sea lineal o no depende del investigador del

problema, por lo que es imprescindible construir, en primer lugar, el diagrama de

dispersión.

A partir del diagrama de dispersión es posible, con frecuencia ver una curva sua-

ve que aproxima los datos, que se denomina curva de aproximación. El problema gene-

ral de hallar ecuaciones de curvas de aproximación que se ajusten a un conjunto de datos

se llama ajuste de curvas.

Algunos casos no lineales se muestran en los gráficos siguientes:

Estadística I

81

Observando ambos diagramas queda perfectamente claro que los puntos no si-

guen una disposición lineal y que, por eso mismo, un ajuste de ese tipo no sería apropia-

do. Con posterioridad se verá que existen algunas soluciones para aquellos casos de ajus-

tamiento en los cuales los diagramas de dispersión presentan una disposición no lineal.

Supongamos la existencia de dos variables X

i

e Y

i

, y se sabe o simplemente se

supone que entre ellas existe algún tipo de relación que insinúe una dependencia

estadística. Por ejemplo, se puede pensar en los siguientes casos: el empleo y la pro-

ducción; el precio de un bien y su oferta; el nivel de las tasas de interés y el de los

depósitos; la edad de los compradores y el precio de los autos comprados.

Para cada una de las variables bajo análisis se obtiene n valores empíricos, es de-

cir, n datos provenientes de la realidad, que se ordenan en una tabla que tiene el siguien-

te formato:

X

i

Y

i

X

1

Y

1

X

2

Y

2

… …

X

n

Y

n

La tabla anterior contiene, entonces, n pares de datos empíricos de la forma

(Xi;Yi).

Se representan los puntos (X

1

,Y

1

), (X

2

,Y

2

),...,(X

n

,Y

n

) que son un par de valores

observados, en un sistema de coordenadas rectangulares. El valor de la variable indepen-

diente se grafica en el eje horizontal y el valor de la variable dependiente en el eje verti-

cal.

Con ese conjunto de valores se construye un gráfico denominado diagrama de

dispersión, que muestra la disposición de n puntos en el plano.

Con el diagrama de dispersión se puede tener una idea aproximada del tipo de re-

lación existente entre las variables. La naturaleza de la relación puede adoptar muchas

formas, que van desde funciones matemáticas sencillas hasta las muy complicadas. Es

Estadística I

82

posible representar una curva que se aproxime a los datos. Tal curva se llama curva de

aproximación.

La Teoría del Ajustamiento trata sobre los procedimientos destinados a ajustar

linealmente los puntos del diagrama de dispersión, lo cual significa encontrar la

ecuación de la función de primer grado (línea recta) que mejor explique la depen-

dencia estadística existente, es decir, que mejor explique el comportamiento de los n

puntos del diagrama.

En el gráfico se ve que los datos se aproximan bien a una línea recta, que es la re-

lación más simple, y se dice que entre las variables existe una relación lineal.

Este procedimiento difiere del método de la interpolación que consiste en hallar

la función de grado (n-1) que pase exactamente por todos esos puntos, lo que resulta

una tarea tanto laboriosa como excesiva por varias razones, a saber:

 como puede apreciarse, los puntos señalados en el diagrama de dispersión son el refle-

jo de los datos empíricos registrados, y normalmente ese conjunto de datos proviene

de una muestra. Ahora bien, muestras diferentes con toda seguridad pueden dar lugar

a resultados diferentes, lo cual conlleva a que, en ese caso, los puntos de un diagrama

de dispersión no coincidirán con los de otro diagrama y, por eso mismo, resultará ne-

cesario recalcular todo el proceso de interpolación, repitiendo una tarea sumamente

laboriosa.

 asimismo, el trabajo que se propicia con el ajustamiento, es explicar el comporta-

miento de los puntos del diagrama, lo que significa encontrar una función que

muestre la tendencia general que sigue el fenómeno bajo estudio. Con la interpola-

ción, en cambio, tal como se señaló, se estaría encontrando una función que pase

por todos los puntos, un objetivo completamente alejado de las intenciones de la Te-

oría del Ajustamiento.

Por otro lado, además de describir linealmente la relación existente entre dos va-

riables, otro de los objetivos del ajustamiento es la estimación o el pronóstico, es decir

que una vez hallada la expresión de la función matemática de primer grado, ella puede

ser utilizada para estimar valores de la variable dependiente Y

i

para valores selec-

Estadística I

83

cionados de la variable independiente X

i

.

Si la concesionaria desea estudiar la relación existente entre el precio de los autos

y la edad de los compradores a fin de diseñar una campaña publicitaria, tomamos una

muestra de pares de datos, y construimos el diagrama de dispersión.

PRECIO

EDAD

Precios de automóviles según la edad del

comprador

0

10

20

30

40

50

60

70

80

90

100

110

0 10 20 30 40 50 60

Edad

Precios (en miles $)

(en miles $)

Y

i

X

i

80,620 33

62,184 26

81,424 44

96,208 56

87,924 43

89,768 41

78,752 35

63,176 30

2. TIPOS DE AJUSTAMIENTO

El diagrama de dispersión nos puede dar una idea aproximada del tipo de relación

que existe entre las variables. La naturaleza de la relación puede adoptar muchas formas,

que van desde las funciones matemáticas más sencillas hasta las muy complicadas. La

relación más simple es una línea recta o relación lineal.

El modelo lineal se pude presentar como:

Y = a

0

+ a

1

X

donde: a

0

: es la intersección con el eje X

a

1

: es la pendiente

La pendiente, a

1

, representa el cambio de Y, Y, ante un cambio unitario en X,

X; muestra el cambio de Y (positivo o negativo) para un cambio particular de X. En

tanto, a

0

, es la intersección con el eje Y, es un factor constante, representa el valor de Y

cuando X es igual a cero.

Las relaciones entre las variables pueden ser:

 Relación lineal positiva: edad de los compradores y precio de los autos

 Relación lineal negativa: precio de un modelo de auto y cantidades vendidas

 Relación curvilínea positiva: años de antigüedad del auto y costo de manteni-

Estadística I

84

miento.

 Relación curvilínea negativa: modelo del auto y precio de venta.

 Relación curvilínea en forma de U: número de errores por hora de trabajo en el

taller de la concesionaria y cantidad de horas trabajadas.

 No existe relación entre X e Y: número de errores por hora de trabajo en el ta-

ller de la concesionaria y edad de los compradores

Las ecuaciones de curvas de aproximación, son:

 Línea recta: Y = a

0

+ a

1

X

 Parábola o curva cuadrática: Y = a

0

+ a

1

X + a

2

X

2

 Curva cúbica: Y = a

0

+ a

1

X + a

2

X

2

+ a

3

X

3

 Curva de grado n: Y = a

0

+ a

1

X + a

2

X

2

+ ... + a

n

X

n

Los lados derechos de las ecuaciones anteriores se llaman polinomios de grado

uno, dos, tres y n, respectivamente.

 Hipérbola:

Xaa

Y

o

aa

Y

10

11







 Potencial : Y =  X



 Exponencial: Y = 

X

3. MÉTODOS SUBJETIVO Y OBJETIVOS PARA EL AJUSTAMIENTO

LINEAL

Ajustamiento Lineal

Métodos

Subjetivos Objetivos

Mano Alzada Semipromedios Mínimos cuadrados

Datos empíricos

Diagrama de

dispe

r

sión

Ajustamiento

Lineal

Ajustamiento

no Lin

e

al

Estadística I

85

Los métodos de ajustamiento lineal se pueden clasificar en métodos subjetivos y

métodos objetivos. Los métodos subjetivos pueden concluir en diferentes soluciones

para un mismo problema según quien sea el investigador, mientras que los objetivos

permiten encontrar la misma solución para cada caso, independientemente del investiga-

dor que la desarrolle.

El método de Ajustamiento a mano alzada es un método subjetivo. Este

método consiste en analizar la disposición de los puntos del diagrama de dispersión para,

posteriormente, trazar aquella recta que, a juicio del dibujante, cumpla con los requisitos

del ajustamiento lineal. Si bien el método es sumamente simple, su carácter de subjetivo

le quita rigurosidad por las posibles diferencias entre las rectas trazadas por diferentes

investigadores. También llamado método libre de ajuste de curvas.

Si se conoce el tipo de ecuación de ésta curva, es posible obtener el valor de las

constantes de la ecuación eligiendo tantos puntos en la curva como constantes haya en la

ecuación. Por ejemplo, si es una línea recta, son necesarios dos puntos; si es una parábo-

la, son necesarios tres puntos. El método tiene la desventaja de que diferentes observa-

dores obtendrán diferentes curvas y ecuaciones.

La ecuación de la recta es: Y = a

0

+ a

1

X, dados dos puntos cuales quiera (X

1

;

Y

1

) y (X

2

; Y

2

) de la recta, podemos obtener de la ecuación de la recta a partir de dos

puntos. Las constantes a

0

y a

1

pueden ser determinadas.

La constante a

1

es la pendiente m. La constante a

0

es el valor de Y cuando X = 0,

se llama intersección de Y. Toda recta que corta a dos de los lados de un triángulo, man-

teniéndose paralela al tercero, determina un triángulo menor semejante al primero. Los

triángulos semejantes tienen los lados proporcionales.

El triángulo PQS es semejante al PRT, por tanto:

R (X

i

;Y

i

)

Q (X

2

;Y

2

)

P(X

1

;Y

1

)

S T

Y

i

Y

2

-Y

1

Y-Y

1

X

2

-X

1

X-X

1

X

i

Estadística I

86









 

11

12

121

1

12

1

12

1

YXX

XX

YY

Y

XX

YYXX

YY

XX

YY

PS

QS

PT

RT

ii

i

ii

























1

XXmY

ii



donde

12

XX

YY

m





es la pendiente y representa el cambio de Y dividido por el cambio

de X.

Si en el caso de la concesionaria seleccionamos los puntos (26; 62,184) y (56;

96,208), podemos calcular la recta aplicando la ecuación.

PRECIO

EDAD

Precios de automóviles según la edad del

comprador

0

10

20

30

40

50

60

70

80

90

100

110

0 10 20 30 40 50 60

Edad

Precios (en miles $)

(en miles $)

Y

i

X

i

80,620 33

62,184 26

81,424 44

96,208 56

87,924 43

89,768 41

78,752 35

63,176 30

     

184,6226

30

024,30

184,6226

2656

184,62208,96

11

12











iiii

XXYXX

XX

YY

Y





184,6226.1341,11341,1184,62261341,1 

iii

XXY

697,351341,1 

ii

XY

La ecuación nos muestra que el precio de los autos comprados es de $ 35.697,

independientemente de la edad del comprador y que aumenta en $ 1.134 en función de la

edad.

4. SEMIPROMEDIOS

Para aplicar este método, se ordena, en primer lugar, el grupo de n pares de datos

(X

i

;Y

i

) en forma creciente, tomando como referencia la variable X

i

.

697,351341,1 

ii

XY

Estadística I

87

Posteriormente se divide al grupo en dos subgrupos de tamaños j, donde j = n/2

.

Esta última condición se cumple sin dificultades cuando n es par.

Si n fuera impar, existen dos procedimientos:

 en el que se desprecia el valor central y se trabaja con los restantes (n-1) datos;

y

 en el que el valor central se lo incorpora a ambos subgrupos, es decir, tanto al

subgrupo que se encuentra a su izquierda como al que se encuentra a su dere-

cha.

Como resultado de ello, se obtiene una tabla como la siguiente:

X

i

Y

i

j =

2

n











j

X

...

X

2

1

j

Y

...

Y

2

1

j =

2

n













n

k

X

...

X

1

n

k

Y

...

Y

1

Luego se obtienen los promedios para los primeros j valores de ambas variables,

haciendo:

j

Y...YY

Y;

j

X...XX

X

jj









21

1

21

1

De manera similar, se obtienen los promedios de los últimos j valores, también

para ambas variables:

j

Y...YY

Y;

j

X...XX

X

nkknkk









 1

2

1

2

Al concluir estos cálculos se dispone de cuatro promedios que permiten la repre-

sentación de dos puntos con coordenadas

);(y);(

2211

YXYX

, a partir de los cuales se

puede obtener la ecuación de la línea recta que pasa por ambos.

La ecuación de la línea recta que pasa por esos puntos se encuentra aplicando la

expresión

Y Y

X X

i i

 



























1

2 1

1

que resulta ser la ecuación de ajustamiento buscada.

Estadística I

88

En el caso de la concesionaria podemos calcular la recta aplicando la ecuación.





















311765,131

3146

180,71831,88

180,71

1

12

1











i

X

i

X

i

YXX

XX

YY

ii

iiii

XYXY 1765,17105,34180,714725,361765,1 

La ecuación nos muestra que el precio de los autos comprados es de $ 34.710,

independientemente de la edad del comprador y que aumenta en $ 1.177 en función de la

edad.

Pares no ordenados Pares ordenados

PRECIO

EDAD

PRECIO EDAD

(en miles $)

Y

i

X

i

Y

i

X

i

80,62 33

62,184 26

71,183

63,176 30

31

81,424 44

80,62 33

96,208 56

78,752 35

87,924 43 89,768 41

89,768 41

88,831

87,924 43

46

78,752 35

81,424 44

63,176 30

96,208 56

Precios de automóviles según la edad del

comprador

0

10

20

30

40

50

60

70

80

90

100

110

0 10 20 30 40 50 60

Edad

Precios (en miles $)

i

XY 1765,117105,34

1



Estadística I

89

5. MÍNIMOS CUADRADOS DE GAUSS. DEDUCCIÓN DE LOS PARÁME-

TROS. MÉTODO ABREVIADO DE CÁLCULO. CASO CON Y COMO VA-

RIABLE INDEPENDIENTE. INTERSECCIÓN DE LAS RECTAS DE AJUSTA-

MIENTO.

Este procedimiento es creación del matemático alemán Gauss quien sugirió un

criterio objetivo para determinar cuál es la mejor recta de ajustamiento. Según él, es

aquella que minimiza la sumatoria de los cuadrados de los desvíos existentes entre

los puntos empíricos del diagrama de dispersión y la propia recta de ajustamiento.

Es decir que este procedimiento consiste en encontrar una función lineal del tipo



Y a b X

i i

 

1 1

que cumpla las condiciones sugeridas por Gauss.

Según el criterio de Gauss, un desvío d

i

es la diferencia entre un punto empírico

de ordenada

Y

i

y un punto teórico de ordenada



Y

i

, es decir que d Y Y

i i i

 



. Gráficamente,

si ampliamos un sector del diagrama de dispersión y tomamos en él a un punto empírico

particular de coordenadas (X

j

;Y

j

) observaremos que el desvío d Y Y

j j j

 



Si bien el gráfico precedente es parcial porque presenta la situación referida a un

solo punto siendo que en un diagrama de dispersión hay n puntos, sirve para explicar de

una manera sencilla cómo se debe entender el desvío, y permite verificar con claridad que

cualquier desvío d

i

puede ser positivo (si el punto empírico está por encima de la recta,

como en este caso), negativo (si el punto empírico está por debajo de la recta) o nulo (si

el punto empírico coincide con la recta).

Considerando ahora todos los posibles desvíos en el diagrama de dispersión, si

los elevamos al cuadrado y los sumamos, obtendremos la siguiente expresión, a la que

llamaremos 









 



2

11

2

ˆ

iiiii

XbaYYYd



Como ya se indicó, Gauss postula que la mejor recta es aquélla que minimiza esos

desvíos al cuadrado. Si bien en el plano existen infinitas rectas, cada una con un par de

parámetros a

1

y b

1

, de todas ellas sólo una cumple con la condición impuesta por

Gauss. Se trata de encontrarla, y eso equivale a encontrar sus parámetros a

1

y b

1

. De

acuerdo con los procedimientos del Análisis Matemático, eso se consigue minimizando la

función , es decir haciendo

Estadística I

90





.

2

11

minXbaY

ii







Para eso, en primer lugar, debe calcularse la primera derivada de  con respecto

al parámetro a

1

, e igualársela a cero.





 

 







 0XbaY21XbaY2

a

XbaY

a

i11ii11i

1

i11i

1

2





Como el factor (-2) es distinto de cero, entonces debe ser





Y a b X

i i

  



1 1

0

.

Aplicando sumatoria a todo el paréntesis, quedará

Y na b X

i i



  

1 1

0

, y por pasaje

de términos se obtiene





ii

XbnaY

11

expresión ésta denominada Primera ecuación normal de Gauss.

Con idéntico criterio se deriva respecto del parámetro b

1

:





  

 





















 0XbXaXY2XXbaY2

b

XbaY

b

2

i1i1iiii11i

1

i11i

1

2





Como (-2) es distinto de cero, debe ser Y X a X b X

i i i i

  















1 1

2

0.A partir de esta

igualdad, se verifica que Y X a X b X

i i i i

  



1 1

2

0, por lo que finalmente, median-

te un pasaje de términos, se obtiene la siguiente expresión





2

11 iiii

XbXaXY

que se denomina Segunda ecuación normal de Gauss.

Ambas ecuaciones normales conforman un sistema de dos ecuaciones lineales con

dos incógnitas (a

1

y b

1

), cuya resolución puede efectuarse por medio de alguno de los

cuatro métodos existentes para este tipo de sistemas. Aplicando el Método de los De-

terminantes, las incógnitas a

1

y b

1

se calculan con las fórmulas que siguen. Se puede ver

fácilmente los cálculos se basan en exclusivamente en los datos empíricos.

 

2

i

2

i

iii

2

ii

2

ii

i

2

iii

ii

1

XXn

XYXXY

XX

Xn

XXY

XY

a

















Estadística I

91

 

2

i

2

i

iiii

2

ii

i

iii

i

1

XXn

YXXYn

XX

Xn

XYX

Yn

b

















Lo que quedaría por analizar es si el punto crítico obtenido corresponde a un

máximo o a un mínimo, para lo cual se debería obtener la segunda derivada y verificar su

signo. Sin embargo, en este caso eso no es necesario porque aquí ocurre algo similar a lo

visto en la tercera propiedad de la media aritmética. En su recorrido a través del dia-

grama de dispersión, la recta de ajustamiento se comporta como una medida de

tendencia central aunque de carácter dinámico (no de carácter estático, como sería el

caso de una media aritmética) ya que cumple con esa propiedad (equivalente a la segun-

da propiedad de la media aritmética) de que







 0

ˆ

ii

YY

, cuya verificación es sencilla:

aplicando sumatoria tenemos





0XbnaYXbaY

i11ii11i





para la primera ecuación normal de Gauss.

Si la recta de ajustamiento se comporta como una medida de posición y cumple

con todas sus propiedades, el criterio de los mínimos cuadrados de Gauss nos remite a la

tercera propiedad de la media aritmética, en la cual el único punto crítico obtenido en

el proceso del análisis debe ser mínimo, ya que el máximo no tiene límite. Efectiva-

mente: si una recta particular minimiza la suma de los desvíos al cuadrado, alejarla de los

puntos empíricos (tanto en un sentido como en el otro) produce un aumento en el valor

de los desvíos y, por consiguiente, de su suma al cuadrado, por lo que el máximo no

tiene límite y la única cota obtenida mediante este procedimiento resulta un míni-

mo.

La interpretación estadística de ambos parámetros es la siguiente:

 el parámetro “a” indica cual es la cantidad promedio de la variable Y

i

para un valor igual a cero de la variable X

i

, y

 el parámetro “b” indica cuál es la variación promedio de la variable Y

i

que corresponde a una unidad de variación para la variable X

i

.

El trabajo de cálculo se organiza construyendo una tabla con el siguiente formato:

X

i

Y

i

X

i

2

X

i

Y

i

X

1

Y

1

X

1

2

X

i

Y

i

X

2

Y

2

X

2

X

2

Y

2

… … … …

X

n

Y

n

X

n

2

X

n

Y

n



i

X



i

Y



2

i

X

ii

YX



Estadística I

92

con la cual se obtienen todos los términos involucrados en el cálculo de los parámetros.

Retomando el ejemplo de la concesionaria:

X

i

Y

i

X

i

2

X

i

Y

i

 

3932,36

072.5

508,286.184

2

308492.12.8

368,360.25.308492.12.056.640

2

1















ii

iiiii

XXn

XYXXY

a

33 80,620

1.089

2.660,460

26 62,184

676 1.616,784

44 81,424

1.936

3.582,656

56 96,208

3.136

5.387,648

43 87,924

1.849

3.780,732

41 89,768

1.681

3.680,488

 

1328,1

072.5

690,745.5

2

308492.12.8

056,640.308368,360.25.8

2

1















ii

iiii

XXn

YXXYn

b

35 78,752

1.225

2.756,320

30 63,176

900 1.895,280

308

640,056

12.492

25.360,368

La ecuación de la recta hallada es

ii

XY 1328,13932,36

ˆ

 .

Precios de automóviles según la edad del

comprador

y = 1,1328x + 36,393

0

10

20

30

40

50

60

70

80

90

100

110

0 10 20 30 40 50 60

Edad

Precios (en miles $)

Método abreviado para el cálculo de los parámetros

Este método parte del supuesto siguiente: si en las ecuaciones normales de Gauss

se consiguiera que X

i





0, las fórmulas para calcular los parámetros podrían reducirse

significativamente. Para que se anule la sumatoria de la variable X

i

, se la transforma con-

venientemente, haciendo

x X X

i i

 

, con lo cual la

x X X

i i

  















0

por la se-

gunda propiedad de la media aritmética. De esa manera, si se efectuara el desarrollo teó-

rico para encontrar las fórmulas de los parámetros con las variables x

i

e Y

i

en lugar de

con las variables X

i

e Y

i

, las ecuaciones normales que se obtendrían tendrían la siguiente

forma:

Estadística I

93

111

anxbanY

i















.

Y X a x b x b x

i i i i i

     



1 1

2

1

2

, debido precisamente a que

x

i





0

.

Se observa que en las expresiones precedentes aparece la variable x

i

en lugar de

X

i

, y que los parámetros se indican con una simbología modificada,



a

1

y



b

1

. Esto se rea-

liza por precaución, ya que la transformación de la variable X

i

en x

i

podría eventualmente

conducir a una modificación en el valor original de los parámetros y de esa manera se

prevé esa alternativa.

De ambas ecuaciones normales así construidas y mediante un simple pasaje de

términos, se obtienen las expresiones para calcular los nuevos parámetros mediante el

método abreviado:



 







a

Y

n

Y b

xY

x

i i i

i

1 1

2

La simple comparación entre éstas y las fórmulas obtenidas originalmente, permi-

te comprobar que el método abreviado, efectivamente, reduce notoriamente su tamaño y

complejidad.

Utilizando los nuevos parámetros la recta de ajustamiento puede ser escrita del

siguiente modo:

ii

xbaY

11

ˆ









. Sin embargo, si bien el método abreviado intenta calcular

los parámetros mediante fórmulas más breves, al concluir el cálculo no se obtienen

a

1

y

b

1

, los verdaderos parámetros. Para llegar a esos valores se parte de considerar que exis-

ten dos expresiones posibles para la recta de ajustamiento, es decir, por un lado,



Y a b X

i i

 

1 1

y por el otro,



Y a b x

i i









1 1

. Como además, se sabe que x X X

i i

  , en la

segunda de esas expresiones se reemplaza x

i

, quedando



Y a b X X a b X b X a b X b X

i

i i









 















































1 1 1 1 1

1 1

1

.

Pero recordando que



Y a b X

i i

 

1 1

, se comparan ambas expresiones, y claramen-

te se concluye que

11

bb



 y

a a b X Y b X

1 1 1 1

   

con lo cual se obtienen los verdaderos parámetros

a

1

y

b

1

a partir de los calculados



a

1

y



b

1

.

La base del método abreviado consiste en transformar la variable X

i

en una

variable centrada x

i

. Ahora bien, desde el punto de vista gráfico, como construir una

variable centrada significa restar

X

a todos los valores de la variable X

i

, esa construcción

implica correr todos los puntos empíricos

X

unidades hacia la izquierda o, lo que es lo

mismo, correr el eje de las ordenadas

X

hacia la derecha.

Este documento contiene más páginas...

Estamos procesando este archivo...

Lamentablemente la previsualización de este archivo no está disponible. De todas maneras puedes descargarlo y ver si te es útil.

Este documento contiene más páginas...

Estamos procesando este archivo... Lamentablemente la previsualización de este archivo no está disponible. De todas maneras puedes descargarlo y ver si te es útil.

Estamos procesando este archivo...

Lamentablemente la previsualización de este archivo no está disponible. De todas maneras puedes descargarlo y ver si te es útil.