Estadística I
venderá autos más caros y los que tengan clientes jóvenes, autos más baratos. Esta rela-
ción es cierta solamente en promedios, pues ocasionalmente observaremos que hay autos
caros comprados por persona jóvenes y viceversa. El problema que se nos plantea es
establecer este tipo de relación en forma de ecuación, de tal manera que basados en la
edad de un cliente (X), podamos hallar una estimación del promedio del precio del auto
comprado (Y).
El principal objetivo del análisis de regresión es estimar el valor de una variable
aleatoria (variable dependiente o variable de respuesta) conociendo el valor de una
variable asociada (variable independiente o variable de predicción). Podemos ex-
presar esta relación mediante una ecuación matemática que ligue las variables.
La técnica del análisis de regresión no es otra cosa que un procedimiento de esti-
mación o predicción. El término “regresión” lo utilizamos simplemente porque es usual
en la estadística. Fue introducido por primera vez por Sir Francis Galton en 1877, un
experto ingles en estudios de herencia, quien encontró en sus estudios que padres altos
tendían a engendrar hijos altos y que los padres bajos mostraban tendencia a tener hijos
bajos. Pero, la estatura promedio de los hijos de padres muy altos era menor que la esta-
tura promedio de los padres, en tanto que los hijos de padres muy bajos, en promedio,
eran más altos que sus padres. Galton llamó esta tendencia hacia la estatura promedio
con el nombre de regresión.
El análisis de regresión simple indica que se estima el valor de la variable inde-
pendiente a partir de una variable dependiente, en tanto que el análisis de regresión
múltiple se ocupa de la estimación del valor de la variable dependiente en base a dos o
más variable independientes.
Para encontrar la ecuación que relaciones las variables, el primer paso es recoger
datos que muestren valores correspondientes a las variables bajo estudio. El próximo
paso es marcar los puntos sobre un sistema de coordenadas rectangulares.
La construcción del diagrama de dispersión es imprescindible y debe ser la
primera acción que realice el investigador cuando tiene los datos empíricos en su
poder. Una vez construido, es sumamente conveniente observar la disposición de los
puntos contenidos en él, lo que permite decidir si un ajuste lineal es procedente o si
corresponde un ajuste de otro tipo, aunque debe aclararse que cualquiera sea la disposi-
ción de los puntos todo diagrama de dispersión admite un ajustamiento de tipo lineal. Si
bien una disposición de puntos no lineal no estaría bien representada por una función de
primer grado, esa función, se reitera, puede calcularse perfectamente sin inconvenientes.
En todo caso, la decisión de que un ajuste sea lineal o no depende del investigador del
problema, por lo que es imprescindible construir, en primer lugar, el diagrama de
dispersión.
A partir del diagrama de dispersión es posible, con frecuencia ver una curva sua-
ve que aproxima los datos, que se denomina curva de aproximación. El problema gene-
ral de hallar ecuaciones de curvas de aproximación que se ajusten a un conjunto de datos
se llama ajuste de curvas.
Algunos casos no lineales se muestran en los gráficos siguientes: