Análisis de regresión
Sabías ...
Esta selección Escuelas fue originalmente elegido por SOS para las escuelas en el mundo en desarrollo que no tienen acceso a Internet. Está disponible como una descarga intranet. Todos los niños disponibles para el apadrinamiento de niños de Aldeas Infantiles SOS son atendidos en una casa de familia por la caridad. Leer más ...
El análisis de regresión es una técnica utilizada para el modelado y análisis de datos numéricos que consta de valores de una variable dependiente (variable respuesta) y de uno o más variables independientes (variables explicativas). La variable dependiente en la ecuación de regresión se modela como una función de las variables independientes, que corresponden parámetros ("constantes"), y un término de error. El término de error se trata como una variable aleatoria . Representa la variación no explicada de la variable dependiente. Los parámetros se estiman con el fin de dar un "mejor ajuste" de los datos. Más comúnmente el mejor ajuste se evalúa usando el de mínimos cuadrados método, pero también se han utilizado otros criterios.
El modelado de datos se puede utilizar sin que exista ningún conocimiento acerca de los procesos subyacentes que han generado los datos; en este caso el modelo es un modelo empírico. Por otra parte, en el modelado del conocimiento de la distribución de probabilidad de los errores no se requiere. El análisis de regresión requiere supuestos que se hagan en relación con la distribución de probabilidad de los errores. Las pruebas estadísticas se realizan sobre la base de estos supuestos. En el análisis de regresión, el término "modelo" abarca tanto la función que se utiliza para modelar los datos y los supuestos relativos a las distribuciones de probabilidad.
La regresión puede ser utilizado para predicción (incluyendo la previsión de datos de series de tiempo), inferencia, pruebas de hipótesis, y la modelización de relaciones causales. Estos usos de regresión dependen en gran medida de los supuestos subyacentes estar satisfecho. El análisis de regresión ha sido criticado por ser utilizadas indebidamente para esos fines en muchos casos en que los supuestos adecuados no pueden ser verificadas de sostener. Un factor que contribuye al mal uso de la regresión es que puede tardar mucho más habilidad para criticar un modelo que para ajustar un modelo.
Historia del análisis de regresión
La primera forma de regresión fue el método de los mínimos cuadrados , que fue publicado por Legendre en 1805, y por Gauss en 1809. El término "mínimos cuadrados" es de término de Legendre, moindres carrés. Sin embargo, Gauss afirmó que había conocido el método desde 1795.
Legendre y Gauss tanto aplicaron el método para el problema de determinar, a partir de observaciones astronómicas, las órbitas de los cuerpos sobre el sol. Euler habían trabajado en el mismo problema (1748) sin éxito. Gauss publicó un desarrollo adicional de la teoría de los mínimos cuadrados en 1821, incluyendo una versión de la Teorema de Gauss-Markov.
El término "regresión" fue acuñado en el siglo XIX para describir un fenómeno biológico, es decir, que la progenie de individuos excepcionales tienden en promedio a ser menos excepcional que sus padres y más como sus antepasados más lejanos. Francis Galton, primo de Charles Darwin , estudió este fenómeno y se aplica el término un poco engañoso " regresión hacia la mediocridad "a ella. Para Galton, la regresión sólo tenía este significado biológico, pero su trabajo se extendió más tarde por Udny Yule y Karl Pearson a un contexto estadístico más general. Hoy en día el término "regresión" es a menudo sinónimo de "mínimos cuadrados ajuste de curvas ".
Presunciones subyacentes
- La muestra debe ser representativa de la población para la predicción de inferencia.
- La variable dependiente está sujeta a error. Se supone que este error sea una variable aleatoria , con una media de cero. El error sistemático puede estar presente pero su tratamiento está fuera del alcance del análisis de regresión.
- La variable independiente está libre de errores. Si esto no es así, el modelado debe hacerse utilizando Los errores en las variables técnicas de modelo.
- Los predictores deben estar linealmente independientes, es decir, no debe ser posible expresar cualquier predictor como una combinación lineal de los otros. Ver Multicollinear.
- Los errores son correlacionadas, es decir, el matriz de varianza-covarianza de los errores es diagonal y cada elemento distinto de cero es la varianza del error.
- La varianza del error es constante ( homocedasticidad). Si no, se deben utilizar pesos.
- Los errores siguen una distribución normal . Si no, el modelo lineal generalizado se debe utilizar.
Regresión lineal
En la regresión lineal, la especificación del modelo es que la variable dependiente, es un combinación lineal de los parámetros (pero no necesita ser lineal en las variables independientes). Por ejemplo, en la regresión lineal simple no es una variable independiente, , Y dos parámetros, y :
- línea recta:
En la regresión lineal múltiple, hay varias variables o funciones de variables independientes independientes. Por ejemplo, la adición de un término en x i 2 a la regresión anterior da:
- parábola:
Esto sigue siendo regresión lineal ya que aunque la expresión en el lado derecho es cuadrática en la variable independiente , Que es lineal en los parámetros , y
En ambos casos, es un término de error y el subíndice índices de una observación particular. Dada una muestra aleatoria de la población, se estiman los parámetros de la población y obtener el modelo de regresión lineal de la muestra: El término es el residual, . Uno de los métodos de estimación es Ordinary Least Squares []. Este método obtiene estimaciones de los parámetros que minimizan la suma de cuadrado residuos, la ESS:
Reducción al mínimo de esta función da como resultado un conjunto de ecuaciones normales, un conjunto de ecuaciones lineales simultáneas en los parámetros, que se resuelven para producir los estimadores de los parámetros, . Ver coeficientes de regresión para propiedades estadísticas de estos estimadores.
En el caso de regresión simple, las fórmulas para las estimaciones de mínimos cuadrados son
- y
donde es la media (promedio) de la y valores es la media de la valores. Ver mínimos cuadrados lineales (en línea recta ajustada) para una derivación de estas fórmulas y un ejemplo numérico. Bajo el supuesto de que el término de error población tiene una varianza constante, la estimación de la varianza que está dada por: Esto se llama el error cuadrático medio (RMSE) de la regresión. La los errores estándar de las estimaciones de los parámetros vienen dados por
Bajo el supuesto además que el término de error de la población tiene una distribución normal, el investigador puede utilizar estos errores estándar estimados para crear intervalos de confianza y llevar a cabo pruebas de hipótesis sobre los parámetros de la población.
Modelo de datos lineal general
En el modelo de regresión múltiple más general, hay p variables independientes: Las estimaciones de mínimos cuadrados de los parámetros se obtienen por P ecuaciones normales. El residual se puede escribir como
La ecuaciones normales son
En notación matricial, las ecuaciones normales se escriben como
Para ver un ejemplo numérico de regresión lineal (ejemplo)
Diagnósticos de regresión
Una vez que un modelo de regresión se ha construido, es importante para confirmar la bondad de ajuste del modelo y la significación estadística de los parámetros estimados. Cheques de uso común de bondad de ajuste incluyen la R cuadrado, análisis del patrón de residuos y pruebas de hipótesis. La significación estadística se comprueba por una F-prueba del ajuste global, seguido de pruebas t de parámetros individuales.
Las interpretaciones de estas pruebas de diagnóstico descansan en gran medida de los supuestos del modelo. Aunque el examen de los residuos se puede utilizar para invalidar un modelo, los resultados de una prueba t o F-test no tienen sentido a menos que los supuestos del modelo son satisfechas.
- El término de error puede no tener una distribución normal. Ver modelo lineal generalizado.
- La variable de respuesta puede ser no continua. Para binario (cero o uno) las variables, hay la probit y modelo logit. La modelo probit multivariante permite estimar conjuntamente la relación entre varias variables dependientes binarias y algunas variables independientes. Para las variables categóricas con más de dos valores no es el logit multinomial. Para variables ordinales con más de dos valores, hay la logit ordenado y modelos probit ordenados. Una alternativa a este tipo de procedimientos es la regresión lineal basado en correlaciones policóricas o polyserial entre las variables categóricas. Tales procedimientos se diferencian en las suposiciones hechas acerca de la distribución de las variables en la población. Si la variable es positivo con valores bajos y representa la repetición de la ocurrencia de un evento, contar modelos como el Regresión de Poisson o la modelo binomial negativo se puede utilizar
Interpolación y extrapolación
Los modelos de regresión predecir un valor de la valores conocidos dadas variables de la variables. Si la predicción se debe hacer dentro de la gama de valores de la variables utilizadas para construir el modelo Esto se conoce como la interpolación . Predicción fuera del rango de los datos utilizados para construir el modelo es conocido como extrapolación y es más arriesgado.
Regresión no lineal
Cuando la función de modelo no es lineal en los parámetros de la suma de cuadrados debe ser minimizado mediante un procedimiento iterativo. Esto introduce muchas complicaciones que se resumen en Diferencias entre lineal y mínimos cuadrados no lineales
Otros métodos
Aunque los parámetros de un modelo de regresión se estiman por lo general usando el método de los mínimos cuadrados, otros métodos que se han usado incluyen:
- Los métodos bayesianos
- Minimización de desviaciones absolutas, que conducen a regresión cuantil
- Regresión no paramétrica. Este enfoque requiere un gran número de observaciones, ya que los datos se utilizan para construir el modelo de estructura, así como estimar los parámetros del modelo. Por lo general son computacionalmente intensivas.
Software
Todos los principales paquetes de software estadístico realizan los tipos comunes de análisis de regresión correctamente y de una manera fácil de usar. La regresión lineal simple se puede realizar en algunos aplicaciones de hojas de cálculo. Hay una serie de programas de software que realizan formas especializadas de regresión, y los expertos pueden optar por escribir su propio código para utilizar lenguajes de programación estadísticos o software de análisis numérico.