PRUEBA DE BONDAD DE AJUSTE

Dadas las observaciones (X1, . . . , Xn) independientes, con distribución F,  deseamos probar la hipótesis nula H0: “F = F0”. En principio, la hipótesis alternativa será H: “F F0”, pero es posible que dentro de esta alternativa múltiple haya algunas distribuciones para las que nos interese especialmente que la prueba tenga una buena potencia.
A la hipótesis H0 se la llama hipótesis de ajuste de la distribución F0 al modelo del cual proviene la muestra. Las pruebas de H0 se llaman pruebas de ajuste.
A lo largo del Siglo XIX, los modelos aleatorios se volvieron cada vez más frecuentes y cada vez más necesarios para describir la naturaleza. Un modelo se consideraba adecuado en tanto no presentara incoherencias evidentes con los resultados de la experiencia.
Recién en 1999 surgió la primera prueba de ajuste, a partir de la cual los científicos pudieron poner a prueba sus modelos e incluso seleccionar entre varios modelos propuestos para un mismo fenómenos, cuáles con adecuados y cuáles no lo son. Esa primera prueba es la llamada prueba χ2 de Pearson.

Pearson propuso evaluar el ajuste de una función de distribución F0 a una muestra de variables i.i.d., mediante el uso de un estadístico de tipo cuadrático. Este planteamiento constituye la primera evaluación rigurosa de la calidad del ajuste a una distribución. Anteriormente a Pearson solo se intentaron comparaciones subjetivas.
Baste como ejemplo el de la utilización de la distribución normal en la teoría de errores. Dicha distribución fue introducida por Gauss en 1801 para modelar los errores en la determinación de la posición del asteroide Ceres. Años después Laplace y Poisson llegaron a ella en versiones primigenias del Teorema Central del Límite. Poisson agregaría contraejemplos con límites no gaussianos. La primera justificación de la aplicabilidad del modelo fue dada por un ingeniero alemán: G. Hagen, en 1837.
Pero hubo que esperar casi un siglo hasta que alguien (Pearson) propusiera verificar la adecuación del modelo.
En el caso de hipótesis nula compuesta, en que es necesario estimar parámetros, las distribuciones
Se analizarán dos pruebas básicas que pueden aplicarse: La prueba Chi - Cuadrado y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que en estadística se denominan pruebas de “Bondad de Ajuste” y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis:
H0: f(x,q) = f0(x,q)
H1: f(x,q) ¹ f0(x,q)
donde f0(x,q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Si se desea examinar otra distribución específica, deberá realizarse de nuevo la otra prueba suponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesis nula, el conjunto de parámetros definidos por q puede ser conocido o desconocido. En caso de que los parámetros sean desconocidos, es necesario estimarlos mediante alguno de los métodos de estimación analizados con anterioridad.
Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos o criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribución que siguen los tiempos de falla de unos componentes, podríamos pensar en una distribución exponencial, o una distribución gama o una distribución Weibull, pero en principio no consideraríamos una distribución normal. Si estamos analizando los caudales de un río en un determinado sitio, podríamos pensar en una distribución logarítmica normal, pero no en una distribución normal.
b) Histograma. La forma que tome el histograma de frecuencia es quizás la mejor indicación del tipo de distribución a considerar.


REFERENCIAS BIBLIOGRÁFICAS
  • Llinás Solano, Humberto; Estadística inferencial, Ediciones Uninorte, 2006