donde x(ti;θ) es la función de estado de mi sistema, que está descripta en este caso (y en los que se va a enfocar este curso) por una ecuación diferencial y un εi que representa el ruido observacional.
Para Lotka-Volterra tenemos θ∈Rp con n=2 (dimensión del estado) y p=4 (número de parámetros).
Supongamos que estamos en una dimensión (n=1) y que el ruido εi∼N(0,σ2) está caracterizado por una distribución gaussiana donde los εi son independientes entre sí y de x y están idénticamente distribuidos.
La probabilidad Gaussiana de observar yi dado xi y σ de este modelo es:
donde P(y1,...,yn)∣x(ti;θ)) es la verosimilitud y la llamaremos L(θ;y).
Este va a ser nuestro modelo probabilístico para este ejemplo, que nos dice dadas nuestras distribuciones de probabilidad, cómo los datos desde y1 hasta yn se generan aleatoriamente.
Para poder hacer inferencia entre los parámetros del problema y nuestro modelo probabilístico vamos a utilizar el principio de máxima verosimilitud
Notemos que estamos maximizando sobre la variable θ, entonces nos podemos “deshacer” del término log(2πσ) ya que no depende de esta variable, y sacarlo no va a cambiar el resultado esperado, pero nos va a proporcionar una ecuación mucho más simple:
Entonces nos queda una función de costo como una función de cuadrados mínimos pesados.
Ejemplo 4: generalización de la distribución gaussiana
Asumimos que los εi están distribuidos de forma gaussiana, pero esta vez están correlacionados entre sí, esto quiere decir, que no son independientes entre sí.
Su matriz de covarianza Σij representa el valor medio E[εi,εj]:
donde z(θ) representa el factor de normalización, que puede depender del parámetro θ, esto no nos pasaba en los ejemplos anteriores y como consecuencia, al recuperar la función de costo como veníamos haciendo, se nos va a agregar un término extra.
donde Lempıˊrica(θ,y) depende tanto de los parámetros como de los datos y R(θ) sólo depende de los parámetros.
Ejemplos: vamos a ver distintas funciones de costo que suelen aparecer cotidianamente, con y∈Rn, x∈Rn×p, θ∈Rp y los λ son hiperparámetros del problema.
1) Regresión lineal Ridge
θminFuncioˊn de Costo Empıˊrica∥y−xθ∥22+Teˊrmino de Regularizacioˊnλ∥θ∥22
El término de Regularización penaliza la norma dos del vector, y se lo llama Ridge, esto provoca que el parámetro θ no se mueva en demasía, es decir, que tienda a converger a cero, de manera tal que cuando ingresen nuevos datos en el programa la curva ajuste mejor.
2) Regresión Lineal Lasso
θminFuncioˊn de Costo Empıˊrica∥y−xθ∥22+Teˊrmino de Regularizacioˊnλ∥θ∥1
En el espacio que vamos a estar pensando es en el espacio funcional de dimensión infinita que contiene a todas las funciones que tienen hasta la segunda derivada continua.
fminFuncioˊn de Costo Empıˊricai=1∑N(yi−f(xi))2+Teˊrmino de Regularizacioˊnλ∫x0x1(f′′(x))2dx
Hasta ahora resolvimos nuestros problemas pensándolos con estadística frecuentista, y nos preguntamos cómo se relacionan estas ideas con la estadística Bayesiana (ver Clase N.º 7).
En la estadística Bayesiana vamos a tener:
Verosimilitud, la probabilidad P(y∣θ) que nos dice cómo los datos están generados en función de los parámetros θ.
P(θ) que es una distribución de probabilidad sobre θ, donde θ es aleatorio.
Utilizando la definición de la Probabilidad Condicional:
Si podemos calcular esta distribución, no solo vamos a obtener el θ que maximiza nuestro modelo, sino que también, nos va a dar una noción de la incertidumbre alrededor de ese θ.
Buscando quien maximiza la distribución Ppost(θ,y), podemos recuperar la solución encontrada con la estadística frecuentista.