Inferencia Bayesiana, Estimación del Ruido¶
Fecha: 04/05/2026
Clase anterior¶
Problemas de optimización sobre parámetros, función de costos y término de regularización.
Caso general (frecuentista):
Aquí, es la función de costo, que tiene un término empírico y otro con parámetros. el término de regularización. Regularizar es, en términos generales, agregar un sesgo inductivo (inductive bias) para aportar información de manera intencional y condicionar el resultado a conocimientos previos. Por ejemplo, considerando los métodos vistos, podemos pensar en resultados condicionados a obtener un vector esparso o de norma chica. El early stopping también es una forma de regularización. Todas ellas impiden el overfitting y permiten generalizar a datos nuevos.
Estadistica Bayesiana¶
Para el caso de Estadistica Bayesiana hay dos funciones importantes que debemos tener en cuenta:
Verosimilitud: Es lo que en estadistica frecuentista conocíamos como likelihood, es decir, la función .
Prior: es la función del parámetro, lo que en estadistica frecuentista conocíamos como el término de regularización .
A continuación recordemos el Teorema de Bayes, el cual nos dice:
Como la distribución de los datos no depende de , podemos escribir a como una constante cuyo valor desconocemos. Por lo tanto, obtenemos:
En este caso, queremos calcular , es decir, la distribución del Posteriori. No estamos interesados en la estimación puntual de sino que nos interesa estimar una distribución.
Ubicación de respecto de su distribución
Queremos hallar el Maximum a Posteriori, es decir
Podemos tomar logaritmo pues es una función creciente. Por otro lado, sabiendo que el problema es de maximización, podemos reformularlo como un problema de minimización considerando la función objetivo multiplicada por . Finalmente, obtenemos:
Observemos que podemos asociar con la función de costo empírica y, a su vez, podemos asociar con el término de Regularización .
Bootstrap no paramétrico:
Sampleando muestras con repetición, creamos “copias” de :
.
.
.
Si bootstrap se comporta bien, en ciertos casos particulares se obtiene el posterior. :::
Estimar el posterior¶
Hallar el valor exacto del Posterior es computacionalmente costoso, lo que nos obliga a utilizar algoritmos de simulación para reconstruir la distribución de los parámetros Hasta ahora definimos el Posterior como
Sin embargo, en la práctica, calcular esta expresión tiene una gran dificultad:
Para calcular el denominador , debemos integrar sobre todo el espacio de parámetos
Resolver esta integral puede ser muy complicado y si el vector de parámetros tiene muchas dimensiones, el volumen del espacio de búsqueda crece exponencialmente.
Dado que no podemos calcular , la estrategia consiste en evadir la integral.
En lugar de buscar la función de densidad exacta, buscamos generar una secuencia de puntos:
Pasamos de un problema de Cálculo (resolver la integral) a uno de Búsqueda (diseñar algoritmos que exploren el espacio y dediquen el tiempo de cálculo solo a las zonas de alta densidad).
A continuación veamos cuales son estos algoritmos
Algortimos¶
MCMC (Markov Chain Monte Carlo)
Monte Carlo es un término poco preciso que se refiere a estimar o calcular algo por sampleo. Mientras tanto, Markov Chain representa cómo se da cada paso del algoritmo.
Luego, este algoritmo avanza distintos valores de explorando la densidad del mismo.
Así exploran el espacio los algoritmos MCMC
Esta cadena se corta en un determinado tal que el algoritmo está encaminado y se encuentra en el soporte de .
Con infinitos puntos, es posible describir la densidad.
Aproximación de Laplace¶
Es aproximar el posterior con una distribución conocida. Hacen falta dos cosas:
proponer
Por ejemplo, , con ruido gaussiano que lo pereturba.
Aceptar o rechazar cada . Para esto, definimos
Observemos que se cancela , que es lo difícil de calcular, reduciéndose el cálculo a términos conocidos.
Si , entonces .
Método de Metropolis-Hastings (M-H)
Sampleamos y aceptamos si .
Se corre al infinito y sacamos el principio. Los puntos garantizan que la distribución marginal de los mismos se parece al posterior.
Este método se parece mucho a la optimización por gradiente, lo cual nos dice que la estadística Bayesiana y Frecuentista se parecen mucho. Sin embargo, en el caso Bayesiano es más difícil de calcular porque el algoritmo de optimización busca explorar el espacio para ver la distribución de .
, MCMC M-H funciona cuando . Si , se usa Hamiltonian-MCMC que usa el gradiente. :::
Estimación del Ruido¶
Tenemos el modelo
Bajo este supuesto, la estimación por máxima verosimilitud (MLE) de los parámetros del modelo equivale a resolver:
En general, también es un parámetro desconocido del modelo y debe ser estimado. Su estimador de Máxima Verosimilitud es:
Dispersión de los datos
En el modelo de Lotka–Volterra, los distintos componentes (población de presas vs. población de depredadores) pueden tener niveles de ruido diferentes. Esto significa que los no son necesariamente iguales. Si los son distintos, la log-verosimilitud nos lleva al siguiente problema de optimización para encontrar los parámetros:
Donde es la componente y el paso temporal. Definimos los pesos:
Esto significa que, cuanto menos ruidosa es la señal, más peso le damos en la función de costo.
Sin embargo, surge un problema: los pesos dependen de los mismos parámetros que queremos estimar. Por lo tanto, la estimación de los pesos y la de quedan acopladas. Esto nos induce a una Estrategia de Optimización Alternada, que se traduce en el siguiente algoritmo:
Algoritmo de Optimización Alternada
Paso : Dado actual, estimamos minimizando la suma pesada.
Paso : Dado actual, estimamos los nuevos .
Repetir ambos pasos hasta alcanzar la convergencia.