Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

No7 - Bayes

Inferencia Bayesiana, Estimación del Ruido

Fecha: 04/05/2026

Clase anterior

Problemas de optimización sobre parámetros, función de costos y término de regularización.

Caso general (frecuentista):

minθL(θ,y)+R(θ)\min_{\theta} \mathcal{L}(\theta, y)+\mathcal{R}(\theta)

Aquí, L(θ,y)\mathcal{L}(\theta, y) es la función de costo, que tiene un término empírico y otro con parámetros. R(θ)\mathcal{R}(\theta) el término de regularización. Regularizar es, en términos generales, agregar un sesgo inductivo (inductive bias) para aportar información de manera intencional y condicionar el resultado a conocimientos previos. Por ejemplo, considerando los métodos vistos, podemos pensar en resultados condicionados a obtener un vector esparso o de norma chica. El early stopping también es una forma de regularización. Todas ellas impiden el overfitting y permiten generalizar a datos nuevos.

Estadistica Bayesiana

Para el caso de Estadistica Bayesiana hay dos funciones importantes que debemos tener en cuenta:

A continuación recordemos el Teorema de Bayes, el cual nos dice:

P(θY)=P(Yθ)P(θ)P(Y)P(\theta \mid Y) = \frac{P(Y \mid \theta)P(\theta)}{P(Y)}

Como la distribución de los datos no depende de θ\theta, podemos escribir a 1P(Y)\frac{1}{\mathbb{P}(Y)} como una constante cuyo valor desconocemos. Por lo tanto, obtenemos:

P(θY)=P(Yθ)P(θ)P(\theta \mid Y) = \propto \cdot P(Y \mid \theta)P(\theta)

En este caso, queremos calcular P(θY)\mathbb{P}(\theta \mid Y), es decir, la distribución del Posteriori. No estamos interesados en la estimación puntual de θ\theta sino que nos interesa estimar una distribución.

Ubicación de \theta_{MLE} respecto de su distribución

Ubicación de θMLE\theta_{MLE} respecto de su distribución

Queremos hallar el Maximum a Posteriori, es decir

θMAP=maxθP(θY)=maxθP(Yθ)P(θ)\theta_{MAP} = \max_{\theta} P(\theta \mid Y) = \max_{\theta} P(Y \mid \theta) P(\theta)

Podemos tomar logaritmo pues es una función creciente. Por otro lado, sabiendo que el problema es de maximización, podemos reformularlo como un problema de minimización considerando la función objetivo multiplicada por 1- 1. Finalmente, obtenemos:

θMAP=minθ[log(P(Yθ))log(P(θ))]\theta_{MAP} = \min_{\theta} [ - \log(P(Y \mid \theta)) - \log(P(\theta)) ]

Observemos que podemos asociar log(P(Yθ))- \log(P(Y \mid \theta)) con la función de costo empírica LEMP(θY)\mathcal{L}_{EMP}(\theta \mid Y) y, a su vez, podemos asociar log(P(θ))- \log(P(\theta)) con el término de Regularización R(θ)R(\theta).

Bootstrap no paramétrico:

Y={Y1,...,YN}θY=\{Y_1, ..., Y_N\} \curvearrowright \theta^* Sampleando muestras con repetición, creamos “copias” de YY:

Y^1={Y11,...,YN1}θ1\hat{Y}_1=\{Y^1_1, ..., Y^1_N\} \curvearrowright \theta^*_1

.

.

.

Y^k={Y1k,...,YNk}θk\hat{Y}_k=\{Y^k_1, ..., Y^k_N\} \curvearrowright \theta^*_k

Si bootstrap se comporta bien, en ciertos casos particulares se obtiene el posterior. :::

Estimar el posterior

Hallar el valor exacto del Posterior es computacionalmente costoso, lo que nos obliga a utilizar algoritmos de simulación para reconstruir la distribución de los parámetros Hasta ahora definimos el Posterior como

P(θY)=P(Yθ)P(θ)P(Y)P(\theta \mid Y) = \frac{P(Y \mid \theta)P(\theta)}{P(Y)}

Sin embargo, en la práctica, calcular esta expresión tiene una gran dificultad:

Para calcular el denominador P(Y)P(Y), debemos integrar sobre todo el espacio de parámetos Θ\Theta

P(Y)=ΘP(Yθ)P(θ)dθP(Y)=\int_{\Theta} P(Y \mid \theta) P(\theta) d\theta

Resolver esta integral puede ser muy complicado y si el vector de parámetros θ\theta tiene muchas dimensiones, el volumen del espacio de búsqueda crece exponencialmente.

Dado que no podemos calcular P(Y)P(Y), la estrategia consiste en evadir la integral.

En lugar de buscar la función de densidad exacta, buscamos generar una secuencia de puntos:

{θ1,θ2,,θk}P(θY)\{\theta_1, \theta_2, \dots, \theta_k\} \sim \mathbb{P}(\theta \mid Y)

Pasamos de un problema de Cálculo (resolver la integral) a uno de Búsqueda (diseñar algoritmos que exploren el espacio y dediquen el tiempo de cálculo solo a las zonas de alta densidad).

A continuación veamos cuales son estos algoritmos

Algortimos

MCMC (Markov Chain Monte Carlo)

Monte Carlo es un término poco preciso que se refiere a estimar o calcular algo por sampleo. Mientras tanto, Markov Chain representa cómo se da cada paso del algoritmo.

Luego, este algoritmo avanza distintos valores de θ\theta explorando la densidad del mismo.

θ0θ1...θkθk+1\theta_0 \curvearrowright \theta_1 \curvearrowright ... \curvearrowright \theta_k \curvearrowright \theta_{k+1}

Así exploran el espacio los algoritmos MCMC

Así exploran el espacio los algoritmos MCMC

Esta cadena se corta en un kk determinado tal que el algoritmo está encaminado y se encuentra en el soporte de θ\theta.

θ={θk,θk+1,...,θk+m}  k,mN\theta = \{\theta_k, \theta_{k+1},...,\theta_{k+m}\} \; k, m\in \mathbb{N}

ΘP(θY)\Theta \thicksim \mathbb{P}(\theta|Y)

Con infinitos puntos, es posible describir la densidad.

Aproximación de Laplace

Es aproximar el posterior con una distribución conocida. Hacen falta dos cosas:

Por ejemplo, θk+1N(θk,σk2)\theta^*_{k+1} \thicksim N(\theta_k, \sigma_k^2), con ruido gaussiano que lo pereturba.

Observemos que se cancela P(Y)\mathbb{P}(Y), que es lo difícil de calcular, reduciéndose el cálculo a términos conocidos.

Si θk+1>θk\theta^*_{k+1} > \theta^*_{k}, entonces αk>1\alpha_k>1.

Método de Metropolis-Hastings (M-H)

Sampleamos UkUnif([0,1])U_k \sim Unif([0,1]) y aceptamos si UkαkU_k \leq \alpha_k.

Se corre al infinito y sacamos el principio. Los puntos garantizan que la distribución marginal de los mismos se parece al posterior.

Este método se parece mucho a la optimización por gradiente, lo cual nos dice que la estadística Bayesiana y Frecuentista se parecen mucho. Sin embargo, en el caso Bayesiano es más difícil de calcular porque el algoritmo de optimización busca explorar el espacio para ver la distribución de θ\theta.

En el modelo de Lotka–Volterra, los distintos componentes (población de presas vs. población de depredadores) pueden tener niveles de ruido diferentes. Esto significa que los σi\sigma_i no son necesariamente iguales. Si los σi\sigma_i son distintos, la log-verosimilitud nos lleva al siguiente problema de optimización para encontrar los parámetros:

minθ,σji[12σi2(YijXi(tj;θ))2+log(2πσi2)]\min_{\theta, \sigma} \sum_{j} \sum_{i} \left[ \frac{1}{2\sigma_i^2} (Y_{ij} - X_i(t_j;\theta))^2 + \log(2 \pi \sigma_i^2) \right]

Donde ii es la componente y jj el paso temporal. Definimos los pesos:

wi=12σi2w_i = \frac{1}{2\sigma_i^2}

Esto significa que, cuanto menos ruidosa es la señal, más peso le damos en la función de costo.

Sin embargo, surge un problema: los pesos wiw_i dependen de los mismos parámetros σi\sigma_i que queremos estimar. Por lo tanto, la estimación de los pesos y la de θ\theta quedan acopladas. Esto nos induce a una Estrategia de Optimización Alternada, que se traduce en el siguiente algoritmo:

Algoritmo de Optimización Alternada

  1. Paso θ\theta: Dado σ^i\hat{\sigma}_i actual, estimamos θ\theta minimizando la suma pesada.

  2. Paso σ\sigma: Dado θ^\hat{\theta} actual, estimamos los nuevos σi\sigma_i.

  3. Repetir ambos pasos hasta alcanzar la convergencia.