Skip to article frontmatterSkip to article content
Site not loading correctly?

This may be due to an incorrect BASE_URL configuration. See the MyST Documentation for reference.

No6 - Función de costo

Funciones de costo, modelo observacional, y más optimización

Fecha: 27/04/2026

En esta clase nos vamos a centrar en responder:

Origen de la función de costo L\mathcal{L}

La función de costo se deriva del modelo observacional que conecta la ecuación de estado de mi problema con los datos.

Ejemplo 1: distribución Gaussiana

En nuestro ejemplo característico de Lotka-Volterra (Depredador-Presa ver Clase N.º 2) tenemos:

L(θ,y)=i=1Nx(ti;θ)yi22,\mathcal{L}(\theta,y) = \sum_{i=1}^{N} \left\| x(t_i; \theta) - y_i \right\|_{2}^{2} ,

yi=x(ti;θ)+εi,y_i = x(t_i; \theta) + \varepsilon_i ,

dxdt=f(x,t,θ),\frac{dx}{dt} = f(x, t, \theta) ,

donde x(ti;θ)x(t_i; \theta) es la función de estado de mi sistema, que está descripta en este caso (y en los que se va a enfocar este curso) por una ecuación diferencial y un εi\varepsilon_i que representa el ruido observacional.

Para Lotka-Volterra tenemos θRp\theta \in \mathbb{R}^{p} con n=2n = 2 (dimensión del estado) y p=4p = 4 (número de parámetros).

Supongamos que estamos en una dimensión (n=1n=1) y que el ruido εiN(0,σ2)\varepsilon_i \sim \mathcal{N}(0,\sigma^{2}) está caracterizado por una distribución gaussiana donde los εi\varepsilon_i son independientes entre sí y de xx y están idénticamente distribuidos.

La probabilidad Gaussiana de observar yiy_i dado xix_i y σ\sigma de este modelo es:

P(yixi,σ)=12πσe(yixi)22σ2P(y_i|x_i,\sigma) = \frac{1}{\sqrt{2\pi}\sigma} \,e^{-\frac{(y_i-x_i)^{2}}{2\sigma^{2}}}

y como las variables son independientes, la probabilidad de observar todos los puntos es:

P(y1,...,yn)x(ti;θ))=i=1nP(yixi,σ),P(y_1,...,y_n)|x(t_i;\theta)) = \prod_{i=1}^{n}P(y_i|x_i,\sigma),

donde P(y1,...,yn)x(ti;θ))P(y_1,...,y_n)|x(t_i;\theta)) es la verosimilitud y la llamaremos L(θ;y)L(\theta;y).

Este va a ser nuestro modelo probabilístico para este ejemplo, que nos dice dadas nuestras distribuciones de probabilidad, cómo los datos desde y1y_1 hasta yny_n se generan aleatoriamente.

Para poder hacer inferencia entre los parámetros del problema y nuestro modelo probabilístico vamos a utilizar el principio de máxima verosimilitud

(θ;yi)=i=1N((yixi)22σ2+log(2πσ)),\ell(\theta;y_i) = -\sum_{i=1}^{N} \left( \frac{(y_i-x_i)^{2}}{2\sigma^{2}} + \log(\sqrt{2\pi}\,\sigma) \right),

aplicamos el principio de máxima verosimilitud:

θ^MLE=argmaxθ[i=1N((yixi)22σ2+log(2πσ))]\hat{\theta}_{MLE} = \arg\max_{\theta} \left[ -\sum_{i=1}^{N} \left( \frac{(y_i-x_i)^{2}}{2\sigma^{2}} + \log(\sqrt{2\pi}\,\sigma) \right) \right]

Notemos que estamos maximizando sobre la variable θ\theta, entonces nos podemos “deshacer” del término log(2πσ)\log(\sqrt{2\pi}\,\sigma) ya que no depende de esta variable, y sacarlo no va a cambiar el resultado esperado, pero nos va a proporcionar una ecuación mucho más simple:

θ^MLE=argminθ[12σ2i=1N(yixi)2]=argminθ[i=1N(yixi)2]\hat{\theta}_{MLE} = \arg\min_{\theta} \left[ \frac{1}{2\sigma^2} \sum_{i=1}^{N} (y_i-x_i)^{2} \right] = \arg\min_{\theta} \left[ \sum_{i=1}^{N} (y_i-x_i)^{2} \right]

En conclusión, para este problema, el estimador de máxima verosimilitud es el que minimiza los residuos cuadráticos.

Ejemplo 2: distribución Laplaciana

Asumimos εi\varepsilon_i con una distribución de Laplace

εiLap(0,b)\varepsilon_i \sim \text{Lap}(0,b)

Cuya probabilidad es:

P(εib)=12beεi2bcon b>0P(\varepsilon_i|b) = \frac{1}{2b}\, e^{-\frac{|\varepsilon_i|}{2b}} \quad \text{con } b>0

Como en el ejemplo anterior, vamos a maximizar la variable θ\theta para encontrar la función de costo.

θ^MLE=argmaxθ[12bi=1Nyixi]=argminθ[i=1Nyixi]\hat{\theta}_{MLE} = \arg\max_{\theta} \left[ -\frac{1}{2b} \sum_{i=1}^{N} |y_i-x_i| \right] = \arg\min_{\theta} \left[ \sum_{i=1}^{N} |y_i-x_i| \right]

Luego la función de costo es:

L(θ,y)=i=1Nyixi\mathcal{L}(\theta,y) = \sum_{i=1}^{N} |y_i-x_i|

Hasta ahora vinimos haciendo máxima verosimilitud sólo sobre los parámetros θ\theta, en el siguiente ejemplo veremos qué pasa si σ\sigma también es un parámetro.

Ejemplo 3: distribución gaussiana con σicte\sigma_i \neq \text{cte}

Para una distribución gaussiana cuyo σi\sigma_i ahora no es constante, tenemos:

L(θ;y)=i=1Nωi(yixi)2\mathcal{L}(\theta;y) = \sum_{i=1}^{N} \omega_i (y_i-x_i)^{2}

Entonces nos queda una función de costo como una función de cuadrados mínimos pesados.

Ejemplo 4: generalización de la distribución gaussiana

Asumimos que los εi\varepsilon_i están distribuidos de forma gaussiana, pero esta vez están correlacionados entre sí, esto quiere decir, que no son independientes entre sí.

Su matriz de covarianza Σij\Sigma_{ij} representa el valor medio E[εi,εj]\mathbb{E} [\varepsilon_i,\varepsilon_j]:

ε=[ε1εN]N(0ˉ,Σ)\boldsymbol{\varepsilon} = \begin{bmatrix} \varepsilon_1 \\ \vdots \\ \varepsilon_N \end{bmatrix} \sim \mathcal{N}(\bar{0},\Sigma)

Cuya probabilidad es:

P(εΣ)=1(2π)N/2det(Σ)1/2e12εTΣ1εP(\boldsymbol{\varepsilon}|\Sigma) = \frac{1}{(2\pi)^{N/2}\,\left|\det(\Sigma)\right|^{1/2}}\, e^{-\frac{1}{2}\boldsymbol{\varepsilon}^{T}\Sigma^{-1} \boldsymbol{\varepsilon}}

Ahora la función de costo L(θ)\mathcal{L}(\theta) está dada de la siguiente forma:

L(θ,y)=(xy)TΣ1(xy)=yxΣ\mathcal{L}(\theta,y) = (x-y)^{T} \Sigma^{-1} (x-y) = \left\| y -x \right\|_{\Sigma}

Biyección entre L(θ,y)L(\theta,y) y L(θ,y)\mathcal{L}(\theta,y):

No siempre vamos a poder encontrar una biyección entre L(θ,y)L(\theta,y) y L(θ,y)\mathcal{L}(\theta,y), pero podemos hacer lo siguiente:

Dado L(θ,y)\mathcal{L}(\theta,y) queremos encontrar L(θ,y)L(\theta,y), para ello vamos a definirnos una función de probabilidad a la que llamaremos L(θ,y)L^{*}(\theta,y):

L(θ,y)=eL(θ,y)z(θ)L^{*}(\theta,y) =\frac{e^{-\mathcal{L}(\theta,y)}}{z(\theta)}

z(θ)=eL(θ,y)dy,z(\theta) = \int e^{-\mathcal{L}(\theta,y)}dy,

donde z(θ)z(\theta) representa el factor de normalización, que puede depender del parámetro θ\theta, esto no nos pasaba en los ejemplos anteriores y como consecuencia, al recuperar la función de costo como veníamos haciendo, se nos va a agregar un término extra.

L(θ,y)=logL(θ,y)=L(θ,y)+logz(θ)\mathcal{L}^{*}(\theta,y) = -\log L^{*}(\theta,y) = \mathcal{L}(\theta,y) + \log z(\theta)

definimos R(θ)=logz(θ)R(\theta) = \log z(\theta) y lo llamaremos término de regularización.

Luego el caso más general de un problema de optimización va a tener esta forma:

L(θ,y)=Lempıˊrica(θ,y)+R(θ),\mathcal{L}(\theta,y) = \mathcal{L}_{\text{empírica}}(\theta,y) + R(\theta) ,

donde Lempıˊrica(θ,y)\mathcal{L}_{\text{empírica}}(\theta,y) depende tanto de los parámetros como de los datos y R(θ)R(\theta) sólo depende de los parámetros.

Ejemplos: vamos a ver distintas funciones de costo que suelen aparecer cotidianamente, con yRny \in \mathbb{R}^{n}, xRn×px \in \mathbb{R}^{n \times p}, θRp\theta \in \mathbb{R}^{p} y los λ\lambda son hiperparámetros del problema.

1) Regresión lineal Ridge

minθyxθ22Funcioˊn de Costo Empıˊrica+λθ22Teˊrmino de Regularizacioˊn\min_{\theta} \underbrace{\left\| y - x \theta \right\|^{2}_{2}}_{\text{Función de Costo Empírica}} + \underbrace{\lambda \left\| \theta \right\|^{2}_{2}}_{\text{Término de Regularización}}

El término de Regularización penaliza la norma dos del vector, y se lo llama Ridge, esto provoca que el parámetro θ\theta no se mueva en demasía, es decir, que tienda a converger a cero, de manera tal que cuando ingresen nuevos datos en el programa la curva ajuste mejor.

2) Regresión Lineal Lasso

minθyxθ22Funcioˊn de Costo Empıˊrica+λθ1Teˊrmino de Regularizacioˊn\min_{\theta} \underbrace{\left\| y - x \theta \right\|^{2}_{2}}_{\text{Función de Costo Empírica}} + \underbrace{\lambda \left\|\theta \right\|_{1}}_{\text{Término de Regularización}}

El término de Regularización penaliza la norma uno del vector, y se lo llama Lasso, esto provoca esparcidad en las soluciones.

3) Regresión lineal Elastic-Net

minθyxθ22Funcioˊn de Costo Empıˊrica+λ(αθ1+(1α)θ22)Teˊrmino de Regularizacioˊn con α[0,1]\min_{\theta} \underbrace{\left\| y - x \theta \right\|^{2}_{2}}_{\text{Función de Costo Empírica}} + \underbrace{\lambda (\alpha \left\| \theta \right\|_{1} + (1-\alpha) \left\| \theta \right\|^{2}_{2})}_{\text{Término de Regularización}} \ con \ \alpha \in [0,1]

Combinación de los ejemplos 1 y 2.

4) Smoothing Splines

En el espacio que vamos a estar pensando es en el espacio funcional de dimensión infinita que contiene a todas las funciones que tienen hasta la segunda derivada continua.

minfi=1N(yif(xi))2Funcioˊn de Costo Empıˊrica+λx0x1(f(x))2dxTeˊrmino de Regularizacioˊn\min_{f} \underbrace{\sum_{i=1}^{N} (y_{i} - f(x_{i}))^{2}}_{\text{Función de Costo Empírica}} + \underbrace{\lambda \int_{x_{0}}^{x_{1}}(f^{''}(x))^{2}dx}_{\text{Término de Regularización}}

El término de Regularización penaliza la segunda derivada, lo que impone suavidad sobre las posibles soluciones.

Podemos observar qué pasa cuando variamos el λ\lambda:

Introducción a la estadística Bayesiana:

Hasta ahora resolvimos nuestros problemas pensándolos con estadística frecuentista, y nos preguntamos cómo se relacionan estas ideas con la estadística Bayesiana (ver Clase N.º 7).

En la estadística Bayesiana vamos a tener:

  1. Verosimilitud, la probabilidad P(yθ)\mathbb{P}(y|\theta) que nos dice cómo los datos están generados en función de los parámetros θ\theta.

  2. P(θ)\mathbb{P}(\theta) que es una distribución de probabilidad sobre θ\theta, donde θ\theta es aleatorio.

Utilizando la definición de la Probabilidad Condicional:

Ppost(θ,y)=P(y,θ)Pprior(θ)P(y)\mathbb{P}_{post}(\theta,y) = \frac{\mathbb{P}(y,\theta) \mathbb{P}_{prior}(\theta)}{\mathbb{P}(y)}

Si podemos calcular esta distribución, no solo vamos a obtener el θ\theta que maximiza nuestro modelo, sino que también, nos va a dar una noción de la incertidumbre alrededor de ese θ\theta.

Buscando quien maximiza la distribución Ppost(θ,y)\mathbb{P}_{post}(\theta,y), podemos recuperar la solución encontrada con la estadística frecuentista.

θMAP=argmaxθPpost(θ,y)=argminθ[logP(y,θ)(θ,y)logPprior(θ)R(θ)],\theta_{MAP} = \arg\max_{\theta}\mathbb{P}_{post}(\theta,y) = \arg\min_{\theta} \left[ -\underbrace{\log \mathbb{P}(y,\theta)}_{\ell(\theta,y)} - \underbrace{\log \mathbb{P}_{prior}(\theta)}_{R(\theta)} \right],

donde en (θ,y)\ell(\theta,y) está la Verosimilitud y R(θ)R(\theta) es el término de Regularización de la estadística frecuentista.

Resumen

Distribución del errorFunción de costoMétodo
Gaussiana i.i.d.i(yiy^i)2\sum_i (y_i - \hat{y}_i)^2Mínimos cuadrados (OLS)
Laplace i.i.d.iyiy^i\sum_i \lvert y_i - \hat{y}_i \rvertMínimas desviaciones absolutas
Gaussiana multivariada(yx)TΣ1(yx)(y-x)^T \Sigma^{-1} (y-x)Mínimos cuadrados generalizados (GLS)
Gaussiana + prior gaussiano sobre θ\thetaOLS + λθ22+\ \lambda \lVert \theta \rVert_2^2Ridge
Gaussiana + prior de Laplace sobre θ\thetaOLS + λθ1+\ \lambda \lVert \theta \rVert_1Lasso