Início > Ars Physica, cond-mat, Information Theory, Mathematics, Physics, stat > Informação, entropia, geometria e teorias de campo médio.

Informação, entropia, geometria e teorias de campo médio.

domingo, 15 nov 2009; \46\UTC\UTC\k 46 Deixe um comentário Go to comments

(eu perdi um sinal em algum lugar por aí, se você achar por favor indique no comentário)

Este post é uma espécie de continuação do post sobre Lógica Bayesiana, ainda que não exatamente. Mas estamos no mesmo espírito. Lá eu discuti a respeito de como raciocinar sobre informação incompleta. Entretanto, quando há informação incompleta uma coisa é certa: com o tempo podemos ganhar informação. E se há nova informação relevante para saber sobre algo, a probabilidade que atribuo – no sentido do post anterir, o registro quantitativo da minha crença racional sobre esse algo – deve certamente mudar.

A grande pergunta então parece ser: como eu devo mudar minha atribuição de probabilidades – minha crença racional – quando adquiro nova informação? Bem, isso sugere uma forma de quantificar informação: se informação causa mudança na minha atribuição de probabilidades, então se eu puder medir quão longe estão minhas atribuições prévia (prior, antes da nova informação) e posterior (posterior, depois da nova informação), então poderei medir quão importante é essa nova informação. Vamos fazer como antes então e propor uma medida de informação e vinculos que nos permitam restringi-la a uma medida única(1).

Informação

Para o que se segue vou admitir que estamos raciocinando sobre conjuntos de proposições mutuamente exclusivas e independentes, e vou admitir que há um label contínuo para essas proposições (pode ser um número real, ou algo mais complicado). Eu posso, por exemplo, estar falando sobre proposições do tipo

P_x = “a variável X é igual ao número real x”

Uma atribuição inicial de probabilidades para esse conjunto de proposições vou chamar, para simplificar a notação, de (2):

Pr(P_x | I) = p_{X}(x|I).

Note que, por consequencia do que foi feito anteriormente, temos:

  • 0\le p_X(x|I) \le 1
  • \displaystyle\int p_X(x|I) \;dx= 1

Se eu tenho duas atribuições de probabilidades sobre o conjunto de proposições \mathcal{P}_{X} = \{P_{x} | x \in \mathcal{R}\} dadas por p(x|I_1) = p(x) e p(x| I_2) = q(x) então vamos definir uma medida de distância (nossa medida não será uma métrica legitima, mas logo teremos uma) como um funcional que depende unicamente de p(x) e q(x)  e que, além disso, satisfaça os seguintes vínculos:

I – Localidade

O funcional, dado por D[q,p], é local. Isso significa dizer que regiões diferentes do domínio contribuem de forma aditiva – ou seja, se eu mudar algo em uma certa região do domínio e não mudar o resto, apenas contribuições vindas dessa região do domínio afetarão o valor de D[q,p]. Isso nos restringe aos funcionais da forma:

D[q,p]=\int F(p(x), q(x), x) dx

II – O sistema de coordenadas não carrega informação

Uma mudança de variáveis na integral acima não deve mudar o valor de D[q,p]. O sistema de coordenadas é apenas um rótulo para as proposições e não deve carregar informação alguma. Assim, seja uma mudança de variáveis do tipo:

x = \Gamma(y),

com um jacobiano dx = \gamma(y) dy. Uma vez que as funções p() e q() são densidades (elas devem ser normalizadas a 1), elas se transformam segundo:

p_{X}(x)=\dfrac{p_{Y}(y)}{\gamma(y)}
q_{X}(x)=\dfrac{q_{Y}(y)}{\gamma(y)}

Dessa forma nós desejamos que:

D[q_X,p_X] =\int F(p_X(x),q_X(x),x)dx=\displaystyle\int F\left(\dfrac{p_{Y}(y)}{\gamma(y)},\dfrac{q_{Y}(y)}{\gamma(y)},\Gamma(y)\right) \gamma(y)dy

Seja igual a D[q_Y,p_Y]=\int F(p_Y(y),q_Y(y),x)dx. Isso implica que na expressão para o funcional apareçam apenas quantidades invariantes por mudanças de coordenadas: m(x)dx, \frac{p_X(x)}{m(x)}, \frac{q_X(x)}{m(x)}, em que m(x) também se transforme como uma densidade. Isso nos deixa com o seguinte funcional:

D[q,p] = \displaystyle\int F\left(\dfrac{p(x)}{m(x)}, \dfrac{q(x)}{m(x)}\right) m(x)dx

III – Se nada mudou, eu não devo mudar minha atribuição de probabilidades. Se algo mudou, devo mudar o mínimo possível.

Esse terceiro vínculo é uma espécie de “princípio da mínima mudança”: eu devo mudar minha atribuição de probabilidades apenas o suficiente para adaptá-la à nova informação e nada mais. Isso leva ao seguinte princípio de mudança atualização da probabilidade sob nova informação:

A atribuição posterior de probabilidades deve ser a mais “próxima” (no sentido de minimizar o funcional D[q,p]) possível da atribuição prévia de forma que se satisfaçam os vínculos impostos pela nova informação.

Então suponhamos que temos uma atribuição de probabilidades q(x), obtemos nova informação e agora estamos escolhendo p(x) tal que a distancia  D[q,p] seja minimizada, dada a nova informação. Se não há informação alguma, p(x) é simplesmente o mínimo irrestrito de D[q,p], e isso deve, por princípio, ser igual a q(x). Em outras palavras: variando D[q,p] com relação a p(x), deve haver um mínimo único, igual a q(x). Isso só é possível se a densidade m(x), anteriormente arbitrária, for igual a q(x) (vide ref [1]):

D[q,p]=\displaystyle\int\Phi\left(\dfrac{p(x)}{q(x)}\right) q(x)dx

desde que \Phi(u) seja uma função concava para que o mínimo seja único.

IV – Subsistemas independentes não influenciam nas atribuições de probabilidade uns dos outros.

Suponha que eu esteja atribuindo probabilidades a dois conjuntos de proposições \mathcal{P}_X e \mathcal{P}_Y. Por exemplo podem ser afirmações sobre o valor de duas variáveis contínuas  diferentes X e Y. Se essas duas variáveis são sabidamente independentes, então esse vínculo diz que não deve importar tratá-las separamente ou juntas no processo de inferência.

Se os dois “subsistemas” são independentes, então minha atribuição de probabilidades é:

q(x,y)=q_X(x) q_Y(y)
p(x,y)=p_X(x) p_Y(y)

E a distância entre essas duas atribuições deve ser minimizada com os vínculos compatíveis com a nova informação:

D[q,p]=\displaystyle\int\Phi\left(\dfrac{p_X(x) p_Y(y)}{q_X(x) q_Y(y)}\right) q_X(x) q_Y(y)\;dxdy

Se eu trato os dois sistemas separadamente, devo maximizar, ao invés da função acima, cada uma das distâncias D[q_X, p_X] e D[q_Y, p_Y] deverá ser separadamente minimizada, o que equivale a minimizar a soma das distâncias. Portanto devemos ter:

\Phi\left(\dfrac{p_X(x) p_Y(y)}{q_X(x) q_Y(y)}\right) = \Phi\left(\dfrac{p_X(x)}{q_X(x)}\right) + \Phi\left(\dfrac{p_Y(y)}{q_Y(y)}\right)

Isso restringe a função \Phi(u) ao logaritmo em alguma base (4), que por conveniência vamos escolher sendo a base natural (3). Assim, temos finalmente:

D[q,p] = \displaystyle\int dx\; q(x)\log\dfrac{p(x)}{q(x)} = - S[q,p]

Entropia

Supreendentemente, nossa medida de “distância” está intimamente conectada com o conceito de entropia relativa entre duas distribuições, também conhecido por entropia cruzada ou divergência de Kullback-Leibler, definida por outras razões em teoria da informação e dada por:

S[q,p] = \displaystyle\int dx\;q(x)\log\dfrac{q(x)}{p(x)}.

Isso finalmente estabelece como devemos atualizar nossa atribuição de probabilidades quando temos nova informação:

Principio da Máxima Entropia: quando de posse de nova informação, a distribuição posterior de probabilidade deve ser a distribuição compatível com a nova informação que apresenta a maior entropia relativa possível com relação a distribuição prévia.

Vamos apresentar um exemplo de aplicação desse princípio. Suponha que desejamos novamente escolher entre as possibilidades para o valor de uma variável real \theta. Nós a princípio acreditamos que existe uma relação entre essa variável e uma outra variável mensurável X, dada por uma atribuição prévia de probabilidades:

q(x,\theta)

Uma medida de X é feita, resultando no valor x_{0}, e nós queremos saber como deve ser nossa nova crença sobre $\theta$ na forma de uma distribuição marginal: p(\theta). Bem, usando o princípio da máxima entropia temos que maximizar:

S[q,p] = \displaystyle\int\; dxd\theta\;q(x,\theta)\log\dfrac{q(x,\theta)}{p(x,\theta)}

Dado o vínculo de que agora temos informação completa sobre X, ou seja, de que a distribuição posterior marginal de X é:

p(x) = \int d\theta\; p(x,\theta) = \delta(x - x_{0})

Usando o método dos multiplicadores de lagrange, deve-se variar:

S[q,p]-\int\;dx\;\lambda(x)\left[\delta(x-x_0)-\int\;d\theta\;p(x,\theta)\right]

com relação a p(x,\theta) e impor o vínculo para encontrar a função $lambda(x)$. O resultado (vide [1]) é dado por:

p(x,\theta) = \delta(x-x_0) q(\theta|x)

Veja aí a manifestação do princípio da “mínima alteração”: a atribuição de probabilidades mudou apenas onde havia informação – a distribuição marginal de X – mantendo o que não havia informação para mudar – a distribuição condicional de \theta com relação a X. Finalmente note qual é a distribuição marginal posterior para \theta:

p(\theta)=\int\;dx p(x,\theta) = q(\theta|x_0) = q(x_0|\theta)\dfrac{q(\theta)}{q(x_0)}

Essa é a regra de Bayes adaptada a atualização de informação segundo o que é praticado comumente em inferência bayesiana. Note que aqui há uma justificativa para interpretar q(\theta|x_0) como a distribuição posterior para \theta dado o valor medido x_0: isso resulta de um princípio mais bem justificado – o princípio de máxima entropia.

Outra situação interessante é quando adquirimos informação sobre algum momento da distribuição em questão. Por exemplo, inicialmente atribuimos a distribuição prévia q(x) e eventualmente obtemos informação de que o valor esperado de uma certa função de x é dado:

\int p(x) F(x) dx = f

A nova distribuição deve maximizar a entropia relativa, dado o vínculo acima. Essa maximização resulta na famosa distribuição de Gibbs para o posterior:

p(x) = \frac{1}{Z}\mathrm{e}^{-\beta F(x)}

Onde \beta deve ser determinado impondo o vínculo acima.

Por exemplo, imagine que tivessemos uma sequencia de variáveis \sigma_1, \sigma_2,\ldots,\sigma_N que podem assumir os valores \pm 1 e ficássemos sabendo que duas variáveis consecutivas possuem covariância constante, ou seja, que:

\left\langle \sigma_i \sigma_{i+1}\right\rangle = T,\quad i=1,2,\ldots,N-1.

E imagine que inicialmente atribuimos uma distribuição uniforme aos \sigma_i porque não havia informação alguma para supor algo diferente disso. O princípio de máxima entropia vai fornecer uma distribuição de Gibbs dada por:

p(\sigma_1, \sigma_2,\ldots,\sigma_N) = \frac{1}{Z}\mathrm{e}^{K\sum_{i=1}^{N}\sigma_i\sigma_{i+1} }

Onde  K = \tanh^{-1} T e Z uma constante de normalização. Ora, esse é o famoso modelo de Ising em uma dimensão!  Claro que eu forcei a barra para dar isso, mas isso mostra que o modelo inicialmente usado para descrever o ferromagnetismo poderia ter uma origem bem diferente e pode ser aplicado em qualquer lugar em que se sabe que existe uma correlação local entre variáveis binárias.

Geometria

Eu disse acima que estava definindo uma noção de distância. O funcional D[q,p] que foi definido não é uma métrica legítima: não satisfaz a desigualdade do triângulo e não é simétrico. Entretanto esse funcional define uma estrutura chamada pré-metrica no espaço de distribuições de probabilidade. Uma estrutura pré-métrica é um conjunto dotado de uma “distância” com apenas duas propridedades:

  • D[q,p] \ge 0;
  • D[q,p] = 0 \Leftrightarrow q=p.

Mas há uma construção que permite dar uma estrutura métrica legítima a esse “espaço de distribuições”. Imagine que tenhamos uma família de distribuições de probabilidade parametrizadas por uma série de variáveis contínuas \theta da seguinte forma:

\mathcal{P} = \{p(x|\theta) | \theta \in \mathcal{R}^N\}

Uma pequena variação dos parâmetros \theta devem me fornecer uma distribuição muito próxima de p(x|\theta):

p(x|\theta + d\theta)

e a “distância” entre essas duas distribuições é dada por:

D[p(x|\theta), p(x,\theta + d\theta)] = \int dx\;p(x|\theta)\log\dfrac{p(x|\theta + d\theta)}{p(x|\theta)}

Expandindo em série de Taylor é imediato obter o resultado:

D[p(x|\theta), p(x,\theta + d\theta)]=g_{ij} d\theta^i d\theta^j

Com soma implícita sobre indices repetidos, onde a métrica g_{ij} é conhecida por métrica de Fisher-Rao ou métrica informacional de Fisher, e é dada por:

g_{ij}=\left\langle\dfrac{\partial\log p(x|\theta)}{\partial\theta^i}\dfrac{\partial\log p(x|\theta)}{\partial\theta^j}\right\rangle,

em que o valor esperado é tomado sobre a própria distribuição p(x|\theta). Essa métrica define uma estrutura métrica sobre a família de distribuições \mathcal{P} e tomando mais cuidado para defini-la é possível mostrar que ela é a única métrica  sobre esse espaço que respeita um dado conjunto de requisitos de plausibilidade. Há uma série de aplicações desse conceito no campo conhecido como Information Geometry.

Teorias de Campo Médio

Suponha por um instante que você tivesse a intenção de calcular uma das distribuições marginais ou momentos de um modelo probabilistico dado por uma certa distribuição p(x_1, x_2, \ldots, x_N). Suponha ainda que fosse muito difícil fazer isso e que você estivesse procurando por uma boa aproximação. Sempre há problemas mais fáceis sobre os quais podemos calcular momentos e marginais sem problemas. Suponha que você conheça uma família de modelos \mathcal{Q} = \{q(x_1, x_2, \ldots, x_N)\} que você julga adequada para uma aproximação e simples para determinar as grandezas que você deseja. Uma boa aproximação pode ser determinar a distribuição da família \mathcal{Q} que mais se aproxima da distribuição original na estrutura pré-métrica definida por D[q,p]:Campo médio

\tilde{p}(x)=\max_{q\in\mathcal{Q}} S[q(x),p(x)]

Frequentemente os modelos de interesse em física e outras áreas assume a forma de uma distribuição exponencial:

p(x)=\dfrac{\mathrm{e}^{-\beta H(x)}}{Z},

com uma hamiltoniana (ou, sendo bastante atrevido, no caso de teoria de campos teríamos uma ação) H(x). Um modelo mais simples para aproximar p(x) pode ser dado por uma hamiltoniana mais simples:

q(x)=\dfrac{\mathrm{e}^{-\beta H_{0}(x)}}{Z_{0}},

A entropia relativa entre os dois modelos é dada por:

S[q,p]=\displaystyle\int\;dx\;\dfrac{\mathrm{e}^{-\beta H_{0}(x)}}{Z_{0}}\log\left[\dfrac{\mathrm{e}^{-\beta H_{0}(x)}}{Z_{0}}\dfrac{Z}{\mathrm{e}^{-\beta H(x)}}\right]

Um pouco de massagem permite escrever essa expressão como:

S[q,p]=\beta\left\langle H-H_{0} \right\rangle_{0}+\log\dfrac{Z}{Z_0}

E isso fornece uma inequação para a energia livre dada por -\frac{1}{\beta}\log Z:

F\le\left\langle H-H_{0} \right\rangle_{0}+F_{0}

Essa desigualdade é conhecida como desigualdade de Bogoliubov, e é frequentemente usada para obter uma aproximação para a energia livre.

Outra possibilidade é maximizar S[q,p] para uma família de q’s mais simples. Por exemplo pode-se empregar uma família de q’s em que as variáveis x_1,x_2,\ldots são independentes. Assim frequentemente se faz em mecânica estatística para se definir teorias de campo médio como a aproximação de Curie-Weiss. Usando uma família de q’s com uma estrutura de árvore se obtém a aproximação de Bethe-Peierls. Outras famílias de distribuições vão resultar em outras aproximações que poderiam ser coletivamente chamadas de aproximações de campo médio.

Aproximações desse tipo são largamente empregadas em grandes modelos computacionais em teoria de comunicação, tratamento de imagens, neurocomputação e outras áreas.

Enfim, meu objetivo com esses dois posts era mostrar uma visão alternativa do conceito de probabilidade e a utilidade dessa visão. Eu acho uma pena que essas coisas sejam frequentemente ignoradas por quem faz um curso de mecânica estatística ou teoria de informação. Eu acho uma visão muito iluminadora sobre a natureza do conhecimento, sobre a natureza dos modelos físicos e sobre como adquirimos e processamos informação.

Mais sobre isso pode ser encontrado no livro do Jaynes, Probability Theory – the logic of science, na referência do Ariel Caticha,  Lectures on Probability, Entropy, and Statistical Physics. A parte sobre campo médio se encontra na referência [3], mas é bem difícil ver algo bem estruturado sobre isso. A referência [4] é muito boa e vai bem além do ponto.

Notas:

(1)  O que se segue é uma mistura da leitura de trabalhos de muita gente, mas eu me baseio principalmente na apresentação feita por Ariel Caticha na referência [1] e no que está nos capítulos introdutórios do livro Advanced Mean Field Methods, editado por Manfred Opper e David Saad. Outros nomes importantes são John Skilling e Shun-ichi Amari além dos já citados no post anterior. A referência [1] tem uma lista enorme de referências sobre o assunto.

(2) Quando o contexto permitir, o subscrito X será omitido.

(3) Isso apenas muda a distância por um fator multiplicativo.

(4) O sinal da função é determinado pela concavidade, portanto -log(x) está excluída.

Referências:

[1] A. Caticha, Lectures on Probability, Entropy, and Statistical Physics — arXiv:0808.0012v1 [physics.data-an]
[2] A. Caticha,  Quantifying Rational Belief — arXiv:0908.3212v1 [physics.data-an]
[3] Advanced mean field methods: theory and practice, Opper, M. and Saad, D. , MIT Press, 2001
[4] Information, Physics, and Computation, Mezzard, M. and Montanari, A., Oxford Graduate Texts, 2009

  1. segunda-feira, 16 nov 2009; \47\UTC\UTC\k 47 às 09:48:48 EST

    Ótimos posts! Ultimamente tem aumentado a minha curiosidade com os vocabulários em Física e Estatística [1], portanto permita-me alguns comentários e dúvidas de principiante. Começo com comentários “tipográficos”, talvez irrelevantes.

    – no trecho “Se eu trato os dois sistemas separadamente, devo maximizar, ao invés da função acima, cada uma das distâncias D[q_X, p_X] e D[q_Y, p_Y] deverá ser separadamente minimizada” na verdade é “devo minimizar” né? Talvez dividir a frase em duas ou remover a cacofonia do “devo”.

    – o latex não funcionou nas sentenças “crença sobre $\theta$ na forma de uma distribuição marginal” e “e impor o vínculo para encontrar a função $lambda(x)$”.

    – Logo antes da seção “Entropia”, dizer que D[q,p] = – S[q,p] estraga a surpresa😀

    – Senti falta da definição de I_1 e I_2 (são os conjuntos de proposições?) e dos angle brackets (é a média?).

    – Acho que na frase “os modelos de interesse em física e outras áreas assume a forma de uma distribuição exponencial” é melhor dizer “distribuição da família exponencial”, uma vez que a distribuição exponencial é um caso particular da sua equação onde H(x)=x e beta=1/Z. Não estou seguro, mas acho que os modelos geralmente assumem uma Gaussiana, não (ou “distribuição Normal” para os estatísticos)?

    Uma dúvida, talvez eu não tenha entendido algo mais básico: por que as proposições devem ser “mutuamente exclusivas e independentes”? Independentes acho que eu entendo, mas “exclusivas” não pode significar dependência? E o que vai acima serve também para “nested hypotheses”, onde uma proposição é uma generalização da outra, ou não? E por que a independência leva à minimização da soma e não do produto, é por causa de identificabilidade (se um deles for zero…)?

    []’s
    Leo

    [1] Não, não é “science studies”. É que creio que quem tem background em uma área ajusta-se fácil à outra – como C e java😉

  1. No trackbacks yet.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: