Arquivo

Archive for the ‘Draft’ Category

Lógica Bayesiana

sexta-feira, 13 nov 2009; \46\America/New_York\America/New_York\k 46 6 comentários

Todo mundo conhece a lógica clássica, aquela segundo o qual proposições são julgadas verdadeiras ou falsas através de certos procedimentos de consistência. Mesmo que não conheça as regras da lógica formal, certamente já as usou e saberia reconhece-las. Poucos nunca ouviram o tal exemplo sobre a mortalidade ou não de Sócrates.  A lógica formal nos fornece uma forma de raciocínio: seguindo suas regras básicas eu consigo formas de, de posse de afirmações que eu julgo verdadeiras,  julgar a validade de outras. Mais ainda, na lógica não há espaço para ambiguidade e meia-certeza — o valor de uma proposição é verdadeiro ou falso, fim de papo. E note: ainda que eu não consiga determinar esse valor, está estabelecido desde o princípio que ele é verdadeiro ou falso.

Certamente isso fornece ferramentas úteis mas há uma grande limitação: como eu deveria raciocinar se eu não possuo informação completa sobre algo? A lógica formal não serve para isso. Eu não posso fazer perguntas como: “dado que eu acho a proposição P1 maaais ou menos certa, qual é o valor de P2?”. Há formas de lidar com essa questão de informação parcial? Isso é o que os probabilistas da escola bayesiana se perguntaram e o que eu pretendo dizer aqui é como responder positivamente essa pergunta.

A grande pergunta inicial é: como eu quantifico informação incompleta sobre algo? Em outras palavras, como eu digo a você quão fortemente eu acredito que algo é verdade? Uma vez determinada essa resposta a próxima pergunta é: como eu devo proceder, uma vez estabelecida o valor de uma proposição, para determinar o valor de outra proposição derivada dessa? Essas são as duas perguntas que eu vou tentar explicar como são respondidas pela teoria bayesiana.

Então para começo de conversa vamos estabelecer como se mede o grau de plausibilidade de algo (A. Caticha gosta de chamar de “degree of rational belief”, eu concordo com ele). Para cada proposição vamos criar uma função que associa a cada outra proposição um número real — a princípio irrestrito:

\Phi_{p} : \mathcal{P} \to \mathcal{R}, \forall p\in\mathcal{P}.

Aqui, \mathcal{P} é a coleção de proposições e \mathcal{R} o conjunto dos reais. Ao número \Phi_{P_1}(P_2) vamos chamar plausibilidade de P_2 no ambiente lógico (gerado por) P_1. Ou seja, esse número mede o quanto eu acredito em P_2 assumindo P_1 como “axioma”. Quanto maior o número maior minha crença.

Bem, não faz muito sentido apenas fazer isso. Preciso de algumas regras básicas para essa função. Essas regras devem me garantir que quando eu faço o “limite de certeza absoluta” eu recobre os resultados da lógica formal. Essas regras são chamadas axiomas de Cox e são bem simples e intuitivas. Melhor ainda: elas determinam \Phi_{p} quase univocamente (vamos entender esse quase adiante). Os axiomas de Cox são os seguintes:

A plausibilidade da negação de uma proposição é determinada assim que eu conheço a plausibilidade da própria proposição. Ou seja(2):

\Phi_{A}(\neg B) = F(\Phi_{A}(B)).

Parece razoável: quanto mais acredito em B, menos acredito em \neg B.  Note que há aqui a afirmação implícita de que a função que liga a plausibilidade de uma proposição com a plausibilidade da sua negação é única e independe de qual proposição estamos falando, nem do “ambiente lógico”.

A operação de negação é idempotente – ou seja, se eu aplicar a negação duas vezes, devo recuperar a proposição original(\neg \neg B = B). Essa propriedade nos fornece uma equação funcional para F(\cdot):

\Phi_{A}(\neg \neg B) = \Phi_{A}(B),

F(\Phi_{A}(\neg B)) = \Phi_{A}(B),

F(F(\Phi_{A}(B))) = \Phi_{A}(B).

Ou seja, para todos os valores u pertencentes à imagem de \Phi_{\cdot}(\cdot) devemos ter que:

F(F(u)) = u.

Ou seja, a função F(⋅) é idempotente também. Vamos reservar essa propriedade de F(\cdot) e prosseguir para o segundo axioma de Cox:

A plausibilidade da conjunção de duas proposições A\wedge B dada uma terceira proposição C (ou seja, \Phi_{C}(A \wedge B) ) deve depender apenas da plausibilidade de:

(1) plausibilidade de A dado C: \Phi_{C}(A);
(2) estabelecida a plausibilidade de A, quão plausível é B dado C : \Phi_{C\wedge A}(B).

Ou seja, estou assumindo a existência de mais uma “função universal”:

\Phi_{C}(A \wedge B) = G( \Phi_{C}(A) , \Phi_{C\wedge A}(B) ).

Também parece razoável: quando quero determinar se duas proposições são simultaneamente verdadeiras, estabeleço primeiro a validade da primeira e depois, dada a primeira, estabeleço a validade da segunda. É um pouco mais difícil tirar uma equação funcional para G(⋅ , ⋅) mas não é impossível. Considere a expressão:

\Phi_{B}(A_1 \wedge A_2 \wedge A_3).

Há duas formas diferentes de decompor essa expressão usando a função G(\cdot,\cdot): lembre-se que o conectivo \wedge é  associativo e comutativo e portanto:

\left(A_1 \wedge A_2\right) \wedge A_3 = A_1 \wedge \left(A_2 \wedge A_3\right).

Uma inferência consistente exige que essas duas formas dêem o mesmo resultado(3). Portanto:

G( \Phi_{B}(A_1 \wedge A_2) , \Phi_{B\wedge A_1 \wedge A_2}(A_3) ) = G(\Phi_{B}(A_1) , \Phi_{B\wedge A_1 }( A_2 \wedge A_3) ).

Aplicando novamente a definição de G(\cdot,\cdot):

G( G(\Phi_{B}(A_1),\Phi_{B \wedge A_1 }( A_2)) , \Phi_{B\wedge A_1 \wedge A_2}(A_3) ) = G(\Phi_{B}(A_1) , G(\Phi_{B\wedge A_1 }( A_2),\Phi_{B\wedge A_1 \wedge A_2 }( A_3)) ).

Se isso deve valer para quaisquer proposições então novamente tenho um equação funcional válida para quaiser u, v e w na imagem de \Phi_{\cdot}(\cdot)(4):

G(u,G(v,w)) = G(G(u,v),w).

Ou seja: a função G(⋅ , ⋅) também é associativa.

Um leitor apressado deve se perguntar nesse momento: e daí que você tem duas equações funcionais para essas funções arbitrárias F(⋅) e G(⋅ , ⋅) que você postulou do chapéu? O ponto é que essas duas equações funcionais generalíssimas definem univocamente estrutura de inferência! Sério mesmo. Não to brincando. E você conhece essa estrutura.

O coração da questão deriva de dois teoremas devidos a Cox. Para conseguir o primeiro teorema vamos usar o seguinte resultado (não vou provar aqui porque a prova é extensa e é encontrada na referência [2]).

Teorema da função associativa: dada qualquer função associativa G(u,v), existe uma função monotônica g(⋅) tal que:

g(G(u,v)) = g(u) g(v)

Isso é muito conveniente pois se escrevermos de novo a definição de G(\cdot,\cdot), temos:

\Phi_{C}(A \wedge B) = G( \Phi_{C}(A) , \Phi_{C\wedge A}(B) ),

e usarmos o teorema da função associativa, então obtemos:

g\left(\Phi_{C}(A \wedge B)\right) = g\left(\Phi_{C}(A)\right) g\left( \Phi_{C\wedge A}(B) )\right)

E agora posso simplesmente regraduar minha definição de plausibilidade. Uma vez que g() é monotônica, e portanto vai preservar a ordem com que eu classifico coisas como mais ou menos plausíveis, eu posso redefinir plausibilidade como:

\phi(A|B) = g(\Phi_{B}(A))

Mudei ligeiramente a notação para que o leitor possa apreciar melhor o que acontece com a antiga expressão que define G(⋅ , ⋅) com essa nova definição de plausibilidade:

\phi(A \wedge B | C) = \phi(B|C \wedge A) \phi(A|C)

Mas veja se essa não é a boa e velha regra do produto da teoria de probabilidades!!! Usando a comutatividade de \wedge eu ainda posso notar que:

\phi( B | C \wedge A) = \dfrac{\phi (A|C \wedge B) \phi (B|C)}{\phi (A|C)},

e essa não é nada mais que a regra de Bayes da teoria de probabilidades!

Mas calma, a nova função plausibilidade \phi(\cdot| \cdot) ainda não é uma probabilidade: não basta seguir essas duas regras, há uma série de condições na teoria axiomática de probabilidades para chamar algo com esse nome e a nossa função ainda não satisfaz todas. Tudo bem: ainda nos falta estudar as propriedades de F(\cdot)! Quem sabe isso ajude.

Novamente precisamos criar uma situação em que a demanda por consistência delimite as propriedades da função plausibilidade. Por exemplo temos a seguinte situação(5):

\phi(A \wedge B | C) = \phi(B|C \wedge A) \phi(A|C) =F\left(\phi(\neg B|C \wedge A)\right) \phi(A|C) .

Mas, pela regra do produto que deduzimos acima:

\phi(\neg B |C \wedge A) = \dfrac{\phi(A \wedge \neg B |C)}{\phi(A|C) }

e então:

\phi( A \wedge B | C) =\phi(A|C) F \left( \dfrac{\phi(A \wedge \neg B |C)}{\phi(A|C) }\right)

Mas lembre-se que a conjunção A \wedge B é simétrica, portanto toda essa expressão fica invariante se eu trocar A por B. E assim:

\phi(A|C) F \left( \dfrac{\phi(A \wedge \neg B |C)}{\phi(A|C) }\right)=\phi(B|C) F \left( \dfrac{\phi(B \wedge \neg A |C)}{\phi(B|C) }\right)

Se isso deve valer independente de quais são as proposições A, B e C, então eu posso, por exemplo, escolher uma particular proposição \neg B = A\wedge D. Note que com essa escolha temos as seguintes identidades: A\wedge \neg B = \neg B\neg A \wedge B = \neg A. Então:

\phi(A|C) F \left( \dfrac{\phi(\neg B |C)}{\phi(A|C) }\right)=\phi(B|C) F \left( \dfrac{\phi(\neg A |C)}{\phi(B|C) }\right)

\phi(A|C) F \left( \dfrac{F\left(\phi( B |C)\right)}{\phi(A|C) }\right)=\phi(B|C) F \left( \dfrac{F\left(\phi(A |C)\right)}{\phi(B|C) }\right)

O que finalmente resulta em mais uma equação funcional para F(⋅):

uF \left( \dfrac{F\left(v\right)}{u }\right)=v F \left( \dfrac{F\left(u\right)}{v }\right)

Novamente sem demonstrar, vou simplesmente afirmar que a solução mais geral dessa equação, submetida à condição de idempotência que deduzimos acima, é dada por:

F(u)^\alpha=(1-u^\alpha).

Note que para um \alpha qualquer isso restringe o dominio da função F(⋅), e portanto a imagem da função \phi(\cdot|\cdot), ao intervalo [0,1]. E veja o que acontece então com a regra que define F(⋅):

\phi(\neg A | B) ^\alpha + \phi(A|B)^\alpha = 1

Uma nova regraduação permite definir uma função Pr(A|B) =\phi(A|B)^\alpha com as seguintes propriedades:

  • Pr(A|B)\in[0,1]
  • Pr(A|B) + Pr(\neg A|B) = 1
  • Pr(A_1\wedge A_2|B) = Pr(A_2| B \wedge A_1)Pr(A_1 |B)

Esses não são exatamente os axiomas de Kolmogorov para a teoria de probabilidades mas… close enough para um post de blog. Isso tudo pode ser refinado com o devido grau de rigor matemático para satisfazer os exatos axiomas da teoria da probabilidade.

O que foi obtido com essa massagem matemática toda?

  1. É possível definir um sistema lógico de inferência baseado em informação incompleta e incerteza que atribui uma plausibilidade a cada proposição.
  2. Esse sistema lógico é único, a menos de uma regraduação monotônica da função plausibilidade. Isso faz com que uma ordenação segundo a plausibilidade seja única, uma vez que regraduações monotônicas não alteram essa ordem.
  3. A função plausibilidade satisfaz todas as regras que uma probabilidade legitima deve satisfazer (aqui não provei isso, mas apenas mostrei algumas coisas – para fazer isso rigorosamente precisa-se definir uma “sigma-álgebra de proposições”).

E qual é a utilidade prática disso? Bem… o mundo está cheio de situações de inferência baseada em informação incompleta. Particularmente, todo problema que depende de dados empíricos é, em essência, um problema dessa natureza e todo problema de inferência em ciência é assim. Uma vez que o único sistema de inferência para informação incompleta – como aí mostrado – é aquele que usa as regras  da teoria da probabilidade é razoável se supor que efetivamente usar essas regras explicitamente oferece vantagens sobre os métodos estatísticos ad hoc frequentemente usados, como os métodos de mínimos quadrados e outras formas de fitting de dados. Na verdade esse processo de inferência vai muito além disso – ele oferece ferramentas de modelagem física, de interpretação de modelos, de planejamento de experimentos e ainda mais. Mas disso eu vou tratar em um próximo post.

Notas:

(1) — Se você se interessa por nomes, o que se segue é devido a um certo número de pessoas — Edwin Jaynes, Harold Jeffreys e particularmente Richard Cox.

(2) — Estou usando os seguintes simbolos para os conectivos lógicos:

  • \neg — negação: \neg \mbox{Verdadeiro} = \mbox{Falso}
  • \wedge — o conectivo E (conjunção): \mbox{Verdadeiro} \wedge \mbox{Falso} = \mbox{Falso}
  • \vee — o conectivo OU (disjunção inclusiva): \mbox{Verdadeiro} \vee \mbox{Falso} = \mbox{Verdadeiro}

(3) — Lembre-se: queremos um sistema racional de atribuir um grau de confiança a algo.

(4) — Que pode ser obtida fazendo: u = \Phi_{B}(A_1), v = \Phi_{B \wedge A_1 }( A_2)) e w = \Phi_{B\wedge A_1 \wedge A_2 }( A_3).

(5) Note que eu tinha definido F(⋅) para a função original \Phi_{A}(B). Entretanto fizemos uma regraduação monotônica então nada me impede de abusar da linguagem e redefinir F(x) \to F(g(x)).

Referências:

[1] E. T. Jaynes, Probability Theory, the Logic of Science.
[2] A. Caticha, Lectures on Probability, Entropy, and Statistical Physics — arXiv:0808.0012v1 [physics.data-an]
[3] A. Caticha,  Quantifying Rational Belief — arXiv:0908.3212v1 [physics.data-an]

Probabilidade?

domingo, 22 fev 2009; \08\America/New_York\America/New_York\k 08 7 comentários

O conceito de probabilidade, e das grandezas associadas com a probabilidade, é uma dessas questões na ciência que levantou polêmicas, gerou inimizades e fomentou discussões das mais acaloradas. Como outros conceitos importantes, a idéia de probabilidade esteve no ar por séculos, antes que as primeiras construçoes matematicamente mais formais fossem produzidas. Já em 1657 foi publicado o Libellus de Ratiociniis in Ludo Aleae (livro de raciocínios sobre os jogos de azar) por Christian Huygens(*). Nessa época o foco da teoria das probabilidades era exatamente esse: como eu devo apostar de forma racional para ter lucro. Pode parecer um raciocínio talvez mundano ou indigno demais para alguns, ou algo que demonstra qualidades que muitos idealistas não esperam encontrar nos seus grandes ícones da história da ciência. Mas o fato é que esse foi um tema que preocupou as mentes mais brilhantes do século XVII em diante. Pascal, os Bernoulli, de Moivre, Euler e Laplace são alguns poucos dos nomes que investigaram sobre essa ciência indigna da aposta.

E então, que raios é uma probabilidade?

Duas coisas são normalmente subentendidas quando a palavra probabilidade é usada no nosso discurso cotidiano – e isso se reflete também no discurso científico. Quando eu digo que é muito provável que você me encontre na lanchonete do IF-USP nas segundas feiras as 14 horas quero dizer que na maior parte das segundas-feiras em que você me procurar nesse local e horário eu estarei lá . Estou fazendo uma afirmação sobre a freqüência de um certo evento num certo universo de situações repetitivas. Estou sendo frequentista.

Quando eu digo que é muito provável que sua namorada goste do anel que você comprou para pedí-la em casamento não estou fazendo o mesmo tipo de afirmação. Não estou dizendo a você que se procurar dar o presente para ela repetidas vezes, vai ter sucesso na maioria delas. Estou dizendo que, dado o conhecimento que eu tenho da sua namorada e do gosto dela por anéis, tenho um elevado grau de confiança no sucesso do anel como presente. Estou quantificando minha crença sobre algo de forma racional. Estou sendo bayesiano.

Thomas Bayes foi um clérigo inglês do século XVIII, que descobriu um teorema na teoria de probabilidades cuja interpretação divide até hoje as pessoas que usam probabilidades em seu cotidiano. O teorema de Bayes diz simplesmente que:

P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}

Onde P(A|B) quer dizer a probabilidade do conjunto de eventos A tomando-se o conjunto de elementos B como dados. Um frequentista vê o teorema de Bayes como um truísmo derivado apenas de propriedades óbvias de conjuntos. Um bayesiano vê como uma ferramenta de raciocínio.

Suponha que desejássemos um método de estabelecer o quão confiamos em uma proposição, dado que confiamos em uma outra com um certo grau. Ou seja, queremos estabelecer um número C(P1|P2) que nos diz o quão confiável é a afirmação P1, dado que eu confio na afirmação P2. Há uma série de coisas que nós gostariamos que esse grau de confiabilidade respeitasse. É possível mostrar (**) que um conjunto bem razoável de exigências resulta em uma definição unívoca para as regras matemáticas que nossos números C(P1|P2) devem satisfazer (teorema de Cox). O que impressiona é que essas regras são transposições exatas dos axiomas de Kolmogorov para a teoria de probabilidade para o campo da lógica de sentenças. Trocando em miúdos, esse sistema lógico que atribui um grau de confiança para cada proposição é formalmente idêntico ao sistema lógico que associa probabilidades a eventos.

Isso é bem estranho para um físico. Nós estamos acostumados a chamar de probabilidades propriedades físicas do nosso sistema físico em questão. São coisas intrinsecas aos nossos sistemas físicos que dependem apenas da sua dinâmica interna. Qual é a probabilidade de um certo decaimento nuclear ocorrer nos próximos 30 segundos é algo que não deve depender de quanto eu acho confiável que isso aconteça! Qual é a probabilidade daquela partícula visitar tal região do espaço de fase deveria depender apenas da sua dinâmica e não da minha capacidade de aferir confiabilidades!

Acalme-se. Não estamos falando da mesma coisa. É claro que existe uma propriedade física associada à sua partícula que quantifica quão frequentemente ela visita uma certa região do espaço de fases. É a probabilidade frequentista!!! Ou melhor, vamos dar um nome mais adequado a ela: é a freqüência!!! Você não precisa abdicar da objetividade do seu universo para ser bayesiano. O que você precisa fazer é reconhecer que existem duas coisas: as freqüências e as probabilidades, e que as duas podem ser usadas para muitas coisas.

E o que eu ganho com isso? O que eu ganho usando probabilidades como um sistema formal de lógica? Eu ganho uma ferramenta de raciocínio no teorema de Bayes. Na visão levantada pelo teorema de Cox, o teorema de Bayes é a forma correta de atualizar sua confiança ou crença em algo quando obtém novas informações. Isso abre possibilidades. O que isso tem a ver com o aprendizado de sistemas que processam informação (como o cérebro por exemplo) ?  Nosso raciocínio segue a regra de Bayes? Sistemas computacionais que aprendem usando a regra de Bayes são eficientes? (SIM!) O que isso tudo tem a ver com teoria de informação? Onde em física estamos falando de freqüências e onde estamos falando de probabilidades? Isso serve para alguma coisa?

E o que eu perco pensando só em termos de freqüências? Há situações em que as vezes pensamos estar falando de freqüências, quando estamos de fato julgando possibilidades segundo informações prévias – portanto usando uma forma mais evidencial de probabilidade. Quando eu digo, por exemplo, que espero obter com \frac{1}{2} de probabilidade uma certa face de uma moeda quando a lanço para cima, estou falando de freqüências? Se eu estivesse, eu deveria em primeiro lugar perguntar: de onde vem a variabilidade de resultados do lançamento de uma moeda? É claro para mim que a variabilidade está nas condições iniciais. Também é claro que o sistema tem uma série de atratores no seu espaço de configurações – alguns correspondentes à face cara para cima, outros correspondentes à face coroa para cima. É claro ainda que, dada uma boa distribuição de condições iniciais, eu posso sortear igualmente atratores de qualquer um dos dois tipos. Então parece que eu estou falando mesmo de freqüências uma vez que eu estabeleço como eu pretendo jogar  a moeda. Eu espero que de fato metade das órbitas que eu sorteio no processo de lançamento resultem em cara, e metade em coroa e portanto espero que no limite de muitos lançamentos eu acabe terminando com 50% de caras e 50% de coroas. Bastante objetivo e racional.

Mas veja a quantidade de coisas que eu tive que assumir para concluir isso: um lançador “ergódico” e honesto de moedas, uma estrutura do espaço de fases da moeda. Tudo isso para mim soa como informação que eu estou assumindo ao tentar atribuir um grau de confiabilidade para o resultado cara ou coroa. Qualquer pessoa bem treinada pode “quebrar a ergodicidade” da moeda e sortear muito mais caras que coroas. Eu mesmo já consegui, mesmo tendo uma habilidade manual não tão grande.

Uma visão alternativa é: uma vez que a moeda é um objeto simétrico, e eu não tenho informação suficiente para supor uma assimetria do processo de lançamento da moeda, não é razoável dizer que eu não posso ter uma maior confiança injustificada em qualquer dos resultados? Se por acaso eu descobrisse que a moeda está sendo lançada de maneira assimétrica, eu poderia tentar estimar então o quão enviesados serão os resultados através da regra de Bayes

Enfim… eu não pretendia com esse post argumentar de maneira categórica em favor da visão bayesiana, mas levantar curiosidade sobre algumas relações interessantes:

  1. Probabilidades podem ser vistas não como freqüências físicas, mas também como níveis de confiança a respeito de proposições.
  2. Probabilidades podem ser vistas ainda como forma de codificar informação: por exemplo informação sobre a simetria da moeda.
  3. E se probabilidades podem ser vistas dessa forma, é importante ter em mente, quando usamos a palavra, se estamos de fato nos referindo à probabilidade bayesiana ou às freqüências físicas.
  4. Freqüências são difíceis de se definir na prática: eu não posso fazer infinitos repetidos experimentos e portanto terei incerteza quanto às freqüências. Mas incertezas são justamente representadas como probabilidades! Então freqüências e probabilidades são coisas diferentes ou então eu tenho uma definição circular.
  5. Se eu estou falando de informação, o que a entropia de Shannon tem a ver com isso?

Enfim. Isso é tudo um aperitivo para estimular curiosidade para…

… ler mais …

e buscar palavras-chave.

  • Inferência:
  • Probabilidade:
  • Jaynes, Laplace, Cox, Bayesian Inference
  • laws of physics as inference tools
Notas:
  • (*) Este livro do Huygens é dito o mais antigo livro sobre probabilidades pelo livro de cálculo do Tom Apostol. Não fui atrás de nenhuma referências sobre estória da matemática para verificar isso por não pretender fazer nenhuma revisão histórica sobre o assunto mas apenas apresentar minha percepção dessas coisas. Uma fonte sobre a história da probabilidade está aqui.
  • (**) Jaynes, E. T. Probability Theory: The Logic of Science, Cambridge University Press (2003).  Esse livro deveria ser leitura obrigatória para qualquer pessoa que ousasse emitir a palavra probabilidade pelos lábios. Não é meramente um livro-texto sobre teoria de probabilidade. É um livro sobre como raciocinar de forma adequada.  Versão parcial pode ser acessada aqui.
%d blogueiros gostam disto: