Probabilidade?

domingo, 22 fev 2009; \08\UTC\UTC\k 08 Deixe um comentário Go to comments

O conceito de probabilidade, e das grandezas associadas com a probabilidade, é uma dessas questões na ciência que levantou polêmicas, gerou inimizades e fomentou discussões das mais acaloradas. Como outros conceitos importantes, a idéia de probabilidade esteve no ar por séculos, antes que as primeiras construçoes matematicamente mais formais fossem produzidas. Já em 1657 foi publicado o Libellus de Ratiociniis in Ludo Aleae (livro de raciocínios sobre os jogos de azar) por Christian Huygens(*). Nessa época o foco da teoria das probabilidades era exatamente esse: como eu devo apostar de forma racional para ter lucro. Pode parecer um raciocínio talvez mundano ou indigno demais para alguns, ou algo que demonstra qualidades que muitos idealistas não esperam encontrar nos seus grandes ícones da história da ciência. Mas o fato é que esse foi um tema que preocupou as mentes mais brilhantes do século XVII em diante. Pascal, os Bernoulli, de Moivre, Euler e Laplace são alguns poucos dos nomes que investigaram sobre essa ciência indigna da aposta.

E então, que raios é uma probabilidade?

Duas coisas são normalmente subentendidas quando a palavra probabilidade é usada no nosso discurso cotidiano – e isso se reflete também no discurso científico. Quando eu digo que é muito provável que você me encontre na lanchonete do IF-USP nas segundas feiras as 14 horas quero dizer que na maior parte das segundas-feiras em que você me procurar nesse local e horário eu estarei lá . Estou fazendo uma afirmação sobre a freqüência de um certo evento num certo universo de situações repetitivas. Estou sendo frequentista.

Quando eu digo que é muito provável que sua namorada goste do anel que você comprou para pedí-la em casamento não estou fazendo o mesmo tipo de afirmação. Não estou dizendo a você que se procurar dar o presente para ela repetidas vezes, vai ter sucesso na maioria delas. Estou dizendo que, dado o conhecimento que eu tenho da sua namorada e do gosto dela por anéis, tenho um elevado grau de confiança no sucesso do anel como presente. Estou quantificando minha crença sobre algo de forma racional. Estou sendo bayesiano.

Thomas Bayes foi um clérigo inglês do século XVIII, que descobriu um teorema na teoria de probabilidades cuja interpretação divide até hoje as pessoas que usam probabilidades em seu cotidiano. O teorema de Bayes diz simplesmente que:

P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}

Onde P(A|B) quer dizer a probabilidade do conjunto de eventos A tomando-se o conjunto de elementos B como dados. Um frequentista vê o teorema de Bayes como um truísmo derivado apenas de propriedades óbvias de conjuntos. Um bayesiano vê como uma ferramenta de raciocínio.

Suponha que desejássemos um método de estabelecer o quão confiamos em uma proposição, dado que confiamos em uma outra com um certo grau. Ou seja, queremos estabelecer um número C(P1|P2) que nos diz o quão confiável é a afirmação P1, dado que eu confio na afirmação P2. Há uma série de coisas que nós gostariamos que esse grau de confiabilidade respeitasse. É possível mostrar (**) que um conjunto bem razoável de exigências resulta em uma definição unívoca para as regras matemáticas que nossos números C(P1|P2) devem satisfazer (teorema de Cox). O que impressiona é que essas regras são transposições exatas dos axiomas de Kolmogorov para a teoria de probabilidade para o campo da lógica de sentenças. Trocando em miúdos, esse sistema lógico que atribui um grau de confiança para cada proposição é formalmente idêntico ao sistema lógico que associa probabilidades a eventos.

Isso é bem estranho para um físico. Nós estamos acostumados a chamar de probabilidades propriedades físicas do nosso sistema físico em questão. São coisas intrinsecas aos nossos sistemas físicos que dependem apenas da sua dinâmica interna. Qual é a probabilidade de um certo decaimento nuclear ocorrer nos próximos 30 segundos é algo que não deve depender de quanto eu acho confiável que isso aconteça! Qual é a probabilidade daquela partícula visitar tal região do espaço de fase deveria depender apenas da sua dinâmica e não da minha capacidade de aferir confiabilidades!

Acalme-se. Não estamos falando da mesma coisa. É claro que existe uma propriedade física associada à sua partícula que quantifica quão frequentemente ela visita uma certa região do espaço de fases. É a probabilidade frequentista!!! Ou melhor, vamos dar um nome mais adequado a ela: é a freqüência!!! Você não precisa abdicar da objetividade do seu universo para ser bayesiano. O que você precisa fazer é reconhecer que existem duas coisas: as freqüências e as probabilidades, e que as duas podem ser usadas para muitas coisas.

E o que eu ganho com isso? O que eu ganho usando probabilidades como um sistema formal de lógica? Eu ganho uma ferramenta de raciocínio no teorema de Bayes. Na visão levantada pelo teorema de Cox, o teorema de Bayes é a forma correta de atualizar sua confiança ou crença em algo quando obtém novas informações. Isso abre possibilidades. O que isso tem a ver com o aprendizado de sistemas que processam informação (como o cérebro por exemplo) ?  Nosso raciocínio segue a regra de Bayes? Sistemas computacionais que aprendem usando a regra de Bayes são eficientes? (SIM!) O que isso tudo tem a ver com teoria de informação? Onde em física estamos falando de freqüências e onde estamos falando de probabilidades? Isso serve para alguma coisa?

E o que eu perco pensando só em termos de freqüências? Há situações em que as vezes pensamos estar falando de freqüências, quando estamos de fato julgando possibilidades segundo informações prévias – portanto usando uma forma mais evidencial de probabilidade. Quando eu digo, por exemplo, que espero obter com \frac{1}{2} de probabilidade uma certa face de uma moeda quando a lanço para cima, estou falando de freqüências? Se eu estivesse, eu deveria em primeiro lugar perguntar: de onde vem a variabilidade de resultados do lançamento de uma moeda? É claro para mim que a variabilidade está nas condições iniciais. Também é claro que o sistema tem uma série de atratores no seu espaço de configurações – alguns correspondentes à face cara para cima, outros correspondentes à face coroa para cima. É claro ainda que, dada uma boa distribuição de condições iniciais, eu posso sortear igualmente atratores de qualquer um dos dois tipos. Então parece que eu estou falando mesmo de freqüências uma vez que eu estabeleço como eu pretendo jogar  a moeda. Eu espero que de fato metade das órbitas que eu sorteio no processo de lançamento resultem em cara, e metade em coroa e portanto espero que no limite de muitos lançamentos eu acabe terminando com 50% de caras e 50% de coroas. Bastante objetivo e racional.

Mas veja a quantidade de coisas que eu tive que assumir para concluir isso: um lançador “ergódico” e honesto de moedas, uma estrutura do espaço de fases da moeda. Tudo isso para mim soa como informação que eu estou assumindo ao tentar atribuir um grau de confiabilidade para o resultado cara ou coroa. Qualquer pessoa bem treinada pode “quebrar a ergodicidade” da moeda e sortear muito mais caras que coroas. Eu mesmo já consegui, mesmo tendo uma habilidade manual não tão grande.

Uma visão alternativa é: uma vez que a moeda é um objeto simétrico, e eu não tenho informação suficiente para supor uma assimetria do processo de lançamento da moeda, não é razoável dizer que eu não posso ter uma maior confiança injustificada em qualquer dos resultados? Se por acaso eu descobrisse que a moeda está sendo lançada de maneira assimétrica, eu poderia tentar estimar então o quão enviesados serão os resultados através da regra de Bayes

Enfim… eu não pretendia com esse post argumentar de maneira categórica em favor da visão bayesiana, mas levantar curiosidade sobre algumas relações interessantes:

  1. Probabilidades podem ser vistas não como freqüências físicas, mas também como níveis de confiança a respeito de proposições.
  2. Probabilidades podem ser vistas ainda como forma de codificar informação: por exemplo informação sobre a simetria da moeda.
  3. E se probabilidades podem ser vistas dessa forma, é importante ter em mente, quando usamos a palavra, se estamos de fato nos referindo à probabilidade bayesiana ou às freqüências físicas.
  4. Freqüências são difíceis de se definir na prática: eu não posso fazer infinitos repetidos experimentos e portanto terei incerteza quanto às freqüências. Mas incertezas são justamente representadas como probabilidades! Então freqüências e probabilidades são coisas diferentes ou então eu tenho uma definição circular.
  5. Se eu estou falando de informação, o que a entropia de Shannon tem a ver com isso?

Enfim. Isso é tudo um aperitivo para estimular curiosidade para…

… ler mais …

e buscar palavras-chave.

  • Inferência:
  • Probabilidade:
  • Jaynes, Laplace, Cox, Bayesian Inference
  • laws of physics as inference tools
Notas:
  • (*) Este livro do Huygens é dito o mais antigo livro sobre probabilidades pelo livro de cálculo do Tom Apostol. Não fui atrás de nenhuma referências sobre estória da matemática para verificar isso por não pretender fazer nenhuma revisão histórica sobre o assunto mas apenas apresentar minha percepção dessas coisas. Uma fonte sobre a história da probabilidade está aqui.
  • (**) Jaynes, E. T. Probability Theory: The Logic of Science, Cambridge University Press (2003).  Esse livro deveria ser leitura obrigatória para qualquer pessoa que ousasse emitir a palavra probabilidade pelos lábios. Não é meramente um livro-texto sobre teoria de probabilidade. É um livro sobre como raciocinar de forma adequada.  Versão parcial pode ser acessada aqui.
  1. segunda-feira, 23 fev 2009; \09\UTC\UTC\k 09 às 04:29:40 EST

    Rafael,

    Adorei o seu post. Eu considero o debate freqüentista / Bayesiano, ainda que infelizmente não passível de confronto experimental, um dos mais profundos de toda a Ciência. De certa forma, é um outro avatar da crítica de Kant ao determinismo de Newton, no seguinte sentido: em sua “Crítica à Razão Pura”, Kant atentou para o fato de que as equações da Física newtoniana (ou, de um ponto de vista moderno e mais geral, qualquer problema de Cauchy) são incapazes de explicar suas condições iniciais, que tem que ser dadas “ad hoc”. Ou seja, a física (clássica) não pode ser uma descrição “ab initio” da Natureza, da mesma forma que o Bayesianismo, ao contrário do freqüentismo, não descreve como as probabilidades condicionais emergem – temos que “crer” nelas, da mesma forma que temos que “crer” que certos dados iniciais são bons.

    Claro, numa situação determinista podemos usar o fato de que, por exemplo, as equações de Newton são reversíveis no tempo e “reverter” a evolução temporal de modo a encontrar os dados iniciais, mas a que instante? Ao passarmos da mecânica clássica para a mecânica estatística, a hipótese ergódica nos permite adotar uma abordagem “frequentista” e ignorar o problema da escolha de dados iniciais, mas aí toca provar que o sistema físico em questão é ergódico, o que constitui um problemaço de Física Matemática que só foi resolvido em poucos casos.

    Outra manifestação desse debate pode ser encontrada no problema do colapso da função de onda em Mecânica Quântica. Se adotarmos uma descrição dinâmica do processo de medida (via emaranhamento / descoerência), o postulado de colapso de von Neumann se reduz precisamente à regra de Bayes! Ou seja, retornamos ao debate freqüentista / Bayesiano!

    Aqui o problema epistemológico é mais delicado que em mecânica clássica, pois o caráter probabilístico da MQ é intrínseco: ou adota-se uma abordagem freqüentista e esbarra-se no postulado (problema?) do colapso, ou adota-se uma abordagem Bayesiana e esbarra-se no fato de que as probabilidades condicionais são dadas “a priori”, sem uma descrição “ab initio”.

    Pode ser que, pelo menos dentro do escopo da Física, uma solução “pragmática” para o debate possa ser encontrada em cosmologia. Ou não…😉

    []’s!

    • segunda-feira, 23 fev 2009; \09\UTC\UTC\k 09 às 05:27:37 EST

      @ Pedrinho,

      Pra melhorar essa post do Rafael… só mesmo esse seu comentário: quando vi o post do Rafa (agora, 05:00h da matina aqui em Syracuse), seu comentário já estava feito… ler tudo junto foi… carnavalesco !🙂

      []’s!

  2. segunda-feira, 23 fev 2009; \09\UTC\UTC\k 09 às 05:26:00 EST

    Rafa,

    Excelente post!😎

    E me deu uma informação que eu não sabia: O livro do Jaynes — como nunca tive a chance de pegá-lo na mão (e.g., numa livraria) pra dar aquela “sentida” no livro, sempre fiquei com o pé meio pra trás: essas coisas de olhar o livro online… apesar de ser ótimo, tira um pouco daquela “pessoalidade” que vc percebe quando tem o livro nas mãos.😉

    Mas, agora, com essa sua dica… ele definitivamente está na minha lista.🙂

    []’s.

  3. Leonardo
    segunda-feira, 23 fev 2009; \09\UTC\UTC\k 09 às 11:17:01 EST

    Rafa,

    mas você não considera que a forma Bayesiana de pensar também está na Física, mesmo na dinâmica de uma partícula, a partir do momento que nós atribuimos entropia (falta de informação) ao sistema? Afinal, eu poderia dizer que eu associo entropia ao sistema por uma noção de quanto eu acho provável o sistema estar em um estado ou outro dado os vínculos (probabilidade “subjetiva”, era pelo menos assim que o Jaynes chamava nos artigos dele sobre informação & termo… Não sei se ele mudou de opinião depois) .

    E ai entra outra pergunta: dado o conhecimento que se tem atualmente, nós poderíamos dizer que a probabilidade da quântica é freqüentista porque parece não faltar nenhuma informação (se entendi, é isso que você argumenta como uma diferença entre as duas noções de probabilidade). Mas p.ex., pensemos no caso do elétron ser uma partícula indistinguível. Ora, o próton é tratado como indistingüível a energias E < 1 GeV também, todavia cada próton é diferente, já que (talvez) se pode falar de estados diferentes em que se encontram os quarks e gluons dentro do próton. Então, você não considera possível que a noção frequentista da Física seja, na verdade, apenas Bayesiana também, porém não no sentido de variáveis ocultas, mas no sentido de que o sistema em questão pode conter informação “escondida”? Seria sempre então: dado o que eu sei no presente momento, a probabilidade do evento X ocorrer é… onde “o que eu sei no presente momento” contém a informação do modelo matemático que acredita-se válido.

    O que achas?

  4. segunda-feira, 23 fev 2009; \09\UTC\UTC\k 09 às 20:30:06 EST

    Eu diria que nem é preciso falar em falta de informação. Eu iria mais longe. Eu diria que você está sendo bayesiano no momento em que escreve um modelo para a dinâmica. Nesse momento você está escrevendo um prior. Claro que você pode propor um prior que é “sharp”, infinitamente concentrado em uma certa órbita no espaço de fases.

    Até que ponto uma teoria quântica de campos por exemplo não é um tipo de modelo para se atribuir prior probabilities para certos processos eu não sei dizer. É uma coisa que eu acho muito elusiva, mas eu não consigo refrear o impulso de que parece que tem algo por trás disso.

    O Ariel Caticha tem uma rederivação dos teoremas de Cox em que ele relaxa a hipótese de números reais e usa números complexos. E ele chega em uma álgebra de amplitudes similar à quântica. Eu acho interessante, mas ainda não é uma coisa completa.

    Eu acho que pode ser que em física sempre estejamos falando sobre probabilidades bayesianas e nunca sobre frequencias. Eu acho que isso é bem provável. Não sei. Sinceramente ainda tenho muito o que fuçar sobre isso.

    Tem uma afirmação do Kolmogorov que me intriga. Ele diz que deviamos olhar para a teoria de probabilidades como uma extensão da teoria da informação e não o contrário. Para ele teoria de informação é mais fundamental do que probabilidade.

    O Nestor e o Ariel ambos usam um jargão que sugere que probabilidades são formas de representar nosso estado de conhecimento sobre o mundo. Eu concordo com eles. Enfim.

    • terça-feira, 24 fev 2009; \09\UTC\UTC\k 09 às 03:24:28 EST

      Gozado… pra mim, num certo sentido, essa estória sempre deixa um gostinho de “Teorema de Gódel” na boca (aquele chamado de “aftertaste”)… Parece que Teoria da Informação é uma forma de codificar nossa ignorância, assumindo explicitamente que há “ilhas de verdades” que nunca poderam ser acessadas pelos modelos sendo usados.
      😕

      []’s.

  5. quinta-feira, 26 fev 2009; \09\UTC\UTC\k 09 às 21:53:43 EST
  1. No trackbacks yet.

Deixe uma resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

%d blogueiros gostam disto: