Arquivos

Arquivo para a categoria ‘stat’

As cidades mais científicas do mundo…

sábado, 19 mar 2011; \11\UTC\UTC\k 11 Deixe um comentário

O Physics arXiv blog publicou uma matéria interessante. Mas, antes de falar da notícia, eu tenho que avisar que não estou entre os maiores fãs desse blog — na verdade, minha opinião flutua bastante: alguns artigos são bons, outros ficam bem longe disso… mas, em todos os casos, o Physics arXiv blog é bem enviesado (a seleção dos tópicos que aparecem por lá deixa isso claro além de qualquer dúvida, isso pra não falar sobre o nível das discussões, sempre bem ‘passageiro’) — e isso sempre me incomoda muito.

De qualquer forma, e sem mais delongas… eis o artigo: Mashups Reveal World’s Top Scientific Cities. O original pode ser lido diretamente nos arXivs: Which cities produce worldwide more excellent papers than can be expected? A new mapping approach—using Google Maps—based on statistical significance testing.

A discussão no ‘Physics arXiv blog’ não passa de “mais do mesmo”: ciênci-o-metria. Infelizmente, perde-se a chance de se avaliar o artigo propriamente dito, escolhendo-se apenas notificar a “mensagem” contida no mesmo. Parece até mesmo um órgão de Relações Públicas, apenas alardeando e propagandeando.

O artigo propriamente dito é de tão baixa qualidade que a vontade que se tem é de apenas se repetir o adágio invisível, que diz que os artigos dos arXivs não escritos em [La]TeX são sempre de qualidade duvidosa — pior ainda quando são escritos em Word, ou algum editor de pior qualidade ainda; sem identação apropriada (quem ainda usa ‘identação à esquerda’, ao invés de ‘justificado’? :razz:): via de regra, a falta de atenção a esse tipo de detalhe num artigo costuma refletir a baixa qualidade do material escrito. Mas, como eu disse, esse é apenas um “adágio invisível”, uma unspoken rule, que não se vê, não se ouve, e cujo perfume não se sente. :oops: :roll:

De qualquer forma, a máquina de salsicha continua na ativa: como se mensurar o imensurável: quais trabalhos científicos têm mais qualidade, quais são mais dignos de fomento, quais têm mais impacto na comunidade?

Todas essas são questões relevantes, claro, mas uma lição que a Ciência tem que aprender com a Arte é que a medição da criatividade é algo estupidamente difícil. Aliás, nem é preciso se apelar para o lado mais humanista desta questão: basta apenas se aprender Sistemas Dinâmicos corretamente (o que, de fato, parece ser algo tão complicado quanto nos dias de hoje). A razão deste meu argumento é bem simples: como se pode avaliar algo que possui resultados de médio a longo prazo (sem esperarmos por tal prazo)?

A resposta é simples: não é possível se avaliar nada que dependa de médio a longo prazo sem esperarmos tal prazo passar e medirmos o resultado efetivo do que se deseja avaliar. Ou seja, precisamos esperar o tempo passar pra podermos sequer ter a chance de sermos justos nesta empreitada! Ou seja, falando um pouco mais rigorosamente, é preciso termos acesso a todos os dados para podermos conhecer o problema de modo completo.

Infelizmente, com a idéia de que as Universidades devem ser “profissionalizadas” (sabe-se lá o que isso significa :razz:) e, mais ainda, de que toda a empreitada científica deve ser “profissionalizada”, todo esse tipo de questão métrica se torna relevante: como se pode escolher aquilo que há de “melhor” para se fomentar? Assim como numa empresa, numa linha de montagem, é preciso haver alguma forma de “selo de garantia”, alguma forma de “controle de qualidade”. (Note que não estou falando do processo de ensino de estudantes, mas sim de pesquisa científica — falar de ensino por si só abriria outra Caixa de Pandora!)

Entretanto, ao contrário de empresas, fábricas e linhas de montagem, Universidades e Pesquisa Científica [fundamental] possuem planos de ação, missões, de longo prazo, de longuíssimo prazo: há universidades com cerca de 1000 anos de existência: quantas empresas, fábricas e linhas de montagem podem dizer o mesmo?! A própria Revolução Industrial tem apenas cerca de 250 anos!

Felizmente ou não, esta é a natureza da busca pelo conhecimento, e este é o papel da Ciência, principalmente daquela dita fundamental (que costuma dar frutos bem distante das aplicações do dia-a-dia). Por outro lado, hoje em dia, na nossa Era da Informação, é possível se converter algo tão abstrato quanto Teoria dos Grafos em compiladores e navegadores. Este é o caminho da Ciência e do Conhecimento: a menos que se tenha acesso a toda informação, só se pode ver aquilo que está no curto prazo… :wink:

Isso tudo só server pra fazer com qua a analogia posta acima — entre Sistemas Dinâmicos e Funções de Partição — fique ainda mais clara aos olhos: quando vc tem acesso à Função de Partição dum problema, vc tem em mãos toda a informação necessária pra resolver o problema completamente; no caso de Sistemas Dinâmicos, como o nome indica (dependência temporal), é muito difícil de se calcular o que vai acontecer no futuro (não-linearidades, caos, etc). E, no final das contas, tudo que se quer medir são os Fenômenos Críticos, as Transições de Fases, e as Propriedades de Escala do sistema em questão.

A mensagem é clara: sem uma visão mais global é impossível se poder qualificar e medir justamente um trabalho científico. Incontáveis exemplos, de Einstein à Wilson, todos nobelistas, jamais teriam os “índices” e os “fatores de impacto” necessários, hoje, para serem contratados em regime de ‘tenure track’ — isso é claro pra qualquer um que já tenha feito o exercício mental requerido por esta questão.

Algumas empresas e alguns nichos industriais já descobriram esse fato básico da natureza humana… aliás, no âmbito de Sistemas Dinâmicos tudo isso tem nome: Cisne Negro e Dragões Reis. :twisted:

Infelizmente, parece que esse aprendizado e essa mensagem ainda não chegaram na academia — um fato bem irônico, posto que a academia é o lugar onde tais idéias (transições de fase, cisne negros e dragões reis) nasceram! :oops: Então, por enquanto, nós ainda vamos nos debelando com índices e fatores de impacto e outras bobeiras afins. Eu gostaria que fosse feito um estudo com as revistas de maior impacto, procurando-se saber quantos dos artigos publicados nestas revistas deram origens a novos caminhos e novos ramos em seus respectivos campos da Ciência. Taí uma perguntinha bem capiciosa e que por motivos “mágicos” ainda ninguém teve a idéia de responder… :roll: (Diquinha: eu não me lembro de Einstein ter publicado na Nature nem na Science, então nem as Relatividades nem a Mecânica Quântica (ou Teoria Quântica de Campos) tiveram suas origens nas revistas ditas de alto impacto; o mesmo vale, por exemplo, para as chamadas Transições Quânticas de Fase: o Kosterlitz não publicou numa revista de alto impacto — aliás, porque ninguém pergunta pro Kosterlitz o que ele pensa disso tudo, afinal de contas ele deu origem a todo um ramo da Física, logo deve saber o que significa “alto impacto científico”, não?! :razz:)

Pra finalizar, vou apenas me resignar a dizer que a análise estatística feita no tal artigo é de baixa qualidade, não apenas porque não leva em conta os cisnes negros e os dragões reis, mas também porque não leva em conta tantos outros métodos que a tornariam bem mais robusta. É uma pena, porque os “efeitos visuais”, os “efeitos especiais”, do artigo são bem bonitinhos… [bonitinhos mas ordinários! :razz:]

[]‘s.

Atualizado (2011-Mar-19 @ 11:15h EDT): Ah… a ironia do destino. Assim que acabei de escrever o post acima, trombei no seguinte livro: Little Bets: How Breakthrough Ideas Emerge from Small Discoveries. O ponto do livro é clararamente exposto no título, mas também já foi feito por Asimov,

“The most exciting phrase to hear in science, the one that heralds new discoveries, is not ‘Eureka!’ (I’ve found it!), but ‘That’s funny…’”

Isaac Asimov.

Experimentação, passo-a-passo, erros e mais erros… é assim que se faz Ciência: a idéia de que pesquisa e progresso é feito através duma seqüência de ‘acertos’, de passos corretos, não poderia estar mais distante da realidade… c’est la vie

A semana nos arXivs…

quinta-feira, 18 mar 2010; \11\UTC\UTC\k 11 4 comentários

Como vcs devem ter notado, já faz um tempo que não tenho conseguido publicar minha lista de artigos dos arXivs por aqui. Não que eu tenha deixado de ler ou de selecionar meus artigos preferidos nos arXivs — quem acompanha meu Google Buzz ou Google Reader sabe que isso não é verdade (eu leio os arXivs religiosamente todo santo dia :cool: ) —, mas o tempo anda cada vez mais curto pra vir aqui e publicar a lista (e o WordPress ainda não fez o favor de instalar o Markdown por aqui, o que é realmente um empecilho pra quem não curte muito o “Visual Editor” :razz: ).

De qualquer maneira, agora com o advento do Google Buzz e suas conexões com o Google Reader, a “vida digital” tem mudado um pouco de ângulo… então, eu pensei em dar um drible-da-vaca nessa situação: por que não fazer listas no Twitter?! Basta marcar cada tweet com um #hashtag apropriado, e tudo fica resolvido. :cool:

Os #hashtag são evidentes, então já vou linkar direto para os ‘saved searches’ deles,

Assim fica fácil: é até possível se inscrever nos feeds de cada um dos #hashtag! :cool:

Vamos ver se essa nova empreitada alça vôo… :twisted:

Informação, entropia, geometria e teorias de campo médio.

domingo, 15 nov 2009; \46\UTC\UTC\k 46 1 comentário

(eu perdi um sinal em algum lugar por aí, se você achar por favor indique no comentário)

Este post é uma espécie de continuação do post sobre Lógica Bayesiana, ainda que não exatamente. Mas estamos no mesmo espírito. Lá eu discuti a respeito de como raciocinar sobre informação incompleta. Entretanto, quando há informação incompleta uma coisa é certa: com o tempo podemos ganhar informação. E se há nova informação relevante para saber sobre algo, a probabilidade que atribuo – no sentido do post anterir, o registro quantitativo da minha crença racional sobre esse algo – deve certamente mudar.

A grande pergunta então parece ser: como eu devo mudar minha atribuição de probabilidades – minha crença racional – quando adquiro nova informação? Bem, isso sugere uma forma de quantificar informação: se informação causa mudança na minha atribuição de probabilidades, então se eu puder medir quão longe estão minhas atribuições prévia (prior, antes da nova informação) e posterior (posterior, depois da nova informação), então poderei medir quão importante é essa nova informação. Vamos fazer como antes então e propor uma medida de informação e vinculos que nos permitam restringi-la a uma medida única(1).

Leia mais…

Lógica Bayesiana

sexta-feira, 13 nov 2009; \46\UTC\UTC\k 46 6 comentários

Todo mundo conhece a lógica clássica, aquela segundo o qual proposições são julgadas verdadeiras ou falsas através de certos procedimentos de consistência. Mesmo que não conheça as regras da lógica formal, certamente já as usou e saberia reconhece-las. Poucos nunca ouviram o tal exemplo sobre a mortalidade ou não de Sócrates.  A lógica formal nos fornece uma forma de raciocínio: seguindo suas regras básicas eu consigo formas de, de posse de afirmações que eu julgo verdadeiras,  julgar a validade de outras. Mais ainda, na lógica não há espaço para ambiguidade e meia-certeza — o valor de uma proposição é verdadeiro ou falso, fim de papo. E note: ainda que eu não consiga determinar esse valor, está estabelecido desde o princípio que ele é verdadeiro ou falso.

Certamente isso fornece ferramentas úteis mas há uma grande limitação: como eu deveria raciocinar se eu não possuo informação completa sobre algo? A lógica formal não serve para isso. Eu não posso fazer perguntas como: “dado que eu acho a proposição P1 maaais ou menos certa, qual é o valor de P2?”. Há formas de lidar com essa questão de informação parcial? Isso é o que os probabilistas da escola bayesiana se perguntaram e o que eu pretendo dizer aqui é como responder positivamente essa pergunta.

A grande pergunta inicial é: como eu quantifico informação incompleta sobre algo? Em outras palavras, como eu digo a você quão fortemente eu acredito que algo é verdade? Uma vez determinada essa resposta a próxima pergunta é: como eu devo proceder, uma vez estabelecida o valor de uma proposição, para determinar o valor de outra proposição derivada dessa? Essas são as duas perguntas que eu vou tentar explicar como são respondidas pela teoria bayesiana.

Então para começo de conversa vamos estabelecer como se mede o grau de plausibilidade de algo (A. Caticha gosta de chamar de “degree of rational belief”, eu concordo com ele). Para cada proposição vamos criar uma função que associa a cada outra proposição um número real — a princípio irrestrito:

\Phi_{p} : \mathcal{P} \to \mathcal{R}, \forall p\in\mathcal{P}.

Aqui, \mathcal{P} é a coleção de proposições e \mathcal{R} o conjunto dos reais. Ao número \Phi_{P_1}(P_2) vamos chamar plausibilidade de P_2 no ambiente lógico (gerado por) P_1. Ou seja, esse número mede o quanto eu acredito em P_2 assumindo P_1 como “axioma”. Quanto maior o número maior minha crença.

Bem, não faz muito sentido apenas fazer isso. Preciso de algumas regras básicas para essa função. Essas regras devem me garantir que quando eu faço o “limite de certeza absoluta” eu recobre os resultados da lógica formal. Essas regras são chamadas axiomas de Cox e são bem simples e intuitivas. Melhor ainda: elas determinam \Phi_{p} quase univocamente (vamos entender esse quase adiante). Os axiomas de Cox são os seguintes:

A plausibilidade da negação de uma proposição é determinada assim que eu conheço a plausibilidade da própria proposição. Ou seja(2):

\Phi_{A}(\neg B) = F(\Phi_{A}(B)).

Parece razoável: quanto mais acredito em B, menos acredito em \neg B.  Note que há aqui a afirmação implícita de que a função que liga a plausibilidade de uma proposição com a plausibilidade da sua negação é única e independe de qual proposição estamos falando, nem do “ambiente lógico”.

A operação de negação é idempotente – ou seja, se eu aplicar a negação duas vezes, devo recuperar a proposição original(\neg \neg B = B). Essa propriedade nos fornece uma equação funcional para F(\cdot):

\Phi_{A}(\neg \neg B) = \Phi_{A}(B),

F(\Phi_{A}(\neg B)) = \Phi_{A}(B),

F(F(\Phi_{A}(B))) = \Phi_{A}(B).

Ou seja, para todos os valores u pertencentes à imagem de \Phi_{\cdot}(\cdot) devemos ter que:

F(F(u)) = u.

Ou seja, a função F(⋅) é idempotente também. Vamos reservar essa propriedade de F(\cdot) e prosseguir para o segundo axioma de Cox:

A plausibilidade da conjunção de duas proposições A\wedge B dada uma terceira proposição C (ou seja, \Phi_{C}(A \wedge B) ) deve depender apenas da plausibilidade de:

(1) plausibilidade de A dado C: \Phi_{C}(A);
(2) estabelecida a plausibilidade de A, quão plausível é B dado C : \Phi_{C\wedge A}(B).

Ou seja, estou assumindo a existência de mais uma “função universal”:

\Phi_{C}(A \wedge B) = G( \Phi_{C}(A) , \Phi_{C\wedge A}(B) ).

Também parece razoável: quando quero determinar se duas proposições são simultaneamente verdadeiras, estabeleço primeiro a validade da primeira e depois, dada a primeira, estabeleço a validade da segunda. É um pouco mais difícil tirar uma equação funcional para G(⋅ , ⋅) mas não é impossível. Considere a expressão:

\Phi_{B}(A_1 \wedge A_2 \wedge A_3).

Há duas formas diferentes de decompor essa expressão usando a função G(\cdot,\cdot): lembre-se que o conectivo \wedge é  associativo e comutativo e portanto:

\left(A_1 \wedge A_2\right) \wedge A_3 = A_1 \wedge \left(A_2 \wedge A_3\right).

Uma inferência consistente exige que essas duas formas dêem o mesmo resultado(3). Portanto:

G( \Phi_{B}(A_1 \wedge A_2) , \Phi_{B\wedge A_1 \wedge A_2}(A_3) ) = G(\Phi_{B}(A_1) , \Phi_{B\wedge A_1 }( A_2 \wedge A_3) ).

Aplicando novamente a definição de G(\cdot,\cdot):

G( G(\Phi_{B}(A_1),\Phi_{B \wedge A_1 }( A_2)) , \Phi_{B\wedge A_1 \wedge A_2}(A_3) ) = G(\Phi_{B}(A_1) , G(\Phi_{B\wedge A_1 }( A_2),\Phi_{B\wedge A_1 \wedge A_2 }( A_3)) ).

Se isso deve valer para quaisquer proposições então novamente tenho um equação funcional válida para quaiser u, v e w na imagem de \Phi_{\cdot}(\cdot)(4):

G(u,G(v,w)) = G(G(u,v),w).

Ou seja: a função G(⋅ , ⋅) também é associativa.

Um leitor apressado deve se perguntar nesse momento: e daí que você tem duas equações funcionais para essas funções arbitrárias F(⋅) e G(⋅ , ⋅) que você postulou do chapéu? O ponto é que essas duas equações funcionais generalíssimas definem univocamente estrutura de inferência! Sério mesmo. Não to brincando. E você conhece essa estrutura.

O coração da questão deriva de dois teoremas devidos a Cox. Para conseguir o primeiro teorema vamos usar o seguinte resultado (não vou provar aqui porque a prova é extensa e é encontrada na referência [2]).

Teorema da função associativa: dada qualquer função associativa G(u,v), existe uma função monotônica g(⋅) tal que:

g(G(u,v)) = g(u) g(v)

Isso é muito conveniente pois se escrevermos de novo a definição de G(\cdot,\cdot), temos:

\Phi_{C}(A \wedge B) = G( \Phi_{C}(A) , \Phi_{C\wedge A}(B) ),

e usarmos o teorema da função associativa, então obtemos:

g\left(\Phi_{C}(A \wedge B)\right) = g\left(\Phi_{C}(A)\right) g\left( \Phi_{C\wedge A}(B) )\right)

E agora posso simplesmente regraduar minha definição de plausibilidade. Uma vez que g() é monotônica, e portanto vai preservar a ordem com que eu classifico coisas como mais ou menos plausíveis, eu posso redefinir plausibilidade como:

\phi(A|B) = g(\Phi_{B}(A))

Mudei ligeiramente a notação para que o leitor possa apreciar melhor o que acontece com a antiga expressão que define G(⋅ , ⋅) com essa nova definição de plausibilidade:

\phi(A \wedge B | C) = \phi(B|C \wedge A) \phi(A|C)

Mas veja se essa não é a boa e velha regra do produto da teoria de probabilidades!!! Usando a comutatividade de \wedge eu ainda posso notar que:

\phi( B | C \wedge A) = \dfrac{\phi (A|C \wedge B) \phi (B|C)}{\phi (A|C)},

e essa não é nada mais que a regra de Bayes da teoria de probabilidades!

Mas calma, a nova função plausibilidade \phi(\cdot| \cdot) ainda não é uma probabilidade: não basta seguir essas duas regras, há uma série de condições na teoria axiomática de probabilidades para chamar algo com esse nome e a nossa função ainda não satisfaz todas. Tudo bem: ainda nos falta estudar as propriedades de F(\cdot)! Quem sabe isso ajude.

Novamente precisamos criar uma situação em que a demanda por consistência delimite as propriedades da função plausibilidade. Por exemplo temos a seguinte situação(5):

\phi(A \wedge B | C) = \phi(B|C \wedge A) \phi(A|C) =F\left(\phi(\neg B|C \wedge A)\right) \phi(A|C) .

Mas, pela regra do produto que deduzimos acima:

\phi(\neg B |C \wedge A) = \dfrac{\phi(A \wedge \neg B |C)}{\phi(A|C) }

e então:

\phi( A \wedge B | C) =\phi(A|C) F \left( \dfrac{\phi(A \wedge \neg B |C)}{\phi(A|C) }\right)

Mas lembre-se que a conjunção A \wedge B é simétrica, portanto toda essa expressão fica invariante se eu trocar A por B. E assim:

\phi(A|C) F \left( \dfrac{\phi(A \wedge \neg B |C)}{\phi(A|C) }\right)=\phi(B|C) F \left( \dfrac{\phi(B \wedge \neg A |C)}{\phi(B|C) }\right)

Se isso deve valer independente de quais são as proposições A, B e C, então eu posso, por exemplo, escolher uma particular proposição \neg B = A\wedge D. Note que com essa escolha temos as seguintes identidades: A\wedge \neg B = \neg B\neg A \wedge B = \neg A. Então:

\phi(A|C) F \left( \dfrac{\phi(\neg B |C)}{\phi(A|C) }\right)=\phi(B|C) F \left( \dfrac{\phi(\neg A |C)}{\phi(B|C) }\right)

\phi(A|C) F \left( \dfrac{F\left(\phi( B |C)\right)}{\phi(A|C) }\right)=\phi(B|C) F \left( \dfrac{F\left(\phi(A |C)\right)}{\phi(B|C) }\right)

O que finalmente resulta em mais uma equação funcional para F(⋅):

uF \left( \dfrac{F\left(v\right)}{u }\right)=v F \left( \dfrac{F\left(u\right)}{v }\right)

Novamente sem demonstrar, vou simplesmente afirmar que a solução mais geral dessa equação, submetida à condição de idempotência que deduzimos acima, é dada por:

F(u)^\alpha=(1-u^\alpha).

Note que para um \alpha qualquer isso restringe o dominio da função F(⋅), e portanto a imagem da função \phi(\cdot|\cdot), ao intervalo [0,1]. E veja o que acontece então com a regra que define F(⋅):

\phi(\neg A | B) ^\alpha + \phi(A|B)^\alpha = 1

Uma nova regraduação permite definir uma função Pr(A|B) =\phi(A|B)^\alpha com as seguintes propriedades:

  • Pr(A|B)\in[0,1]
  • Pr(A|B) + Pr(\neg A|B) = 1
  • Pr(A_1\wedge A_2|B) = Pr(A_2| B \wedge A_1)Pr(A_1 |B)

Esses não são exatamente os axiomas de Kolmogorov para a teoria de probabilidades mas… close enough para um post de blog. Isso tudo pode ser refinado com o devido grau de rigor matemático para satisfazer os exatos axiomas da teoria da probabilidade.

O que foi obtido com essa massagem matemática toda?

  1. É possível definir um sistema lógico de inferência baseado em informação incompleta e incerteza que atribui uma plausibilidade a cada proposição.
  2. Esse sistema lógico é único, a menos de uma regraduação monotônica da função plausibilidade. Isso faz com que uma ordenação segundo a plausibilidade seja única, uma vez que regraduações monotônicas não alteram essa ordem.
  3. A função plausibilidade satisfaz todas as regras que uma probabilidade legitima deve satisfazer (aqui não provei isso, mas apenas mostrei algumas coisas – para fazer isso rigorosamente precisa-se definir uma “sigma-álgebra de proposições”).

E qual é a utilidade prática disso? Bem… o mundo está cheio de situações de inferência baseada em informação incompleta. Particularmente, todo problema que depende de dados empíricos é, em essência, um problema dessa natureza e todo problema de inferência em ciência é assim. Uma vez que o único sistema de inferência para informação incompleta – como aí mostrado – é aquele que usa as regras  da teoria da probabilidade é razoável se supor que efetivamente usar essas regras explicitamente oferece vantagens sobre os métodos estatísticos ad hoc frequentemente usados, como os métodos de mínimos quadrados e outras formas de fitting de dados. Na verdade esse processo de inferência vai muito além disso – ele oferece ferramentas de modelagem física, de interpretação de modelos, de planejamento de experimentos e ainda mais. Mas disso eu vou tratar em um próximo post.

Notas:

(1) — Se você se interessa por nomes, o que se segue é devido a um certo número de pessoas — Edwin Jaynes, Harold Jeffreys e particularmente Richard Cox.

(2) — Estou usando os seguintes simbolos para os conectivos lógicos:

  • \neg — negação: \neg \mbox{Verdadeiro} = \mbox{Falso}
  • \wedge — o conectivo E (conjunção): \mbox{Verdadeiro} \wedge \mbox{Falso} = \mbox{Falso}
  • \vee — o conectivo OU (disjunção inclusiva): \mbox{Verdadeiro} \vee \mbox{Falso} = \mbox{Verdadeiro}

(3) — Lembre-se: queremos um sistema racional de atribuir um grau de confiança a algo.

(4) — Que pode ser obtida fazendo: u = \Phi_{B}(A_1), v = \Phi_{B \wedge A_1 }( A_2)) e w = \Phi_{B\wedge A_1 \wedge A_2 }( A_3).

(5) Note que eu tinha definido F(⋅) para a função original \Phi_{A}(B). Entretanto fizemos uma regraduação monotônica então nada me impede de abusar da linguagem e redefinir F(x) \to F(g(x)).

Referências:

[1] E. T. Jaynes, Probability Theory, the Logic of Science.
[2] A. Caticha, Lectures on Probability, Entropy, and Statistical Physics — arXiv:0808.0012v1 [physics.data-an]
[3] A. Caticha,  Quantifying Rational Belief — arXiv:0908.3212v1 [physics.data-an]

A semana nos arXivs…

quinta-feira, 7 mai 2009; \19\UTC\UTC\k 19 4 comentários


Lies, damned lies, and statistics…

sexta-feira, 10 abr 2009; \15\UTC\UTC\k 15 5 comentários

Pra quem não conhece a frase que dá título a esse post, eis a história, Lies, damned lies, and statistics.

O objetivo é ilustrar o infâme fato de que correlação não implica causação. Pra quem está na corda bamba, correlação é uma medida da força e direção duma relação linear entre duas variáveis aleatórias; enquanto que causalidade é uma relação de causa-efeito entre dois eventos distintos (um sendo conseqüência do outro) — e, em geral, a falácia lógica associada a esse fato é chamada de non sequitur, que acontece quando uma determinada conclusão não segue logicamente das hipóteses do argumento.

Os artigos a seguir, Department of awful statistics e Mexican Lemons To the Rescue, comentam sobre esse assunto de modo bastante claro, contextualizando com alguns fatos políticos…

Em particular, o gráfico abaixo costuma deixar esses “detalhes” bem claros,

Quanto mais limões, menos acidentes automotivos…

Quanto mais limões, menos acidentes automotivos…

Do lado mais humorístico da coisa…

Correlação não implica causação, mas dá-lhe um belo dum chacoalhão sugestivo e furtivo, enquanto sussura olhe ali.

Correlação não implica causação, mas dá-lhe um belo dum chacoalhão sugestivo e furtivo, enquanto sussura "olhe ali".

E pra quem gosta de “piratas” e de “aquecimento global”, é muito importante entender como um influencia o outro, Pirates and global warming.

:twisted:

Pra fechar, eu recomendo o vídeo abaixo, extremamente informativo,

[]‘s.

Mecânica Estatística ou “como jogamos informação fora?”

quarta-feira, 25 fev 2009; \09\UTC\UTC\k 09 6 comentários

Uma pergunta me intriga mais que qualquer outra: como jogamos fora informação? Como selecionamos que pedaço de informação é mais crítico que outro?  Não estou me referindo a técnicas de memorização nem a interpretação de texto. Estou falando de física.

Uma grande área da física denominada Física Estatística é muitas vezes descrita como o estudo de como partimos da dinâmica microscópica de um sistema físico e descobrimos como ele se comporta macroscópicamente no limite termodinâmico – ou seja, no limite de muitos e muitos graus de liberdade. Quando fazemos isso partímos de um espaço de configurações com um certo número (grande) de graus de liberdade microscópicos:

\{x_{1},x_{2},\ldots,x_{N}\}      N\rightarrow\infty,

para um diagrama de fases macroscópico com um número pequeno de variáveis:

\{\theta_{1},\ldots, \theta_{p}\}.

É fácil ver que quantidade de informação que pode ser armazenada por p-variáveis, localizadas num volume \Omega_{p} p-dimensional, é da ordem de \log_{2}(\Omega_{p}) bits e portanto aproximadamente linear em p. Isso levanta a seguinte questão: para onde foi toda a informação contida nas variáveis x_{k} ???

Se as variáveis \theta_{k} são uma descrição macroscópico (N\rightarrow\infty) suficiente, a informação contida em x_{k} é tremendamente redundante?

Isso parece ser parte da resposta. Imagine novamente o exemplo que explorei no meu último post, da moeda lançada para cima. Naquela ocasião eu descrevi o espaço de configurações microscópico da moeda como uma série de atratores, caracterizados “macroscópicamente” por uma variável binária “cara” ou “coroa”. Para o que nos interessa com relação a várias perguntas macroscópicas, basta saber a que face para cima cada configuração corresponde. A mesma redução tremenda da quantidade de informação necessária é observada: a informação contida numa quantidade aparentemente infinita de órbitas possíveis para o moeda é resumida em apenas um mero bit: “cara” ou “coroa”.

Um sistema de spins (sem desordem – modelo de Ising) é algo similar. Da quantidade enorme de informação que podemos armazenar nas 2^N possíveis configurações de uma rede de spins (lembre-se sempre que no limite termodinâmico N\rightarrow\infty), apenas dois parâmetros interessam macroscópicamente para determinar todos os estados  macroscópicos – os acoplamentos K e H (alternativamente – a temperatura e o campo magnético, entropia e magnetização, ou qualquer outro par de variáveis termodinâmicas desse sistema).

O grupo de renormalização quando aplicado ao modelo de Ising oferece alguma luz: K e H são os dois únicos acoplamentos associados a operadores relevantes no ponto crítico desse modelo. Meu conhecimento limitado sobre o assunto entretanto não me permite enxergar mais do que isso… :( Eu ainda tenho muito o que estudar sobre isso (inclusive referências são bem vindas).

Então as perguntas são: como determinamos p – o número de variáveis adequadas para o tratamento microscópico de um sistema microscópico qualquer – e como, sabendo p, determinamos quais variáveis são as adequadas?

Na teoria de vidros de spin um problema similar surge. É fácil no modelo de Ising chutar quais são as variáveis relevantes macroscópicamente pelo feeling que temos de sistemas magnéticos: a energia livre tem dois mínimos que podem ser selecionados com a aplicação de um campo magnético. Em sistemas desordenados é beeeeem mais complicado. A energia livre tem um número infinito de mínimos, nem todos eles estáveis e pontos críticos – pontos em que um mínimo se multiplica em dois ou mais mínimos – ocorrem em continuamente para todos os valores abaixo de uma certa temperatura. A técnica de réplicas oferece uma forma de encontrar o parâmetro de ordem: a distribuição de overlaps. Note que o parâmetro de ordem é uma função, com infinitos graus de liberdade. Ela carrega bem mais informação que os dois acoplamentos do modelo de Ising.

Claro! Um vidro de spin é muito menos redundante. Há uma estrutura muito mais complexa de estados estáveis, que precisa de um número muito maior de parâmetros macroscópicos.

Isso tudo que eu falei é uma coisa muito superficial e muito geral. Eu não sei como responder a pergunta que eu coloquei para uma dinâmica qualquer. Eu percebo que o grupo de renormalização tem algo a dizer sobre isso, eu percebo que a teoria de réplicas tem algo a dizer sobre isso, percebo que a teoria da informação tem muito a dizer sobre isso, mas não consigo enxergar nenhum princípio agregador que torne universal a técnica de encontrar o menor número de variáveis que representa adequadamente um sistema macroscópico.

As vezes eu acho que a resposta já existe e eu estou aí vacilando. A falta de uma formação mais sólida em mecânica estatística mais moderna, sistemas dinâmicos e teoria da informação me atrapalha – até 1 ano atrás eu nem imaginava estar trabalhando com essas coisas.

Talvez não. Talvez a resposta não exista ainda. Se não existir é uma boa chance de se fazer contribuições interessantes à física estatística e à teoria da informação.

Probabilidade?

domingo, 22 fev 2009; \08\UTC\UTC\k 08 7 comentários

O conceito de probabilidade, e das grandezas associadas com a probabilidade, é uma dessas questões na ciência que levantou polêmicas, gerou inimizades e fomentou discussões das mais acaloradas. Como outros conceitos importantes, a idéia de probabilidade esteve no ar por séculos, antes que as primeiras construçoes matematicamente mais formais fossem produzidas. Já em 1657 foi publicado o Libellus de Ratiociniis in Ludo Aleae (livro de raciocínios sobre os jogos de azar) por Christian Huygens(*). Nessa época o foco da teoria das probabilidades era exatamente esse: como eu devo apostar de forma racional para ter lucro. Pode parecer um raciocínio talvez mundano ou indigno demais para alguns, ou algo que demonstra qualidades que muitos idealistas não esperam encontrar nos seus grandes ícones da história da ciência. Mas o fato é que esse foi um tema que preocupou as mentes mais brilhantes do século XVII em diante. Pascal, os Bernoulli, de Moivre, Euler e Laplace são alguns poucos dos nomes que investigaram sobre essa ciência indigna da aposta.

E então, que raios é uma probabilidade?

Duas coisas são normalmente subentendidas quando a palavra probabilidade é usada no nosso discurso cotidiano – e isso se reflete também no discurso científico. Quando eu digo que é muito provável que você me encontre na lanchonete do IF-USP nas segundas feiras as 14 horas quero dizer que na maior parte das segundas-feiras em que você me procurar nesse local e horário eu estarei lá . Estou fazendo uma afirmação sobre a freqüência de um certo evento num certo universo de situações repetitivas. Estou sendo frequentista.

Quando eu digo que é muito provável que sua namorada goste do anel que você comprou para pedí-la em casamento não estou fazendo o mesmo tipo de afirmação. Não estou dizendo a você que se procurar dar o presente para ela repetidas vezes, vai ter sucesso na maioria delas. Estou dizendo que, dado o conhecimento que eu tenho da sua namorada e do gosto dela por anéis, tenho um elevado grau de confiança no sucesso do anel como presente. Estou quantificando minha crença sobre algo de forma racional. Estou sendo bayesiano.

Thomas Bayes foi um clérigo inglês do século XVIII, que descobriu um teorema na teoria de probabilidades cuja interpretação divide até hoje as pessoas que usam probabilidades em seu cotidiano. O teorema de Bayes diz simplesmente que:

P(A|B) = \frac{P(B | A)\, P(A)}{P(B)}

Onde P(A|B) quer dizer a probabilidade do conjunto de eventos A tomando-se o conjunto de elementos B como dados. Um frequentista vê o teorema de Bayes como um truísmo derivado apenas de propriedades óbvias de conjuntos. Um bayesiano vê como uma ferramenta de raciocínio.

Suponha que desejássemos um método de estabelecer o quão confiamos em uma proposição, dado que confiamos em uma outra com um certo grau. Ou seja, queremos estabelecer um número C(P1|P2) que nos diz o quão confiável é a afirmação P1, dado que eu confio na afirmação P2. Há uma série de coisas que nós gostariamos que esse grau de confiabilidade respeitasse. É possível mostrar (**) que um conjunto bem razoável de exigências resulta em uma definição unívoca para as regras matemáticas que nossos números C(P1|P2) devem satisfazer (teorema de Cox). O que impressiona é que essas regras são transposições exatas dos axiomas de Kolmogorov para a teoria de probabilidade para o campo da lógica de sentenças. Trocando em miúdos, esse sistema lógico que atribui um grau de confiança para cada proposição é formalmente idêntico ao sistema lógico que associa probabilidades a eventos.

Isso é bem estranho para um físico. Nós estamos acostumados a chamar de probabilidades propriedades físicas do nosso sistema físico em questão. São coisas intrinsecas aos nossos sistemas físicos que dependem apenas da sua dinâmica interna. Qual é a probabilidade de um certo decaimento nuclear ocorrer nos próximos 30 segundos é algo que não deve depender de quanto eu acho confiável que isso aconteça! Qual é a probabilidade daquela partícula visitar tal região do espaço de fase deveria depender apenas da sua dinâmica e não da minha capacidade de aferir confiabilidades!

Acalme-se. Não estamos falando da mesma coisa. É claro que existe uma propriedade física associada à sua partícula que quantifica quão frequentemente ela visita uma certa região do espaço de fases. É a probabilidade frequentista!!! Ou melhor, vamos dar um nome mais adequado a ela: é a freqüência!!! Você não precisa abdicar da objetividade do seu universo para ser bayesiano. O que você precisa fazer é reconhecer que existem duas coisas: as freqüências e as probabilidades, e que as duas podem ser usadas para muitas coisas.

E o que eu ganho com isso? O que eu ganho usando probabilidades como um sistema formal de lógica? Eu ganho uma ferramenta de raciocínio no teorema de Bayes. Na visão levantada pelo teorema de Cox, o teorema de Bayes é a forma correta de atualizar sua confiança ou crença em algo quando obtém novas informações. Isso abre possibilidades. O que isso tem a ver com o aprendizado de sistemas que processam informação (como o cérebro por exemplo) ?  Nosso raciocínio segue a regra de Bayes? Sistemas computacionais que aprendem usando a regra de Bayes são eficientes? (SIM!) O que isso tudo tem a ver com teoria de informação? Onde em física estamos falando de freqüências e onde estamos falando de probabilidades? Isso serve para alguma coisa?

E o que eu perco pensando só em termos de freqüências? Há situações em que as vezes pensamos estar falando de freqüências, quando estamos de fato julgando possibilidades segundo informações prévias – portanto usando uma forma mais evidencial de probabilidade. Quando eu digo, por exemplo, que espero obter com \frac{1}{2} de probabilidade uma certa face de uma moeda quando a lanço para cima, estou falando de freqüências? Se eu estivesse, eu deveria em primeiro lugar perguntar: de onde vem a variabilidade de resultados do lançamento de uma moeda? É claro para mim que a variabilidade está nas condições iniciais. Também é claro que o sistema tem uma série de atratores no seu espaço de configurações – alguns correspondentes à face cara para cima, outros correspondentes à face coroa para cima. É claro ainda que, dada uma boa distribuição de condições iniciais, eu posso sortear igualmente atratores de qualquer um dos dois tipos. Então parece que eu estou falando mesmo de freqüências uma vez que eu estabeleço como eu pretendo jogar  a moeda. Eu espero que de fato metade das órbitas que eu sorteio no processo de lançamento resultem em cara, e metade em coroa e portanto espero que no limite de muitos lançamentos eu acabe terminando com 50% de caras e 50% de coroas. Bastante objetivo e racional.

Mas veja a quantidade de coisas que eu tive que assumir para concluir isso: um lançador “ergódico” e honesto de moedas, uma estrutura do espaço de fases da moeda. Tudo isso para mim soa como informação que eu estou assumindo ao tentar atribuir um grau de confiabilidade para o resultado cara ou coroa. Qualquer pessoa bem treinada pode “quebrar a ergodicidade” da moeda e sortear muito mais caras que coroas. Eu mesmo já consegui, mesmo tendo uma habilidade manual não tão grande.

Uma visão alternativa é: uma vez que a moeda é um objeto simétrico, e eu não tenho informação suficiente para supor uma assimetria do processo de lançamento da moeda, não é razoável dizer que eu não posso ter uma maior confiança injustificada em qualquer dos resultados? Se por acaso eu descobrisse que a moeda está sendo lançada de maneira assimétrica, eu poderia tentar estimar então o quão enviesados serão os resultados através da regra de Bayes

Enfim… eu não pretendia com esse post argumentar de maneira categórica em favor da visão bayesiana, mas levantar curiosidade sobre algumas relações interessantes:

  1. Probabilidades podem ser vistas não como freqüências físicas, mas também como níveis de confiança a respeito de proposições.
  2. Probabilidades podem ser vistas ainda como forma de codificar informação: por exemplo informação sobre a simetria da moeda.
  3. E se probabilidades podem ser vistas dessa forma, é importante ter em mente, quando usamos a palavra, se estamos de fato nos referindo à probabilidade bayesiana ou às freqüências físicas.
  4. Freqüências são difíceis de se definir na prática: eu não posso fazer infinitos repetidos experimentos e portanto terei incerteza quanto às freqüências. Mas incertezas são justamente representadas como probabilidades! Então freqüências e probabilidades são coisas diferentes ou então eu tenho uma definição circular.
  5. Se eu estou falando de informação, o que a entropia de Shannon tem a ver com isso?

Enfim. Isso é tudo um aperitivo para estimular curiosidade para…

… ler mais …

e buscar palavras-chave.

  • Inferência:
  • Probabilidade:
  • Jaynes, Laplace, Cox, Bayesian Inference
  • laws of physics as inference tools
Notas:
  • (*) Este livro do Huygens é dito o mais antigo livro sobre probabilidades pelo livro de cálculo do Tom Apostol. Não fui atrás de nenhuma referências sobre estória da matemática para verificar isso por não pretender fazer nenhuma revisão histórica sobre o assunto mas apenas apresentar minha percepção dessas coisas. Uma fonte sobre a história da probabilidade está aqui.
  • (**) Jaynes, E. T. Probability Theory: The Logic of Science, Cambridge University Press (2003).  Esse livro deveria ser leitura obrigatória para qualquer pessoa que ousasse emitir a palavra probabilidade pelos lábios. Não é meramente um livro-texto sobre teoria de probabilidade. É um livro sobre como raciocinar de forma adequada.  Versão parcial pode ser acessada aqui.
Seguir

Obtenha todo post novo entregue na sua caixa de entrada.

Junte-se a 67 outros seguidores

%d blogueiros gostam disto: