Archive

Archive for the ‘stat’ Category

As cidades mais científicas do mundo…

sábado, 19 mar 2011; \11\UTC\UTC\k 11 Deixe um comentário

O Physics arXiv blog publicou uma matéria interessante. Mas, antes de falar da notícia, eu tenho que avisar que não estou entre os maiores fãs desse blog — na verdade, minha opinião flutua bastante: alguns artigos são bons, outros ficam bem longe disso… mas, em todos os casos, o Physics arXiv blog é bem enviesado (a seleção dos tópicos que aparecem por lá deixa isso claro além de qualquer dúvida, isso pra não falar sobre o nível das discussões, sempre bem ‘passageiro’) — e isso sempre me incomoda muito.

De qualquer forma, e sem mais delongas… eis o artigo: Mashups Reveal World’s Top Scientific Cities. O original pode ser lido diretamente nos arXivs: Which cities produce worldwide more excellent papers than can be expected? A new mapping approach—using Google Maps—based on statistical significance testing.

A discussão no ‘Physics arXiv blog’ não passa de “mais do mesmo”: ciênci-o-metria. Infelizmente, perde-se a chance de se avaliar o artigo propriamente dito, escolhendo-se apenas notificar a “mensagem” contida no mesmo. Parece até mesmo um órgão de Relações Públicas, apenas alardeando e propagandeando.

O artigo propriamente dito é de tão baixa qualidade que a vontade que se tem é de apenas se repetir o adágio invisível, que diz que os artigos dos arXivs não escritos em [La]TeX são sempre de qualidade duvidosa — pior ainda quando são escritos em Word, ou algum editor de pior qualidade ainda; sem identação apropriada (quem ainda usa ‘identação à esquerda’, ao invés de ‘justificado’? :razz:): via de regra, a falta de atenção a esse tipo de detalhe num artigo costuma refletir a baixa qualidade do material escrito. Mas, como eu disse, esse é apenas um “adágio invisível”, uma unspoken rule, que não se vê, não se ouve, e cujo perfume não se sente. :oops: :roll:

De qualquer forma, a máquina de salsicha continua na ativa: como se mensurar o imensurável: quais trabalhos científicos têm mais qualidade, quais são mais dignos de fomento, quais têm mais impacto na comunidade?

Todas essas são questões relevantes, claro, mas uma lição que a Ciência tem que aprender com a Arte é que a medição da criatividade é algo estupidamente difícil. Aliás, nem é preciso se apelar para o lado mais humanista desta questão: basta apenas se aprender Sistemas Dinâmicos corretamente (o que, de fato, parece ser algo tão complicado quanto nos dias de hoje). A razão deste meu argumento é bem simples: como se pode avaliar algo que possui resultados de médio a longo prazo (sem esperarmos por tal prazo)?

A resposta é simples: não é possível se avaliar nada que dependa de médio a longo prazo sem esperarmos tal prazo passar e medirmos o resultado efetivo do que se deseja avaliar. Ou seja, precisamos esperar o tempo passar pra podermos sequer ter a chance de sermos justos nesta empreitada! Ou seja, falando um pouco mais rigorosamente, é preciso termos acesso a todos os dados para podermos conhecer o problema de modo completo.

Infelizmente, com a idéia de que as Universidades devem ser “profissionalizadas” (sabe-se lá o que isso significa :razz:) e, mais ainda, de que toda a empreitada científica deve ser “profissionalizada”, todo esse tipo de questão métrica se torna relevante: como se pode escolher aquilo que há de “melhor” para se fomentar? Assim como numa empresa, numa linha de montagem, é preciso haver alguma forma de “selo de garantia”, alguma forma de “controle de qualidade”. (Note que não estou falando do processo de ensino de estudantes, mas sim de pesquisa científica — falar de ensino por si só abriria outra Caixa de Pandora!)

Entretanto, ao contrário de empresas, fábricas e linhas de montagem, Universidades e Pesquisa Científica [fundamental] possuem planos de ação, missões, de longo prazo, de longuíssimo prazo: há universidades com cerca de 1000 anos de existência: quantas empresas, fábricas e linhas de montagem podem dizer o mesmo?! A própria Revolução Industrial tem apenas cerca de 250 anos!

Felizmente ou não, esta é a natureza da busca pelo conhecimento, e este é o papel da Ciência, principalmente daquela dita fundamental (que costuma dar frutos bem distante das aplicações do dia-a-dia). Por outro lado, hoje em dia, na nossa Era da Informação, é possível se converter algo tão abstrato quanto Teoria dos Grafos em compiladores e navegadores. Este é o caminho da Ciência e do Conhecimento: a menos que se tenha acesso a toda informação, só se pode ver aquilo que está no curto prazo… :wink:

Isso tudo só server pra fazer com qua a analogia posta acima — entre Sistemas Dinâmicos e Funções de Partição — fique ainda mais clara aos olhos: quando vc tem acesso à Função de Partição dum problema, vc tem em mãos toda a informação necessária pra resolver o problema completamente; no caso de Sistemas Dinâmicos, como o nome indica (dependência temporal), é muito difícil de se calcular o que vai acontecer no futuro (não-linearidades, caos, etc). E, no final das contas, tudo que se quer medir são os Fenômenos Críticos, as Transições de Fases, e as Propriedades de Escala do sistema em questão.

A mensagem é clara: sem uma visão mais global é impossível se poder qualificar e medir justamente um trabalho científico. Incontáveis exemplos, de Einstein à Wilson, todos nobelistas, jamais teriam os “índices” e os “fatores de impacto” necessários, hoje, para serem contratados em regime de ‘tenure track’ — isso é claro pra qualquer um que já tenha feito o exercício mental requerido por esta questão.

Algumas empresas e alguns nichos industriais já descobriram esse fato básico da natureza humana… aliás, no âmbito de Sistemas Dinâmicos tudo isso tem nome: Cisne Negro e Dragões Reis. :twisted:

Infelizmente, parece que esse aprendizado e essa mensagem ainda não chegaram na academia — um fato bem irônico, posto que a academia é o lugar onde tais idéias (transições de fase, cisne negros e dragões reis) nasceram! :oops: Então, por enquanto, nós ainda vamos nos debelando com índices e fatores de impacto e outras bobeiras afins. Eu gostaria que fosse feito um estudo com as revistas de maior impacto, procurando-se saber quantos dos artigos publicados nestas revistas deram origens a novos caminhos e novos ramos em seus respectivos campos da Ciência. Taí uma perguntinha bem capiciosa e que por motivos “mágicos” ainda ninguém teve a idéia de responder… :roll: (Diquinha: eu não me lembro de Einstein ter publicado na Nature nem na Science, então nem as Relatividades nem a Mecânica Quântica (ou Teoria Quântica de Campos) tiveram suas origens nas revistas ditas de alto impacto; o mesmo vale, por exemplo, para as chamadas Transições Quânticas de Fase: o Kosterlitz não publicou numa revista de alto impacto — aliás, porque ninguém pergunta pro Kosterlitz o que ele pensa disso tudo, afinal de contas ele deu origem a todo um ramo da Física, logo deve saber o que significa “alto impacto científico”, não?! :razz:)

Pra finalizar, vou apenas me resignar a dizer que a análise estatística feita no tal artigo é de baixa qualidade, não apenas porque não leva em conta os cisnes negros e os dragões reis, mas também porque não leva em conta tantos outros métodos que a tornariam bem mais robusta. É uma pena, porque os “efeitos visuais”, os “efeitos especiais”, do artigo são bem bonitinhos… [bonitinhos mas ordinários! :razz:]

[]’s.

Atualizado (2011-Mar-19 @ 11:15h EDT): Ah… a ironia do destino. Assim que acabei de escrever o post acima, trombei no seguinte livro: Little Bets: How Breakthrough Ideas Emerge from Small Discoveries. O ponto do livro é clararamente exposto no título, mas também já foi feito por Asimov,

“The most exciting phrase to hear in science, the one that heralds new discoveries, is not ‘Eureka!’ (I’ve found it!), but ‘That’s funny…'”

Isaac Asimov.

Experimentação, passo-a-passo, erros e mais erros… é assim que se faz Ciência: a idéia de que pesquisa e progresso é feito através duma seqüência de ‘acertos’, de passos corretos, não poderia estar mais distante da realidade… c’est la vie

A semana nos arXivs…

quinta-feira, 18 mar 2010; \11\UTC\UTC\k 11 4 comentários

Como vcs devem ter notado, já faz um tempo que não tenho conseguido publicar minha lista de artigos dos arXivs por aqui. Não que eu tenha deixado de ler ou de selecionar meus artigos preferidos nos arXivs — quem acompanha meu Google Buzz ou Google Reader sabe que isso não é verdade (eu leio os arXivs religiosamente todo santo dia :cool: ) —, mas o tempo anda cada vez mais curto pra vir aqui e publicar a lista (e o WordPress ainda não fez o favor de instalar o Markdown por aqui, o que é realmente um empecilho pra quem não curte muito o “Visual Editor” :razz: ).

De qualquer maneira, agora com o advento do Google Buzz e suas conexões com o Google Reader, a “vida digital” tem mudado um pouco de ângulo… então, eu pensei em dar um drible-da-vaca nessa situação: por que não fazer listas no Twitter?! Basta marcar cada tweet com um #hashtag apropriado, e tudo fica resolvido. :cool:

Os #hashtag são evidentes, então já vou linkar direto para os ‘saved searches’ deles,

Assim fica fácil: é até possível se inscrever nos feeds de cada um dos #hashtag! :cool:

Vamos ver se essa nova empreitada alça vôo… :twisted:

Informação, entropia, geometria e teorias de campo médio.

domingo, 15 nov 2009; \46\UTC\UTC\k 46 1 comentário

(eu perdi um sinal em algum lugar por aí, se você achar por favor indique no comentário)

Este post é uma espécie de continuação do post sobre Lógica Bayesiana, ainda que não exatamente. Mas estamos no mesmo espírito. Lá eu discuti a respeito de como raciocinar sobre informação incompleta. Entretanto, quando há informação incompleta uma coisa é certa: com o tempo podemos ganhar informação. E se há nova informação relevante para saber sobre algo, a probabilidade que atribuo – no sentido do post anterir, o registro quantitativo da minha crença racional sobre esse algo – deve certamente mudar.

A grande pergunta então parece ser: como eu devo mudar minha atribuição de probabilidades – minha crença racional – quando adquiro nova informação? Bem, isso sugere uma forma de quantificar informação: se informação causa mudança na minha atribuição de probabilidades, então se eu puder medir quão longe estão minhas atribuições prévia (prior, antes da nova informação) e posterior (posterior, depois da nova informação), então poderei medir quão importante é essa nova informação. Vamos fazer como antes então e propor uma medida de informação e vinculos que nos permitam restringi-la a uma medida única(1).

Leia mais…

Lógica Bayesiana

sexta-feira, 13 nov 2009; \46\UTC\UTC\k 46 6 comentários

Todo mundo conhece a lógica clássica, aquela segundo o qual proposições são julgadas verdadeiras ou falsas através de certos procedimentos de consistência. Mesmo que não conheça as regras da lógica formal, certamente já as usou e saberia reconhece-las. Poucos nunca ouviram o tal exemplo sobre a mortalidade ou não de Sócrates.  A lógica formal nos fornece uma forma de raciocínio: seguindo suas regras básicas eu consigo formas de, de posse de afirmações que eu julgo verdadeiras,  julgar a validade de outras. Mais ainda, na lógica não há espaço para ambiguidade e meia-certeza — o valor de uma proposição é verdadeiro ou falso, fim de papo. E note: ainda que eu não consiga determinar esse valor, está estabelecido desde o princípio que ele é verdadeiro ou falso.

Certamente isso fornece ferramentas úteis mas há uma grande limitação: como eu deveria raciocinar se eu não possuo informação completa sobre algo? A lógica formal não serve para isso. Eu não posso fazer perguntas como: “dado que eu acho a proposição P1 maaais ou menos certa, qual é o valor de P2?”. Há formas de lidar com essa questão de informação parcial? Isso é o que os probabilistas da escola bayesiana se perguntaram e o que eu pretendo dizer aqui é como responder positivamente essa pergunta.

A grande pergunta inicial é: como eu quantifico informação incompleta sobre algo? Em outras palavras, como eu digo a você quão fortemente eu acredito que algo é verdade? Uma vez determinada essa resposta a próxima pergunta é: como eu devo proceder, uma vez estabelecida o valor de uma proposição, para determinar o valor de outra proposição derivada dessa? Essas são as duas perguntas que eu vou tentar explicar como são respondidas pela teoria bayesiana.

Então para começo de conversa vamos estabelecer como se mede o grau de plausibilidade de algo (A. Caticha gosta de chamar de “degree of rational belief”, eu concordo com ele). Para cada proposição vamos criar uma função que associa a cada outra proposição um número real — a princípio irrestrito:

\Phi_{p} : \mathcal{P} \to \mathcal{R}, \forall p\in\mathcal{P}.

Aqui, \mathcal{P} é a coleção de proposições e \mathcal{R} o conjunto dos reais. Ao número \Phi_{P_1}(P_2) vamos chamar plausibilidade de P_2 no ambiente lógico (gerado por) P_1. Ou seja, esse número mede o quanto eu acredito em P_2 assumindo P_1 como “axioma”. Quanto maior o número maior minha crença.

Bem, não faz muito sentido apenas fazer isso. Preciso de algumas regras básicas para essa função. Essas regras devem me garantir que quando eu faço o “limite de certeza absoluta” eu recobre os resultados da lógica formal. Essas regras são chamadas axiomas de Cox e são bem simples e intuitivas. Melhor ainda: elas determinam \Phi_{p} quase univocamente (vamos entender esse quase adiante). Os axiomas de Cox são os seguintes:

A plausibilidade da negação de uma proposição é determinada assim que eu conheço a plausibilidade da própria proposição. Ou seja(2):

\Phi_{A}(\neg B) = F(\Phi_{A}(B)).

Parece razoável: quanto mais acredito em B, menos acredito em \neg B.  Note que há aqui a afirmação implícita de que a função que liga a plausibilidade de uma proposição com a plausibilidade da sua negação é única e independe de qual proposição estamos falando, nem do “ambiente lógico”.

A operação de negação é idempotente – ou seja, se eu aplicar a negação duas vezes, devo recuperar a proposição original(\neg \neg B = B). Essa propriedade nos fornece uma equação funcional para F(\cdot):

\Phi_{A}(\neg \neg B) = \Phi_{A}(B),

F(\Phi_{A}(\neg B)) = \Phi_{A}(B),

F(F(\Phi_{A}(B))) = \Phi_{A}(B).

Ou seja, para todos os valores u pertencentes à imagem de \Phi_{\cdot}(\cdot) devemos ter que:

F(F(u)) = u.

Ou seja, a função F(⋅) é idempotente também. Vamos reservar essa propriedade de F(\cdot) e prosseguir para o segundo axioma de Cox:

A plausibilidade da conjunção de duas proposições A\wedge B dada uma terceira proposição C (ou seja, \Phi_{C}(A \wedge B) ) deve depender apenas da plausibilidade de:

(1) plausibilidade de A dado C: \Phi_{C}(A);
(2) estabelecida a plausibilidade de A, quão plausível é B dado C : \Phi_{C\wedge A}(B).

Ou seja, estou assumindo a existência de mais uma “função universal”:

\Phi_{C}(A \wedge B) = G( \Phi_{C}(A) , \Phi_{C\wedge A}(B) ).

Também parece razoável: quando quero determinar se duas proposições são simultaneamente verdadeiras, estabeleço primeiro a validade da primeira e depois, dada a primeira, estabeleço a validade da segunda. É um pouco mais difícil tirar uma equação funcional para G(⋅ , ⋅) mas não é impossível. Considere a expressão:

\Phi_{B}(A_1 \wedge A_2 \wedge A_3).

Há duas formas diferentes de decompor essa expressão usando a função G(\cdot,\cdot): lembre-se que o conectivo \wedge é  associativo e comutativo e portanto:

\left(A_1 \wedge A_2\right) \wedge A_3 = A_1 \wedge \left(A_2 \wedge A_3\right).

Uma inferência consistente exige que essas duas formas dêem o mesmo resultado(3). Portanto:

G( \Phi_{B}(A_1 \wedge A_2) , \Phi_{B\wedge A_1 \wedge A_2}(A_3) ) = G(\Phi_{B}(A_1) , \Phi_{B\wedge A_1 }( A_2 \wedge A_3) ).

Aplicando novamente a definição de G(\cdot,\cdot):

G( G(\Phi_{B}(A_1),\Phi_{B \wedge A_1 }( A_2)) , \Phi_{B\wedge A_1 \wedge A_2}(A_3) ) = G(\Phi_{B}(A_1) , G(\Phi_{B\wedge A_1 }( A_2),\Phi_{B\wedge A_1 \wedge A_2 }( A_3)) ).

Se isso deve valer para quaisquer proposições então novamente tenho um equação funcional válida para quaiser u, v e w na imagem de \Phi_{\cdot}(\cdot)(4):

G(u,G(v,w)) = G(G(u,v),w).

Ou seja: a função G(⋅ , ⋅) também é associativa.

Um leitor apressado deve se perguntar nesse momento: e daí que você tem duas equações funcionais para essas funções arbitrárias F(⋅) e G(⋅ , ⋅) que você postulou do chapéu? O ponto é que essas duas equações funcionais generalíssimas definem univocamente estrutura de inferência! Sério mesmo. Não to brincando. E você conhece essa estrutura.

O coração da questão deriva de dois teoremas devidos a Cox. Para conseguir o primeiro teorema vamos usar o seguinte resultado (não vou provar aqui porque a prova é extensa e é encontrada na referência [2]).

Teorema da função associativa: dada qualquer função associativa G(u,v), existe uma função monotônica g(⋅) tal que:

g(G(u,v)) = g(u) g(v)

Isso é muito conveniente pois se escrevermos de novo a definição de G(\cdot,\cdot), temos:

\Phi_{C}(A \wedge B) = G( \Phi_{C}(A) , \Phi_{C\wedge A}(B) ),

e usarmos o teorema da função associativa, então obtemos:

g\left(\Phi_{C}(A \wedge B)\right) = g\left(\Phi_{C}(A)\right) g\left( \Phi_{C\wedge A}(B) )\right)

E agora posso simplesmente regraduar minha definição de plausibilidade. Uma vez que g() é monotônica, e portanto vai preservar a ordem com que eu classifico coisas como mais ou menos plausíveis, eu posso redefinir plausibilidade como:

\phi(A|B) = g(\Phi_{B}(A))

Mudei ligeiramente a notação para que o leitor possa apreciar melhor o que acontece com a antiga expressão que define G(⋅ , ⋅) com essa nova definição de plausibilidade:

\phi(A \wedge B | C) = \phi(B|C \wedge A) \phi(A|C)

Mas veja se essa não é a boa e velha regra do produto da teoria de probabilidades!!! Usando a comutatividade de \wedge eu ainda posso notar que:

\phi( B | C \wedge A) = \dfrac{\phi (A|C \wedge B) \phi (B|C)}{\phi (A|C)},

e essa não é nada mais que a regra de Bayes da teoria de probabilidades!

Mas calma, a nova função plausibilidade \phi(\cdot| \cdot) ainda não é uma probabilidade: não basta seguir essas duas regras, há uma série de condições na teoria axiomática de probabilidades para chamar algo com esse nome e a nossa função ainda não satisfaz todas. Tudo bem: ainda nos falta estudar as propriedades de F(\cdot)! Quem sabe isso ajude.

Novamente precisamos criar uma situação em que a demanda por consistência delimite as propriedades da função plausibilidade. Por exemplo temos a seguinte situação(5):

\phi(A \wedge B | C) = \phi(B|C \wedge A) \phi(A|C) =F\left(\phi(\neg B|C \wedge A)\right) \phi(A|C) .

Mas, pela regra do produto que deduzimos acima:

\phi(\neg B |C \wedge A) = \dfrac{\phi(A \wedge \neg B |C)}{\phi(A|C) }

e então:

\phi( A \wedge B | C) =\phi(A|C) F \left( \dfrac{\phi(A \wedge \neg B |C)}{\phi(A|C) }\right)

Mas lembre-se que a conjunção A \wedge B é simétrica, portanto toda essa expressão fica invariante se eu trocar A por B. E assim:

\phi(A|C) F \left( \dfrac{\phi(A \wedge \neg B |C)}{\phi(A|C) }\right)=\phi(B|C) F \left( \dfrac{\phi(B \wedge \neg A |C)}{\phi(B|C) }\right)

Se isso deve valer independente de quais são as proposições A, B e C, então eu posso, por exemplo, escolher uma particular proposição \neg B = A\wedge D. Note que com essa escolha temos as seguintes identidades: A\wedge \neg B = \neg B\neg A \wedge B = \neg A. Então:

\phi(A|C) F \left( \dfrac{\phi(\neg B |C)}{\phi(A|C) }\right)=\phi(B|C) F \left( \dfrac{\phi(\neg A |C)}{\phi(B|C) }\right)

\phi(A|C) F \left( \dfrac{F\left(\phi( B |C)\right)}{\phi(A|C) }\right)=\phi(B|C) F \left( \dfrac{F\left(\phi(A |C)\right)}{\phi(B|C) }\right)

O que finalmente resulta em mais uma equação funcional para F(⋅):

uF \left( \dfrac{F\left(v\right)}{u }\right)=v F \left( \dfrac{F\left(u\right)}{v }\right)

Novamente sem demonstrar, vou simplesmente afirmar que a solução mais geral dessa equação, submetida à condição de idempotência que deduzimos acima, é dada por:

F(u)^\alpha=(1-u^\alpha).

Note que para um \alpha qualquer isso restringe o dominio da função F(⋅), e portanto a imagem da função \phi(\cdot|\cdot), ao intervalo [0,1]. E veja o que acontece então com a regra que define F(⋅):

\phi(\neg A | B) ^\alpha + \phi(A|B)^\alpha = 1

Uma nova regraduação permite definir uma função Pr(A|B) =\phi(A|B)^\alpha com as seguintes propriedades:

  • Pr(A|B)\in[0,1]
  • Pr(A|B) + Pr(\neg A|B) = 1
  • Pr(A_1\wedge A_2|B) = Pr(A_2| B \wedge A_1)Pr(A_1 |B)

Esses não são exatamente os axiomas de Kolmogorov para a teoria de probabilidades mas… close enough para um post de blog. Isso tudo pode ser refinado com o devido grau de rigor matemático para satisfazer os exatos axiomas da teoria da probabilidade.

O que foi obtido com essa massagem matemática toda?

  1. É possível definir um sistema lógico de inferência baseado em informação incompleta e incerteza que atribui uma plausibilidade a cada proposição.
  2. Esse sistema lógico é único, a menos de uma regraduação monotônica da função plausibilidade. Isso faz com que uma ordenação segundo a plausibilidade seja única, uma vez que regraduações monotônicas não alteram essa ordem.
  3. A função plausibilidade satisfaz todas as regras que uma probabilidade legitima deve satisfazer (aqui não provei isso, mas apenas mostrei algumas coisas – para fazer isso rigorosamente precisa-se definir uma “sigma-álgebra de proposições”).

E qual é a utilidade prática disso? Bem… o mundo está cheio de situações de inferência baseada em informação incompleta. Particularmente, todo problema que depende de dados empíricos é, em essência, um problema dessa natureza e todo problema de inferência em ciência é assim. Uma vez que o único sistema de inferência para informação incompleta – como aí mostrado – é aquele que usa as regras  da teoria da probabilidade é razoável se supor que efetivamente usar essas regras explicitamente oferece vantagens sobre os métodos estatísticos ad hoc frequentemente usados, como os métodos de mínimos quadrados e outras formas de fitting de dados. Na verdade esse processo de inferência vai muito além disso – ele oferece ferramentas de modelagem física, de interpretação de modelos, de planejamento de experimentos e ainda mais. Mas disso eu vou tratar em um próximo post.

Notas:

(1) — Se você se interessa por nomes, o que se segue é devido a um certo número de pessoas — Edwin Jaynes, Harold Jeffreys e particularmente Richard Cox.

(2) — Estou usando os seguintes simbolos para os conectivos lógicos:

  • \neg — negação: \neg \mbox{Verdadeiro} = \mbox{Falso}
  • \wedge — o conectivo E (conjunção): \mbox{Verdadeiro} \wedge \mbox{Falso} = \mbox{Falso}
  • \vee — o conectivo OU (disjunção inclusiva): \mbox{Verdadeiro} \vee \mbox{Falso} = \mbox{Verdadeiro}

(3) — Lembre-se: queremos um sistema racional de atribuir um grau de confiança a algo.

(4) — Que pode ser obtida fazendo: u = \Phi_{B}(A_1), v = \Phi_{B \wedge A_1 }( A_2)) e w = \Phi_{B\wedge A_1 \wedge A_2 }( A_3).

(5) Note que eu tinha definido F(⋅) para a função original \Phi_{A}(B). Entretanto fizemos uma regraduação monotônica então nada me impede de abusar da linguagem e redefinir F(x) \to F(g(x)).

Referências:

[1] E. T. Jaynes, Probability Theory, the Logic of Science.
[2] A. Caticha, Lectures on Probability, Entropy, and Statistical Physics — arXiv:0808.0012v1 [physics.data-an]
[3] A. Caticha,  Quantifying Rational Belief — arXiv:0908.3212v1 [physics.data-an]

A semana nos arXivs…

quinta-feira, 7 mai 2009; \19\UTC\UTC\k 19 4 comentários


Lies, damned lies, and statistics…

sexta-feira, 10 abr 2009; \15\UTC\UTC\k 15 5 comentários

Pra quem não conhece a frase que dá título a esse post, eis a história, Lies, damned lies, and statistics.

O objetivo é ilustrar o infâme fato de que correlação não implica causação. Pra quem está na corda bamba, correlação é uma medida da força e direção duma relação linear entre duas variáveis aleatórias; enquanto que causalidade é uma relação de causa-efeito entre dois eventos distintos (um sendo conseqüência do outro) — e, em geral, a falácia lógica associada a esse fato é chamada de non sequitur, que acontece quando uma determinada conclusão não segue logicamente das hipóteses do argumento.

Os artigos a seguir, Department of awful statistics e Mexican Lemons To the Rescue, comentam sobre esse assunto de modo bastante claro, contextualizando com alguns fatos políticos…

Em particular, o gráfico abaixo costuma deixar esses “detalhes” bem claros,

Quanto mais limões, menos acidentes automotivos…

Quanto mais limões, menos acidentes automotivos…

Do lado mais humorístico da coisa…

Correlação não implica causação, mas dá-lhe um belo dum chacoalhão sugestivo e furtivo, enquanto sussura olhe ali.

Correlação não implica causação, mas dá-lhe um belo dum chacoalhão sugestivo e furtivo, enquanto sussura "olhe ali".

E pra quem gosta de “piratas” e de “aquecimento global”, é muito importante entender como um influencia o outro, Pirates and global warming.

:twisted:

Pra fechar, eu recomendo o vídeo abaixo, extremamente informativo,

[]’s.

Mecânica Estatística ou “como jogamos informação fora?”

quarta-feira, 25 fev 2009; \09\UTC\UTC\k 09 6 comentários

Uma pergunta me intriga mais que qualquer outra: como jogamos fora informação? Como selecionamos que pedaço de informação é mais crítico que outro?  Não estou me referindo a técnicas de memorização nem a interpretação de texto. Estou falando de física.

Uma grande área da física denominada Física Estatística é muitas vezes descrita como o estudo de como partimos da dinâmica microscópica de um sistema físico e descobrimos como ele se comporta macroscópicamente no limite termodinâmico – ou seja, no limite de muitos e muitos graus de liberdade. Quando fazemos isso partímos de um espaço de configurações com um certo número (grande) de graus de liberdade microscópicos:

\{x_{1},x_{2},\ldots,x_{N}\}      N\rightarrow\infty,

para um diagrama de fases macroscópico com um número pequeno de variáveis:

\{\theta_{1},\ldots, \theta_{p}\}.

É fácil ver que quantidade de informação que pode ser armazenada por p-variáveis, localizadas num volume \Omega_{p} p-dimensional, é da ordem de \log_{2}(\Omega_{p}) bits e portanto aproximadamente linear em p. Isso levanta a seguinte questão: para onde foi toda a informação contida nas variáveis x_{k} ???

Se as variáveis \theta_{k} são uma descrição macroscópico (N\rightarrow\infty) suficiente, a informação contida em x_{k} é tremendamente redundante?

Isso parece ser parte da resposta. Imagine novamente o exemplo que explorei no meu último post, da moeda lançada para cima. Naquela ocasião eu descrevi o espaço de configurações microscópico da moeda como uma série de atratores, caracterizados “macroscópicamente” por uma variável binária “cara” ou “coroa”. Para o que nos interessa com relação a várias perguntas macroscópicas, basta saber a que face para cima cada configuração corresponde. A mesma redução tremenda da quantidade de informação necessária é observada: a informação contida numa quantidade aparentemente infinita de órbitas possíveis para o moeda é resumida em apenas um mero bit: “cara” ou “coroa”.

Um sistema de spins (sem desordem – modelo de Ising) é algo similar. Da quantidade enorme de informação que podemos armazenar nas 2^N possíveis configurações de uma rede de spins (lembre-se sempre que no limite termodinâmico N\rightarrow\infty), apenas dois parâmetros interessam macroscópicamente para determinar todos os estados  macroscópicos – os acoplamentos K e H (alternativamente – a temperatura e o campo magnético, entropia e magnetização, ou qualquer outro par de variáveis termodinâmicas desse sistema).

O grupo de renormalização quando aplicado ao modelo de Ising oferece alguma luz: K e H são os dois únicos acoplamentos associados a operadores relevantes no ponto crítico desse modelo. Meu conhecimento limitado sobre o assunto entretanto não me permite enxergar mais do que isso… :( Eu ainda tenho muito o que estudar sobre isso (inclusive referências são bem vindas).

Então as perguntas são: como determinamos p – o número de variáveis adequadas para o tratamento microscópico de um sistema microscópico qualquer – e como, sabendo p, determinamos quais variáveis são as adequadas?

Na teoria de vidros de spin um problema similar surge. É fácil no modelo de Ising chutar quais são as variáveis relevantes macroscópicamente pelo feeling que temos de sistemas magnéticos: a energia livre tem dois mínimos que podem ser selecionados com a aplicação de um campo magnético. Em sistemas desordenados é beeeeem mais complicado. A energia livre tem um número infinito de mínimos, nem todos eles estáveis e pontos críticos – pontos em que um mínimo se multiplica em dois ou mais mínimos – ocorrem em continuamente para todos os valores abaixo de uma certa temperatura. A técnica de réplicas oferece uma forma de encontrar o parâmetro de ordem: a distribuição de overlaps. Note que o parâmetro de ordem é uma função, com infinitos graus de liberdade. Ela carrega bem mais informação que os dois acoplamentos do modelo de Ising.

Claro! Um vidro de spin é muito menos redundante. Há uma estrutura muito mais complexa de estados estáveis, que precisa de um número muito maior de parâmetros macroscópicos.

Isso tudo que eu falei é uma coisa muito superficial e muito geral. Eu não sei como responder a pergunta que eu coloquei para uma dinâmica qualquer. Eu percebo que o grupo de renormalização tem algo a dizer sobre isso, eu percebo que a teoria de réplicas tem algo a dizer sobre isso, percebo que a teoria da informação tem muito a dizer sobre isso, mas não consigo enxergar nenhum princípio agregador que torne universal a técnica de encontrar o menor número de variáveis que representa adequadamente um sistema macroscópico.

As vezes eu acho que a resposta já existe e eu estou aí vacilando. A falta de uma formação mais sólida em mecânica estatística mais moderna, sistemas dinâmicos e teoria da informação me atrapalha – até 1 ano atrás eu nem imaginava estar trabalhando com essas coisas.

Talvez não. Talvez a resposta não exista ainda. Se não existir é uma boa chance de se fazer contribuições interessantes à física estatística e à teoria da informação.

Seguir

Obtenha todo post novo entregue na sua caixa de entrada.

Junte-se a 70 outros seguidores

%d blogueiros gostam disto: