A estatística da bola e o relinchar da zebra
12/06/14 07:30ONTEM À TARDE, 24 horas antes do início da Copa, entreguei minhas apostas para o bolão da redação da Folha. Dei os meus palpites na raça, juro, sem apelar para as novas ferramentas da indústria das apostas, que tem inspirado vários modelos estatísticos para prever qual será a seleção campeã mundial de 2014.
Se depender da matemática, ao que parece, o Brasil já é hexacampeão. Dois dos modelos que mais estão dando o que falar na internet indicam que a chance de a seleção canarinho ganhar a Copa é praticamente de 1 para 1: um cara-ou-coroa. Estou me referindo aqui às projeções do jornalista e estatístico Nate Silver (45% de chance para o Brasil) e à do banco de investimentos Goldman Sachs (48,5%).
Um modelo estatístico totalmente brazuca, feito pela Fundação Getúlio Vargas, parece ser menos otimista, apontando 28% de probabilidade. Ainda assim, é uma projeção que nos dá bastante vantagem em relação à segunda seleção com mais chances, a Espanha, 15%.
Outros dois modelos criados por especialistas do mercado financeiro também apontam o Brasil como principal candidato ao título, mas com chances bem mais modestas. São o da empresa de auditoria KPMG (22% de chance para o Brasil) e do serviço de notícias financeiras Bloomberg (19,9%).
Todas essas previsões contam com modelos berm detalhados, que processaram um bocado de dados. O da FGV, por exemplo, foi alimentado com o resultado de todos os jogos envolvendo seleções nos últimos quatro anos. Os números foram usados para prever a força de ataque e defesa de cada seleção, e o modelo rodou 100 mil simulações.
O modelo do Goldman Sachs foi alimentado com os resultados de todos os jogos oficiais entre seleções realizados desde 1960. (Existe algum banco de dados para isso? Ou o Goldman empregou um exército de estagiários para tabular todos esses resultados?) Os números foram usados depois para fazer o que os estatísticos chamam de análise de regressão.
A Bloomberg, que também aplicou regressão em seu modelo, apresentou-o com um interessante gráfico interativo, interpolando todos os possíveis cruzamentos entre equipes da Copa.
Se reconhecermos que existe algum rigor científico nessas previsões, não é impressionante que o Brasil seja apontado como campeão virtual em todas elas. O que eu acho mais curioso é que, apesar de todo o verniz metodológico, esses trabalhos produzam resultados tão diferentes quando se leva em conta os números erm si. Uma probabilidade de 19%, afinal de contas, é bem inferior a uma de 48%.
A MALDIÇÃO DO FAVORITO
Toda essa numeralha derramada pelos estatísticos às vésperas da Copa me fez lembrar de um estudo bem mais modesto, sobre o qual escrevi em 2009. Naquele trabalho, o astrofísico Gerald Skinner, da Nasa, usou como base de dados apenas os resultados da Copa de 2006 (em outras palavras, não precisou colocar nenhum estagiário no Excel).
Para fazer sua análise, ele adotou um abordagem diferente. Decidiu contar as instâncias em que acontecia um triângulo de derrotas em conjuntos de três equipes. Essas são as combinações de resultado onde time A vence time B, time B vence time C, e time C vence time A. Isso é uma situação na qual há ao menos uma partida em que o time favorito perdeu. E aplicando esse “coeficiente zebra” à estrutura de torneio da Copa, por fim, o cientista concluiu que a melhor equipe do mundo, não importa qual seja, corre 72% de risco de ser eliminada antes de se tornar campeã.
Se levarmos isso em conta, o resultado da simulação da FGV é a que mais se aproxima de uma projeção realista. Isso, claro, assumindo que a seleção do Brasil seja indubitavelmente a melhor, algo que está longe de ser consenso. Até onde eu sei, também, ninguém calculou ainda qual é a média histórica do “coeficiente zebra”. A copa de 2006 pode ter sido uma em que o equídeo listrado apareceu mais vezes do que o habitual.
Minha genial e original conclusão aqui, então, é que futebol é mesmo uma “caixinha de surpresas”. E deixemos que tudo se decida dentro das quatro linhas. Se esse pessoal do mercado financeiro fosse tão bom em prever futebol, afinal, talvez também fosse mais eficaz em prever bolhas financeiras e crises econômicas.
Conseguir prever o resultado de uma partida de futebol é mais fácil quando um dos lados “compra” o resultado. Mesmo assim só consegue “prever” aqueles que compraram o resultado, mas se interrogados nenhum deles vai admitir a “compra”.