Você está na página 1de 3

"A melhor defesa o ataque": futebol, regresso e r2

Essa expresso usualmente utilizada para afirmar que uma armao ofensiva mais eficiente do que
jogar na retranca. Salvo melhor engano, no entanto, essa hiptese nunca foi testada. Esse artigo replica
dados do Brasileiro 2013 com dois objetivos: (1) explicar como os coeficientes do modelo de
regresso linear de mnimos quadrados ordinrios devem ser interpretados e (2) explicar as aplicaes
e limites do coeficiente de determinao (r2). Em termos substantivos, o modelo de regresso pode ser
utilizado para entender/explicar/predizer a variao de uma determinada varivel dependente a partir
de um conjunto de variveis independentes. O modelo bsico o seguinte:

Y = +1X1 +

Y representa a varivel dependente, ou seja, aquilo que o pesquisador deseja


entender/explicar/predizer. O intercepto () representa o valor de Y na ausncia de variveis
independentes, ou seja, o intercepto representa o valor da varivel dependente em um modelo em que
todas as variveis independentes assumem valor zero. 1 representa o efeito mdio de X1 sobre a
variao de Y. Em particular, 1 indica a variao mdia observada em Y ao se elevar X1 em uma
unidade. Por fim, representa o termo de erro. A figura 2 apresenta a correlao entre o nmero de
gols marcados, sofridos e o total de pontos conquistados durante o campeonato Brasileiro de 2013.

Figura 1 - Gols marcados, gols sofridos e pontos conquistados (Brasileiro, 2013)


Grfico 1A - Gols marcados x total de pontos1 Grfico 1B - Gols sofridos x total de pontos2

Existe uma correlao positiva entre o nmero de gols marcados e o total de pontos conquistados (r =
0,773; p-valor<0,001; n=20). Contrariamente, existe uma correlao negativa entre a quantidade de
gols sofridos e o nmero de pontos auferidos no campeonato (r = -0,670; p-valor<0,001; n =20). A
questo agora saber como e em que medida o nmero de gols marcados e sofridos explica a
quantidade de pontos conquistados? O modelo abaixo responde essa indagao.

1
O Cruzeiro marcou 77 gols e sagrou-se campeo com 76 pontos. Por outro lado, o clube Nutico marcou 22
gols e conquistou 20 pontos.
2
O Nutico sofreu 79 gols em 38 rodadas, ou seja, uma mdia de 2,08 por partida.
Total de Pontos = + 1 Gols marcados + 2 Gols sofridos +
Coeficientes
Coeficientes no padronizados
padronizados
Erro padro BETA t p-valor
Intercepto 46,733 5,188 9,008 0,000
Gols_marcados 0,651 0,071 0,685 9,144 0,000
Gols_sofridos -0,547 0,073 -0,563 -7,517 0,000
2 2
r = 0,907; r adj = 0,896; F = 82,802

O intercepto () representa mdia de pontos esperada para um time que no marcou nenhum
gol, mas tambm no sofreu nenhum gol durante todo o campeonato (46,733). Como so 38 rodadas,
isso significa que um time que empatou todos os jogos totalizaria 38 pontos.
O coeficiente de regresso no padronizado da varivel gols_marcados ilustra o efeito mdio
do nmero de gols pr sobre a variao da quantidade de pontos. Em particular, a cada gol marcado
espera-se, em mdia, um incremento de 0,651pontos, controlando pelo nmero de gols sofridos.
Similarmente, o coeficiente de regresso no padronizado da varivel gols_sofridos representa o efeito
mdio da quantidade de gols sobre a variao da quantidade de pontos conquistados. Em mdia, a cada
gol sofrido espera-se uma reduo de 0,547 pontos, controlando pelo nmero de gols marcados.
O erro padro indica o nvel de preciso da estimativa produzida pelo modelo. Quanto menor,
mais precisa estimativa, tanto melhor. Quando o erro padro do mesmo tamanho ou superior ao
prprio coeficiente estimado, o valor da estatstica t no ser significativo. Logo, o p-valor ser grande
e o pesquisador no poder rejeitar a hiptese nula de que o coeficiente estimado igual a zero (Ho:
=0).
O coeficiente de determinao (r2) uma medida do poder explicativo/preditivo de um modelo
de regresso linear (LEWIS-BECK, 1980). Como medida de ajuste do modelo, ele indica quo bem o
modelo estimado se ajusta aos dados observados. Ele varia entre 0 e 1 e pode ser interpretado como a
variao observada na varivel dependente que explicada pelo modelo. Ou seja, o nmero de gols
explica 90,7% da variao dos pontos conquistados3.
A estatstica F extrada da tabela da anlise de varincia (ANOVA) e auxilia a tomada de
deciso a respeito da significncia estatstica das variveis includas no modelo. Quanto maior o F,
maior a confiana do pesquisador de que pelo menos uma varivel includa no modelo exerce um
efeito diferente de zero sobre a variao da varivel dependente. A tabela abaixo sumariza a
quantidade de gols marcados (GP), gols sofridos (GC), total de pontos, o valor predito pelo modelo e o
erro de previso para cada time.

3
Para mais informaes sobre o R2 ver Lewis-Beck e Skalaban (1990), King (1991), Luskin (1991) e Figueiredo
Filho, Silva Jnior e Rocha (2011).
Tabela 1 - Observado x Predito

Time GP GC Pontos Predito Erro


Cruzeiro 77 37 76 76,61 -0,61
Cruzeiro
Grmio 42 35 65 54,93 10,07
Atltico (PR) 65 49 64 62,24 1,76
Botafogo 55 41 61 60,11 0,89
Gois 48 44 59 53,91 5,09
Vitria 59 53 59 56,15 2,85
Atltico (MG) 49 38 57 57,84 -0,84
Santos 51 38 57 59,14 -2,14
So Paulo 39 40 50 50,24 -0,24
Corinthians 27 22 50 52,27 -2,27
Flamengo 43 46 49 49,56 -0,56
Bahia 37 45 48 46,21 1,79
Coritiba 42 45 48 49,46 -1,46
Internacional 51 52 48 51,49 -3,49
Portuguesa 50 46 48 54,12 -6,12
Cricima 49 63 46 44,18 1,82
Fluminense 43 47 46 49,02 -3,02
Vasco 50 61 44 45,92 -1,92
Ponte Preta 37 55 37 40,74 -3,74
Nutico 22 79 20 17,86 2,14

O modelo estimado previu que o Cruzeiro conquistaria 76,61 pontos contra os 77 de


fato conquistados pelo time mineiro, ou seja, um erro de apenas 0,61. Similarmente, o modelo
previu que o Nutico conquistaria 17,86 pontos, contra os 20 pontos efetivamente auferidos.
O torcedor deve estar agora se perguntando qual a utilidade desse modelo? Muito simples.
Se o objetivo fazer previso, o r2 uma ferramenta importante j que indica o grau de ajuste
do modelo aos dados. Quanto mais perto de 1, mais bem ajustado ser o modelo. Logo, menor
erro de previso. No entanto, se o objetivo saber que variveis importam mais para explicar
a variao de Y, deve-se ento analisar os coeficientes de regresso das variveis
independentes. Em geral, o coeficiente de determinao no pode ajudar muito quando a meta
testar proposies tericas em busca de explicaes para os fenmenos de interesse.
Em nosso modelo, no resta dvida de que o efeito mdio do nmero de gols
marcados sobre a quantidade de pontos maior do que o impacto do nmero de gols sofridos.
Ou seja, os resultados sugerem evidncias em favor da hiptese de que "a melhor defesa o
ataque". No entanto, mais interessante do que saber isso identificar quais so as variveis
que explicam a quantidade de gols marcados e sofridos por um determinado time em um
campeonato especfico. Mas isso papo para mesa do Bar.