Você está na página 1de 61

Poder estatístico

Bruno Ferman
Professor da FGV-SP
Pesquisador afiliado do J-PAL
Objetivos

• Entender o que é poder estatístico

• Compreender a importância do poder estatístico no desenho de uma


avaliação de impacto

• Entender como se determina o poder estatístico e como ele se relaciona


com o tamanho da amostra e outros elementos de desenho de uma
avaliação

2
Estrutura

1. O que é poder estatístico?

2. A importância do poder estatístico

3. Fatores que afetam o poder estatístico

3
O que é poder estatístico?
Incerteza e poder estatístico

• O poder estatístico é a probabilidade de se detectar o impacto de


um programa quando referido impacto existe na população

• Por que falamos da probabilidade de se detectar um impacto


existente?

Porque, ao trabalhar com dados de uma amostra,


sempre existe um certo grau de incerteza

5
Variabilidade amostral

• A amostra é um subgrupo de uma população

• Distintas amostras extraídas de uma mesma população


produzem diferentes resultados

• Isso se chama variabilidade amostral: os valores calculados a


partir de amostras variam de uma amostra a outra

6
Exemplo de variabilidade amostral
Suponha que queremos estudar o impacto de um programa
de formação profissional

Tratamento
9 10 6
12 9
População-alvo 9 9 10 10
9 6
8
6 6 Para baratear custos,
12
9 2 8
12 tomamos duas amostras
representativas: uma do
5 8 10 9 9 grupo de tratamento e
6 9 8 12
8 9
10
outra do grupo de
8 9
9 8 12
8
9 controle
Controle
Indicador: dias de desemprego

7
Exemplo de variabilidade amostral
Extraímos uma amostra entre o grupo de tratamento e uma do
grupo de controle, e assim verificamos:
Tratamento
10 66
12 9 9
Tratamento:
9 9 10 10
População alvo
9 6 6 6 9+8+6+6+2
8
12 = 6,2
9 22 12 5
8

5 8 10
9
9
6 9 Controle:
8 9 8 12
9 10 9 + 12 + 10 + 8 + 9
8 9 8 12
8
9 = 9,6
5
Controle
Indicador: dias de desemprego

Concluímos que o programa teve um efeito positivo


de -3,4 dias de desemprego 8
Exemplo de variabilidade amostral
Mas se as amostras forem escolhidas de outra maneira...

Tratamento
10 66 Tratamento:
12 9 9
9 9 10 10
População alvo
9 6 66 6 9 + 10 + 6 + 8 + 12
8
12 = 9
9 22 12 5
8

55 8 10
9
9 Controle:
6
6 9 88
8 9
9 10
10
9 + 6 + 10 + 8 + 5
8 9 8 12 9 = 7.6
8 5
Controle
Indicador: dias de desemprego

Agora concluímos que o programa teve um efeito


negativo de +1,4 dia de desemprego 9
Um cenário típico em que há um efeito positivo
percebido

Duas causas podem explicar diferença de resultados a partir de uma só


amostra:

a. Na população realmente existe uma diferença entre o grupo de


tratamento e controle: o programa teve impacto

b. A diferença estimada é fruto de erro amostral. Na realidade, não houve


impacto (a diferença real entre os dois grupos é zero)  ERRO TIPO 1

10
Um cenário típico em que não há efeito percebido

Duas causas podem explicar diferença de resultados a partir de uma só


amostra:

a. Na população realmente não existe uma diferença entre o grupo de


tratamento e controle: o programa não teve impacto

b. A ausência de diferença na estimação é fruto de erro amostral. Na


realidade, houve impacto (a diferença real entre os dois grupos é
diferente de zero)  ERRO TIPO 2

Mas como sabemos se o que observamos


se encaixa em A ou B?
11
A importância do poder estatístico
Dois tipos de erros estatísticos
Dois tipos de erros estatísticos
Erro tipo I Erro tipo II
(falso positivo) (falso negativo)
Você não
está
grávida!

Você está
grávido!

15
Dois tipos de erros estatísticos

CONCLUSÃO
Programa teve impacto


SIM
Programa
teve impacto

A
VERDADE
NÃO 
Programa Concluímos que o
não teve programa teve impacto,
impacto quando na realidade não
teve

16
Dois tipos de erros estatísticos

CONCLUSÃO
Programa teve impacto


SIM
Programa
teve impacto
O que falta
A nesta tabela?
VERDADE
NÃO 
Programa Concluímos que o
não teve programa teve impacto,
impacto quando na realidade não
teve

17
Dois tipos de erros estatísticos

CONCLUSÃO
Programa teve impacto Programa não teve impacto



SIM
Programa Concluímos que o programa não teve
teve impacto impacto, quando na realidade teve
(mas a amostra é muito pequena
A para detectar o impacto)
VERDADE
NÃO 
Programa
não teve
impacto
Concluímos que o
programa teve impacto,
quando na realidade não

teve

18
Erro tipo I

CONCLUSÃO
Programa teve impacto Programa não teve impacto



SIM
Programa Concluímos que o programa não teve
teve impacto impacto, quando na realidade teve
(mas a amostra é muito pequena
A para detectar o impacto)
VERDADE
NÃO 
Programa
não teve
impacto
Concluímos que o
programa teve impacto,
quando na realidade não

teve

Erro tipo I 19
Poder estatístico
Poder estatístico

CONCLUSÃO
Programa teve Programa não teve impacto
impacto

SIM 
Programa
teve
impacto
 Concluímos que o programa não
teve impacto, quando na realidade
teve
(mas a amostra é muito pequena
A para detectar o impacto)
VERDADE
NÃO 
Programa
não teve
impacto
Concluímos que o
programa teve impacto,
quando na realidade não

teve

Poder Estatístico: probabilidade de detectar


um impacto quando ele existe 20
Erro tipo II
Erro tipo II

CONCLUSÃO
Programa teve Programa não teve impacto
impacto

SIM 
Programa
teve
impacto
 Concluímos que o programa não
teve impacto, quando na realidade
teve
(mas a amostra é muito pequena
A para detectar o impacto)
VERDADE
NÃO 
Programa
não teve
impacto
Concluímos que o
programa teve impacto,
quando na realidade não

teve

21
CONCLUSÃO
Poder SIM NÃO
estatístico Programa teve impacto Programa não teve
impacto
Você não está
Você está grávida!
grávida!

Efeito

A VERDADE

Sem efeito Você não


está grávido!

22
Por que o poder estatístico é importante?

Risco de se
Alta
Avaliação com encerrar ou
probabilidade
baixo poder mudar um
de erro tipo II
estatístico programa que
(falso negativo)
é efetivo

22
Exemplo: Programa de microcrédito em Gana
Como diferentes taxas de juros afetam a
demanda por microcrédito?
23
Exemplo: Sensibilidade a taxa de juros (Gana)
A cada 100 donos de negócios…

… 15 participaram de oficina sobre


microcrédito

24
Exemplo: Sensibilidade a taxa de juros (Gana)

Dos 15 participantes…

5 começaram a preencher formulário

2 completaram o formulário

1 pediu o microcrédito

25
Exemplo: Sensibilidade a taxa de juros (Gana)

Baixa taxa de
Amostra Baixo poder Avaliação foi
participação nas
pequena estatístico cancelada
oficinas

26
Fatores que afetam o poder
estatístico
Fatores que afetam o poder estatístico

• Tamanho da amostra
• Tamanho do efeito
• Participação (take-up)
• Variância
• Proporções de alocação experimental
• Clusters

30
Tamanho da amostra

• Fazemos um experimento com uma amostra, que é um


subgrupo escolhido aleatoriamente da população

Amostragem aleatória

Amostra

População

29
Tamanho da amostra

• Quanto maior a amostra, mais representativa ela


será da população

Amostragem aleatória

População Amostra

30
Tamanho da amostra

Quanto maior a amostra

• Mais representativa ela será da população

• Mais provável que o experimento capture qualquer impacto que


ocorre na população

• Menor chance de erros tipo II (não detectar impacto)

• Maior poder e precisão

31
Regra de ouro número 1

Uma amostra maior dá maior poder à avaliação experimental

Poder
1

0.75

0.5

0.3 Tamanho da amostra

32
Regra de ouro número 1

Uma amostra maior dá maior poder à avaliação experimental


Menos poder


Mais poder

33
Fatores que afetam o poder estatístico

• Tamanho da amostra
• Tamanho do efeito
• Participação (take-up)
• Variância
• Proporções de alocação experimental
• Clusters

37
Exemplo: Prova Brasil (Brasil)
• A avaliação, realizada pelo Instituto Nacional de Estudos e Pesquisas
Educacionais (Inep), é aplicada em todo o país, e é composta por uma
prova, realizada pelos alunos do quinto e do nono ano de escolas rurais
e urbanas
• Um programa tem como meta melhorar os resultados das escolas
tratadas em 20 pontos
• Outro programa visa melhorar os resultados em 1 ponto

É mais fácil de perceber as mudanças


de 20 pontos do que de 1 ponto

É muito mais provável que meu grupo de tratamento seja, por um acaso,
aleatorizado com uma nota em média um ponto acima da média da
população do que com 20 pontos acima da população como um todo
35
2.5x

10x

Efeito grande Efeito pequeno

Se o efeito é pequeno, precisamos de uma


“lupa” com maior aumento para vê-lo
36
Regra de ouro número 2
O tamanho do efeito e o tamanho da amostra são inversamente
proporcionais a um nível de poder estatístico

Exige amostra menor

Efeito grande

Exige amostra maior


Efeito pequeno

37
Fatores que afetam o poder estatístico

• Tamanho da amostra
• Tamanho do efeito
• Participação (take-up)
• Variância
• Proporções de alocação experimental
• Clusters

43
Participação e tamanho do efeito

• Suponha um programa que dá fertilizantes a cada família rural beneficiada

• Suponha que entregamos o benefício do programa a quatro pessoas


(grupo de tratamento) e temos outras quatro pessoas do grupo de controle
que não o recebem

39
Tamanho do efeito com 100% de participação
Tratamento Controle

* *
f f

* *
f f

f = receberam fertilizantes
* = utilizaram os fertilizantes recebidos 40
Tamanho do efeito com 50% de participação
Tratamento Controle

*
f f

*
f f

f = receberam fertilizantes
* = utilizaram os fertilizantes recebidos 41
Regra de ouro número 3
• Participação imperfeita implica um menor efeito e vai exigir uma amostra
maior para um nível de poder dado (regra de ouro número 2)
• Se já se antecipa que o programa terá uma participação imperfeita, é
necessário planejar uma amostra maior

* *
f f
Participação Exige uma amostra menor
perfeita * *
f f

*
Participação f f Exige uma amostra maior
imperfeita
*
f f
42
Fatores que afetam o poder estatístico

• Tamanho da amostra
• Tamanho do efeito
• Participação (take-up)
• Variância
• Proporções de alocação experimental
• Clusters

49
Variância
• Suponha que temos um programa de saúde para aumentar a altura de
crianças que vivem em extrema pobreza no Norte do Brasil
• Mas existe grande variância na altura da população
• Risco: podemos acabar com uma amostra que tem a maioria dos altos…
ou uma com a maioria de baixos

População Amostra

Amostragem aleatória

44
Variância

• Em uma população com muita variância, há uma probabilidade maior


de que nossa amostra não seja representativa

• Por outro lado, em uma população com pouca variação na altura, é


mais provável que a amostra seja representativa

População Amostra

Amostragem aleatória

45
Implicações de maior variância
• Se no final do programa as crianças tratadas são mais altas que as crianças
do grupo de controle...
• É porque o grupo de tratamento tinha crianças mais altas ou é porque o
programa funciona?

Programa implementado

População Amostra
Tratamento

Amostragem aleatória

Controle

46
Implicações de maior variância
Se a população tem uma altura similar no início, seria fácil saber:
• É mais provável que tenhamos uma amostra representativa
• E a diferença que vemos no final deve ser explicada pelo programa

Programa implementado

População Amostra
Tratamento

Amostragem aleatória

Controle

47
Regra de ouro número 4
• Para um nível de poder estatístico, quanto maior a variância, maior
a amostra de que necessitamos

Maior
Precisamos de uma amostra
variância maior

Menor Precisamos de uma amostra


variância menor

48
Fatores que afetam o poder estatístico

• Tamanho da amostra
• Tamanho do efeito
• Participação (take-up)
• Variância
• Proporções de alocação experimental
• Clusters

56
Aumentar o tamanho da amostra aumenta o poder
estatístico, mas cada vez menos

Poder
1

0.75

0.5

0.3 Tamanho da amostra

50
Maximizando o poder em uma amostra

• P é a proporção do tratamento na amostra


…P sempre será um número entre 0 a 1

• Para ter o máximo de poder estatístico para o tamanho de uma dada


amostra, devemos minimizar

• Este termo é minimizado quando 𝑃 = 0,5: a metade da amostra está no


grupo de tratamento
51
Regra de ouro número 5
• Para um nível de amostra, o poder estatístico é maximizado quando a
amostra é dividida igualmente entre os grupos de tratamento e controle

Amostra (n=8) Tratamento (n=4)

Controle (n=4)

52
Fatores que afetam o poder estatístico

• Tamanho da amostra
• Tamanho do efeito
• Participação (take-up)
• Variância
• Proporções de alocação experimental
• Clusters (Agrupamentos)

61
Os indivíduos dentro de um cluster podem se
comportar da mesma maneira
Controle
População

Tratamento
54
Regra de ouro número 6

• Para uma dada amostra, aleatorizar por clusters reduz o poder estatístico

Precisamos de amostra
menor

Precisamos de amostra
maior

55
Regra de ouro número 6

• Para uma dada amostra, há menos poder estatístico quando se


aleatoriza por clusters
• Apesar disso, pode ser que aleatorizar por clusters seja a melhor opção por
outras razões: externalidades, razões logísticas etc.

Em geral, o número de clusters é determinante para o poder estatístico,


não o número de pessoas em cada cluster

56
Ou os indivíduos dentro de um cluster podem
se comportar de maneira diferente

Controle
População

Tratamento
57
Correlação Intra-Clusters (CIC)

A correlação intra-clusters (CIC) mede o quanto os indivíduos dentro de


um cluster são similares no que se refere à variável de interesse

• CIC pode ser alto

• CIC pode ser baixo

58
Regra de ouro número 7
• Para um dado nível de poder estatístico, uma maior Correlação Intra- Clusters
(CIC)  é necessária uma amostra maior
– Quanto maior o CIC, a melhor solução é aumentar a amostra incluindo mais
clusters, em vez de mais indivíduos aos clusters

Precisamos de amostra
maior

Precisamos de amostra
menor

59
Conclusões

• Distintas amostras extraídas de uma mesma população produzem


resultados distintos

• É necessário ter poder estatístico para detectar o impacto de um programa

• O tamanho da amostra é o principal determinante do poder estatístico

69
Regras de ouro

1. Amostra maior  Mais poder estatístico

2. Para detectar efeito menor  Necessidade de amostra maior

3. Participação (take-up) baixa  Necessidade de amostra maior

4. Alta variância na população  Necessidade de amostra maior

5. Para uma dada amostra, um número igual de unidades no grupo de


tratamento e no grupo de controle maximiza o poder

6. Para uma dada amostra, agrupar clusters significa  menor poder

7. Maior correlação entre clusters  é necessário maior tamanho de amostra

61