Você está na página 1de 1

Diversidade MAIS RECENTE REVISTA Ascenda TÓPICOS Podcasts VÍDEO LOJA A Grande Ideia Dados e Visuais Seleções de Casos

inscrever-se entrar
Análise E Ciência De Dados | Uma Atualização sobre a Importância Estatís…

Análise E Ciência De Dados

Uma atualização sobre a


significância estatística
Muitas vezes é mal utilizado e incompreendido. por Amy Gallo
16 de fevereiro de 2016

Westend61/Getty Images

Ler em português

 Quando você executa um experimento ou analisa dados, você quer


tweet
saber se suas descobertas são “significativas”. Mas a relevância

 comercial (ou seja, significância prática) nem sempre é a mesma coisa


POST que a confiança de que um resultado não se deve puramente ao acaso
(ou seja, significância estatística). Esta é uma distinção importante;

compartilhar infelizmente, a significância estatística é muitas vezes mal
compreendida e mal utilizada nas organizações de hoje. E, no entanto,

salvar como mais e mais empresas estão confiando em dados para tomar
decisões críticas de negócios, é um conceito essencial para os gerentes
entenderem.
Compre Cópias

 Para entender melhor o que a significância estatística realmente


imprimir
significa, conversei com Thomas Redman, autor de Data Driven:
Profiting from Your Most Important Business Asset. Ele também
aconselha as organizações sobre seus dados e programas de qualidade
de dados.

O Que É Significança Estatística?

“A significância estatística ajuda a quantificar se um resultado é


provável devido ao acaso ou a algum fator de interesse”, diz Redman.
Quando uma descoberta é significativa, isso simplesmente significa que
você pode se sentir confiante de que é real, não que você acabou de ter
tido sorte (ou azar) ao escolher a amostra.

Quando você executa um experimento, realiza uma pesquisa, faz uma


pesquisa ou analisa um conjunto de dados, você está tirando uma
amostra de alguma população de interesse, não olhando para todos os
pontos de dados que você possivelmente pode. Considere o exemplo de
uma campanha de marketing. Você veio com um novo conceito e quer
ver se ele funciona melhor do que o atual. Você não pode mostrá-lo a
todos os clientes-alvo, é claro, então você escolhe um grupo de amostra.

Quando você executa os resultados, você descobre que aqueles que


viram a nova campanha gastaram US$ 10,17 em média, mais do que os
US$ 8,41 aqueles que viram a antiga gastaram. Esses US$ 1,76 podem
parecer uma grande — e talvez importante — diferença. Mas, na
realidade, você pode ter tido azar, atraindo uma amostra de pessoas que
não representam a população maior; na verdade, talvez não houvesse
diferença entre as duas campanhas e sua influência nos
comportamentos de compra dos consumidores. Isso é chamado de erro
de amostragem, algo que você deve enfrentar em qualquer teste que não
inclua toda a população de interesse.

Redman observa que há dois principais contribuintes para o erro de


amostragem: o tamanho da amostra e a variação na população
subjacente. O tamanho da amostra pode ser intuitivo o suficiente. Pense
em jogar uma moeda cinco vezes em vez de largá-la 500 vezes. Quanto
mais vezes você virar, menor a probabilidade de acabar com uma grande
maioria das cabeças. O mesmo vale para a significância estatística: com
tamanhos de amostra maiores, é menos provável que você obtenha
resultados que reflitam a aleatoriedade. Tudo o mais sendo igual, você
se sentirá mais confortável na precisão da diferença de US$ 1,76 das
campanhas se mostrar o novo para 1.000 pessoas em vez de apenas 25.
Claro, mostrar a campanha para mais pessoas custa mais, então você
tem que equilibrar a necessidade de um tamanho de amostra maior com
o seu orçamento.

Assine nossa Newsletter Semanal


Gerenciando a Ciência de Dados
Um boletim informativo de oito semanas sobre como
fazer análises e IA funcionarem para sua
Criar Conta
organização.

A variação é um pouco mais complicada de entender, mas Redman


insiste que desenvolver um senso para isso é fundamental para todos os
gerentes que usam dados. Considere as imagens abaixo. Cada um
expressa uma distribuição diferente de compras de clientes sob a
Campanha A. No gráfico à esquerda (com menos variação), a maioria
das pessoas gasta aproximadamente a mesma quantidade de dólares.
Algumas pessoas gastam alguns dólares mais ou menos, mas se você
escolher um cliente aleatoriamente, as chances são muito boas de que
eles estejam muito próximos da média. Portanto, é menos provável que
você selecione uma amostra que pareça muito diferente da população
total, o que significa que você pode estar relativamente confiante em
seus resultados.

Compare isso com o gráfico à direita (com mais variação). Aqui, as


pessoas variam mais em quanto gastam. A média ainda é a mesma, mas
algumas pessoas gastam mais ou menos. Se você escolher um cliente
aleatoriamente, as chances são maiores de que ele esteja muito longe da
média. Portanto, se você selecionar uma amostra de uma população
mais variada, não poderá estar tão confiante em seus resultados.

Para resumir, o importante a entender é que quanto maior a variação na


população subjacente, maior o erro de amostragem.

Menor Variação Maior Variação


NÚMERO DE CLIENTES

VALOR DO GASTO

Fonte Thomas C. Redman

Veja mais gráficos HBR em Dados e Visuais

Redman aconselha que você deve plotar seus dados e fazer imagens
como essas ao analisar os dados. Os gráficos ajudarão você a ter uma
ideia da variação, do erro de amostragem e, por sua vez, da significância
estatística.

Não importa o que você esteja estudando, o processo para avaliar a


significância é o mesmo. Você começa afirmando uma hipótese nula,
muitas vezes um homem de palha que você está tentando refutar. No
experimento acima sobre a campanha de marketing, a hipótese nula
pode ser “Em média, os clientes não preferem nossa nova campanha à
antiga”. Antes de começar, você também deve declarar uma hipótese
alternativa, como "Em média, os clientes preferem a nova" e um nível de
significância alvo. O nível de significância é uma expressão de quão
raros são seus resultados, sob a suposição de que a hipótese nula é
verdadeira. Geralmente é expresso como um “valor p”, e quanto menor o
valor p, menor a probabilidade de os resultados serem devidos
puramente ao acaso.

Definir uma meta e interpretar os valores de p pode ser


assustadoramente complexo. Redman diz que depende muito do que
você está analisando. “Se você está procurando o bóson de Higgs,
provavelmente quer um valor p extremamente baixo, talvez 0,00001”,
diz ele. “Mas se você está testando se o seu novo conceito de marketing é
melhor ou se as novas brocas que seu engenheiro projetou funcionam
mais rápido do que as suas brocas existentes, então você provavelmente
está disposto a assumir um valor mais alto, talvez até 0,25.”

Observe que, em muitos experimentos de negócios, os gerentes pulam


essas duas etapas iniciais e não se preocupam com o significado até que
os resultados estejam disponíveis. No entanto, é uma boa prática
científica fazer essas duas coisas com antecedência.

Em seguida, você coleta seus dados, traça os resultados e calcula


estatísticas, incluindo o valor p, que incorpora a variação e o tamanho
da amostra. Se você obter um valor p menor que o seu alvo, então você
rejeita a hipótese nula em favor da alternativa. Novamente, isso significa
que a probabilidade é pequena de que seus resultados sejam devidos
apenas ao acaso.

Como é calculado? Como gerente, é provável que você mesmo nunca


calcule a significância estatística. “Os pacotes estatísticos mais bons
relatarão a significância junto com os resultados”, diz Redman. Há
também uma fórmula no Microsoft Excel e várias outras ferramentas on-
line que a calcularão para você.

Ainda assim, é útil conhecer o processo descrito acima para entender e


interpretar os resultados. Como Redman aconselha, “Os gerentes não
devem confiar em um modelo que não entendem”.

Como As Empresas Usam Isso?

As empresas usam a significância estatística para entender o quão


fortemente os resultados de um experimento, pesquisa ou pesquisa que
realizaram devem influenciar as decisões que tomam. Por exemplo, se
um gerente executar um estudo de preços para entender a melhor forma
de precificar um novo produto, ele calculará a significância estatística —
com a ajuda de um analista, muito provavelmente — para que ele saiba
se as descobertas devem afetar o preço final.

Lembra que a nova campanha de marketing acima produziu um


aumento de US$1,76 (mais de 20%) nas vendas médias? É certamente de
importância prática. Se o valor p chegar a 0,03, o resultado também é
estatisticamente significativo, e você deve adotar a nova campanha. Se o
valor p chegar a 0,2, o resultado não é estatisticamente significativo,
mas como o aumento é tão grande, você provavelmente ainda
prosseguirá, embora talvez com um pouco mais de cautela.

Mas e se a diferença fosse apenas alguns centavos? Se o valor p chegar a


0,2, você manterá sua campanha atual ou explorará outras opções. Mas
mesmo que tivesse um nível de significância de 0,03, o resultado é
provavelmente real, embora bastante pequeno. Nesse caso, sua decisão
provavelmente será baseada em outros fatores, como o custo de
implementação da nova campanha.

Leia mais sobre Transformação Digital

Você está usando os dados certos para poder sua transformação digital?

Intimamente relacionada à ideia de um nível de significância está a


noção de um intervalo de confiança. Vamos dar o exemplo de uma
pesquisa política. Digamos que haja dois candidatos: A e B. Os
pesquisadores realizam um experimento com 1.000 “eleitores
prováveis”; 49% da amostra dizem que votarão em A e 51% dizem que
votarão em B. Os pesquisadores também relatam uma margem de erro
de +/- 3%.

“Tecnicamente”, diz Redman, “49% +/-3% é um ‘intervalo de confiança


de 95%’ para a verdadeira proporção de eleitores A na população.”
Infelizmente, ele diz que a maioria das pessoas interpreta isso como “há
95% de chance de que a verdadeira porcentagem de A esteja entre 46% e
52%”, mas isso não está correto. Em vez disso, diz que se os
pesquisadores fizessem o resultado muitas vezes, 95% dos intervalos
construídos dessa maneira conteriam a verdadeira proporção.

Se sua cabeça está girando nessa última frase, você não está sozinho.
Como diz Redman, essa interpretação é “ensivelmente sutil, muito sutil
para a maioria dos gerentes e até mesmo para muitos pesquisadores com
diplomas avançados”. Ele diz que a interpretação mais prática disso
seria “Não fique muito animado que B tenha um bloqueio na eleição” ou
“B parece ter uma vantagem, mas não é estatisticamente significativa”.
Claro, a interpretação prática seria muito diferente se 70% dos prováveis
eleitores dissessem que votariam em B e a margem de erro fosse de 3%.

A razão pela qual os gerentes se preocupam com a significância


estatística é que eles querem saber o que as descobertas dizem sobre o
que devem fazer no mundo real. Mas "intervalos de confiança e testes de
hipóteses foram projetados para apoiar a 'ciência', onde a ideia é
aprender algo que resistirá ao teste do tempo", diz Redman. Mesmo que
uma descoberta não seja estatisticamente significativa, ela pode ter
utilidade para você e sua empresa. Por outro lado, quando você está
trabalhando com grandes conjuntos de dados, é possível obter
resultados estatisticamente significativos, mas praticamente sem
sentido, como um grupo de clientes tem 0,000001% mais chances de
clicar na Campanha A em vez da Campanha B. Então, em vez de ficar
obcecado se suas descobertas estão precisamente certas, pense na
implicação de cada descoberta para a decisão que você espera tomar. O
que você faria de diferente se a descoberta fosse diferente?

Que erros as pessoas cometem ao trabalhar com


significância estatística?

“O significado estatístico é um conceito escorregadio e muitas vezes é


incompreendido”, adverte Redman. “Eu não me deparei com muitas
situações em que os gerentes precisam entendê-lo profundamente, mas
eles precisam saber como não abusar disso.”

É claro que os cientistas de dados não têm o monopólio da palavra


“significativo” e, muitas vezes, nas empresas, é usado para significar se
uma descoberta é estrategicamente importante. É uma boa prática usar
uma linguagem o mais clara possível ao falar sobre descobertas de
dados. Se você quiser discutir se a descoberta tem implicações para sua
estratégia ou decisões, não há problemas em usar a palavra
“significativo”, mas se você quiser saber se algo é estatisticamente
significativo (e você deve querer saber disso), seja preciso em seu
idioma. Da próxima vez que você analisar os resultados de uma pesquisa
ou experimento, pergunte sobre a significância estatística se o analista
não a relatou.

Mais Leitura

Uma Atualização sobre Análise de Regressão

Lembre-se de que os testes de significância estatística ajudam você a


explicar possíveis erros de amostragem, mas Redman diz que o que
muitas vezes é mais preocupante é o erro de não amostragem: “O erro de
não amostragem envolve coisas em que os protocolos experimentais
e/ou de medição não aconteceram de acordo com o plano, como pessoas
mentindo na pesquisa, dados perdidos ou erros cometidos na análise É
aqui que Redman vê resultados mais perturbadores. “Há tanta coisa que
pode acontecer desde o momento em que você planeja a pesquisa ou o
experimento até o momento em que obtém os resultados. Estou mais
preocupado se os dados brutos são confiáveis do que com quantas
pessoas eles conversaram”, diz ele. Dados limpos e análise cuidadosa são
mais importantes do que a significância estatística.

Sempre tenha em mente a aplicação prática da descoberta. E não fique


muito preso a definir um intervalo de confiança rigoroso. Redman diz
que há um viés na literatura científica de que “um resultado não era
publicável a menos que atingisse um p = 0,05 (ou menos)”. Mas para
muitas decisões — como qual abordagem de marketing usar — você
precisará de um intervalo de confiança muito menor. Nos negócios, diz
Redman, muitas vezes há critérios mais importantes do que a
significância estatística. A pergunta importante é: “O resultado se
destaca no mercado, mesmo que apenas por um breve período de
tempo?”

Leia mais sobre Análise e ciência


Como diz Redman, os resultados só lhe dão tanta informação: “Sou de dados ou tópicos relacionados
totalmente a fim de usar estatísticas, mas sempre combinei com bom Gerenciamento e

senso.” experimentação de dados

Amy Gallo é editora colaboradora da Harvard


Business Review, coanfitriã do podcast Women
at Work e autora de dois livros: Getting Along:
How to Work with Anyone (Even Difficult People)
e o HBR Guide to Dealing with Conflict. Ela
escreve e fala sobre a dinâmica do local de
trabalho. Assista à palestra do TEDx sobre
conflitos e siga-a no LinkedIn.

 @amyegallo

    
tweet POST compartilhar salvar Compre Cópias imprimir

Recomendadas para você

§ HBR APRESENTA

Chamada fria
Dentro de um Estudo de Caso

Uma atualização sobre o Uma Atualização sobre Uma maneira melhor de ÁUDIO
teste A/B Análise de Regressão colocar seus dados para Dois milhões de contas
funcionar falsas: má conduta de
vendas na Wells Fargo

Inicie minha assinatura!

Explore o HBR Loja HBR Sobre o HBR Gerenciar Minha Siga HBR
Conta
Mais Recente Reimpressões de artigos Contato  FACEBOOK
Minha Biblioteca
MAIS POPULAR livros Anuncie Conosco  TWITTER
Feeds de Tópicos
Todos os Temas Casos Informações para  LinkedIn
Livreiros/Varejos Pedidos
Arquivo de Revistas COLEÇÕES  INSTAGRAM
Calcês Configurações da Conta
A Grande Ideia Edições de Revistas  Seu leitor de notícias
Edições Globais Preferências de E-mail
Listas de Leitura Série de Guias HBR
Questionamentos da Mídia Perguntas frequentes sobre
Seleções de Casos Gerentes de 20 Minutos
a conta
HBR Diretrizes para Autores
VÍDEO
Central de ajuda
Série de Inteligência Serviços Analíticos HBR
Podcasts
Emocional HBR Entre em contato com o
Permissões de Direitos
Webinars Atendimento ao Cliente
HBR Deve Ler Autorais
Dados e Visuais
ferramentas
Minha Biblioteca
NEWSLETTERS
Imprensa HBR
HBR Ascende

Publicação Sobre NÓS | carreiras | política de privacidade | Política de cookies | Informações sobre Direitos Autorais | Política de Marcas Registradas
de Negócios
Publicação de Negócios de Harvard: Ensino Superior | Aprendizagem Corporativa | Revisão de Negócios de Harvard | Escola de Negócios de Harvard

de Harvard

Você ainda tem 1 artigo


Copyright ©2023 Publicação da Escola de Negócios de Harvard. todos os direitos reservados. A Harvard Business Publishing é uma afiliada da Harvard Business School.
Inscreva-se para acesso ilimitado.
gratuito este mês.

Você também pode gostar