Você está na página 1de 22

Renato Nogueirol Lobo

Probabilidade e
Estatística
Sumário
CAPÍTULO 4 – Como Realizar Testes de Hipótese?..............................................................05

Introdução.....................................................................................................................05

4.1 Tipos de hipótese e tipos de erros...............................................................................05

4.1.1 Hipótese estatística...........................................................................................05

4.1.2 Teste de hipóteses ............................................................................................06

4.1.3 Nível de Significância.......................................................................................07

4.2 Nível de significação e poder de um teste....................................................................10

4.2.1 Analise de potência e nível de significância.........................................................10

4.2.2 P-valor............................................................................................................12

4.3 Procedimentos para testar hipóteses sobre média e proporção.......................................13

4.3.1 Teste de hipótese para uma proporção...............................................................13

4.3.2 ANOVA e teste t para amostras independentes....................................................15

4.4 Tabelas de contingência e teste de Qui-quadrado para independência............................16

4.4.1 Teste Qui-quadrado de independência................................................................16

4.4.2 Condição para o teste Qui-quadrado.................................................................17

4.4.3 Tabela 2x2: teste do qui-quadrado análogo ao Z-test


de duas proposições independentes............................................................................18

4.4.4 Determinação e interpretação do Risco Relativo...................................................19

4.4.5 Coeficiente de correlação da amostra................................................................19

Síntese...........................................................................................................................20

Referências Bibliográficas.................................................................................................21

03
Capítulo 4 Como Realizar
Testes de Hipótese?

Introdução
Você já formulou alguma hipótese hoje? Em nosso cotidiano, levantamos hipóteses constante-
mente para explicar fenômenos, mesmo sem nos darmos conta. Um exemplo disso é a análise
diária da previsão do tempo, na qual, baseando-se em fatos passados e projeções calculadas,
os metereologistas criam hipóteses sobre o clima.

Mas o que seria uma hipótese estatística? Como ela pode ser testada? Saiba, desde já, que uma
hipótese estatística é aquela que pode ser testada com base na observação de um processo mo-
delado por meio de um conjunto de variáveis aleatórias.
​​ Um teste de hipótese estatística é um
método de inferência.

Neste capítulo, abordaremos os tipos de hipóteses estatísticas e de erros, bem como o nível de
significância e o poder de um teste. Você aprenderá os procedimentos para testar hipóteses com
base na média e na proporção, além de conhecer as tabelas de contingência e o teste de Qui-
-quadrado. Vamos lá?

4.1 Tipos de hipótese e tipos de erros


Vamos começar falando da análise de regressão! Segundo Fabiana da Silva Lopes (2006), análise
de regressão é um processo estatístico para estimar as relações entre as variáveis que estão sendo
estudadas. Este processo inclui muitas técnicas para modelagem e análise das diversas variáveis,
quando o foco é a relação entre uma variável dependente e uma ou mais variáveis ​​independentes.

Mais especificamente, a análise de regressão ajuda a entender como o valor típico da variável
dependente muda quando uma das variáveis ​​independentes é modificada e as outras são manti-
das fixas. Aqui, o alvo a ser alcançado é estimar as variáveis independentes
​​ utilizando uma dis-
tribuição de probabilidade. A linha de regressão é atraída para melhor se aproximar da relação
entre as duas variáveis, ao passo que as técnicas para estimá-la podem prever uma relação que
existiu no passado entre essas duas variáveis e que continuará a existir.

4.1.1 Hipótese estatística


Saiba que a hipótese estatística é uma suposição sobre um parâmetro da população, que pode
ser ou não verdadeira. Testes de hipóteses, portanto, se referem aos procedimentos formais que
nos levam a aceitar ou rejeitar as hipóteses lançadas. A melhor maneira de determinar se uma
hipótese estatística é verdadeira seria examinar toda a população, porém, na maioria das vezes,
isto é impraticável. Examinamos, portanto, uma amostra aleatória dessa população, caso seus
dados não sejam consistentes com a hipótese de estatística, a hipótese é rejeitada.

05
Probabilidade e Estatística

Segundo Lopes (2006) um teste de hipótese é um teste estatístico utilizado para determinar se
existe evidência suficiente numa amostra de dados para inferir que uma determinada condição é
verdadeira para a totalidade da população. Um teste de hipótese analisa duas hipóteses opostas
sobre a população: a hipótese nula e hipótese alternativa. A hipótese nula é a declaração de que
não existe nenhuma diferença entre o valor esperado e o valor real. A hipótese alternativa é a
declaração de que encontramos, na prática, um valor diferente do que era esperado.

Um equívoco comum é que os testes de hipóteses são projetados para selecionar a mais provável
de duas hipóteses. Todo teste permanecerá com a hipótese nula até que haja provas suficientes
para apoiar a hipótese alternativa como verdadeira. Por exemplo, imagine que precisamos de-
terminar se uma moeda é justa e equilibrada. Segundo a hipótese nula, é provável que metade
dos lançamentos resulte em cara e a outra metade em coroa. Já na hipótese alternativa, pode
ser que o número de caras e coroas seja muito diferente. Simbolicamente, podemos expressar
essas hipóteses como:

H0: P = 0,5
Ha: P ≠ 0,5

Imagine agora que você lançou a moeda 50 vezes, obtendo um resultado de 40 caras e 10 co-
roas. Tendo em conta este resultado, estaríamos inclinados a rejeitar a hipótese nula e concluir,
com base nas provas, que a moeda provavelmente não era justa e equilibrada. A teoria das hi-
póteses estatísticas diz que um teste de hipóteses leva a um desses dois resultados: você aceita ou
rejeita a hipótese nula. Mas por que essa distinção entre aceitação e não aceitação? A aceitação
implica que a hipótese nula é verdadeira, ao passo que a não aceitação implica que os dados
são suficientemente convincentes para aceitarmos a hipótese alternativa sobre a hipótese nula.

4.1.2 Teste de hipóteses


Chamamos de hipótese estatística, portanto, uma suposição sobre certas características de uma
população, especificando valores para cada parâmetro. A prática estatística segue um processo
formal para determinar se devemos rejeitar a hipótese nula, com base nos dados de amostra.
Como você já deve saber, este processo chama-se teste de hipóteses, o qual consiste em quatro
etapas. Acompanhe!

• Estado das hipóteses: envolve a indicação das hipóteses nula e alternativa. As hipóteses
são indicadas, de tal forma que sejam mutuamente exclusivas, isto é, se uma for verdadeira,
a outra obrigatoriamente será falsa.

• Plano de análise: descreve como utilizar dados para avaliar a hipótese nula. A avaliação
muitas vezes se concentra em torno de uma única estatística de teste.

• Análise dos dados da amostra: cálculo do valor da estatística do teste utilizando um dos
métodos existentes, descrito previamente no plano de análise.

06 Laureate- International Universities


• Interpretação dos resultados: aplicar a regra de decisão descrita no plano de análise.
Se o valor da estatística do teste é pouco provável, com base na hipótese de nulidade,
rejeita-se a hipótese nula.

Atente-se aos dois tipos de erros que podem resultar de um teste de hipótese:

• Erro do tipo I: ocorre quando o pesquisador rejeita a hipótese nula e ela é verdadeira. A
probabilidade de um erro tipo I é chamada de nível de significância. Esta probabilidade é
também chamada alfa e frequentemente designada por α.

• Erro do Tipo II: ocorre quando o pesquisador não rejeita uma hipótese nula e ela é falsa.
A probabilidade de um erro Tipo II é chamada Beta, e muitas vezes denotada por β. A
probabilidade de não cometer um erro tipo II é conhecida como poder do teste.

O plano de análise inclui regras de decisão para rejeitar a hipótese nula. Na prática, os estatís-
ticos descrevem estas regras de decisão de duas maneiras: com referência a um valor de p, ou
com referência a uma região de aceitação.

• P-valor: a força da evidência em apoio de uma hipótese nula é medida pelo P-valor.
Imagine que a estatística de teste é igual a S, enquanto o P-valor é a probabilidade de se
observar uma estatística de teste tão extrema como S, assumindo que a hipótese nula é
verdadeira. Se o P-valor é menor que o nível de significância, rejeitamos a hipótese nula.

• Região de aceitação: trata-se de uma gama de valores. Se o teste de estatística cai dentro
da região de aceitação, a hipótese nula não é rejeitada. A região de aceitação será definida
de modo que a possibilidade de se ter um erro do tipo I é igual ao nível de significância.

VOCÊ QUER VER?


O vídeo Margem de erro 1 da University Khan discute e exemplifica questões como
média amostral e variância amostral, tomando como a base uma pesquisa eleitoral hi-
potética. Disponível em: <https://www.youtube.com/watch?v=lV2iGwVp9VY&hd=1>.

4.1.3 Nível de Significância


Entenda que o conjunto de valores fora da região de aceitação é chamado de região de rejeição.
Se o teste de estatística cai na região de rejeição, a hipótese nula é rejeitada. Em tais casos,
dizemos que a hipótese foi rejeitada ao nível de significância α. O nível de significância, também
indicado como alfa ou α, é a probabilidade de rejeitar a hipótese nula quando ela é verdadeira.

Por exemplo, um nível de significância de 0,05 indica um risco de 5% de concluir que existe uma
diferença, quando não há nenhuma diferença real. O nível de significância determina o quão
distante do valor hipótese nula vamos marcar em nosso gráfico. Para representar graficamente

07
Probabilidade e Estatística

um nível de significância de 0,05, precisamos sombrear os últimos 5% da distribuição mostrando


a distancia da hipótese nula.

Segundo Lopes (2006), um teste de hipótese estatística no qual a região de rejeição é apenas
num dos lados da distribuição de amostragem é chamado um teste unilateral. Por exemplo,
imagine que a hipótese nula indica que a média é menor do que ou igual a 10. A hipótese alter-
nativa seria que a média é superior a 10. A região de rejeição será constituída por uma série de
números localizados no lado direito da amostragem distribuição; isto é, um conjunto de números
superiores a 10.

A probabilidade de não cometer um erro tipo II é chamado o poder de um teste de hipóteses.


Para calcular o poder do teste é oferecida uma visão alternativa sobre o valor verdadeiro do pa-
râmetro populacional, assumindo que a hipótese nula é falsa. O tamanho do efeito é a diferença
entre o valor real e o valor especificado na hipótese nula.

Tamanho do efeito = valor verdadeiro - a hipótese de valor

Imagine que a hipótese nula afirma que uma média da população é igual a 100. Um pesquisador
pode perguntar: “qual é a probabilidade de rejeitar a hipótese nula se a verdadeira média da po-
pulação é igual a 90?”. Neste exemplo, o tamanho do efeito seria de 90 - 100, que é igual a -10.

A potência de um teste de hipótese é afetada por três fatores. Saiba quais são eles adiante!

1. O tamanho da amostra (n): quanto maior o tamanho da amostra, maior a potência do teste.

2. O nível de significância (α): quanto maior for o nível de significância, maior a potência
do teste. Se você aumentar o nível de significância, você reduz a região de aceitação.
Como resultado, você ficará mais propenso a rejeitar a hipótese nula, isto é, ficará menos
inclinado a aceitar a hipótese nula quando ela for falsa, evitando assim o erro tipo II.

3. O valor verdadeiro do parâmetro que está sendo testado: quanto maior for a diferença entre
o valor verdadeiro de um parâmetro e o valor especificado na hipótese nula, maior a potência
do teste. Isto é, quanto maior for o tamanho do efeito, maior será a energia do teste.

VOCÊ SABIA?
Você sabe o que é uma distribuição t-student? A distribuição t elaborada por Gosset é
frequentemente utilizada na estatística, com aplicações que vão da modelagem estatís-
tica aos testes de hipóteses. A função densidade da distribuição t tem a mesma forma
em sino da distribuição normal, mas reflete a maior variabilidade (com curvas mais
alargadas) esperada em amostras pequenas.

08 Laureate- International Universities


Saiba que, muitas vezes, em problemas práticos, o objetivo principal do pesquisador não é a esti-
mação em si, mas fazer afirmações a respeito do(s) parâmetro(s). Um operador de uma máquina
de empacotar cereais, monitora o peso das caixas pesando um determinado número de caixas
periodicamente. A norma diz que a máquina deve continuar operando a menos que a amostra
indique que a máquina não esteja funcionando normalmente. Neste caso, a máquina deve ser
desligada e ajustada. A condição requerida para a máquina continuar funcionando é m= 453 g.
O operador, neste caso, não está interessado em estimar m, mas sim determinar se há evidência
suficiente na amostra para concluir que m¹453 g.

Entenda desta forma: se o pesquisador deseja testar uma situação pré-estabelecida ou uma afirma-
ção alheia, então esse conhecimento (ou afirmação) deverá ser escolhido como a hipótese nula. Se
o pesquisador deseja obter evidência para dar suporte a uma argumentação ou para apoiar uma
afirmação, então, essa afirmação deve ser formulada de modo que se torne a hipótese alternativa.

Todos os testes de hipóteses são realizados da mesma maneira: afirma-se uma hipóte-
se a ser testada; formula-se um plano de análise; os dados de amostra são analisados
de acordo com o plano; e a hipótese nula é aceita ou rejeitada com base nos resultados.
Portanto, grave bem: cada teste de hipótese requer do analista a afirmação de uma hipótese nula
e de uma hipótese alternativa, mutuamente exclusivas.

Devemos utilizar dados de exemplo para aceitar ou rejeitar a hipótese nula, especificando os
elementos elencados abaixo.

• Nível de significância: em testes de hipóteses, o nível de significância é o critério


usado para rejeitar a hipótese nula. É utilizado da seguinte maneira: em primeiro lugar,
a diferença entre os resultados da experiência e a hipótese nula é determinada. Essa
diferença é, então, comparada com o nível de significância: caso seja inferior ou igual a
ele, a hipótese nula é rejeitada e o resultado é considerado estatisticamente significativo.

Tradicionalmente, os experimentadores têm usado tanto o nível de 0,05 (às vezes chamado
de nível de 5%) quanto o nível de 0,01 (nível de 1%), porém a escolha de níveis é, em
grande, parte subjetiva. Quanto mais baixo o nível de significância, mais os dados devem
afastar a hipótese nula de ser significativa. Portanto, o nível de 0,01 é mais conservador
do que o nível de 0,05. A letra grega alfa (α) é por vezes usada para indicar o nível de
significância com valor entre 0 e 1 (ou 0 ou 100%).

• O método de teste: tipicamente, o método de ensaio envolve um teste estatístico e uma


distribuição de amostragem calculada a partir dos dados da amostra. A estatística do teste
pode ser uma pontuação média, uma proporção, diferença entre as médias, diferença
entre proporções, z-score, t-score, Qui-quadrado, entre outros. Dada uma estatística de
teste e sua distribuição de amostragem, um pesquisador pode avaliar as probabilidades
associadas à situação. Se a probabilidade estatística do teste é menor que o nível de
significância, a hipótese nula é rejeitada.

• Análise dos dados de amostra: utiliza-se dados de exemplo para executar cálculos
preconizados no plano de análise.

Grave bem: quando a hipótese nula envolver uma média ou proporção, use uma das seguintes
equações para calcular a estatística de teste:

Estatística do teste = (Estatística - Parâmetro) / (desvio padrão de estatística)


Estatística do teste = (Estatística - Parâmetro) / (erro padrão de estatística)

Em que o parâmetro é o valor que aparece na hipótese nula, ao passo que estatística é a esti-
mativa do ponto do parâmetro. Como parte da análise, pode ser necessário calcular o desvio
padrão ou erro padrão da estatística.

09
Probabilidade e Estatística

4.2 Nível de significação e poder de um teste


A potência ou sensibilidade de um teste de hipótese binário é a probabilidade de que o teste
rejeite corretamente a hipótese nula (H0) quando a hipótese alternativa (Ha) for verdadeira (LO-
PES, 2006). Ele pode ser equivalentemente pensado como a probabilidade de aceitar a hipótese
alternativa quando esta é verdadeira, o que ilustra a capacidade de um teste para detectar um
efeito, se o efeito realmente existir.

Saiba que a potência de um teste, por vezes, refere-se à probabilidade de rejeitar o nulo quan-
do não é correto, embora isto não seja a definição formal indicada acima. Com o aumento do
poder, há uma diminuição da possibilidade de erro do tipo II ou falso negativo, que também são
referidos como a taxa de falsos negativos (β), uma vez que a potência é igual a 1-β.

4.2.1 Analise de potência e nível de significância


Segundo Silva (1999), a análise de potência pode ser usada para calcular o tamanho mínimo
de amostra necessária, de modo que seja razoavelmente provável detectarmos um efeito de um
dado tamanho. Por exemplo: quantas vezes eu preciso jogar uma moeda para concluir que é
manipulada? O nível de significância é um termo desafiador para muitos pesquisadores, que
buscam compreendê-lo completamente. Nas próximas páginas, discutiremos o conceito de signi-
ficância estatística e do significado dos números produzidos pelo sistema Survey.

Entenda a significância estatística como um resultado que, em geral, não ocorre aleatoriamente,
sendo atribuível a uma causa específica. A significância estatística pode ser forte ou fraca, e faz-
-se presente em muitos campos científicos, incluindo a engenharia, medicina, sociologia, psico-
logia e biologia. A significância estatística nem sempre possui um significado prático. Ela pode
ser mal interpretada quando os pesquisadores não usam uma linguagem cuidadosa para relatar
os resultados. Entenda que um resultado de pesquisa pode ser verdade sem ser importante. Em
outras palavras, quando os estatísticos dizem que um resultado é altamente significativo eles
querem dizer que muito provavelmente eleirá acontecer.

Um exemplo é o quadro a seguir. Queremos saber se as unidades de uma indústria que produz
diferentes tipos de veículos permitem respostas distintas à mesma pergunta. Além disso, quere-
mos saber se essas diferenças ocorrem devido ao acaso ou se refletem diferenças reais em toda
a população representada pela amostra. Para responder a esta pergunta, utiliazamos uma esta-
tística chamada Qui-quadrado, mostrada na parte inferior do quadro. Os números 0,07 e 24,4
são as próprias estatísticas Qui-quadrados. A segunda linha contém valores de 0,795 e 0,001,
que são os níveis de significância.

PRODUÇÃO DE CONJUNTO DE BANCOS DE VEÍCULOS POR DIA

LOCAL TIPO DE VEÍCULO

TOTAL FÁBRICA I FÁBRICA II CARRO CAMINHÃO ÔNIBUS UTILITÁRIO

QUANTIDADE 713 361 352 247 150 44 180


SIM 428 215 213 131 74 29 131
60% 60% 61% 53% 49% 66% 73%
NÃO 285 285 139 139 76 15 49
40% 40% 40% 40% 51% 34% 27%
CHI QUADRADO 0,07 24,4
0,795 0,001

Quadro 1 - Produção de veículos.


Fonte: Elaborado pelo autor, 2015.

10 Laureate- International Universities


Entenda Qui-quadrado como a medida de como as expectativas de resultado podem ser com-
paradas aos resultados estatísticos já existentes. Os dados utilizados no cálculo da estatística
Qui-quadrado devem ser aleatórios e mutuamente exclusivos, elaborados a partir de variáveis​​
independentes em uma amostra grande o suficiente (SILVA, 1999).

Um exemplo simples de como calcular e utilizar a estatística Qui-quadrado seria: considere jogar
uma moeda 100 vezes. O resultado esperado de jogar uma moeda 100 vezes é que o resultado
será equilibrado entre caras e coroas (aproximadamente, 50 vezes de cada). No resultado real,
pode ser que apareçam 45 caras e 55 coroas. A estatística Qui-quadrado irá mostrar quaisquer
discrepâncias entre os resultados esperados e os resultados reais.

Uma fórmula simples de calcular o Qui-quadrado:

Qui-quadrado = (Valor Observado- Valor Esperado)² / (Valor Esperado).

Os níveis de significância mostram como é provável que um padrão ocorra devido ao acaso. O
nível mais comum, para garantir uma boa credibilidade é 0,95. Isto significa que o valor encon-
trado tem uma possibilidade de 95% de ser verdadeiro, ou uma chance de 5% de não ser verda-
deiro. No Quadro 1, não há diferença de produção das duas fábricas porque a probabilidade é
0,795, ou seja, há apenas uma chance de 20,5% de que a diferença seja verdadeira.

Em contrapartida, o elevado nível de significância para o modelo do veículo (001 ou 99,9%)


indica que é provável que exista uma verdadeira diferença na produção dos veículos por modelo.
O sistema de levantamento utiliza níveis de significância com diversas estatísticas. Se um teste
Qui-quadrado mostra probabilidade de 0,04, isso significa que há uma chance de 96% (1-0,04
= 0,96) de que as respostas dadas pelos diferentes grupos sejam diferentes.

O nível de 95% vem de trabalhos acadêmicos, em que uma teoria estudada geralmente tem que
ter pelo menos 95% de chance de ser verdadeira para ser considerada. Na indústria, se algo tem
90% de chance de ser verdadeiro (probabilidade = 0,1), não pode ser considerado perfeito, mas
entende-se que provavelmente é melhor agir como se fosse verdade. Lembre-se de que 95% de
chance de algo ser verdadeiro significa que há uma chance de 5% de que seja falso. Isto significa
que, de cada 100 testes que mostram resultados significativos ao nível de 95%, as chances são
de 5 serem falsos.

Quanto mais testes você faz, mais o problema de falso positivo aparece. Limitar o número de
testes para um pequeno grupo escolhido é uma maneira de reduzir o problema. Se isso não for
possível, existem outras maneiras de agir. Uma das melhores abordagens do ponto de vista es-
tatístico é repetir o estudo e ver se você obtem os mesmos resultados. Se algo é estatisticamente
significativo em dois estudos separados, é provavel que seja verdade.

Na vida real geralmente não é prático repetir uma pesquisa, mas você pode usar o método das
metades, técnica que consiste em dividir sua amostra aleatoriamente em duas metades e fazer
os testes em cada uma. Se alguma coisa é significativa em ambas as partes, é provavel que seja
verdade, mas o principal problema com esta técnica é que quando você reduz pela metade o
tamanho da amostra, a diferença tem de ser maior para ser estatisticamente significativa.

A maioria dos testes de significância supõe que você tem uma amostra verdadeiramente aleató-
ria. Se a sua amostra não é verdadeiramente aleatória, um teste de significância pode superesti-
mar a precisão dos resultados, porque ele só considera erro aleatório.

Para ficarem solidificadas essas definições que acabamos de ver, lembre-se de que, em termos
estatísticos, “significativa” não significa necessáriamente “importante”. Excesso de testes de sig-
nificância podem resultar em relações falsas e, antes de qualquer teste de significância, devemos
ter certeza de que nossas observações chegaram a eficiência necessária.

11
Probabilidade e Estatística

4.2.2 P-valor
Conforme mencionado anteriormente, o P-valor é uma função dos resultados das amostras ob-
servadas utilizada para testar uma hipótese estatística. Mais especificamente, o valor de p é
definido como a probabilidade de se obter um resultado igual ou mais próximo do que o que foi
realmente observado, assumindo que a hipótese sob consideração é verdadeira.

Se o P-valor for igual ou menor do que o nível de significância (α), temos que os dados observados
são inconsistentes com a suposição de que a hipótese nula é verdadeira, portanto, deve ser rejei-
tada. Isto, no entanto, não significa automaticamente que a hipótese alternativa seja verdadeira.

Testes de hipóteses estatísticas que utilizam o P-valor são comumente aplicados em


​​ muitos cam-
pos da ciência, apesar de sofrerem críticas quando mal conduzidos. No caso da Engenharia, ele
constitui uma ferramenta de uso constante, pois quando você executa um teste de hipóteses, o
P-valor ajuda a determinar o significado de seus resultados.

Todos os testes de hipóteses, em última análise, usam um P-valor para avaliar a força da evi-
dência que dá suporte à afirmação. O valor de p é um número que varia entre 0 e 1, sendo
interpretado da seguinte forma:

• Um valor de p pequeno (tipicamente ≤ 0,05) indica uma forte evidência contra a hipótese
nula, então o mais correto seria rejeitá-la.

• Um valor grande de p (> 0,05) indica uma fraca evidência contra a hipótese nula, caso
no qual você deve aceitá-la.

• Com valores do P-valor muito próximos do ponto de corte (0,05), você pode rejeitar ou
aceitar a hipótese nula.

Imagine que um fabricante de peças moldadas informou que o prazo de produção de uma peça
é, em média, 30 segundos ou menos. Você, no entanto, acha que é mais do que isso. Você pode
realizar um teste de hipótese, acreditando que a hipótese nula (H0) de que a peça é produzida
em 30 segundos está incorreta. Sua hipótese alternativa (Ha) é que o tempo médio seja maior
do que 30 segundos.

Você observa algumas amostragens aleatórias de prazos de produção e verifica os dados através
do teste de hipótese. Seu P-valor passa a ser de 0,001, o que é muito menos do que 0,05. Em
termos reais, existe uma probabilidade de 0,001 de você erroneamente rejeitar a alegação de
que o tempo de produção é 30 segundos. Assim, rejeitamos a hipótese nula quando esta proba-
bilidade é menor que 0,05. Aqui, você conclui que o prazo de produção é, de fato, mais do que
30 segundos em média.

Notas comuns sobre erro de tipo I:


• é a rejeição incorreta da hipótese nula;
• probabilidade máxima é definida com antecedência como alfa;
• não é afetado pelo tamanho da amostra, uma vez que é definido com antecedência;
• aumenta com o número de testes ou pontos finais.

Notas comuns sobre erro Tipo II:


• é a aceitação incorreta da hipótese nula;
• probabilidade é beta;
• beta depende do tamanho da amostra e alfa;
• não pode ser calculada, exceto como uma função do efeito real da população;
• quando beta fica menor o tamanho da amostra aumenta;

12 Laureate- International Universities


• quando beta fica menor o número de testes ou finais pontos são aumentos.

4.3 Procedimentos para testar hipóteses sobre


média e proporção
A respeito da hipótese estatística, caso ela especifique valores para cada parâmetro de uma
população, será chamada de hipótese simples, se não, de hipótese composta. Se ela tenta
anular a diferença entre duas médias amostrais, sugerindo que a diferença é de nenhuma signi-
ficância estatística, então é chamada de hipótese de nulidade.

4.3.1 Teste de hipótese para uma proporção


As condições necessárias para a condução de um teste de hipótese de uma proporção são:

• o método é amostragem aleatória simples;

• cada amostragem pode ter apenas dois resultados possíveis. Chamamos um desses
resultados de sucesso e o outro de fracasso;

• a amostra inclui, pelo menos, 10 êxitos e 10 falhas;

• o tamanho da população é pelo menos 20 vezes maior que o tamanho da amostra.

O plano de análise descreve como utilizar dados de exemplo para aceitar ou rejeitar a hipótese
nula. Ele deve especificar os seguintes elementos:

• Nível de significância: muitas vezes, os pesquisadores escolhem níveis de significância


igual a 0,01, 0,05, ou 0,10; mas qualquer valor entre 0 e 1 pode ser utilizado.

• Método de teste: use o teste z de uma amostragem para determinar se a proporção da


população hipótese difere significativamente da proporção da amostra observada.

Usando dados de exemplo, podemos encontrar a estatística de teste e seu P-valor associado.
Calcula-se o desvio padrão (σ) de distribuição de amostras:

σ = √[P * (1 - P) / n]

Em que:
P é o valor da proporção população hipotética na hipótese nula,
n é o tamanho da amostra.
A estatística de ensaio é um z-score (z) definida pela seguinte equação:

z = (p - P) / σ

Em que:
P é o valor da proporção população hipotética na hipótese nula,
p é a proporção da amostra,
σ é o desvio padrão da distribuição de amostragem.

O P-valor é a probabilidade de observar uma estatística por amostragem tão extrema como a
estatística de teste. Uma vez que a estatística de teste é uma z-score, use a distribuição normal
para avaliar a probabilidade associada com o z-score (SPIEGEL, 1972). Se os resultados da

13
Probabilidade e Estatística

amostra forem improváveis, o pesquisador rejeitará a hipótese nula. Tipicamente, isso envolve a
comparação do valor de P com o nível de significância. Confira o exemplo a seguir!

A Eletropaulo, concessionária de energia elétrica, afirma que 80% dos seus 1.000.000 de clien-
tes estão muito satisfeitos com o serviço que recebem. Para testar essa afirmação, o jornal local
entrevistou 100 clientes, utilizando amostragem aleatória simples. Entre os clientes da amostra,
73 por cento dizem que estão muito satisfeitos. Com base nestes resultados, podemos rejeitar a
hipótese da Eletropaulo de que 80% dos clientes estão muito satisfeitos? Use aqui um nível de
significância de 0,05.

A solução para este problema leva quatro etapas: afirmar as hipóteses, formular um plano de
análise, analisar dados de exemplo e interpretar os resultados.

• O primeiro passo é declarar uma hipótese nula e uma hipótese alternativa.


Hipótese nula: P = 0,80
Hipótese alternativa: P ≠ 0,80

Note-se que essas hipóteses constituem um teste de duas caudas. A hipótese nula será rejeitada
se a proporção da amostra for muito grande ou muito pequena.

• Para esta análise, o nível de significância é de 0,05. O método de teste é um teste z de


uma amostragem.

• Usando dados de exemplo, calcula-se o desvio padrão (σ) e a estatística de teste z-score (z).

σ = √ [P * (1 - P) / N] = √ [(0,8 * 0,2) / 100] = √ (0,0016) = 0,04


z = (p - P) / σ = (0,73 - 0,80) /0.04 = -1.75

Em que:
P é o valor da proporção população hipotética na hipótese nula,
p é a proporção da amostra,
N é o tamanho da amostra. 

Como temos um teste bilateral, o P-valor tem a probabilidade de que o z-score seja inferior a
-1.75 ou superior a 1,75. Nós usamos uma tabela de distribuição normal para encontrar P (z
<-1,75) = 0,04, e P (z> 1,75) = 0,04. Assim, o valor de P = 0,04 + 0,04 = 0,08.

• Uma vez que o P-valor (0,08) é maior do que o nível de significância (0,05), não é possível
rejeitar a hipótese nula.

Essa abordagem é adequada porque o método utilizado é a amostragem aleatória simples. A


amostra incluiu pelo menos 10 êxitos e 10 falhas, e o tamanho da população foi, pelo menos,
10 vezes o tamanho da amostra.

CASO

Para assegurar que um grande número de lâmpadas tenha uma vida média de, pelo menos, 500
horas, um programa de teste é implementado. A hipótese nula, neste caso, é que o tempo de vida
médio seja maior do que ou igual a 500 horas. A hipótese alternativa diz que a vida útil média
é menor de 500 horas. O teste estatístico é comparado às hipóteses nula e alternativa: caso seja
inferior ao de 500 horas, a hipótese nula é rejeitada. Assim, um teste estatístico requer um par
de hipóteses, ou seja:

H0: a hipótese nula, nesse caso maior ou igual a 500 horas


Ha: uma hipótese alternativa, nesse caso menor que 500 horas.

14 Laureate- International Universities


4.3.2 ANOVA e teste t para amostras independentes
Segundo Spiegel (1972), os testes t e análise de variância (ANOVA) são amplamente utilizados
como métodos estatísticos para comparar médias de grupos. Ambos constituem técnicas estatísticas
paramétricas que envolvem uma série de suposições, incluindo: população normalmente distribuída;
variável dependente medida no intervalo contínuo ou nível de razão; e amostragem aleatória de
dados. Entenda que as observações devem ser independentes umas das outras, mas devem possuir
homogeneidade da variância, pois todas as populações devem ter o mesmo desvio padrão.

Ambos os testes t e análise de variância (ANOVA) utilizam-se da hipótese nula e da hipótese


alternativa. O pesquisador pergunta: “será que a variação observada representa uma diferença
real entre as duas populações, ou apenas uma diferença momentânea das amostras?”. A hipóte-
se nula afirma que não existe nenhuma diferença entre os grupos da população, e que qualquer
variação observada ocorre por acaso. A hipótese alternativa afirma que um efeito observado é
genuíno e constante. Assumindo que a hipótese nula é verdadeira, qual é a probabilidade de se
obter o valor observado para a estatística de teste? A significância estatística (5%) é a mais usada
e indica que é pouco provável que a amostra tenha ocorrido por acaso. Portanto, a hipótese nula
seria rejeitada, e a hipótese alternativa suportada.

O t-teste é usado para testar diferenças de médias entre dois grupos. É empregado quando a
variável dependente é de intervalo contínuo e a variável independente é uma variável categórica
de dois níveis. Este teste pode ser utilizado mesmo quando o tamanho das amostras for muito
pequeno, desde que as variáveis ​​dentro de cada grupo estejam normalmente distribuídas e a
variação de pontuação dentro dos dois grupos seja igual, não havendo diferenças fiáveis.

Com o teste t, o teste estatístico usado para gerar valores de p tem distribuição t de Student com
n-1 graus de liberdade. O procedimento do teste t estatístico é usado para determinar um valor
de p que indica a probabilidade de os resultados serem obtidos por acaso. Se houver 5% de
chance de conseguir as diferenças observadas por acaso, a hipótese nula é rejeitada porque foi
encontrada uma diferença estatisticamente significativa entre os dois grupos (SPIEGEL, 1972).

O t-teste pode ser utilizado com dois grupos independentes ou quando as amostras são depen-
dentes. Amostras independentes dizem respeito a dois grupos escolhidos por sorteio, ao pasos
que as amostras dependentes são dois grupos combinados em alguma variável, como sexo ou
idade, ou do mesmo grupo que está sendo testado por duas vezes. O teste t simplesmente testa
duas populações independentes que tenham diferentes valores médios em alguma medida.

Um exemplo de um teste t de amostras independentes é a avaliação das diferenças de pontua-


ções entre um grupo de peças usinadas que receberam um tratamento térmico novo e um grupo
controle que recebeu o tratamento térmico tradicional. Um exemplo de um teste t de amostras
pareadas está nas diferenças de valores de dureza na mesma amostra, no pré-teste e pós-teste,
como a medição pré-tratamento e pós-tratamento dos níveis de dureza.

Quando um pesquisador relata os resultados de um teste t independente ou de amostras pare-


adas, ele precisa incluir as seguintes informações: a verificação dos pressupostos paramétricos;
os escores das variáveis ​​dependentes; a variável independente. Além disso, devem constar os se-
guines dados estatísticos: significado, t-scores, probabilidade, médias, desvios padrão do grupo,
diferenças de médias, intervalos de confiança e tamanho do efeito.

VOCÊ QUER LER?


O artigo da Revista Eletrônica Nutritime sobre Testes Estatísticos para Comparação
de Médias de Andréia Fróes Galuci Oliveira discute os testes: teste t, teste F, teste t de
Student, teste de Tukey, teste de Scheffé, teste de Duncan, teste de Dunnett e teste de
Bonferroni, além de realizar uma comparação entre eles. Disponível em: <http://www.
nutritime.com.br/arquivos_internos/artigos/076V5N6P777_788_NOV2008_.pdf>.
15
Probabilidade e Estatística

4.4 Tabelas de contingência e teste de


Qui-quadrado para independência
Saiba que os testes de hipóteses podem ser executados em tabelas de contingência, a fim de ve-
rificar se os efeitos estão presentes ou não. Efeitos de uma tabela de contingência são definidos
como as relações entre variáveis de linha e coluna, isto é, os níveis da variável de linha distribu-
ídos sobre os níveis de variáveis de coluna.

Esse teste de hipótese significa que a interpretação das frequências de células se justifica, ou
ainda que quaisquer diferenças nas frequências de células poderiam ser explicadas por acaso.
Os testes de hipóteses sobre tabelas de contingência são baseados no Qui-quadrado.

4.4.1 Teste Qui-quadrado de independência


Como testar a independência de duas variáveis ​​categóricas? Isso pode ser feito por meio do teste
do Qui-quadrado de independência. Como em todos os testes estatísticos anteriores, precisamos
definir as hipóteses nula e alternativa. Aqui, estamos interessados ​​em descobrir se duas variáveis​​
categóricas estão relacionadas ou associadas, ou seja, dependentes. Até que tenhamos evidên-
cias que sugiram o contrário, portanto, devemos assumir que elas não são. Essa é a motivação
por trás da hipótese para o teste do qui-quadrado de independência:

H0: Na população, as duas variáveis ​​categóricas são independentes.


Ha: Na população, as duas variáveis ​​categóricas são dependentes.

Existem várias maneiras de titular essas hipóteses. Ao invés de usar as palavras independente e
dependente, poderíamos dizer que existe ou não uma relação entre as duas variáveis categóri-
​​
cas. Grave bem: a hipótese nula refere-se às duas variáveis categóricas
​​ não sendo relacionadas,
enquanto a alternativa tenta mostrar que elas estão relacionadas (SPIEGEL, 1972). Uma vez que
reunimos os dados, devemos posicioná-los em uma tabela de contingência de duas vias. Esta
tabela representa as contagens observadas, sendo chamada de tabela de contagens observadas
ou simplesmente de tabela observada.

Sob a hipótese nula de que as duas variáveis ​​são independentes, o que esperamos encontrar
em nossos dados? Precisamos encontrar o que é chamado de tabela de contagens esperadas ou
simplesmente a tabela esperada, pois ela nos mostrará como seria a contagem para os dados da
amostra se não houvesse associação entre as variáveis.

Uma vez que tivermos as contagens observadas, precisamos calcular as contagens esperadas
sob a hipótese nula de que as duas variáveis categóricas
​​ são independentes. Para encontrar a
contagem esperada para cada célula na tabela, multiplicamos os totais da linha e da coluna e
dividimos pelo total geral. Portanto, a fórmula seria:

E = total da linha × total da coluna/ total das amostras

MAIOR PADRÃO MENOR TOTAL

PEÇA I 138 83 64 285


PEÇA II 64 67 84 215
TOTAL 202 150 148 500

Quadro 2 – Testes em peças usinadas em um torno CNC.


Fonte: Elaborado pelo autor, 2015.

16 Laureate- International Universities


MAIOR PADRÃO MENOR TOTAL

PEÇA I 285*202/500 = 115,14 285*150/500 = 85,5 285*148/500 = 84,36 285

PEÇA II 215*202/500 = 86,86 215*150/500 = 64,50 215*148/500 = 63,64 215

TOTAL 202 150 148 500

Quadro 3 – Calculando contagens esperadas a partir de contagens observadas.


Fonte: Elaborado pelo autor, 2015.

Para entender melhor o que essas contagens esperadas representam, temos que lembrar que a
tabela é projetada para refletir o que as contagens seriam se as duas variáveis fossem
​​ indepen-
dentes. Assim, estaríamos dizendo que as contagens de amostra devem mostrar uma semelhança
em pareceres das medidas das peças. Se você calcular a proporção de cada célula, dividindo
a contagem esperada de uma célula pelo total da linha, você vai descobrir que a proporção de
cada valor é a mesma para os dois tipos de peça. Isto é: a partir das contagens esperadas, 0,404
da peça I e 0,404 da peça II são maiores; 0,3 da peça I e 0,3 da peça II são o padrão; e 0,296
da peça I e 0,296 da peça II são menores.

A questão torna-se estatística, pois as contagens observadas são diferentes das contagens es-
peradas. Como podemos concluir uma relação entre as duas variáveis? Para realizar este teste
calculamos uma estatística de teste Qui-quadrado, em que comparamos a contagem observada
de cada célula com sua respectiva contagem esperada. Esta estatística Qui-quadrado é calcu-
lado da seguinte forma:

χ² = Σ (observado-esperado)² / esperado

Então o cálculo da estatística de teste será:

χ²=(138−115.14)²/115.14+(83−85.50)²/85.50+(64−84.36)²/84.36+(64−86.86)²/86.86
+ (67−64.50)²/ 64.50+(84−63.64)²/ 63.64 = 22.152

4.4.2 Condição para o teste Qui-quadrado


Tenha cuidado quando há pequenas contagens esperadas. Alguns estatísticos hesitam em usar o
teste do Qui-quadrado, se mais de 20% das células têm frequências esperadas abaixo de 5,00,
especialmente se o P-valor for pequeno, essas células dão uma grande contribuição para o valor
total do Qui-quadrado.

Imagine a seguinte situação: o gerente de operações de uma empresa que fabrica pneus quer
determinar se existem diferenças na qualidade da produção entre os três turnos diários. Ele se-
leciona aleatoriamente 496 pneus e cuidadosamente os inspeciona. Cada pneu é classificado
como perfeito, satisfatório, ou defeituoso, e o turno que o produziu também é gravado. As duas
variáveis ​​categóricas de interesse são: os turnos e condição do pneu produzido. Os dados podem

17
Probabilidade e Estatística

ser resumidos pela tabela de duas vias de acompanhamento. Será que esses dados fornecem
evidências suficientes ao nível de significância de 5% para inferir que há diferenças de qualidade
entre os três turnos?

PERFEITO SATISFATÓRIO COM DEFEITO TOTAL

TURNO I 106 124 1 231


TURNO II 67 85 1 153
TURNO III 37 72 3 112
TOTAL 210 281 5 496

Quadro 4 – Comparação entre os turnos e a condição de cada pneu produzido.


Fonte: Elaborado pelo autor, 2015.

Às vezes, os pesquisadores classificarão os dados quantitativos em categorias, como, por exem-


plo, tomar medidas de altura e categorizar como abaixo da média ou acima da média. Entenda,
porém, que fazer isso pode resultar em uma perda de informação.

4.4.3 Tabela 2x2: teste do qui-quadrado análogo ao Z-test de duas


proposições independentes
Digamos que temos um estudo de duas variáveis categóricas,
​​ cada uma com apenas dois níveis.
Um dos níveis de resposta é considerado sucesso, enquantoo outro fracasso.

SUCESSO FALHA TOTAL

GRUPO I A B A+B
GRUPO II C D C+D

Quadro 5 – Tabela das contagens observadas.


Fonte: Elaborado pelo autor, 2015.

SUCESSO FALHA TOTAL

GRUPO I A/A+B = p1 1-p1 A+B


GRUPO II C/C+D = p2 1-p2 C+D

Quadro 6 – As contagens observadas aqui representam as seguintes proporções: sucesso – falha - total.
Fonte: Elaborado pelo autor, 2015.

Quando executamos um teste qui-quadrado de independência em uma tabela 2 x 2, a estatística


do teste resultante seria igual ao quadrado da estatística Z-teste das duas proporções indepen-
dentes. O benefício do teste de duas proporções é que podemos calcular um intervalo de con-
fiança para essa diferença e gerar uma estimativa tão grande quanto a diferença.

Você já ouviu falar de um médico dizer algo como “Se você não perder peso ou manter seu co-
lesterol sob controle, terá cinco vezes mais probabilidade de sofrer um ataque cardíaco”?

18 Laureate- International Universities


Em primeiro lugar, este “cinco vezes mais probabilidade” representa o que é chamado de risco
relativo. Um risco relativo é a razão dos riscos de dois grupos. No exemplo acima descrito, te-
mos o risco de ataque cardíaco para uma pessoa em sua condição atual em comparação com o
risco de ataque cardíaco, se essa pessoa estivesse nas faixas de normalidade. No entanto, para
interpretar verdadeiramente a gravidade de um risco relativo, temos de saber o risco de base.
Mas o que seria risco de base?

Bem, o risco de base é o risco do grupo a ser comparado. Em nosso exemplo, isso seria o risco
de um ataque cardíaco para o intervalo normal, ou seja, um pessoa que mantém o colesterol sob
controle. Se este risco de base é alto, então um risco relativo “5” seria alarmante, mas se o risco
de base é pequeno, então um risco relativo de “5” pode não ser muito grave.

4.4.4 Determinação e interpretação do Risco Relativo


Segundo Lopes (2006), em termos simples, um risco de grupo é o mesmo que a proporção de
“sucesso” para esse grupo, ao passo que o risco relativo é a razão entre estes dois grupos para
as proporções. Se voltar para os dados e levantamento conclusões das peças usinadas, demons-
trados acima, podemos encontrar o risco para qualquer peça e usar esses riscos para encontrar
e interpretar um risco relativo.

A partir da tabela, o risco da peça I é 138/285 = 0,484, enquanto o risco da peça II é 64/215
= 0,298. O risco relativo da peça I em relação à peça II seria 0,484/0,298 = 1,62. Devemos
interpretar este risco relativo como: a peça I será cerca de 1,6 vezes mais propensa do que a
peça II de favorecer uma produção perfeita.

Em geral, o risco relativo (RR) é dado por:

RR = Risco do grupo 1/ Risco do grupo 2

4.4.5 Coeficiente de correlação da amostra


Se quisermos fornecer uma medida da intensidade da relação entre duas variá-
veis ​​
quantitativas, uma boa maneira é relatar o coeficiente de correlação entre eles.
Podemos calcular o coeficiente de correlação de exemplo, r:

r=∑(xi− x¯)(yi−y¯) / √∑(xi−x¯)²√∑(yi−y¯)²

Podemos concluir, portanto, que um coeficiente de correlação ilustra uma medida quantitativa de
algum tipo de correlação, ou seja, relações estatísticas entre duas ou mais variáveis aleatórias
​​
ou valores de dados observados.

VOCÊ SABIA?
Você sabe a importancia da correlação linear para a engenharia da qualidade? Em
fábricas modernas, as pessoas ainda raramente dão importância para o teste de hipó-
teses, pois acreditam que seja apenas uma questão de teoria. No entanto, a aplicação
de testes de hipóteses na gestão da qualidade deve ser utilizada com maior frequencia.
O teste de hipóteses é fundamental na explicação dos fenômenos e infelizmente, em
muitas instalações de fabricação os gestores tendem a se concentrar apenas em esta-
tísticas descritivas, tais como média aritmética e dispersão.

19
Síntese Síntese
Concluímos este capítulo sobre a teoria da hipótese estatística. Agora que você já conhece a im-
portância do estudo de hipótese, de seus métodos e conceitos, poderá solucionar algumas casos
práticos ligados a essa área de conhecimento.

Neste capítulo, você teve a oportunidade de:

• conhecer os tipos de hipóteses e tipos de erros;


• aprender o que é nível de significância e qual o poder deste teste;
• conhecer os procedimentos para testar as hipóteses sobre média e proporção;
• utilizar as tabelas de contingência e teste de Qui-quadrado para independência.

20 Laureate- International Universities


Referências Bibliográficas
ACÇÃO LOCAL ESTATÍSTICA APLICADA – ALEA. Nomes e datas em estatística – William Gos-
set. Disponível em: <http://www.alea.pt/html/nomesedatas/swf/biografias.asp?art=9>. Acesso
em: 30 dez. 2015.

CHAN, B. L.; SILVA, F. L. da; MARTINS, G. de A. Fundamentos da previdência privada com-


plementar. São Paulo: Atlas, 2006.

FONSECA, J.S. da; MARTINS, G. de A. Curso de Estatística. 6. ed. São Paulo: Atlas, 1996.

FONSECA, J.S. da; MARTINS, G. de A.; TOLEDO, G.L. Estatística aplicada, São Paulo: Atlas,
2. ed., 1995.

FREUND, J. E.; SIMON, G. A. Estatística Aplicada - Economia, Administração e Contabilida-


de. São Paulo: Bookman, 2000.

KATO, S. Teste de hipótese. Departamento de Estatística - PUCRS – FAMAT. Disponível em:


<http://www.pucrs.br/famat/sergio/Estatistica_Basica_T126/Teste_de_hipotese.pdf>. Acesso
em: 30 dez. 2015.

KAZMIER, L. Estatística aplicada à Economia e Administração. São Paulo: McGraw-Hill, 1982.

LEVINE, M.D.; BERENSON, M.L.; STEPHAN, D. Estatística: Teoria e Aplicações. Rio de Janeiro:
Livro Técnico Científico, 2000.

MARGEM de erro I. Produzido por Khan Academy em português. 12 nov. 2014. Disponível em:
<https://www.youtube.com/watch?v=lV2iGwVp9VY&hd=1>. Acesso em: 30 dez. 2015.

MARTINS, M. E. G. Introdução à probabilidade e à estatística. Departamento de Estatística


e Investigação Operacional da FCUL - Sociedade Portuguesa de Estatística. Jun. 2005. Dispo-
nível em: <http://arquivoescolar.org/bitstream/arquivo-e/97/1/IPE%202005.pdf>. Acesso em:
30 dez. 2015.

OLIVEIRA, A. F. G. Testes Estatísticos para Comparação de Médias. Revista Eletrônica Nutriti-


me. v.5, n. 6, p.777-788, Nov-Dez. 2008.

SILVA, E. .M. da; GONÇALVES, V.; MUROLO, A. C. Estatística para os cursos de Economia,
Administração e Ciências Contábeis. 3. ed. São Paulo: Atlas,1999.

SOUZA, S. Seguros: contabilidade, atuária e auditoria. São Paulo: Saraiva, 2001.

SPIEGEL, M.R. Estatística. São Paulo: McGraw-Hill, 1972.

TESTE do Qui-quadrado. Puplicado por SisLAu FMUSP. 07 Mar. 2013. Disponível em: <https://
www.youtube.com/watch?v=4uFD3eFFn74&hd=1>. Acesso em: 30 dez. 2015.

21

Você também pode gostar