Escolar Documentos
Profissional Documentos
Cultura Documentos
CONJUNTAS
TESTES DE PROBABILIDADE
Autor(a): Dra. Mariza Akiko Utida
Este material visa prepará-lo para aplicar testes de hipóteses para determinar o tipo de
distribuição associada e se há homogeneidade. Também vai ajudá-lo a entender e a aplicar
teste de coeficiente de variação entre duas variáveis X e Y.
Como você deve ter percebido, compreender probabilidade exige dedicação para que consiga
desenvolver capacidade de análise. Continue se esforçando, porque é um assunto essencial
para a sua formação.
Bons estudos!
Testes de Probabilidade
No modelo probabilístico, o resultado da saída de um experimento (relacionado à observação
de um fenômeno) tem uma probabilidade de ser calculado em pontos ou intervalos das
variáveis do processo. A escolha adequada para comparar os resultados exige:
Muitos problemas exigem uma decisão entre aceitar ou rejeitar uma afirmativa sobre algum
parâmetro . A afirmativa é, em geral, denominada hipótese , e os procedimentos de tomada de
decisão em relação à hipótese são chamados de teste de hipótese . Os testes de
probabilidade são metodologias estatísticas que auxiliam verificar se os dados amostrais
buscam evidência que embasem ou não uma hipótese estatística formulada.
Neste estudo, será abordado, primeiramente, alguns dos conceitos básicos e a terminologia
utilizada no teste de hipótese; em um segundo momento, será estudado os procedimentos de
decisão dos problemas de teste de hipóteses encontrados, com base em uma amostra de
uma única população.
Para que você possa compreender melhor como isso funciona, veja o exemplo:
Para testar uma hipótese, devemos extrair uma amostra aleatória , calcular uma estatística de
teste apropriada a partir dos dados amostrais e, então, usar a informação contida na
estatística de teste para tomar a decisão .
Teste de Independência
Nesta seção, você irá estudar o teste de independência, o qual é definido para verificar se uma
variável aleatória não interfere na ocorrência de outra variável aleatória, ou seja, duas variáveis
são independentes se a hipótese corresponde à independência entre as variáveis aleatórias.
Introdução
O teste de independência tem como objetivo analisar se as duas variáveis medidas nas
mesmas unidades são independentes ou correlacionadas. Veja no elemento a seguir como
são representadas as hipóteses.
Segundo Magalhães e Lima (2005, p. 289), o cálculo estatístico para determinar a região
crítica é análogo ao utilizado na distribuição qui-quadrado , ou seja, após definir as hipóteses
de teste, primeiramente, constrói-se a tabela de valores esperados calculados sob a hipótese
de independência H0 . Os elementos da tabela e (i, j) são determinados por:
Depois disso, é medida a diferença entre os valores esperados e observados, os quais são
calculados através da equação:
r s 2
(observadoi, j − ei, j)
2
Q = ∑ ∑
ei, j
i=1 j=1
Quando não temos informações sobre os resultados obtidos dos dados do problema, ou seja,
sobre a ocorrência conjunta das variáveis aleatórias , o procedimento usual é coletar uma
amostra anotando a frequência conjunta da ocorrência dos dados, pode-se, assim, utilizar um
teste de independência .
Veja outro exemplo para poder visualizar melhor sua aplicação: a tabela a seguir contém os
resultados obtidos por estudantes do ensino médio, em um exame com questões nas
disciplinas de física e matemática. Deseja-se testar se existe dependência entre as notas
dessas duas disciplinas que, para efeito de apresentação na tabela e analise de
comportamento , foram classificadas nas categorias alta, média e baixa.
Matemática
Alta Média Baixa Total
Física
Alta 56 71 12 139
Baixa 14 42 85 141
Tabela 4.1 - Notas das disciplinas física e matemática de 528 alunos do ensino médio
Fonte: Magalhães e Lima (2005, p. 290).
Deve-se construir a tabela de valores esperados, em que, para cada elemento da tabela,
utiliza-se a equação:
l d l h l d l
T otal da linha 3 × T otal da coluna 2 141 × 276 3243
e3, 2 = = = = 73, 70
T otal geral 528 44
Matemática
Alta Média Baixa
Física
Tabela 4.2 - Tabela completa dos valores esperados de 528 alunos do ensino médio
Fonte: Magalhães e Lima (2005, p. 291).
#PraCegoVer : a tabela apresenta o valor esperado das notas de 528 alunos do ensino
médio. Na primeira linha da tabela, tem-se os valores esperados das notas da disciplina
de matemática classificadas também em alta, média e baixa. Na segunda linha, tem-se
os valores esperados das notas altas da disciplina de física, seguida da alta (30,80),
média (72,66) e baixa (35,54) para a disciplina de matemática. Na terceira linha, tem-se
os valores esperados das notas médias da disciplina de física, seguida das notas alta
(54,95), média (129,64) e baixa (63,41) da disciplina de matemática. Na quarta e última
linha, tem-se os valores esperados das notas baixas da disciplina de física, seguida das
notas alta (31,25), média (73,70) e baixa (36,05) da disciplina de matemática.
r s 2
(observadoi, j − ei, j)
2
Q = ∑ ∑
ei, j
i=1 j=1
2 2 2
(observado1, 1 − e1, 1) (observado1, 2 − e1, 2) (observado3, 3 − e3, 3)
= + + …
e1, 1 e1, 2 e3,3
2 2 2
(56 − 30, 80) (71 − 72, 66) (85 − 36, 05)
= + + … + = 145, 78
30, 80 72, 66 36, 05
No box a seguir, clique no link indicado para conhecer mais sobre o desenvolvimento de
probabilidade.
SAIBA MAIS
No box a seguir, você pode se aprofundar um pouco mais sobre a teoria da decisão.
SAIBA MAIS
“Agente, responsável pela decisão a ser tomada e ser racional, capaz de explicitar suas preferências
em relação aos possíveis resultados de suas decisões. O decisor pode ser uma pessoa ou um
grupo de pessoas que tem autoridade e responsabilidade pela escolha da alternativa a ser seguida.
Um decisor é capaz de revelar apenas a alternativa que mais se aproxima de sua realidade, pois
está sujeito à racionalidade humana e à imperfeição das decisões.”
praticar
Vamos Praticar
Um curso de artes de uma faculdade deseja fazer uma pesquisa para saber se a preferência
por certo tipo de filme se altera de acordo com o estado civil da pessoa. Sendo assim,
selecionaram uma amostra com 400 pessoas, dentre elas solteiras, casadas, divorciadas e
viúvas. Os resultados estão na tabela a seguir.
Filme
Tamanho da
Estado Policial Comédia Romance
amostra
Civil
Solteiras 45 25 30 100
Casadas 36 61 43 140
Divorciadas 39 36 35 110
Viúvas 14 19 17 50
Verifique se o tipo de filme tem relação com o estado civil, ou seja, se as variáveis
são independentes, considerando α = 0, 05.
H1 : A preferência por certo tipo de filme muda de acordo com o estado civil.
Tabelas de
Contingência
Introdução
Os procedimentos para aplicar os testes de probabilidades, mesmo utilizando as tabelas de
contingência para melhor representação, são muitas vezes difíceis de obter, porém uma
estatística de teste aproximada é válida para n grande.
Além disso, Yule é conhecido por seu livro “An Introduction to the Theory of Statistics”,
publicado em 1911.
Neste tópico, você irá estudar a importância dos testes, ao utilizar as tabelas de contingência
, para investigar as proporções nas diferentes categorias em todas as populações do
problema. As tabelas de contingência mais simples são tabelas com dois fatores , que
contam as respostas por duas variáveis.
Análise e Aplicação
Nos testes para tabelas de contingência, muitas vezes, os n elementos de uma amostra de
uma população podem ser classificados de acordo com dois critérios diferentes. É de
interesse, então, saber se os dois métodos de classificação são estatisticamente
independentes; por exemplo, podemos considerar a população de graduandos em engenharia
e podemos querer determinar se o salário inicial é independente, ou não, das disciplinas
acadêmicas. Suponha que o primeiro método de classificação tenha r níveis e que o segundo
tenha c níveis. Denotaremos por Oij a frequência observada para o nível i do primeiro método
de classificação e para o nível j do segundo método de classificação.
1 O 11 O 12 ... O 1c
2 O 21 O 22 .... O 2c
⋮ ⋮ ⋮ ⋮
r O r1 O r2 ... O rc
O uso da tabela de contingência de dois critérios para se testar a independência entre duas
variáveis de classificação em uma amostra de uma única população de interesse é apenas
uma aplicação dos métodos de tabelas de contingência .
Para testar a hipótese de que os métodos de classificação das linhas e das colunas
são independentes. Se rejeitarmos essa hipótese, concluiremos que há alguma
interação entre os dois critérios de classificação. Os procedimentos exatos são
difíceis de ser obtidos, mas uma estatística de teste aproximada é válida para n
grande. Suponha que as Oij sejam variáveis aleatórias multinominais e que pij
seja a probabilidade de que um elemento selecionado aleatoriamente caia na ij-
ésima célula, dado que as duas classificações são independentes (HINES et al.,
2006, p. 275).
r c 2
(O ij − Eij )
2
x = ∑ ∑
0
Eij
i=1 j=1
Outra situação comum ocorre quando há́ r populações de interesse, e cada população é
dividida nas mesmas c categorias. Extrai-se, então, uma amostra da i-ésima população e
introduzem-se as contagens nas colunas apropriadas da i-ésima linha. Nessa situação,
desejamos investigar se as proporções nas c categorias são as mesmas para todas as
populações. A hipótese nula nesse problema afirma que as populações são homogêneas em
relação às categorias.
Por exemplo, quando há apenas duas categorias, tais como sucesso e falha, defeituosos e
não defeituosos, e assim por diante, então, o teste de homogeneidade é, na realidade, um
teste da igualdade de r parâmetros binomiais. Os cálculos das frequências esperadas, a
determinação dos graus de liberdade e o cálculo da estatística qui-quadrado para o teste de
homogeneidade são idênticos ao teste para independência .
Para que você entenda melhor, vamos a um exemplo, veja a situação no box a seguir.
Fonte: Elaborada pela autora.
#PraCegoVer : o infográfico apresenta o seguinte texto: “Em uma pesquisa, com o total de 200
alunos, sobre o curso de Ciências Sociais e o curso de Ciências Humanas, verificou-se que, dos dois
cursos juntos, 115 alunos são do sexo masculino e 85 do feminino. Na faculdade, sabe-se que o
curso de Ciências Humanas possui 90 alunos e de Ciências Sociais 110 alunos. Para determinar a
tabela de contingência, escolhe-se um aluno aleatoriamente. Observe a tabela a seguir:”. Logo
abaixo do texto, encontra-se a tabela, que apresenta os dados da pesquisa elaborada com 200
alunos. Na primeira coluna, tem-se os gêneros masculino e feminino. Na primeira linha, tem-se as
opções de cursos pesquisados, Ciências Sociais, Ciências Humanas, e o total. Na segunda linha,
tem-se os dados do sexo masculino para os cursos de Ciências Sociais (60) e Ciências Humanas
(55), com o total de 115. Na terceira linha, tem-se os dados do sexo feminino para os cursos de
Ciências Sociais (50) e Ciências Humanas (35), com o total de 85. Na última linha, tem-se os totais
de alunos dos cursos de Ciências Sociais (110) e Ciências Humanas (90) e o total de alunos
pesquisados 200.
Como os valores de n não são grandes, utilizamos, para esse exemplo, os estimadores de
máximo possíveis. Agora, deve-se construir uma tabela de probabilidade, para, assim, calcular
pelo valor total de alunos. Devendo, dessa forma, determinar a tabela de probabilidade de
contingência.
Na primeira linha numérica da tabela, temos que a probabilidade do sexo masculino, do curso
de Ciências Sociais e Ciências Humanas, é, respectivamente:
O 11
Ciências Sociais: P (M ∩ CS) =
n
=
60
200
= 0, 30
O 12
Ciências Humanas: P (M ∩ CH) =
n
=
55
200
= 0, 275
O 13
Total de alunos do sexo masculino: n
=
115
200
= 0.575
De modo análogo aos alunos do sexo masculino, deve-se determinar para o sexo feminino.
Logo, a tabela de probabilidade com todos os dados calculados é apresentada a seguir.
Opção
Total
Ciências Sociais Ciências Humanas
Tabela 4.4 - Tabela de contingência de probabilidade dos Cursos de Ciências Sociais e Ciências
Humanas
Fonte: Elaborada pela autora.
Para encontrar a tabela dos valores esperados, temos que levar em consideração a definição:
c r
1 1
^i =
u ∑ O ij ; ^j =
v ∑ O ij
n n
j=1 i=1
E11 = n . u
^1 . v
^1 = 200 × 0, 575 × 0, 55 = 63, 25
E12 = n . u
^1 . v
^2 = 200 × 0, 575 × 0, 45 = 51, 75
Analogamente, isso também acontece para a segunda linha. A tabela de contingência com os
valores esperados é apresentada abaixo.
Opção
Total
Ciências Sociais Ciências Humanas
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
“Uma companhia tem de escolher entre três planos de saúde. O gerente deseja saber se a
preferência para os planos é independente da classificação do trabalho e quer utilizar α =
0,05. As opiniões de uma amostra aleatória de 500 empregados são apresentadas na tabela
a seguir” (MONTGOMERY; RUNGER, 2018, p. 175).
Plano de Saúde
Classificação do
1 2 3 Totais
Trabalho
Trabalhadores
160 140 40 340
Assalariados
Trabalhadores
40 60 60 160
Horistas
Encontre as frequências dos valores esperados dos seis elementos da tabela Eij .
Plano de Saúde
Classificação do
1 2 3 Totais
Trabalho
Trabalhadores
E11 E12 E13 340
Assalariados
Trabalhadores
E21 E22 E23 160
Horistas
Os testes não paramétricos podem ser usados como atalhos para testes mais complicados.
Esses testes são especialmente valiosos com dados não numéricos , como quando os
consumidores avaliam cereais ou outros produtos em ordem de preferência.
“Os testes não paramétricos têm como base o teste de hipóteses, porém não conservam uma
organização normal. Em geral, possuem resultados estatísticos provenientes de suas
ordenações, o que torna mais fáceis de entender” (HINES et al ., 2006, p. 440).
Introdução
Neste tópico, você irá estudar o método chamado não paramétrico, o qual é válido para
amostras de distribuições populacionais contínuas , independentemente de sua forma, e se
baseia em estatísticas de ordem . Serão apresentados também os testes dos sinais ,
utilizados sobre a mediana de uma distribuição contínua. E, por fim, um exemplo para melhor
entender a aplicação de testes não paramétricos.
Análise e Aplicação
A analise do teste não paramétrico tem, muitas vezes, como um de seus principais méritos o
fato de que não assume que os dados sob analise foram extraídos de uma população. A
técnica não paramétrica pode ser utilizada com dados não exatos, sem nenhum sentido
numérico. Uma outra vantagem para a aplicação do teste não paramétrico é a simplicidade de
se passar para um algoritmo, pois um algoritmo exige uma linguagem numerica binaria, o que
permite de uma maneira simples a aplicação do teste não parametrico.
“Algumas tecnicas não parametricas são testes de ordenação, de maneira que a identificação
sugerem outro aspecto em que testes não paramétrico diferem de testes paramétricos”
(SIEGEL, CASTELLAN JR, 2006, p. 25).
Segundo Siegel e Castellan Jr (2006), no elemento seguir, você vai poder entender a diferença
entre os tipos de teste.
Um teste não paramétrico simples , no caso de tais amostras pareadas, é fornecido pelo teste
do sinal, levando em conta o sinal da diferença. O teste dos sinais é utilizado para verificar, a
partir de um evento, a influência antes e depois de uma determinada variável contínua ou
discreta.
As vantagens dos testes estatísticos não paramétricos é que os dados não necessitam ser
quantitativos , porém podem ser categóricos (tal como sim ou não, defeituoso ou não
defeituoso) ou dados ordenados. Outra vantagem é que procedimentos não paramétricos são
geralmente muito rápidos e fáceis de serem feitos, e os dados normalmente são
heterogêneos .
REFLITA
Você vai poder entender isso melhor em uma aplicação no exemplo a seguir.
A Empresa PQR afirma que o tempo de vida útil de um tipo de bateria que ela
manufatura está acima de 250 horas. O advogado de um consumidor, desejando
determinar se a afirmação é justificada, mensura os tempos de vida útil de 24
baterias da empresa; o resultado é apresentado na tabela abaixo. Supondo que a
amostra é aleatória, determine se a afirmação da empresa é justificada no nível de
significância de 0,05 e se o escore z for maior do que 1,645 (SPIEGEL, 1977, p. 353).
Considere H0 a hipótese de que as baterias da empresa têm um tempo de vida útil de 250
horas, também considere H1 a hipótese de que elas têm um tempo de vida útil maior do que
250 horas. Para testar H0 contra H1 , utilize o teste do sinal.
H0 a hipótese de que as baterias da empresa têm um tempo de vida útil de 250 horas.
H1 a hipótese de que elas têm um tempo de vida útil maior do que 250 horas.
Para testar H0 contra H1 , podemos usar o teste do sinal. Para fazer isso, subtraímos 250 de
cada entrada na tabela com os dados observados e registramos os sinais das diferenças,
como mostra a tabela abaixo.
271-250 230-250 198-250 275-250 282-250 225-250 284-250 219-250
= + 21 = - 20 = - 52 = + 25 = + 32 = - 25 = + 34 = - 31
Logo, verificou-se que existem 15 sinais de mais e nove sinais de menos no teste do sinal, a
um nível de significância de 0,05. Utilizando a equação de correção para a continuidade,
temos que:
Para concluir o teste não paramétrico, depende do parâmetro que queremos comparar,
podendo utilizar um nível de significância de 0,05. Se compararmos com um teste em que os
desvios têm uma direção de região crítica à direita ou à esquerda, iriamos rejeitar H0 se o
escore z fosse maior do que 1,645. Portanto a afirmação da empresa não pode ser justificada
no nível de 0,05. Para que você possa compreender melhor a definição da distribuição normal,
temos a seguinte definição abaixo.
Neste tópico, você estudou os testes não paramétricos para o caso de uma amostra. O teste
descrito é apropriado para os dados de experimentos apresentados. Testes não paramétricos
podem ser usados como atalhos para testes mais complicados. Eles são especialmente
valiosos com dados não numéricos.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
No teste não paramétrico, temos o seguinte caso: parte sempre de uma função de
densidade f(x|θ), ou uma função de probabilidade para a variável aleatória X , que
dependa do parâmetro teta constante. E o teste de hipótese é basicamente uma regra
acerca de um parâmetro populacional.
Hipótese nula: H0 : θ ∈ Θ0
Hipótese alternativa: H 1 : θ ∈ Θ1
Uma regra que testa duas hipóteses e faz afirmações do parâmetro teta e seu respectivo
espaço paramétrico: Θ ∪ Θ = Θ
0 1
Portanto, para melhor decisão, os dados da pesquisa devem ser apropriados ao teste. No
caso do teste:
WEB
ACESSAR
LIVRO
ISBN: 978-85-314-0677-5
Por fim, os testes não paramétricos não precisam que a distribuição da população seja feita com
parâmetros, porém podem ser utilizados em diferentes situações com métodos mais fáceis de
compreender.
Esperamos que tenha se sentido instigado a aperfeiçoar o seu conhecimento nessa área que é tão
essencial para a sua formação.
Referências
BEKMAN, O. R.; COSTA NETO, P. L. O. C. Análise
Estatística de Decisão . 2. ed. São Paulo: Blucher, 2009.
MEYER, P. L. Probabilidade : aplicações à Estatística. Rio de Janeiro: LTC, 1984. (Biblioteca Ânima).
SAMPAIO, N. A. S.; LEONI, R. C. Utilização dos Testes de Hipóteses para a Média na Tomada de
Decisão. AEDB , 2015. Disponível em: https://www.aedb.br/wp-content/uploads/2015/05/545.pdf .
Acesso em: 22 jun. 2021.
SIEGEL, S.; CASTELLAN JR. N. J. Estatística não paramétrica para ciências do comportamento .
São Paulo: Bookman, 2006.