Escolar Documentos
Profissional Documentos
Cultura Documentos
À ESTATÍSTICA
2
INTRODUÇÃO À ESTATÍSTICA
Prof. Leandro de Souza
ESTATÍSTICA DESCRITIVA
A estatística descritiva é uma área da estatística que se concentra na descrição e resumo de
dados. Ela se preocupa em fornecer uma visão geral dos dados e em identificar padrões, tendências
e características importantes.
Os principais conceitos da estatística descritiva incluem medidas de tendência central (como a
média, mediana e moda), medidas de dispersão (como o desvio padrão e a variância), medidas de
assimetria e curtose, e representações gráficas (como histogramas, gráficos de dispersão e boxplots).
Essas ferramentas podem ser usadas para descrever um conjunto de dados de várias maneiras.
Por exemplo, a média pode ser usada para descrever o valor típico de uma variável em um conjunto
de dados, enquanto o desvio padrão pode ser usado para descrever a dispersão dos valores em
torno da média.
A estatística descritiva é usada em muitos campos, incluindo negócios, ciências sociais, medi-
cina e engenharia, para ajudar a resumir e entender conjuntos de dados.
Variável: é uma característica ou atributo que pode ser medido ou observado. As variáveis
podem ser quantitativas (por exemplo, idade) ou qualitativas (por exemplo, gênero) e também
discretas (número de reclamações, defeitos, pessoas) ou contínuas (peso, altura, tempo).
Dados: são os valores ou observações obtidas para cada variável em um estudo. Os dados
podem ser coletados através de várias fontes, como questionários, experimentos ou registros.
Medidas de tendência central: são medidas que indicam o valor central de um conjunto de
dados, como a média, a mediana e a moda.
Medidas de dispersão: são medidas que indicam a variação ou dispersão dos valores em um
conjunto de dados, como o desvio padrão e a variância.
Distribuição: é a maneira como os dados estão distribuídos ou agrupados. A distribuição pode
ser simétrica, assimétrica ou bimodal.
Inferência estatística: é o processo de usar informações de uma amostra para fazer conclusões
ou inferências sobre a população.
NOTAÇÃO DE SOMATÓRIO
Somatório é a adição de uma sequência de quaisquer tipos de números, chamados parcelas
ou somando, sendo o resultado é sua soma ou total.
Média: é a soma de todos os valores dividida pelo número de observações. A média é uma
medida comum de tendência central e é calculada adicionando-se todos os valores e dividindo pelo
número de observações. Por exemplo, a média de 2, 4 e 6 é (2+4+6)/3 = 4.
Mediana: é o valor que separa os dados em duas partes iguais. A mediana é a medida de ten-
dência central que divide a distribuição em duas partes iguais. Para encontrar a mediana, os dados
são colocados em ordem crescente ou decrescente e o valor do meio é selecionado. Se houver
um número par de observações, a mediana é calculada pela média dos dois valores centrais. Por
exemplo, a mediana de 2, 4, 6 e 8 é (4+6)/2 = 5.
Moda: é o valor que ocorre com mais frequência no conjunto de dados. A moda é a medida
de tendência central que representa o valor mais frequente em um conjunto de dados. Se todos
os valores aparecerem com a mesma frequência, o conjunto de dados é considerado bimodal ou
multimodal. Por exemplo, no conjunto de dados 1, 2, 2, 3, 4, 4, 4, a moda é 4.
As medidas de tendência central são importantes porque fornecem informações sobre a loca-
lização central dos dados. No entanto, elas devem ser usadas em conjunto com outras medidas,
como as medidas de dispersão, para fornecer uma visão completa do conjunto de dados.
4
MÉDIA
ARITMÉTICA
MÉDIA (x̅ )
PONDERADA
MÉDIA ARITMÉTICA
Fórmula:
MÉDIA PONDERADA
A média ponderada é um tipo de média que leva em consideração o peso ou a importância
de cada valor na média final. Na média ponderada, cada valor é multiplicado por um peso, e a
soma desses valores ponderados é dividida pela soma dos pesos.
Por exemplo, suponha que você tenha três notas em um curso: uma nota de 70 com peso 2,
uma nota de 80 com peso 3 e uma nota de 90 com peso 1.
A média ponderada seria calculada da seguinte maneira:
(70 x 2) + (80 x 3) + (90 x 1) / (2 + 3 + 1) = 76
Nesse exemplo, a média ponderada seria de 76, o que significa que a nota final seria próxima a
essa pontuação. Note que a nota de 80, que tem um peso maior do que as outras notas, contribuiu
mais para a média final.
MODA
A definição da moda é que ela representa o valor mais comum ou frequente na distribuição
de frequências.
No caso de variáveis discretas1, a moda pode ser facilmente identificada através da observação
da tabela de frequências, e é atribuída ao tipo que apresenta a maior frequência.
Para calcular a moda, é necessário identificar o valor mais frequente na distribuição de fre-
quências. Em uma tabela de frequências, a moda é atribuída ao valor que tem a maior frequência.
Para uma variável contínua2, a moda pode ser calculada encontrando o ponto máximo no
gráfico da distribuição de frequências. Não há uma fórmula específica para calcular a moda, pois
ela é simplesmente o valor mais frequente.
Exemplo:
A = { 9, 9, 10, 10, 10, 12 }
Tabela de frequências
VALORES FREQUÊNCIA
9 2
10 3
12 1
MEDIANA
A mediana é uma medida de tendência central que representa o valor que separa a metade
superior e a metade inferior de um conjunto de dados ordenado. Em outras palavras, a mediana é
o valor central que divide o conjunto de dados em duas partes iguais.
1 Uma variável discreta, que pode assumir apenas um conjunto limitado de valores.
2 Uma variável contínua é um tipo de variável estatística que pode assumir um número infinito de valores
possíveis em um determinado intervalo de números reais
6
RESUMO
2. Para achar a Mediana (Md) vamos encontrar o valor central, neste caso como é par (14) ,
vamos pegar o par de valores central (posição 7 e 8), soma-los e dividir por 2
IDADES = {18, 20,20,25,30,36,39,41,41,41,45,45,50,52}
Md = 40
Para achar a moda (Mo), vamos precisar ver qual é o elemento que possui a maior frequência:
IDADES = {18, 20,20,25,30,36,39,41,41,41,45,45,50,52}
Mo = 41
Alternativa correta: C) 40 e 41
ESTATÍSTICA
DESCRITIVA
2
ESTATÍSTICA DESCRITIVA
Prof. Leandro de Souza
MEDIDAS DE DISPERSÃO
Muitas vezes os editais cobram que os candidatos tenham um conhecimento básico em esta-
tística, incluindo a variação e o desvio padrão. Além disso, em algumas provas, é possível que você
precise lidar com dados estatísticos, como médias, desvios padrão e variações, por exemplo. E
entender o que eles significam pode ser de grande ajuda, inclusive para matar questões diretamente.
Medidas de dispersão são medidas estatísticas que indicam a variabilidade ou espalhamento
dos dados em relação à sua média. Algumas das medidas de dispersão mais comuns incluem o
desvio médio, desvio padrão e variância.
Essas medidas são super úteis quando os dados possuem uma disparidade consideravelmente
grande para uma simples análise por medidas de posição. Esses parâmetros de medidas de dis-
persão indicam a variabilidade da variável em torno de uma medida de posição - comumente, a
média aritmética.
Abordaremos neste tópico as principais medidas de dispersão: a variação e os desvios médio
e padrão.
Ah, a variação e o desvio padrão... Duas coisinhas que tiram o sono de muitos concurseiros
por aí. Mas calma, meu amigo, eu estou aqui para te ajudar a entender esses conceitos.
os valores estão muito dispersos. Se o desvio padrão é baixo, isso indica que os valores estão mais
concentrados.
Você pode estar se perguntando: “Se tanto desvio padrão quanto desvio médio calculam a
distância da média, qual a diferença entre eles?”
Embora tanto o desvio médio quanto o desvio padrão meçam a distância dos valores de um
conjunto de dados em relação à média, existem algumas diferenças entre essas duas medidas de
dispersão.
O desvio médio é a média das distâncias absolutas de cada valor em relação à média. Ou seja,
ele calcula a média das distâncias entre cada valor e a média, independentemente de serem maiores
ou menores que a média. O desvio médio é menos sensível a valores extremos ou outliers em um
conjunto de dados, pois considera todos os valores de forma igual.
Por outro lado, o desvio padrão é calculado como a raiz quadrada da variância, que é a média
dos quadrados das diferenças entre cada valor e a média. O desvio padrão é mais sensível a valores
extremos ou outliers, porque ele calcula a média dos quadrados das distâncias entre cada valor e
a média. Isso significa que os valores extremos têm um peso maior no cálculo do desvio padrão do
que no cálculo do desvio médio.
Portanto, a principal diferença entre o desvio médio e o desvio padrão é que o desvio médio é
menos sensível a valores extremos, enquanto o desvio padrão é mais sensível a valores extremos.
Além disso, o desvio padrão é mais amplamente utilizado em estatística e é considerado uma medida
mais precisa de dispersão em muitos casos.
Mas não se preocupe, não precisa ser um gênio da matemática para entender esses conceitos.
Se você souber que a variação mede a distância dos valores em relação à média e que o desvio
padrão mede a dispersão desses valores, já está no caminho certo.
Vamos resumir da seguinte forma:
VARIÂNCIA
Mede a distância dos valores em relação à média. (É a soma do quadrado das diferenças dos valores dividido
pelo total de elementos)
DESVIO MÉDIO
É a média das distâncias entre cada dado e a média. (É calculado pela soma das diferenças entre os valores e a
média dividido pelo total de elementos)
DESVIO PADRÃO
Mede a dispersão dos valores. (Ele é a raiz quadrada da Variância)
OK. Pode ser que ainda não tenha ficado tão claro assim. Na sequência vou ilustrar com alguns
exemplos.
DESVIO MÉDIO
Imagine um encontro de amigos numa bela tarde de domingo indo para uma matinê dançante.
Eles têm as seguintes idades: 65, 70, 63 e 72.
Bom, a média aritmética será:
4
Podemos perceber que realmente, as idades estão próximas a média. Agora imagine um segundo
grupo, que se reúne para ir jogar baralho na praça com as seguintes idades: 36, 98, 49 e 87. Cal-
culando a média aritmética temos:
Ué? O que aconteceu aqui? Veja que só de olhar percebemos que temos alguns valores beeeeem
distantes da média, não é?
Bem, vamos calcular o Desvio Médio dos grupos, que chamarei de G1 e G2 para facilitar. Será o
módulo da diferença do valor pela média.
G1
| 65 – 67,5 | 2,5
| 70 – 67,5 | 2,5
| 63 – 67,5 | 4,5
| 72 – 67,5 | 4,5
E vamos calcular somando esses valores e dividindo pelo número de elementos:
Perceba que o desvio do G1 é bem menor que o desvio do G2. Isto indica que os valores de G2
estão bem mais dispersos neste grupo.
Pessoas Idade
Ana 16
Beatriz 18
Carlos 22
Dirceu 19
Erasmo 20
estatística descritiva 5
Primeiramente vamos encontrar a média aritmética simples das idades. Já sabemos que para
isso basta somar os valores e dividir pela quantidade de elementos, neste caso temos:
Agora precisamos encontrar o desvio de cada uma das notas, mas cuidado, ainda não estamos
falando do desvio padrão, apenas a diferença em módulo (ou simplesmente subtraindo o menor
do maior valor) da nota para a média.
Não se assuste com ela, ela determina a média dos quadrados dos desvios dividida pela quanti-
dade de desvios.
Neste caso, o valor da variância é 4. Mas o que isso significa? – Significa que os números variam,
em média, até 4 (anos neste caso) de distância da média aritmética.
Aqui cabe uma diferenciação entre variância populacional e variância amostral:
A diferença entre a variância populacional e a variância amostral está relacionada à forma
como as amostras são coletadas e como as estimativas são calculadas.
6
A variância populacional é uma medida estatística que indica o quão dispersos são os dados
de uma população em relação à média populacional. Ela mede a variação real dos valores de toda
a população. A fórmula para a variância populacional é dada pela forma que vimos anteriormente:
Por outro lado, a variância amostral é uma medida estatística que indica o quão dispersos são os
dados de uma amostra em relação à média da amostra. Ela mede a variação dos valores da amostra,
que é usada para estimar a variância populacional. A fórmula para a variância amostral é dada por:
A principal diferença entre as duas fórmulas é que a variância populacional usa o número total
de valores na população (N) no denominador, enquanto a variância amostral usa o número de valores
na amostra menos um (n-1) no denominador. A razão para usar n-1 na variância amostral é que ela
fornece uma estimativa menos enviesada da variância populacional do que se usássemos apenas n.
A divisão por n-1 em vez de n é uma correção que é usada porque, ao usar n na fórmula, a
variância amostral tende a subestimar a variância real da população. Isso ocorre porque a amostra
é uma amostra finita de uma população maior e, portanto, possui alguma variação aleatória. A
correção é feita para levar em conta essa variação aleatória e produzir uma estimativa mais precisa
da variância populacional a partir da amostra. Mas fique tranquilo, geralmente a questão aponta
se é populacional ou amostral, caso ela não diga nada, use a populacional.
Macete
DESVIO PADRÃO
O desvio padrão é outra medida de dispersão que indica o quão distante os valores de um con-
junto de dados estão da média. Ele é calculado pela raiz quadrada da variância. A fórmula para
calcular o desvio padrão é a seguinte:
estatística descritiva 7
Agora, podemos usar a fórmula da variância amostral para calcular a estimativa não tenden-
ciosa da variância populacional:
1 30
2 45
3 50
4 35
5 5
5. Se todos tivessem avaliado com notas 2 ou 3, o desvio padrão seria muito próximo de zero.
Agora se alguns tivessem dado 2 e outro 3, a variação ficaria e como nosso desvio
padrão foi de aproximadamente 1,2 – ou seja, maior que 1. Logo a alternativa está errada!
ESTATÍSTICA
DESCRITIVA
2
ESTATÍSTICA DESCRITIVA
Prof. Leandro de Souza
VARIÁVEL: O QUE É?
E aí, como está? Bora ficar mais casca grossa em estatística e buscar a tão sonhada aprovação?
Tamo junto!
Vou começar pela pergunta título: O que é variável? Variável é uma condição ou característica
dos elementos da população estatística que você estiver analisando.
Podemos dividi-las em: QUALITATIVA (palavra) e QUANTITATIVA (Número)
QUALITATIVA
NOMINAL
Variável
DISCRETA
QUANTITATIVA
CONTÍNUA
Para deixar mais claro, uma variável em estatística é uma característica ou atributo que pode
ser observado, medido e registrado em uma população ou amostra de indivíduos ou objetos.
Essas variáveis podem ser quantitativas (quando se referem a uma medida numérica) ou qualita-
tivas (quando se referem a uma característica não numérica, como cor, gênero, estado civil, etc).
Estatística descritiva 3
As variáveis em estatística são de grande importância pois são utilizadas para fazer análises
e inferências sobre as populações ou amostras estudadas, permitindo a tomada de decisões com
base em dados concretos e precisos.
DISTRIBUIÇÕES DE FREQUÊNCIA
Agora vamos abordar o assunto Distribuição de Frequência. Você pode estar se perguntando
agora: “Para que serve isso?”. Distribuições de frequência é um jeito legal de organizar e apresentar
dados em uma tabela. Assim, a gente consegue ver a frequência de ocorrência de cada valor ou
intervalo de valores em uma amostra ou população. A tabela é formada por colunas que represen-
tam os valores ou intervalos (que a gente chama de classes) e linhas que mostram a frequência de
ocorrência de cada classe.
Essas distribuições podem ser divididas em duas categorias: distribuições de frequência para
dados contínuos e distribuições de frequência para dados discretos. Quando os dados podem
assumir qualquer valor dentro de um intervalo contínuo, como altura das pessoas, a gente usa as
distribuições de frequência para dados contínuos. Nesse caso, os valores são agrupados em inter-
valos de classes, que podem ter tamanhos diferentes.
Já quando os dados só podem assumir valores específicos, como o número de filhos de cada
família, a gente usa as distribuições de frequência para dados discretos. As classes são formadas
pelos valores que aparecem na amostra ou população.
As distribuições de frequência são úteis para entender melhor a distribuição dos dados e
identificar padrões e características importantes, como a média, a moda, a mediana e a dispersão
dos dados. E ainda dá pra fazer uns gráficos irados, como histogramas e gráficos de frequência, que
ajudam a visualizar melhor os dados.
Vamos resumir da seguinte forma:
DADOS CONTÍNUOS
Podem assumir qualquer valor em um intervalo contínuo, como por exemplo, a altura ou o peso de uma pessoa.
DADOS DISCRETOS
só podem assumir valores específicos e separados uns dos outros, como o número de filhos de uma família ou o
número de carros em uma garagem.
Em provas de concursos públicos, o assunto de estatística descritiva é geralmente cobrado
por meio de questões que envolvem a interpretação de dados apresentados em tabelas e gráficos,
cálculo de medidas de tendência central (como média, mediana e moda), medidas de dispersão
(como desvio padrão e variância) e a aplicação de distribuições de frequência. Além disso, é comum
que as questões envolvam a resolução de problemas que exigem a aplicação desses conceitos, tais
como a comparação de conjuntos de dados, a identificação de padrões e a tomada de decisões
com base nos resultados obtidos.
ALTURAS fi Fi
1,50 2 2
1,60 3 5
1,70 3 8
1,80 2 9
1,90 1 10
Já a frequência relativa acumulada (Frac) é a soma das frequências relativas das classes ante-
riores àquela que estamos considerando. Por exemplo, se tivermos uma amostra com três classes
de idades (menos de 20 anos, de 20 a 30 anos e mais de 30 anos) e a frequência relativa acumu-
lada da primeira classe for 0,2 e da segunda classe for 0,5, isso significa que 20% das pessoas têm
menos de 20 anos e 50% têm menos de 30 anos. A frequência relativa acumulada é útil para avaliar
a proporção de dados que estão abaixo ou acima de um determinado valor.
Vamos completar nossa tabela:
Pegando a primeira frequência absoluta temos:
Estatística descritiva 5
ALTURA fi Fi fr Frac
1,50 2 2 20% 20%
1,60 3 5 25% 45%
1,70 3 8 10% 55%
1,80 2 9 30% 85%
1,90 1 10 15% 100%
ALTURA fi Fi fr Frac
1,60 1,64 5 5 25% 25%
1,64 1,68 2 7 10% 35%
1,68 1,72 4 11 20% 55%
1,72 1,76 4 15 20% 75%
1,76 1,80 5 20 25% 100%
6
1. Tabelas de frequência: são usadas para mostrar a frequência ou proporção de cada cate-
goria ou valor em uma variável.
2. Histogramas: são usados para mostrar a distribuição de frequência de uma variável con-
tínua em intervalos ou classes.
3. Gráficos de linha: são usados para mostrar a tendência ao longo do tempo ou de outra
variável independente.
4. Gráficos de Colunas / barras: são usados para comparar diferentes categorias ou grupos
e mostram a frequência ou proporção de cada categoria.
5. Gráficos de setores: também conhecidos como gráficos de pizza, são usados para mostrar
a composição proporcional de diferentes categorias.
6. Gráficos de dispersão: são usados para mostrar a relação entre duas variáveis contínuas
e podem ajudar a identificar padrões ou tendências.
Na sequência, vamos nos aprofundar um pouco mais em cada um deles.
TABELAS DE FREQUÊNCIA
Bora falar sobre tabela de distribuição de frequência, meu chapa! É o seguinte: essa tabela é
uma maneira de mostrar como os valores de uma variável estão distribuídos dentro de um conjunto
de dados. Ela indica quantas vezes cada valor da variável aparece no conjunto de dados.
Pensa assim: imagina que a gente tem um conjunto de dados com várias notas de alunos numa
prova. A tabela de distribuição de frequência vai mostrar quantas vezes cada nota aparece naquele
conjunto de dados. Então, a gente consegue ver, por exemplo, quantos alunos tiraram nota baixa,
quantos tiraram nota média e quantos mandaram bem demais na prova.
Essa tabela é muito útil pra gente ter uma ideia da distribuição dos dados e facilitar a análise
das informações. Mas é importante lembrar que a gente precisa escolher o número certo de classes
pra separar os dados e criar a tabela, senão pode rolar uma interpretação errada das informações.
Estatística descritiva : histogramas 3
1 1
2 2
3 1
4 3
5 1
6 1
8 2
10 1
Ou por classes:
0 |- 3 3
3 |- 6 5
6 | - 10 4
HISTOGRAMAS
É um tipo de representação gráfica que a gente usa para mostrar como um conjunto de dados
está distribuído, dividido em classes uniformes ou não uniformes.
Aqui vão algumas paradas importantes: primeiro, a área do histograma é proporcional à soma
das frequências dos dados, ou seja, quanto maior a área, maior é a frequência dos valores naquele
intervalo. Segundo, se a gente tiver as frequências relativas, a área do histograma será sempre igual
a 1, que é 100% do conjunto de dados.
E, por fim, se a gente quiser comparar frequências, o ideal é sempre usar histogramas de
frequências relativas, certo? Assim, a gente consegue ter uma noção mais clara da distribuição dos
dados.
GRÁFICO DE LINHAS
O gráfico de linhas é um tipo de representação gráfica que a gente usa pra analisar progressões
ou regressões de algum fator.
Ele é especialmente importante quando a gente quer analisar a valorização monetária de
alguma coisa, ou então o lucro de empresas ao longo do tempo. Assim, a gente consegue ver de
forma mais clara se esse fator está evoluindo ou regredindo ao longo do tempo, ou seja, vamos
utilizar muito quando temos uma série temporal
Esse tipo de gráfico é bem útil em várias áreas, como economia, finanças, estatística e outras
paradas do tipo. Então, é sempre bom ficar ligado em como usar o gráfico de linhas na hora de
analisar dados.
Estatística descritiva : histogramas 5
Gráfico de colunas
6
Gráfico de Barras
GRÁFICO DE SETORES
Não sei você, mas me deu uma fome agora! Então, o gráfico de setores, também conhecido
como gráfico de pizza (que fome mesmo!), é um tipo de representação gráfica que a gente usa pra
mostrar a proporção de cada categoria dentro de um conjunto de dados.
Basicamente, o gráfico de setores é um círculo dividido em fatias, cada uma representando uma
categoria. A área de cada fatia é proporcional à quantidade de dados que ela representa. Assim, a
gente consegue ter uma noção clara de quais categorias são mais frequentes, e qual a proporção
de cada uma delas dentro do conjunto de dados.
Esse tipo de gráfico é bem utilizado em várias áreas, como marketing, pesquisa de mercado
e outras paradas do tipo. E é uma ótima opção quando a gente quer mostrar a proporção de cada
categoria de forma clara e visualmente atrativa.
Podemos ainda descobrir qual o ângulo de um setor aplicando uma regra de 3 básica no de
100% é igual a 360 e x% equivale ao ângulo desejado. Veja o gráfico anterior, vamos descobrir qual
o ângulo do setor “Condutor”:
100% 360º
31% xº
Temos que 100x = 11.160, logo temos que xº é 111,6º.
GRÁFICO DE DISPERSÃO
Não se disperse agora, estamos quase lá! Por falar nisso, o gráfico de dispersão é um tipo de
representação gráfica que a gente usa para mostrar a relação entre duas variáveis.
Estatística descritiva : histogramas 7
Basicamente, ele funciona assim: a gente pega dois conjuntos de dados, um para cada variável,
e posiciona cada um deles num eixo do gráfico. Daí, para cada conjunto de dados, a gente marca
um ponto no gráfico que representa a intersecção das duas variáveis.
Assim, a gente consegue ver se existe alguma relação entre essas duas variáveis. Por exemplo,
se a gente tiver um conjunto de dados representando a quantidade de horas de estudo de um aluno,
e outro representando a nota que ele tirou numa prova, a gente pode criar um gráfico de dispersão
para ver se existe alguma relação entre essas duas variáveis. Se existir, a gente pode usar isso para
fazer previsões ou tomar decisões com base nesses dados.
Esse tipo de gráfico é bem utilizado em várias áreas, como estatística, economia, ciência de
dados e outras paradas do tipo. E é uma ótima opção para visualizar a relação entre duas variáveis
de forma clara e objetiva.
Bom, meu chapa, espero que tenha ficado claro para você como as representações gráficas são
importantes para entender e visualizar conjuntos de dados. Cada tipo de gráfico tem suas particu-
laridades e é mais adequado pra determinadas situações, então é importante entender bem cada
um deles. Muitas vezes, questões envolvendo esses gráficos aparecem em provas de matemática,
estatística e outras disciplinas.
Por isso, é essencial estar preparado e dominar bem cada tipo de gráfico, entender como
interpretá-los e como utilizá-los em situações práticas. O conhecimento em representações
gráficas pode ser um diferencial para você que está buscando a aprovação em seu concurso.
Bom, foi um prazer bater esse papo com você! Não deixe de dedicar um tempo para se apro-
fundar nesse tema. E se precisar de ajuda, é só chamar que estamos aqui para te ajudar!
8
Empregados Fa
Com curso superior 18
Sem curso superior 42
Total 60
Já da pra perceber que o ângulo  refere-se aos empregados com cursos superior (pois são a
menor “fatia”)
2) Vamos criar uma regra de três com estes valores
60 --- 360º
18 --- xº
6x = 18*360
6x = 6480
x = 6480/6
x= 108
Logo, a assertiva correta é a e!
Certo ( ) Errado ( )
TABELAS DE CONTINGÊNCIA
Você já ouviu falar sobre tabelas de contingência na estatística descritiva? É uma ferramenta
bem útil para analisar a relação entre variáveis categóricas, sabia?
Basicamente, essas tabelas apresentam os dados em um formato de matriz, onde as categorias
de uma variável são dispostas nas linhas e as categorias da outra variável nas colunas. E a partir
dessas informações, é possível calcular diversas medidas estatísticas e até mesmo testar a relação
entre as variáveis.
As tabelas de contingência são muito utilizadas em pesquisas de opinião, estudos de mercado
e análises de saúde pública, por exemplo. E é comum que elas apareçam em questões de provas
de concursos públicos, então é importante estar por dentro do assunto.
Vamos supor que queremos analisar a relação entre o gênero e o interesse em esportes de um
grupo de estudantes. Para isso, podemos criar uma tabela de contingência com as seguintes
informações:
Masculino 60 40
Feminino 30 70
Essa tabela apresenta as categorias de gênero (masculino e feminino) nas linhas e as cate-
gorias de interesse em esportes (com e sem interesse) nas colunas. A partir dessas informações,
podemos calcular diversas medidas estatísticas, como a frequência absoluta, frequência relativa,
porcentagem e até mesmo fazer testes de hipóteses para verificar se há uma relação significativa
entre as variáveis.
Assim, as tabelas de contingência são uma ferramenta muito útil para analisar a relação entre
variáveis categóricas em diferentes contextos.
Estatística descritiva : gráficos e tabelas 3
2 3
3 58
4 257
5 0
Nesse exemplo, os números à esquerda da barra vertical (|) formam o ramo e os números à
direita da barra vertical formam a folha. No ramo “2”, temos apenas o número 3 na folha, no ramo
“3” temos as folhas 5 e 8, e assim por diante.
O gráfico de ramo e folha é útil porque permite visualizar rapidamente a distribuição dos dados.
No exemplo acima, podemos ver que a maioria dos dados está concentrada na faixa dos 30 e 40
anos. Além disso, esse tipo de gráfico pode ser facilmente expandido para incluir conjuntos de dados
maiores, permitindo a análise de conjuntos de dados com centenas ou milhares de observações.
É importante notar que o gráfico de ramo e folha é uma técnica relativamente simples e
pode ser menos preciso do que outras técnicas mais avançadas, como histogramas ou boxplots.
No entanto, é uma ferramenta útil e fácil de usar para organizar e visualizar dados quantitativos.
BLOXPLOTS
O gráfico de boxplot é um tipo de representação gráfica que utiliza quartis para apresentar
informações sobre a distribuição de um conjunto de dados. Ele é composto por um retângulo (que
representa o intervalo interquartil), uma linha (que representa a mediana), dois segmentos de reta
(que representam os valores mínimo e máximo), além de pontos que representam valores extremos.
O retângulo do boxplot começa no primeiro quartil (25% dos dados) e termina no terceiro
quartil (75% dos dados). A mediana (50% dos dados) é representada por uma linha dentro do
retângulo. Os segmentos de reta que saem do retângulo vão até os valores mínimo e máximo, que
são os menores e maiores valores do conjunto de dados, respectivamente.
O boxplot é muito útil para identificar a presença de outliers, que são valores extremos que
podem distorcer a análise dos dados. Ele também permite comparar a distribuição de diferentes
conjuntos de dados e verificar a presença de assimetrias e outros padrões.
Geralmente, os boxplots são utilizados em conjunto com outras representações gráficas e
análises estatísticas para uma melhor compreensão dos dados.
4
Além disso, esse método proporciona a localização visual da posição, dispersão, simetria,
caudas e os valores extremos (outliers) dos dados.
Para montar um Gráfico Bloxplot temos que encontrar, primeiramente, a Mediana, o 1º e o
3º Quartil.
Considere os seguintes números:
30 31 34 34 37 37 42 42 45 45 45 46 46 48 50 52 54 54 54 80
Para achar a mediana, devemos ordenar o conjunto de dados em ordem crescente; Se o
número de elementos for par, então a mediana é a média dos dois valores centrais. Soma os
dois valores centrais e divide o resultado por 2: (a + b)/2.
Neste caso (45+45)/2 = 45
O Q1 (1º interquartil), é como se fosse a Mediana da primeira metade:
30 31 34 34 37 37 42 42 45 45
Neste caso (37+37)/2 = 37
Aplicamos o mesmo raciocínio para encontrarmos Q3:
45 46 46 48 50 52 54 54 54 80
Neste caso (50+52)/2 = 51
Estatística descritiva : gráficos e tabelas 5
Acerca desse esquema ramo e folha, informe se é verdadeiro (V) ou falso (F) o que se afirma
a seguir e assinale a alternativa com a sequência correta .
( ) Os valores estão distribuídos entre 3,1 e 9,3.
( ) Não há nota inferior a 3,1.
( ) Há uma leve assimetria em direção as maiores notas.
( ) Há uma concentração de valores entre 4,0 e 7,5.
( ) Não há uma nota destaque.
ESPAÇO AMOSTRAL
O espaço amostral é o conjunto de todos os possíveis resultados de um experimento aleatório.
Por exemplo, se jogarmos um dado, o espaço amostral é o conjunto dos números de 1 a 6.
EVENTO (E)
Evento é um subconjunto do espaço amostral. É um conjunto formado por um ou mais resul-
tados do experimento aleatório. Por exemplo, no exemplo do dado, o evento “obter um número
par” é formado pelos resultados {2, 4, 6}.
EXPERIMENTO
É uma ação que é realizada para se observar um resultado incerto. Pode ser um experimento
físico, como jogar um dado, ou um experimento aleatório abstrato, como escolher uma carta de
um baralho.
EXPERIMENTOS DETERMINÍSTICOS
É um experimento cujo resultado é conhecido com certeza antes de ser realizado. Ou seja, o
resultado é previsível e não há incerteza envolvida. Por exemplo, se medirmos a temperatura de
uma substância com um termômetro, o resultado será determinístico, pois já sabemos qual será a
temperatura antes mesmo de realizar a medição.
EXPERIMENTOS ALEATÓRIOS
São aqueles cujos resultados não podem ser determinados com certeza, mesmo que todas as
condições iniciais sejam conhecidas. Ou seja, a realização do experimento pode levar a diferentes
resultados, e a probabilidade de cada um desses resultados pode ser calculada.
Um exemplo de experimento aleatório é o lançamento de um dado, no qual o resultado pode
ser qualquer um dos seis números possíveis, e a probabilidade de cada número é a mesma. Outro
exemplo é o sorteio de uma bola de uma urna contendo várias bolas de cores diferentes, em que
a probabilidade de cada cor é proporcional ao número de bolas daquela cor na urna.
PROBABILIDADE
A probabilidade nada mais é do que uma medida numérica que a gente usa para saber a chance
de um evento ocorrer em um conjunto de possibilidades.
É tipo uma forma de quantificar a incerteza e variabilidade das coisas. Por exemplo, se eu jogar
uma moeda para cima, a probabilidade de dar cara ou coroa é de 50% para cada lado, porque só
tem duas opções.
E essa medida pode ser expressa de várias formas, como fração, decimal ou porcentagem,
sempre indo de zero (quando é impossível acontecer) até 1 (que é certeza absoluta).
PROBABILIDADE : definições básicas e axiomas 3
Por exemplo, se você jogar uma moeda, a chance de sair cara é 1/2 (ou 0,5), porque há duas
possibilidades igualmente prováveis - cara ou coroa - e apenas uma delas é cara. Então, usando a
fórmula, podemos dizer que P(cara) = 1 / 2.
Vamos a um exemplo que exige apenas o conhecimento da definição:
(CESPE / CEBRASPE - 2020)
O setor de gestão de pessoas de uma determinada empresa realiza regularmente a análise de
pedidos de férias e de licenças dos seus funcionários. Os pedidos são feitos em processos, em que
o funcionário solicita apenas férias, apenas licença ou ambos. Em determinado dia, 30 processos
foram analisados nos quais constavam 15 pedidos de férias e 23 pedidos de licenças. Com base
nessa situação hipotética, julgue o item que se segue:
Se todos os processos foram analisados individualmente neste dia, então a probabilidade de
um processo específico ter sido analisado é superior a 1/10.
Considerando a fórmula da probabilidade:
Probabilidade = número de casos favoráveis / número total de casos
Com base na situação apresentada, a probabilidade de um processo específico ter sido ana-
lisado é de 1/30 = 0,03333, pois há um total de 30 processos analisados. Portanto, a afirmação de
que a probabilidade é superior a 1/10 = 0,10 está incorreta
AXIOMAS DA PROBABILIDADE
Vamos imaginar um exemplo: em uma urna, temos 5 bolas vermelhas e 3 bolas azuis. Se tirar-
mos uma bola aleatoriamente, os eventos de tirar uma bola vermelha e de tirar uma bola azul são
mutuamente exclusivos, pois não pode sair uma bola que seja ao mesmo tempo vermelha e azul.
Outro exemplo seria lançar um dado e observar se o número que apareceu é par ou ímpar.
Esses dois eventos também são mutuamente exclusivos, pois o número não pode ser par e ímpar
ao mesmo tempo.
É importante ressaltar que nem todos os eventos são mutuamente exclusivos. Os eventos
não mutuamente exclusivos podem ocorrer juntos.
Por exemplo, ao lançar um dado, é possível obter um resultado par e maior que 3 ao mesmo
tempo, pois o resultado 4 é par e maior que 3. Nesse caso, os eventos “obter um resultado par” e
“obter um resultado maior que 3” não são mutuamente exclusivos.
EVENTOS COMPLEMENTARES
Eventos complementares são aqueles que representam a ocorrência de um evento ou a ocor-
rência do seu oposto. Em outras palavras, se um evento é complementar a outro, a sua não ocor-
rência implica necessariamente na ocorrência do outro evento.
Por exemplo, suponha que estamos jogando um dado de seis faces numeradas de 1 a 6. Pode-
mos definir o evento A como o resultado ser um número par e o evento B como o resultado ser um
PROBABILIDADE : probabilidade condicional e independência 3
número ímpar. Como esses eventos não podem ocorrer ao mesmo tempo, eles são mutuamente
exclusivos e seus complementares são o evento de o resultado não ser par (ímpar) e o evento de
o resultado não ser ímpar (par), respectivamente.
Assim, a probabilidade do evento complementar de A é a probabilidade do evento oposto de A
acontecer, que é a probabilidade do resultado ser ímpar, ou seja, P(A’) = P(B) = 1/2. E a probabilidade
do evento complementar de B é a probabilidade do resultado ser par, ou seja, P(B’) = P(A) = 1/2.
Vale lembrar que a soma das probabilidades dos eventos e seus complementares é sempre igual a 1.
EVENTOS INDEPENDENTES
Eventos independentes na probabilidade ocorrem quando a ocorrência ou não de um evento
não afeta a probabilidade da ocorrência de outro evento.
Por exemplo, jogar um dado e lançar uma moeda são eventos independentes. Se eu lançar um
dado e tirar um número par, isso não afeta a probabilidade de lançar a moeda e sair cara ou coroa.
Imagine que queremos a probabilidade de jogarmos um dado e sair o número 6 – P(A) - e
jogarmos uma moeda e sair cara – P(B).
Matematicamente temos:
4
Podemos ler da seguinte forma: “Qual a probabilidade de ocorrer A, dado que aconteceu B”,
ou seja, B é uma condição.
Na prática mesmo, na sua prova de concursos, você acaba nem usando essa fórmula, vamos
fazer de um modo mais rápido.
Por exemplo, se você joga um dado de seis faces, a probabilidade de cair o número 3 é de 1/6.
Mas se você já sabe que o número que caiu é ímpar, a probabilidade de ser o número 3 aumenta
para 1/3, pois agora a amostra se restringe aos números 1, 3 e 5.
ͫ Quando a questão diz que pelo menos um isto representa a união dos conjuntos
180
ͫ Veja que ele quer sabe, qual a probabilidade de escolher um dos 30 dos que se sentem
satisfeitos ao executar pelo menos uma (condição)
PROBABILIDADE : DISTRIBUIÇÕES DE
PROBABILIDADE
Distribuições de Probabilidade
Animados para mais um tópico de probabilidade? Bora lá! Nosso tópico hoje será sobre Distri-
buições de probabilidade que são modelos matemáticos usados para descrever a probabilidade de
ocorrência de diferentes resultados em um experimento aleatório. Esses modelos são baseados
em dados estatísticos e permitem que sejam feitas previsões sobre a probabilidade de um resultado
específico ou de um intervalo de resultados.
Existem diferentes tipos de distribuições de probabilidade, cada uma adequada para diferen-
tes tipos de experimentos e dados. Alguns exemplos de distribuições de probabilidade incluem a
distribuição normal, a distribuição binomial, a distribuição de Poisson e a distribuição exponencial.
É como se fosse um cardápio de opções de resultados possíveis, cada um com uma proba-
bilidade associada a ele. Essas distribuições podem ser representadas graficamente em forma de
tabela, gráfico de barras, histograma, entre outros.
Por exemplo, vamos supor que você está jogando um dado honesto de seis faces. Cada face
tem a mesma chance de sair, ou seja, a probabilidade de cada resultado possível é de 1/6. Então,
a distribuição de probabilidade desse experimento seria uma tabela com as seis faces do dado e a
probabilidade de cada uma delas (1/6 para cada face).
Existem várias distribuições de probabilidade diferentes, cada uma com sua própria fórmula
matemática e propriedades e são sobre elas que vamos falar agora.
Bem no meio da Curva de Gaus no encontramos a média (x), podemos somar (para direita)
ou subtrair (a esquerda) dela o nosso desvio padrão (σ) e montarmos um intervalo (x + σ ou x – σ).
Se a sua distribuição for normal, 68,26% dos seus dados estarão neste intervalo.
Se você aumentar 2 desvios padrões (+2σ) a direita e subtrair 2 desvios padrões a esquerda,
você terá 95,44% dos seus dados neste intervalo.
Vamos a um exemplo: Vamos supor que queremos estudar a altura de uma população de
estudantes universitários. Sabemos que a média da altura é 1,70 metros, com um desvio padrão
de 0,10 metros.
A distribuição normal desse conjunto de dados é dada por uma curva de sino, onde a maioria
dos dados se concentra na média (1,70 metros) e a dispersão diminui à medida que nos afastamos
dela. Podemos usar essa distribuição para responder perguntas como: qual é a probabilidade de
um estudante universitário selecionado aleatoriamente ter uma altura entre 1,60 e 1,80 metros?
Usando a tabela da distribuição normal padrão, podemos calcular que essa probabilidade é de
aproximadamente 68%. Isso significa que a maioria dos estudantes universitários terá uma altura
entre 1,60 e 1,80 metros, de acordo com a distribuição normal desses dados.
DISTRIBUIÇÃO DE POISSON
Então, a distribuição de Poisson é um modelo matemático usado para estimar a probabilidade
de um certo número de eventos ocorrer em um período de tempo específico, quando a média
desses eventos é conhecida. Essa distribuição assume valores discretos e pode ser utilizada para
modelar eventos que ocorrem de forma independente.
Imagine que você está trabalhando em uma central de atendimento e precisa saber quantas
ligações vão ser recebidas em uma hora, já que precisa preparar o número suficiente de atendentes.
Você pode usar a distribuição de Poisson para te ajudar a estimar a probabilidade de um determi-
nado número de ligações acontecerem em uma hora, com base na média de ligações recebidas
em outras horas.
Onde:
k: número designado de sucesso
λ : número médio de sucessos num intervalo específico
e: número de Euller – base do logaritmo natural (2,71828)
Vamos aplicar isso em um exemplo:
Um restaurante japonês costuma atender 10 clientes salão e mais 7 pedidos de delivery por
hora. Qual a probabilidade de que, em uma hora, sejam solicitadas exatamente 3 pedidos de deli-
very? (use e7 = 0,000912)
Resolvendo:
Ou aproximadamente 5,21%
Ok! Ok! Se você não fugiu, parabéns! Você não precisa decorar esta fórmula, mas é importante
extrairmos alguns conceitos importantes dela:
Esta notação podemos ler da seguinte forma: Existe uma variável aleatória (X) que tem distri-
buição (~) Normal (N) com média (µ) e variância (σ2). Veja que no anterior temos:
Isso vai ser importante porque quando queremos a probabilidade, calculamos o valor da área
e para não ser necessário o uso de integral, usamos a tabela de valores normalizados.
λ : 96 mensagens / 8 h
Vamos aplicar uma regra de três pois a questão pede o número de mensagens em 10 min.
8 x 60 min = 480 min
96 _______ 480
λ ________ 10
480 λ = 960
λ = 960 / 480 = 2
Pela média temos 2 mensagens recebidas a cada 10 min
O que a questão pede é receber pelo menos 1 mensagem. Ou seja, o que ele não quer e não
receber nenhuma mensagem, ou seja P(x=0)
PROBABILIDADE
FUNÇÃO de Probabilidade
A função de Probabilidade é uma função matemática que associa cada valor de x0 da variável
aleatória X a cada número P(X= x0) que satisfaz as seguintes propriedades:
Assim, ela atribui uma probabilidade a cada evento possível em um espaço amostral. Ela é
usada para descrever a probabilidade de um evento aleatório em um experimento, com base em
um conjunto de resultados possíveis. Ela permite que sejam feitas previsões sobre a frequência e
a probabilidade de eventos futuros.
A função de probabilidade pode ser representada de diferentes maneiras, dependendo do tipo
de experimento e do espaço amostral. Por exemplo, em um experimento de lançamento de dados, a
função de probabilidade é representada pela distribuição uniforme, enquanto em um experimento
de lançamento de moedas, a função de probabilidade é representada pela distribuição binomial.
Um exemplo de função de probabilidade pode ser a distribuição de probabilidade de uma
moeda justa. Se lançarmos uma moeda justa, a probabilidade de obtermos cara é 0,5 e a proba-
bilidade de obtermos coroa também é 0,5. Podemos representar essa função de probabilidade da
seguinte forma:
Seja X a variável aleatória que representa o resultado de um lançamento de moeda;
Se X = 1, então P(X=1) = 0,5 (probabilidade de obter cara);
Se X = 0, então P(X=0) = 0,5 (probabilidade de obter coroa).
X 0 1
P(X = x0) 0,5 0,5
Essa é uma função de probabilidade discreta, pois os possíveis valores da variável aleatória
(cara ou coroa) são discretos e limitados. Além disso, a soma das probabilidades de todos os pos-
síveis resultados é igual a 1.
Veja que vou lançar duas moedas e cada moeda tem duas possibilidades (CARA ou COROA),
neste caso meu ESPAÇO AMOSTRAL (S) é 4 (2 possibilidades da primeira moeda e duas possibili-
dades da segunda)
Cara-Cara (0) Cara-Coroa(1) Coroa-Cara(1) Coroa-Coroa(2)
X 0 1 2
P(X = x0) 1/4 1/2 1/4
Repare que a possibilidade de termos duas Caras (0) é de ¼ - 0,25 (ou 25%).
Perceba que novamente a somas das probabilidades de todos os possíveis resultados é igual a 1:
Vamos deixar as coisas mais interessantes? Temos então o seguinte experimento: Dois dados
honestos são lançados, em que a variável aleatória é a soma obtida nos dois dados, a Função de
Probabilidade é:
Espaço amostral (36)
μ é a média da distribuição
σ é o desvio padrão da distribuição
e é o número de Euler, aproximadamente igual a 2.71828
Deve atender as seguintes condições:
ͫ f(x) > 0
Onde:
λ é a taxa de eventos (por exemplo, o número médio de ligações recebidas por hora)
x é o tempo decorrido desde o último evento
PROBABILIDADE NO PONTO
A probabilidade no ponto se refere à probabilidade de uma variável aleatória assumir um
valor específico em um determinado ponto, ou seja, a probabilidade de que X seja igual a x. Em
outras palavras, a probabilidade no ponto é a probabilidade de que uma variável aleatória assuma
um valor exato, ao contrário da probabilidade de um intervalo de valores. Para variáveis aleatórias
contínuas, a probabilidade no ponto é zero, uma vez que a probabilidade de assumir qualquer
valor específico é infinitamente pequena.
Um macete que pode ajudar é lembrar que a probabilidade no ponto em uma variável con-
tínua é sempre zero, pois a probabilidade de obter um valor exato em uma distribuição contínua é
infinitesimal. Para calcular a probabilidade de um intervalo específico, é necessário usar a função
densidade de probabilidade ou a função acumulada de probabilidade.
E COMO VAMOS CALCULAR A PROBABILIDADE NESTAS SITUAÇÕES?
Para calcular as probabilidades nessa situação, é necessário encontrar a área sob a curva da
função densidade de probabilidade em um determinado intervalo. No caso da distribuição normal
padrão, essa área pode ser encontrada usando tabelas de distribuição normal padrão ou por meio
de softwares estatísticos.
Suponha que queiramos calcular a probabilidade de uma variável aleatória X seguir uma distri-
buição normal com média μ = 50 e desvio padrão σ = 5, assumindo que X é uma variável contínua.
Se quisermos encontrar a probabilidade de X estar entre 45 e 55, primeiro precisamos padro-
nizar esses valores, o que pode ser feito usando a fórmula:
Assim, temos:
z1 = (45 - 50) / 5 = -1
z2 = (55 - 50) / 5 = 1
Em seguida, podemos usar uma tabela de distribuição normal padrão para encontrar a pro-
babilidade de z estar entre -1 e 1, que é aproximadamente 0,6826.
Portanto, a probabilidade de X estar entre 45 e 55 é de aproximadamente 0,6826.
PROBABILIDADE
ESPERANÇA E MOMENTOS
ESPERANÇA
A esperança, também conhecida como valor esperado, é um conceito importante na teoria
das probabilidades e na estatística. Ela representa o valor médio que esperamos obter de uma
variável aleatória em um grande número de experimentos.
Em termos mais simples, a esperança é uma medida de centralidade que nos diz qual seria o
valor médio de uma variável aleatória1 se repetíssemos o experimento muitas vezes. É uma forma
de resumir a informação contida na distribuição de probabilidade de uma variável aleatória.
A fórmula geral para calcular a esperança de uma variável aleatória discreta2 X é:
Onde x representa os valores possíveis que X pode assumir, e P(X = xi) é a probabilidade
associada a cada valor x. Para uma variável aleatória contínua3, a fórmula é um pouco diferente e
envolve a integral em vez da soma.
A esperança nos fornece uma medida de tendência central da distribuição de probabilidade
e é amplamente utilizada em cálculos estatísticos, previsões e tomadas de decisão.
Veja o exemplo a seguir:
X 1 2 3 4 5 6
P (X = x0) 1/6 1/6 1/6 1/6 1/6 1/6
1 Uma variável aleatória representa uma quantidade numérica associada a um experimento aleatório,
cujo valor não pode ser previamente determinado com certeza.
2 As variáveis aleatórias discretas assumem valores específicos e enumeráveis, como o número de caras
em uma série de lançamentos de moedas.
3 As variáveis aleatórias contínuas podem assumir qualquer valor dentro de um intervalo contínuo, como
a altura de uma pessoa ou o tempo de espera em uma fila.
PROBABILIDADE 3
Veja que basta pegar o valor da variável aleatória e multiplicar pela sua probabilidade e depois
somar tudo!
O que podemos interpretar com isso?
ͫ Valor médio esperado em longo prazo
ͫ Incerteza em um único lançamento, mas média converge para 3.5 em repetições
ͫ Importância da esperança na análise de variáveis aleatórias
Propriedades da Esperança (X)
As principais propriedades da esperança (E(X)) são:
1. Linearidade: A esperança é uma função linear, o que significa que se a e b são constantes
e X e Y são variáveis aleatórias, então E(aX + bY) = aE(X) + bE(Y).
Suponha que X e Y sejam variáveis aleatórias com E(X) = 2 e E(Y) = 3. Podemos calcular a espe-
rança de uma combinação linear dessas variáveis:
E(2X + 3Y) = 2E(X) + 3E(Y) = 2(2) + 3(3) = 4 + 9 = 13
2. Propriedade da constante: Se c é uma constante, então E(c) = c. Isso significa que a espe-
rança de uma constante é igual a própria constante.
Considere a variável aleatória X que representa o número de caras em dois lançamentos con-
secutivos de uma moeda justa. A esperança de X é igual à constante 1, pois sempre teremos
um resultado de um ou dois caras.
E(X) = 1
3. Esperança de uma soma: Se X e Y são variáveis aleatórias, então E(X + Y) = E(X) + E(Y).
Isso significa que a esperança de uma soma de variáveis aleatórias é igual à soma das
esperanças individuais.
Suponha que X e Y sejam variáveis aleatórias independentes que representam o número de
pontos marcados por dois jogadores em um jogo de basquete. Se E(X) = 10 e E(Y) = 8, então
a esperança da soma dos pontos é:
E(X + Y) = E(X) + E(Y) = 10 + 8 = 18
4
EXERCÍCIO DE FIXAÇÃO
Calcule o valor esperado da variável aleatória X que representa o número de caras obtido
quando uma moeda é jogada três vezes.
RESOLUÇÃO:
Primeiramente vamos construir a árvore de possibilidades, Tome C (Cara) e K(Coroa)
X 0 1 2 3
P (X = x0) 1/8 3/8 3/8 1/8
PROBABILIDADE 5
(FGV/2016) A capacidade de um time de futebol de marcar gols em uma única partida é uma
variável aleatória. A tabela a seguir apresenta a probabilidade de certo time marcar um número
mínimo (Y) de gols em uma partida:
Isso significa que o número médio de gols marcados por esse time em uma única partida de
futebol é igual a:
RESOLUÇÃO:
Se:
Y = Número mínimo de gols marcados.
Tomemos a variável aleatória
X = Número de gols marcados em uma partida.
PROBABILIDADE
DISTRIBUIÇÕES ESPECIAIS
As distribuições especiais em probabilidade são modelos matemáticos que descrevem o com-
portamento de variáveis aleatórias em situações específicas. Cada distribuição especial possui
propriedades distintas e é utilizada para modelar diferentes tipos de fenômenos.
Algumas das principais distribuições especiais em probabilidade são:
Distribuição Normal: Também conhecida como distribuição Gaussiana, é amplamente utilizada
devido à sua simetria e formato em formato de sino. É frequentemente aplicada em casos em que
os dados seguem uma distribuição simétrica em torno de uma média.
Distribuição de Bernoulli: É usada para modelar situações em que existem apenas dois resul-
tados possíveis, como sucesso ou fracasso, sim ou não. Ela fornece a probabilidade de obter um
número específico de sucessos em um número fixo de tentativas independentes.
Distribuição Binomial: É usada para modelar situações em que existem apenas dois resultados
possíveis, como sucesso ou fracasso, sim ou não. Ela fornece a probabilidade de obter um número
específico de sucessos em um número fixo de tentativas independentes.
Distribuição de Poisson: É empregada para descrever a ocorrência de eventos raros ou discretos
em um intervalo fixo de tempo ou espaço. Ela é aplicada em situações em que a taxa de ocorrência
é constante e independente do tempo.
Distribuição Exponencial: É utilizada para modelar o tempo entre eventos sucessivos em
um processo de Poisson. Ela descreve a probabilidade de um evento ocorrer em um determinado
intervalo de tempo.
Distribuição Uniforme: É usada para modelar situações em que todos os valores possíveis têm
a mesma probabilidade de ocorrer. Ela é caracterizada por uma distribuição uniforme e igualmente
provável dos valores.
DISTRIBUIÇÃO DE BERNOULLI
A distribuição de Bernoulli é uma distribuição de probabilidade discreta que modela um único
experimento com dois resultados possíveis: sucesso ou fracasso, onde o sucesso tem uma proba-
bilidade de p e o fracasso tem uma probabilidade de (1 - p).
Ela é denominada em homenagem ao matemático suíço Jacob Bernoulli.
Os principais elementos da distribuição de Bernoulli são:
ͫ Variável Aleatória: É uma variável discreta que assume apenas dois valores possíveis: 1
para sucesso e 0 para fracasso.
ͫ Parâmetro de Probabilidade: É representado por p e representa a probabilidade de
ocorrer o sucesso em um único experimento.
A função de probabilidade da distribuição de Bernoulli é dada por:
P(X = k) = p^k * (1 - p)^(1 - k)
PROBABILIDADE 3
Onde:
ͫ X é a variável aleatória que representa o resultado do experimento (1 para sucesso, 0
para fracasso).
ͫ k é o valor possível para a variável aleatória (0 ou 1).
ͫ p é o parâmetro de probabilidade, que representa a probabilidade de sucesso.
A distribuição de Bernoulli é frequentemente utilizada como um bloco de construção para
outras distribuições mais complexas, como a distribuição binomial, que modela o número de suces-
sos em uma série de experimentos independentes de Bernoulli.
Exemplos de aplicação da distribuição de Bernoulli incluem o lançamento de uma moeda (cara
= sucesso, coroa = fracasso) e o teste de sucesso ou falha de um componente eletrônico.
Vamos considerar o lançamento de uma moeda não viciada. O evento de “cara” será conside-
rado como sucesso (1) e o evento de “coroa” será considerado como fracasso (0). A probabilidade
de obter cara em um único lançamento é de 0,5 (p = 0,5).
Tabela de Distribuição de Bernoulli:
X (Evento) P(X) (Probabilidade)
0 (Coroa) 0,5
1 (Cara) 0,5
Neste exemplo, temos uma distribuição de Bernoulli que representa o lançamento de uma
moeda não viciada. A tabela mostra os eventos possíveis (coroa e cara) e suas respectivas probabi-
lidades de ocorrência. Como a moeda é justa, a probabilidade de coroa e cara é igual, ambos com
valor de 0,5.
É importante destacar que a soma das probabilidades deve ser igual a 1, o que ocorre nesta
tabela, já que P(X = 0) + P(X = 1) = 0,5 + 0,5 = 1.
EXERCÍCIO DE FIXAÇÃO
Uma urna tem 30 bolas verdes e 20 brancas. Retira-se uma bola desta urna. Seja X o número
de bolas brancas, calcule E(X) e V(X).
RESOLUÇÃO:
Vamos fazer a distribuição de Bernoulli
X Probabilidade
Brancas 20/50
Verdes 30/50
4
X Probabilidade
1 2/5 = 0,4 (p)
Sabendo que a Esperança E(X) =p temos: 0,4 e a Var(X) = p.q = 0,4 . 0,6 = 0,24
(CESPE/2016) Se as variáveis aleatórias X e Y seguem distribuições de Bernoulli, tais que
P[X = 1] = P[Y =0] = 0,2, então julgue o assertiva a seguir:
a distribuição de X2 é Bernoulli com média igual a 0,81.
RESOLUÇÃO:
Vamos fazer a distribuição de Bernoulli
X Probabilidade
1 0,9
0 0,1
Dado que ele pede a média e nós sabemos que o que ele quer é a E(X) temos que E(X) = p ele
pede X2 . Só que tem uma pegadinha, ele quer que você faça 0,92 = 0,81. Mas veja que :
X2 Probabilidade
12 0,9
02 0,1
PROBABILIDADE
DISTRIBUIÇÃO BINOMIAL
DEFINIÇÃO
A distribuição binomial trata-se de um cálculo estatístico. Ela é utilizada para determinar a
probabilidade de certa ocorrência acontecer dentro de um evento com sistema fechado. Para
isso, é utilizada uma sequência de tentativas limitada.
A distribuição binomial está diretamente relacionada à distribuição de Bernoulli. Na verdade,
a distribuição binomial é uma generalização da distribuição de Bernoulli.
A distribuição de Bernoulli descreve um único ensaio ou experimento com apenas dois resul-
tados possíveis: sucesso (S) ou fracasso (F). Ela é caracterizada por um parâmetro p, que representa
a probabilidade de sucesso em um único ensaio.
A distribuição binomial, por sua vez, é utilizada para modelar a ocorrência de um evento em
um número fixo de ensaios independentes e idênticos. Ela é composta por uma série de ensaios
de Bernoulli. Cada ensaio é um evento de Bernoulli, em que há apenas dois resultados possíveis:
sucesso ou fracasso.
Dessa forma, a distribuição binomial representa o número de sucessos em uma sequência
de ensaios de Bernoulli, em que a probabilidade de sucesso em cada ensaio é constante e inde-
pendente dos demais ensaios. Ela é caracterizada pelos parâmetros n (número de elementos) e p
(probabilidade de sucesso em cada ensaio).
b(n;p)
Onde:
n : número de elementos da amostra
p : probabilidade de sucesso em cada ensaio
Portanto, a distribuição binomial é uma generalização da distribuição de Bernoulli, pois permite
analisar a ocorrência de múltiplos sucessos em uma série de ensaios independentes, enquanto a
distribuição de Bernoulli se refere a um único ensaio.
BIZUS
É útil ter em mente alguns macetes que podem facilitar a compreensão e o cálculo. Aqui estão
alguns dos principais macetes sobre a distribuição binomial:
Fórmula: A fórmula para calcular a probabilidade em uma distribuição binomial é P(X = k) =
C(n, k) . pk . q(n-k), onde C(n, k) é o coeficiente binomial, p é a probabilidade de sucesso, q é a pro-
babilidade de falha (1 - p), n é o número de ensaios e k é o número de sucessos desejados.
Probabilidade de sucesso: É importante identificar corretamente a probabilidade de sucesso
(p) em cada ensaio. Essa probabilidade pode ser dada em forma decimal ou em porcentagem, mas
deve ser consistente em todos os cálculos.
Coeficiente binomial: O coeficiente binomial C(n, k) é usado para contar o número de
combinações possíveis de k sucessos em n ensaios. Ele pode ser calculado usando a fórmula
onde ! denota o fatorial.
Probabilidade acumulada: A probabilidade acumulada em uma distribuição binomial pode ser
calculada somando as probabilidades de todos os sucessos até o número desejado. Por exemplo,
P(X ≤ k) = P(X = 0) + P(X = 1) + ... + P(X = k).
Média e Variância: A média (esperança) de uma distribuição binomial é dada por E(X) = n.p,
e a variância é dada por Var(X) = n .p .q onde p é a possibilidade de Sucessos e q a possibilidade
de Fracassos
Aproximação da distribuição normal: Quando o número de ensaios (n) é grande e a probabili-
dade de sucesso (p) não está muito próxima de 0 ou 1, a distribuição binomial pode ser aproximada
pela distribuição normal usando a regra de De Moivre-Laplace.
Lembrando que entender os conceitos e princípios por trás desses macetes é fundamental para
uma compreensão sólida da distribuição binomial. A prática de exercícios também é importante
para se familiarizar com os cálculos e aplicação desses conceitos.
EXERCÍCIO DE FIXAÇÃO
1. Seja X o resultado de um experimento aleatório que tem distribuição binomial (100. 0,03).
A média de X é:
RESOLUÇÃO:
Neste caso temos n=100 e p=0,03. Como ele pede “a média de X”, ou seja, a E(X), calcu-
lamos como:
E(X) = n.p
E(X) = 100.0,03 = 3
EXERCÍCIO DE FIXAÇÃO
2. Um arremessador de basquete tem uma taxa de acerto de 80% nos arremessos de lance
livre. Em uma partida, ele realiza 5 lances livres. Qual é a probabilidade de ele acertar
exatamente 2 arremessos?
(a) 0,0824
(b) 0,2029
(c) 0,2668
(d) 0,0512
(e) 0,5000
RESOLUÇÃO:
Neste caso, temos um experimento em que cada lance livre é um ensaio independente
e o sucesso é acertar o arremesso. Portanto, podemos usar a distribuição binomial para
calcular a probabilidade.
A probabilidade de sucesso (p) é de 0,8 (80%) e queremos calcular a probabilidade de
acertar exatamente 2 arremessos em 8 tentativas.
Utilizando a fórmula da distribuição binomial, temos:
Onde:
P(X = 2) é a probabilidade de acertar exatamente 2 arremessos.
n é o número de ensaios (5 arremessos).
k é o número de sucessos desejados (2 acertos).
p é a probabilidade de sucesso em cada ensaio (0,8).
Calculando a probabilidade, temos:
PROBABILIDADE
DISTRIBUIÇÃO DE POISSON
DEFINIÇÃO
A distribuição de Poisson é uma distribuição de probabilidade discreta que modela a ocorrência
de eventos raros em um intervalo fixo de tempo, espaço ou em uma determinada população. Ela é
amplamente utilizada para descrever situações em que estamos interessados em contar o número
de eventos que ocorrem em um período específico.
As principais características da distribuição de Poisson são:
ͫ Eventos independentes: Os eventos devem ocorrer de forma independente uns dos
outros, ou seja, a ocorrência de um evento não afeta a probabilidade de ocorrência dos
outros eventos.
ͫ Taxa média de ocorrência muito baixa: A distribuição de Poisson é caracterizada por um
parâmetro único, geralmente denotado por λ (lambda), que representa a taxa média de
ocorrência dos eventos no intervalo considerado. Neste caso, vamos perceber que ela
acaba sendo extremamente baixa (tendendo a zero).
ͫ Número de ocorrências muito alta: A distribuição de Poisson descreve a probabilidade de
ocorrer um elevado número de eventos em um intervalo específico (tendendo ao infinito).
A função de probabilidade da distribuição de Poisson é dada por P(X = k) = (e(-λ) . λk) / k!, onde X
é o número de ocorrências, k é o número específico de ocorrências, λ é a taxa média de ocorrência
e e é a base do logaritmo natural (aproximadamente 2,71828).
Exemplos de situações em que a distribuição de Poisson é utilizada incluem a contagem de
acidentes de trânsito em uma determinada região, o número de chamadas telefônicas recebidas
em uma central de atendimento em um determinado período de tempo, a contagem de erros de
digitação em um texto, entre outros.
Essa relação é útil quando temos um grande número de ensaios e uma pequena probabili-
dade de sucesso, pois simplifica os cálculos ao substituir a distribuição binomial pela distribuição
de Poisson, que é mais simples de trabalhar.
Vamos supor que em uma linha de produção de uma fábrica de automóveis, a taxa média de
defeitos é de 2 por dia. Queremos calcular a probabilidade de ocorrer exatamente 3 defeitos em
um dia específico.
Nesse caso, estamos lidando com uma situação que pode ser modelada pela distribuição de
Poisson, pois estamos interessados em contar o número de defeitos em um intervalo de tempo fixo.
A taxa média de defeitos por dia é de 2 (λ = 2). Podemos usar a fórmula da distribuição de
Poisson para calcular a probabilidade:
P(X = 3) = (e(-2) . 23) / 3!
Calculando essa expressão, encontramos:
P(X = 3) = (0,1353 . 8) / 6
P(X = 3) = 0,1804
Portanto, a probabilidade de ocorrer exatamente 3 defeitos em um dia específico é de apro-
ximadamente 0,1804 ou 18,04%.
Esse exemplo ilustra como a distribuição de Poisson pode ser aplicada para modelar situa-
ções em que estamos interessados em contar o número de ocorrências de eventos raros em um
intervalo de tempo.
Onde:
P(X = k) é a probabilidade de X assumir o valor k.
λ é o parâmetro da Distribuição de Poisson, que representa a taxa média de ocorrências de
eventos em um determinado intervalo de tempo ou espaço.
e é a base do logaritmo natural, aproximadamente 2.71828.
k é o número de ocorrências de eventos que queremos calcular a probabilidade.
k! representa o fatorial de k.
Para calcular a probabilidade de X assumir um valor específico k na Distribuição de Poisson,
basta substituir os valores na fórmula. É importante lembrar que a Distribuição de Poisson é uma
distribuição discreta, portanto, as probabilidades são para valores individuais.
Por exemplo, suponha que temos uma Distribuição de Poisson com λ = 2 e queremos calcular
a probabilidade de ocorrerem exatamente 3 eventos. Substituindo os valores na fórmula, temos:
P(X = 3) = (e-2 . 23) / 3!
Calculando o valor, encontramos a probabilidade desejada.
Essa fórmula pode ser usada para calcular probabilidades de outros valores na Distribuição de
Poisson, seja para valores específicos ou em forma de intervalos. É importante entender o contexto
do problema e identificar qual é o parâmetro λ adequado para realizar o cálculo corretamente.
Vamos a um exemplo:
Considere uma indústria de peças que apresenta defeito em p = 0,01% das peças produzidas e
que a amostra a ser verificada contém n = 4.000 peças. Qual a probabilidade de termos uma peça
defeituosa? (e-0,4 = 0,67)
EXERCÍCIO DE FIXAÇÃO
1. Em um determinado posto policial entram, em média, 5 pessoas a cada 10 minutos. Qual
a probabilidade de entrarem neste posto, em um período qualquer, 4 pessoas? (Considere
e-5 = 0,006)
RESOLUÇÃO:
Vamos separar os dados:
• k (é o número de sucessos que queremos) = 4
• λ (é o número médio de sucessos num intervalo) = 5
PROBABILIDADE
DISTRIBUIÇÃO GEOMÉTRICA
DEFINIÇÃO
A distribuição geométrica é um modelo estatístico usado para descrever o número de tentativas
necessárias até ocorrer o primeiro sucesso em uma sequência de experimentos independentes.
Em outras palavras, ela nos diz quantas vezes precisamos tentar algo até alcançar o resultado
desejado pela primeira vez.
Pense em uma situação em que você está jogando um jogo de basquete e quer acertar uma
cesta de 3 pontos. Cada vez que você arremessa a bola, você tem uma certa probabilidade de acertar
(sucesso) ou errar (fracasso). A distribuição geométrica nos ajuda a entender quantas tentativas
são necessárias até que você faça o primeiro arremesso de 3 pontos.
Essa distribuição é caracterizada por um parâmetro chamado de probabilidade de sucesso (p),
que representa a chance de ocorrer o sucesso em cada tentativa. Quanto maior for a probabilidade
de sucesso, menor será o número médio de tentativas necessárias para obter o primeiro sucesso.
A distribuição geométrica é amplamente utilizada em diversas áreas, como estudos de falhas,
análise de tempo de espera, análise de séries temporais e muito mais. Ela nos permite modelar
eventos que ocorrem em sequência e entender melhor o comportamento desses eventos ao longo
do tempo.
Onde:
ͫ P(X = k) é a probabilidade de ocorrer exatamente k tentativas até o primeiro sucesso.
ͫ q ou (1 - p) é a probabilidade de falha em cada tentativa.
ͫ k-1 é o operador de potência para elevar (1 - p) à potência de k-1.
ͫ p é a probabilidade de sucesso em cada tentativa.
Vamos usar um exemplo para ilustrar como calcular a distribuição geométrica:
Suponha que você esteja jogando um jogo de dados e queira calcular a probabilidade de obter
um resultado específico, como um “6”, no quarto lançamento. A probabilidade de sucesso em cada
lançamento é de 1/6, pois há 6 resultados possíveis no dado. Usando a fórmula da distribuição
geométrica, temos:
Outro exemplo: Suponha que numa moeda viciada a probabilidade de sair a Cara é 10%. Qual
a probabilidade, após vários lançamentos, obtermos Cara no 5° lançamento?
Onde representa a probabilidade de obter sucesso em PELO MENOS k tentativas. Você pre-
cisa calcular a probabilidade para cada número de tentativas até k-1, e então subtrair o resultado
encontrado de 1 para obter a probabilidade de pelo menos k tentativas.
EXEMPLO:
Suponha que numa moeda viciada, a probabilidade de sair a face cara seja 20%.
Qual a probabilidade de precisar de pelo menos 2 lançamentos para sair a primeira face cara?
Podemos realizar a troca de P(X < 2) por P(X = 1), pois é a única possibilidade existente neste
cenário:
Voltando:
Agora, suponha que na moeda viciada, a probabilidade de sair a face cara seja 10%.
Mas desta vez a probabilidade de precisar de pelo menos 3 lançamentos para sair a primeira
face cara
Ou seja:
Distribuição geométrica :
P(X = 1) P(X = 2)
P(X = 1) = 0,91-1 ⋅ 0,1 P(X = 2) = 0,92-1 ⋅ 0,1
P(X = 1) = 0,90 ⋅ 0,1 P(X = 2) = 0,91 ⋅ 0,1
P(X = 1) = 1 ⋅ 0,1 = 0,1 P(X = 2) = 0,9 ⋅ 0,1 = 0,09
Continuando com o exemplo anterior, com p = 0,3 e q = (1-p) podemos calcular a variância
da seguinte forma:
PROBABILIDADE
DISTRIBUIÇÃO HIPERGEOMÉTRICA
DEFINIÇÃO
A distribuição hipergeométrica é um negócio meio complicadinho, mas eu vou tentar te expli-
car de forma mais relaxada. Sabe quando a gente tem uma população com dois tipos de coisas
diferentes e a gente quer saber quantas dessas coisas a gente vai pegar numa amostra sem repetir?
Então, é aí que entra a distribuição hipergeométrica.
A fórmula para calcular essa probabilidade é um pouquinho complicada, mas vou tentar sim-
plificar pra você. É mais ou menos assim: a probabilidade de pegar k elementos do tipo certo na
amostra é igual ao número de jeitos de escolher k elementos do tipo certo na população, multipli-
cado pelo número de jeitos de escolher (n - k) elementos do tipo errado na população, tudo dividido
pelo número total de jeitos de escolher a nossa amostra.
Onde:
ͫ N = Tamanho da População (Finita e de tamanho conhecido)
ͫ n = Tamanho da Amostra (de tamanho conhecido)
ͫ S = Número de Sucessos dentro da População
ͫ k = Número de Sucessos dentro da Amostra
Vamos a um exemplo:
Suponha que em uma loja haja N = 10 funcionário, no total, das quais S = 4 estão de licença.
Se selecionarmos n = 3 funcionários, a probabilidade de termos k = 2 de licença é:
Nesse caso, temos uma situação que se enquadra em uma distribuição hipergeométrica.
Podemos calcular a probabilidade de selecionarmos exatamente 2 funcionários de licença usando
a fórmula da distribuição hipergeométrica:
ͫ N = 10 é o tamanho total da população (número de funcionários na loja).
ͫ S = 4 é o número de sucessos na população (número de funcionários de licença).
ͫ n = 3 é o tamanho da amostra (número de funcionários selecionados).
ͫ k = 2 é o número de sucessos desejados (número de funcionários de licença selecionados).
Uma variável aleatória terá uma distribuição hipergeométrica quando estiver relacionada
à seleção de elementos de uma população finita sem reposição. Isso significa que a distribuição
hipergeométrica é usada quando estamos interessados em contar o número de sucessos (elementos
de interesse) em uma amostra, onde a seleção dos elementos não é aleatória, mas sim baseada
em critérios específicos.
Para que uma variável aleatória siga uma distribuição hipergeométrica, devem ser atendidas
as seguintes condições:
ͫ A população total deve ser finita e consistir em dois tipos de elementos (sucessos e
fracassos).
ͫ A amostra é selecionada sem reposição, o que significa que cada elemento escolhido
reduz o tamanho da população para as próximas seleções.
ͫ tamanho da amostra e a quantidade de elementos de interesse são fixos e determinados.
Essa distribuição é comumente usada em situações em que temos uma população finita e
queremos avaliar a probabilidade de obter uma certa quantidade de sucessos em uma amostra
sem reposição. Exemplos incluem inspeção de qualidade em lotes de produtos, seleção de cartas
em um baralho, amostragem de lotes de produção, entre outros.
Variância (Var):
Onde:
ͫ X é a variável aleatória que segue a distribuição hipergeométrica.
ͫ n é o tamanho da amostra.
ͫ S é o número de sucessos na população.
ͫ N é o tamanho total da população.
A esperança (E) representa o valor médio esperado da distribuição, enquanto a variância (Var)
mede a dispersão dos valores em relação à média.
Vamos utilizar um exemplo para ilustrar o cálculo da esperança e da variância:
Suponha que em um lote de 100 itens, existam 30 itens defeituosos. Selecionamos aleatoria-
mente uma amostra de 10 itens. Qual é a esperança e a variância do número de itens defeituosos
nessa amostra?
ͫ n = 10 é o tamanho da amostra.
ͫ N = 100 é o tamanho total da população.
ͫ p é número de Sucessos (S) / tamanho da população (N) (% de sucesso)
» 30/100 = 0,3
ͫ q é o número de Fracassos (1 - p)
» 1 – 0,3 = 0,7
Esperança (E):
E(X) = 10.0,3 = 3
Variância (Var):
EXERCÍCIO DE FIXAÇÃO
1. Em um determinado posto policial entram, em média, 5 pessoas a cada 10 minutos. Qual
a probabilidade de entrarem neste posto, em um período qualquer, 4 pessoas? (Considere
e-5 = 0,00674)
RESOLUÇÃO:
Vamos separar os dados:
ͫ k (é o número de sucessos que queremos) = 4
ͫ (é o número médio de sucessos num intervalo) = 5
PROBABILIDADE
DISTRIBUIÇÃO BINOMIAL NEGATIVA
DEFINIÇÃO
A distribuição binomial negativa é um tipo de distribuição que modela o número de tentativas
necessárias para obter um certo número de sucessos em experimentos independentes.
Vamos imaginar a seguinte situação: você está jogando basquete e quer acertar 5 arremessos
de três pontos antes de errar 3 arremessos seguidos. Cada arremesso tem uma chance de sucesso
p e uma chance de falha (1-p). A distribuição binomial negativa é usada para calcular a probabi-
lidade de quantas tentativas você precisará fazer até atingir o objetivo de 5 acertos antes de 3
falhas seguidas.
O interessante é que, ao contrário da distribuição binomial, onde fixamos o número de tentati-
vas e calculamos a probabilidade de obter um certo número de sucessos, na distribuição binomial
negativa fixamos o número de sucessos desejados e calculamos a probabilidade de atingir esse
número em um número variável de tentativas.
Essa distribuição é útil em diversas áreas, como na análise de resultados em testes clínicos,
em estudos de tempo de vida de componentes eletrônicos e em previsões de tempo até um evento
ocorrer.
Número de ensaios (X = x) necessários para se obter k sucessos, com k fixo.
PARÂMETROS
p = proporção de sucessos
k = número de sucessos fixo
x = tentativas
PRESSUPOSTO
População infinita (tão grande que uma tentativa não faça diferença) ou extração com reposição.
Independência entre as tentativas
Vamos supor que estamos acompanhando uma partida de futebol que está sendo decidida por
uma disputa de pênaltis. O time A já converteu 3 pênaltis em gols, enquanto o time B converteu 2.
A cada cobrança de pênalti, cada time tem uma chance de 70% de converter o gol e uma chance
de 30% de errar.
A distribuição binomial negativa pode ser usada para calcular a probabilidade de quantos
pênaltis o time A precisará cobrar até atingir um total de 5 gols, considerando que o time B con-
verta todos os pênaltis restantes.
Nesse exemplo, estamos interessados em calcular a probabilidade de o time A cobrar exata-
mente 2 pênaltis adicionais até atingir um total de 5 gols.
Essa probabilidade pode ser calculada usando a fórmula da distribuição binomial negativa (que
veremos com maior profundidade logo abaixo), levando em conta os parâmetros:
número de sucessos desejados (k Sucessos = 2)
probabilidade de sucesso em cada tentativa (p = 0,7)
número total de tentativas necessárias até atingir o objetivo (k = 5).
Onde:
» X é a variável aleatória que segue uma distribuição binomial negativa.
» k é o número de sucessos desejados.
» p é a probabilidade de sucesso em cada tentativa.
Por exemplo, se estamos interessados em calcular a esperança e a variância de uma distribuição
binomial negativa em que o número de sucessos desejados é k = 2 e a probabilidade de sucesso
em cada tentativa é p = 0,3, teríamos:
PARÂMETROS
p = proporção de sucessos (20% ou 0,2 dos sapatos que chegam não tem conserto)
k = número de sucessos fixo (encontrar 2 pares sem conserto)
q = 1 – p proporção de fracassos (80% ou 0,8)
x = tentativas (analisarmos exatamente 4 pares)
Probabilidade
Versão Condensada
Sumário
Probabilidade�����������������������������������������������������������������������������������������������������������������3
2. Assimetria��������������������������������������������������������������������������������������������������������������������������������������������������������������� 3
3. Curtose������������������������������������������������������������������������������������������������������������������������������������������������������������������� 5
3.1 Interpretação:�����������������������������������������������������������������������������������������������������������������������������������������������������������������������6
4.1 Solução���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������7
2
A L F A C O N
Probabilidade
1. Assimetria e curtose
Nesta aula, vamos explorar um tema fundamental na estatística: a assimetria e a curtose, que nos ajudam a entender a
distribuição dos dados e a tomar decisões mais informadas. Vamos começar!
Na análise estatística, é essencial compreender a forma como os dados estão distribuídos. Duas medidas importantes
para descrever a forma da distribuição são a assimetria e a curtose. Vamos entender o que cada uma delas significa e
como aplicá-las.
2. Assimetria
A assimetria mede a falta de simetria em uma distribuição de dados. Ela nos ajuda a identificar se a distribuição é
simétrica, tendendo para um lado ou outro. Existem três tipos de assimetria:
1. Assimetria Positiva: A distribuição possui uma cauda longa à direita, ou seja, valores maiores se estendem além
da média.
Probabilidade 3
A L F A C O N
2. Assimetria Negativa: A distribuição possui uma cauda longa à esquerda, ou seja, valores menores se estendem
além da média.
3. Assimetria Simétrica: A distribuição é aproximadamente simétrica, com uma distribuição equilibrada em ambos
os lados da média.
Probabilidade 4
A L F A C O N
Exemplo: Suponha que temos uma distribuição de salários de funcionários de uma empresa. Se a maioria dos funcio-
nários ganha salários abaixo da média, isso indica uma assimetria negativa.
3. Curtose
Ela indica o grau de achatamento de uma distribuição de frequências. Dito de outro modo, as medidas de curtose visam
avaliar o quanto uma curva de frequências é achatada ou afilada.
1. Leptocurtose: A distribuição é mais concentrada em torno da média, com caudas mais pesadas. Isso indica que
há mais dados próximos à média.
2. Platicurtose: A distribuição é mais achatada em relação à média, com caudas menos pesadas. Isso indica que há
mais dados espalhados e menos concentrados em torno da média.
3. Mesocúrtica: A distribuição é mais equilibrada em relação a média (nem muito achatada, nem muito alongada)
Exemplo: Considere uma distribuição de notas de um exame. Se as notas estão mais concentradas em torno da média,
com menos notas extremas, isso indica uma curtose leptocúrtica.
Existem diferentes fórmulas para calcular a medida de curtose de uma distribuição. As duas fórmulas mais comuns são:
Probabilidade 5
A L F A C O N
onde:
é a soma dos desvios à quarta potência dos valores individuais (xi) em relação à média (x̄).
n é o tamanho da amostra.
Essa fórmula subtrai 3 da curtose de Pearson, o que permite que a curtose seja medida em relação à curtose de uma
distribuição normal padrão, que é igual a 3.
Essas fórmulas são utilizadas para calcular a medida de curtose de uma distribuição com base nos valores individuais
da amostra. Elas permitem avaliar o achatamento ou a concentração da distribuição em relação à média. Vale ressaltar
que existem diferentes variantes dessas fórmulas que podem ser utilizadas dependendo do contexto e das caracterís-
ticas da distribuição.
3.1 Interpretação:
Ao analisar a assimetria e a curtose, é importante considerar os valores numéricos e o formato visual da distribuição.
Essas medidas fornecem informações valiosas sobre os dados.
• Valores positivos de assimetria indicam assimetria positiva, com uma cauda longa à direita.
• Valores negativos de assimetria indicam assimetria negativa, com uma cauda longa à esquerda.
• Valores positivos de curtose indicam uma distribuição mais concentrada em torno da média.
Exemplo: Se a assimetria é positiva e a curtose é positiva, podemos inferir que a distribuição é assimétrica com uma
cauda longa à direita e mais concentrada em torno da média.
A compreensão da assimetria e da curtose é fundamental para analisar e interpretar os dados corretamente. Elas nos
ajudam a identificar características importantes da distribuição, como a presença de valores extremos e a concentração
dos dados em torno da média.
Ao estudar para concursos públicos, a compreensão desses conceitos é valiosa, pois você poderá analisar dados esta-
tísticos com mais precisão e responder a perguntas relacionadas a distribuições de dados.
Pratique a interpretação visual e numérica da assimetria e da curtose em diferentes conjuntos de dados para aprimorar
suas habilidades analíticas
Probabilidade 6
A L F A C O N
4. Questão para fixação
4. A assimetria e a curtose são medidas estatísticas importantes para descrever a distribuição dos dados. Analise as
seguintes afirmativas sobre essas medidas e marque a opção correta:
I. Um valor positivo de assimetria indica que a distribuição é simétrica, com uma distribuição equilibrada em
ambos os lados da média.
II. A curtose é uma medida que indica a falta de simetria em uma distribuição de dados.
III. Um valor negativo de curtose indica que a distribuição é mais concentrada em torno da média, com menos
dados extremos.
4.1 Solução
A afirmativa I está incorreta. Um valor positivo de assimetria indica que a distribuição é assimétrica, com uma
cauda longa à direita. A afirmativa II está incorreta. A curtose não indica a falta de simetria, mas sim o achata-
mento ou a concentração da distribuição em torno da média. A afirmativa III está correta. Um valor negativo de
curtose indica uma distribuição mais concentrada em torno da média, com menos dados extremos.
Probabilidade 7
A L F A C O N
ESTATÍSTICA
Amostragem
Versão Condensada
Sumário
Amostragem������������������������������������������������������������������������������������������������������������������3
1.1 Definição������������������������������������������������������������������������������������������������������������������������������������������������������������������������������ 3
2
A L F A C O N
Amostragem
1. Conceitos iniciais
1.1 Definição
Vamos falar sobre amostragem e tamanho da amostra em estatística, um tópico importante frequentemente cobrado
em concursos públicos.
A amostragem é o processo de selecionar uma parte representativa de uma população maior para realizar análises esta-
tísticas. Essa técnica é amplamente utilizada quando é impraticável ou impossível coletar dados de toda a população.
Em vez disso, uma amostra é selecionada para fazer inferências sobre a população como um todo.
Em amostragem estatística, um parâmetro populacional é uma medida descritiva que descreve uma característica ou
propriedade de uma população completa. Por exemplo, a média populacional, a proporção populacional, a variância
populacional são exemplos de parâmetros populacionais. No entanto, esses valores geralmente não são conhecidos,
pois é inviável ou impraticável medir todos os indivíduos da população.
Por outro lado, um estimador é uma estatística calculada a partir de uma amostra e usada para estimar um parâmetro
populacional desconhecido. O estimador é uma função dos dados da amostra e fornece uma estimativa do valor do
parâmetro populacional. Por exemplo, a média amostral, a proporção amostral, a variância amostral são exemplos de
estimadores.
A principal diferença entre um parâmetro populacional e um estimador é que o parâmetro é uma medida verdadeira e
fixa da população, enquanto o estimador é uma medida baseada em uma amostra e está sujeito a variação devido
ao fato de depender dos dados específicos da amostra.
É importante notar que um estimador pode ser viesado (tendencioso) ou não tendencioso. Um estimador não tenden-
cioso tem a propriedade de, em média, fornecer uma estimativa próxima do valor verdadeiro do parâmetro, enquanto
um estimador tendencioso tem uma tendência sistemática de superestimar ou subestimar o valor do parâmetro.
Amostragem 3
A L F A C O N
Para determinar o tamanho adequado da amostra, é necessário levar em consideração o nível de confiança desejado,
o nível de precisão aceitável e a variabilidade dos dados na população. Esses fatores são geralmente expressos em
termos de intervalo de confiança e margem de erro.
O intervalo de confiança é a faixa na qual a estimativa da população é provável que se encontre, com uma determinada
probabilidade. Por exemplo, um intervalo de confiança de 95% significa que, em repetidas amostragens, espera-se que
95% dos intervalos construídos contenham o valor verdadeiro da população.
A margem de erro é a quantidade de variação esperada entre a estimativa da amostra e o valor verdadeiro da população.
Quanto menor for a margem de erro desejada, maior deverá ser o tamanho da amostra.
Existem duas abordagens comuns para estimar um parâmetro populacional desconhecido: o estimador pontual e o
estimador intervalar.
Em concursos públicos, é comum encontrar questões que envolvem a determinação do tamanho da amostra com base
em informações como nível de confiança, margem de erro e variabilidade estimada da população. É importante entender
os conceitos subjacentes e saber como aplicá-los corretamente para obter resultados confiáveis.
O estimador pontual é um tipo de estimador que fornece uma única estimativa do valor do parâmetro populacional.
Ele é calculado com base nos dados amostrais disponíveis e geralmente é representado por uma estatística descritiva,
como a média amostral, a proporção amostral ou a mediana amostral. O estimador pontual busca fornecer a melhor
estimativa possível do valor do parâmetro, com base nas informações disponíveis na amostra. No entanto, é importante
observar que um estimador pontual pode ser viesado (tendencioso) ou não tendencioso. Um estimador não tendencioso
tem a propriedade de, em média, fornecer uma estimativa próxima do valor verdadeiro do parâmetro.
Por outro lado, o estimador intervalar, também conhecido como estimador por intervalo de confiança, fornece uma
faixa ou intervalo de valores dentro do qual o valor verdadeiro do parâmetro populacional provavelmente está contido.
É calculado com base nos dados amostrais e no nível de confiança desejado. O intervalo de confiança é construído
levando em consideração a variabilidade dos dados amostrais e é uma maneira de expressar a incerteza associada
à estimativa do parâmetro. Geralmente, um intervalo de confiança é expresso na forma de “estimativa pontual ± erro
padrão” ou “estimativa pontual ± margem de erro”. O nível de confiança está relacionado à probabilidade de que o
intervalo captura o valor verdadeiro do parâmetro.
O uso de estimadores intervalares é mais informativo do que apenas uma estimativa pontual, pois leva em consideração
a variabilidade dos dados e fornece uma medida de incerteza em torno da estimativa.
A amostragem probabilística é caracterizada por uma seleção aleatória dos elementos da população. Isso significa que
cada elemento tem uma chance conhecida e não nula de ser selecionado para a amostra. Esse tipo de amostragem visa
garantir a representatividade e a generalização dos resultados para a população como um todo.
Amostragem Aleatória Simples: Cada elemento da população tem a mesma probabilidade de ser selecionado para a
amostra.
Amostragem Sistemática: Os elementos são selecionados em intervalos regulares após uma ordem aleatória inicial.
Amostragem Estratificada: A população é dividida em estratos ou subgrupos, e uma amostra é selecionada de cada
estrato proporcionalmente ao seu tamanho.
Amostragem 4
A L F A C O N
Amostragem por Conglomerados: A população é dividida em grupos ou conglomerados, e alguns conglomerados são
selecionados aleatoriamente para compor a amostra.
A amostragem não probabilística é caracterizada por uma seleção dos elementos da população com base em critérios
subjetivos ou disponibilidade. Nesse tipo de amostragem, não há uma probabilidade conhecida e não nula de seleção
para cada elemento, o que pode levar a vieses e dificultar a generalização dos resultados para a população.
Amostragem por Conveniência: Os elementos são selecionados com base em sua disponibilidade ou facilidade de
acesso.
Amostragem por Julgamento: Os elementos são selecionados com base no conhecimento e julgamento do pesquisador.
Amostragem por Cotas: Os elementos são selecionados com base em características específicas que devem ser
atendidas em termos de quantidade ou proporção.
Existem diferentes fórmulas e métodos para calcular o tamanho da amostra, dependendo do tipo de estudo e das carac-
terísticas dos dados. Alguns exemplos incluem a fórmula de amostragem aleatória simples, amostragem estratificada
e amostragem por conglomerados.
Lembre-se de que o tamanho da amostra ideal pode variar dependendo do contexto e dos objetivos do estudo. É sem-
pre importante analisar cuidadosamente as informações fornecidas no enunciado da questão e aplicar os conceitos
corretos para resolver o problema.
Amostragem 5
A L F A C O N
ESTATÍSTICA
Tipos de Amostragem
Versão Condensada
Sumário
Tipos de Amostragem��������������������������������������������������������������������������������������������������� 3
2
A L F A C O N
Tipos de Amostragem
1. Métodos probabilísticos
1. Amostragem Aleatória Simples: Cada elemento da população tem a mesma probabilidade de ser selecionado
para a amostra.
2. Amostragem Sistemática: Os elementos são selecionados em intervalos regulares após uma ordem aleatória inicial.
A amostragem aleatória simples consiste em selecionar elementos da população de forma aleatória e igualmente
provável. Isso significa que cada elemento da população tem a mesma chance de ser selecionado para fazer parte da
amostra.
A fórmula do tamanho da amostra depende de alguns fatores, como o tamanho da população (N), o nível de confiança
desejado (representado pelo valor de z), a margem de erro (E) e a variabilidade dos dados na população (representada
pelo desvio padrão, σ, ou pela proporção, p, dependendo do tipo de dado que está sendo estudado).
Onde:
Z: valor crítico correspondente ao nível de confiança desejado (geralmente é obtido a partir das tabelas de distribuição
normal padrão)
No caso em que a variabilidade dos dados na população não é conhecida ou o desvio padrão é desconhecido, é comum
usar uma estimativa inicial para o desvio padrão ou para a proporção (dependendo do tipo de dado) com base em
pesquisas ou estudos anteriores.
Tipos de Amostragem 3
A L F A C O N
Lembre-se de que a fórmula do tamanho da amostra assume uma distribuição normal ou aproximadamente normal dos
dados na população. Em casos em que a distribuição dos dados é desconhecida ou não é normal, outras técnicas de
amostragem ou fórmulas podem ser necessárias.
Praticar a resolução de questões e exercícios relacionados a amostragem e tamanho da amostra é fundamental para se
familiarizar com os cálculos e conceitos envolvidos. Recomendo que você faça uso de materiais de estudo específicos
para concursos públicos, que geralmente incluem uma seleção de questões que abordam esse tema.
A amostragem aleatória sistemática é um método de seleção de amostras que segue uma abordagem sistemática e
aleatória para escolher os elementos da população.
A ideia básica é estabelecer um padrão sistemático para selecionar os elementos, garantindo uma escolha aleatória
e representativa. Veja como o processo funciona em 4 passos simples:
1. Defina o tamanho da amostra desejada: Determine o número de elementos que você deseja incluir na amostra.
2. Calcule o intervalo amostral: Divida o tamanho da população pelo tamanho da amostra para obter o intervalo
amostral. Por exemplo, se a população tem 100 elementos e você deseja uma amostra de 10 elementos, o intervalo
amostral será de 100/10 = 10.
3. Selecione um número aleatório inicial: Escolha aleatoriamente um número entre 1 e o tamanho do intervalo amos-
tral. Por exemplo, se o intervalo amostral for 10, você pode selecionar o número 4.
4. Selecione os elementos da amostra: A partir do número aleatório inicial, selecione os elementos da população
em intervalos regulares, de acordo com o intervalo amostral. Por exemplo, se o número aleatório inicial for 4 e o
intervalo amostral for 10, você selecionaria os elementos 4, 14, 24, 34 e assim por diante, até completar o tamanho
da amostra desejada.
A amostragem aleatória sistemática é um método simples e eficiente para selecionar uma amostra representativa da
população, desde que a população esteja ordenada de alguma forma (por exemplo, por lista, cadastro ou ordem). No
entanto, é importante garantir que a ordem dos elementos não esteja relacionada às características que estão sendo
estudadas, pois isso poderia introduzir um viés nos resultados.
A amostragem aleatória estratificada é um método de amostragem probabilística que envolve a divisão da população
em estratos ou subgrupos com características semelhantes e a seleção de uma amostra aleatória de cada estrato.
Esse método é utilizado quando se deseja garantir uma representação equilibrada de diferentes subgrupos dentro da
população.
Ao utilizar a amostragem aleatória estratificada, é importante que a seleção dos elementos dentro de cada estrato
seja realizada de forma aleatória e que a combinação das amostras preserve a representatividade proporcional de
cada estrato na população.
Imagine que temos uma turma de estudantes e queremos selecionar alguns deles para fazer uma pesquisa sobre seus
hábitos de estudo. No entanto, sabemos que a turma é formada por alunos de diferentes séries: 1º ano, 2º ano e 3º ano.
Tipos de Amostragem 4
A L F A C O N
Para garantir que tenhamos uma amostra representativa de todos os anos, vamos usar a amostragem aleatória estra-
tificada. Primeiro, dividimos a turma em três grupos, um para cada série.
Em seguida, selecionamos aleatoriamente alguns alunos de cada grupo. Por exemplo, se temos 30 alunos no 1º ano,
40 alunos no 2º ano e 50 alunos no 3º ano, podemos decidir selecionar 10 alunos de cada grupo.
Depois de selecionar os alunos de cada grupo, combinamos todas as amostras para formar nossa amostra final, que
será usada na pesquisa.
A ideia por trás da amostragem aleatória estratificada é garantir que tenhamos uma amostra representativa de cada
grupo (série) na população total (turma). Dessa forma, podemos obter informações mais precisas sobre os hábitos de
estudo de cada série.
A amostragem aleatória por conglomerado é um método de seleção de amostras que envolve dividir uma população em
grupos menores chamados conglomerados e selecionar aleatoriamente alguns desses conglomerados para fazer parte
da amostra. Dentro dos conglomerados selecionados, todos os elementos são incluídos na amostra. Esse método é útil
quando a população é grande e dispersa, pois permite uma seleção mais eficiente e prática, usando os conglomerados
como unidades de amostragem. É importante garantir que os conglomerados sejam representativos da população total.
Imagine que você é o representante de uma Universidade e precisa fazer uma pesquisa sobre os hábitos de estudo dos
alunos. Porém, seria muito difícil entrevistar todos os alunos da escola, pois são muitos.
Então, para facilitar, vamos utilizar a amostragem aleatória por conglomerado. Nesse método, a escola será dividida
em grupos menores, chamados conglomerados. Cada conglomerado será composto por um conjunto de alunos que
compartilham características semelhantes, como turma ou sala de aula.
Tipos de Amostragem 5
A L F A C O N
Aqui está como funciona:
• Divisão em conglomerados: A Universidade é dividida em grupos menores, como turmas ou salas de aula. Cada
conglomerado contém um número de alunos.
• Seleção dos conglomerados: Em vez de selecionar alunos individuais, vamos selecionar aleatoriamente alguns
conglomerados para fazer parte da amostra. Por exemplo, podemos escolher aleatoriamente 5 turmas da escola.
• Amostra dentro dos conglomerados: Agora, dentro dos conglomerados selecionados, iremos entrevistar todos
os alunos presentes em cada turma selecionada. Isso significa que todos os alunos da turma selecionada serão
incluídos na pesquisa.
• Análise dos dados: Após coletar as respostas dos alunos dos conglomerados selecionados, podemos analisar os
dados e obter informações sobre os hábitos de estudo dos alunos da Universidade.
A diferença entre a amostragem aleatória estratificada e a amostragem aleatória por conglomerado está relacionada à
forma como a população é dividida e selecionada para formar a amostra.
Na amostragem aleatória estratificada, a população é dividida em subgrupos distintos chamados estratos, com base
em características específicas. Em seguida, uma amostra é selecionada aleatoriamente de cada estrato, levando em
consideração a proporção de elementos em cada estrato. Por exemplo, se estamos realizando uma pesquisa em uma
cidade com diferentes bairros, podemos dividir a população em estratos por bairro e selecionar uma amostra aleatória
de cada estrato para garantir que os diferentes bairros estejam representados na amostra.
Por outro lado, na amostragem aleatória por conglomerado, a população é dividida em grupos maiores chamados con-
glomerados. Os conglomerados são selecionados aleatoriamente e, em seguida, todos os elementos dentro dos con-
glomerados selecionados são incluídos na amostra. Por exemplo, se estamos realizando uma pesquisa em uma escola,
podemos dividir a população em conglomerados por turma ou sala de aula e selecionar aleatoriamente algumas turmas
para fazer parte da amostra, entrevistando todos os alunos nessas turmas.
A principal diferença é que na amostragem aleatória estratificada a amostra é selecionada de forma aleatória dentro de
cada estrato, enquanto na amostragem aleatória por conglomerado a seleção aleatória ocorre no nível dos conglome-
rados e todos os elementos dentro dos conglomerados selecionados são incluídos na amostra.
Ambos os métodos são utilizados para garantir que a amostra seja representativa da população total, mas a escolha
entre eles depende da estrutura e características específicas da população em estudo.
Tipos de Amostragem 6
A L F A C O N
ESTATÍSTICA
Inferência Estatística
Versão Condensada
Sumário
Inferência Estatística�����������������������������������������������������������������������������������������������������3
2
A L F A C O N
Inferência Estatística
1. Estimativa pontual
A inferência estatística é uma área da estatística que busca fazer afirmações ou tirar conclusões sobre uma população
com base em informações obtidas a partir de uma amostra representativa dessa população. Ela nos permite fazer gene-
ralizações e tomar decisões com base em dados amostrais, sem a necessidade de analisar toda a população.
Estimador: Em estatística, um estimador é uma fórmula ou método usado para calcular uma estimativa de um parâmetro
desconhecido em uma população com base em dados da amostra. É uma função dos dados amostrais que fornece uma
estimativa do valor desconhecido do parâmetro populacional.
Estimativa: Uma estimativa é o valor numérico resultante do cálculo realizado pelo estimador com base nos dados da
amostra. É uma aproximação do valor real do parâmetro populacional que está sendo estimado.
Uma das técnicas fundamentais da inferência estatística é a estimativa pontual. A estimativa pontual é usada para obter
um valor único (ponto) que estima o valor de um parâmetro desconhecido da população. O parâmetro é uma medida
descritiva ou um valor numérico que resume uma característica da população, como a média, a proporção ou a variância.
Existem diferentes métodos para se obter uma estimativa pontual, dependendo do tipo de parâmetro que estamos
interessados em estimar.
E para fazer um melhor aproveitamento, vamos entender quais as principais características dos ESTIMANDORES:
• Viés
• Eficiência
• Consistência
• Suficiência
• Invariância
Viés (Bias): O viés de um estimador é uma medida do erro sistemático que ele introduz na estimativa do parâmetro
populacional. Um estimador é considerado não tendencioso (ou sem viés) se a média das estimativas obtidas a partir
de diferentes amostras converge para o valor verdadeiro do parâmetro quando o tamanho da amostra tende ao infinito.
Uma estimativa viesada é aquela que apresenta um erro sistemático na estimativa do parâmetro populacional. Em outras
palavras, o valor esperado da estimativa não coincide com o valor verdadeiro do parâmetro. Quando um estimador
é viesado, ele tende a superestimar ou subestimar consistentemente o valor do parâmetro.
Inferência Estatística 3
A L F A C O N
Por outro lado, uma estimativa não viesada é aquela que não apresenta um erro sistemático na estimativa do parâmetro
populacional. O valor esperado da estimativa coincide com o valor verdadeiro do parâmetro. Um estimador não viesado
tende a fornecer uma estimativa imparcial e equilibrada do parâmetro.
A presença de viés em uma estimativa pode ser problemática, pois pode levar a conclusões incorretas sobre o parâmetro
populacional. No entanto, é importante ressaltar que um estimador viesado pode ser preferível em certas situações, se
possuir outras propriedades desejáveis, como menor variância ou eficiência.
Para avaliar se um estimador é viesado ou não, é necessário analisar a média das estimativas obtidas a partir de diferentes
amostras e compará-las com o valor verdadeiro do parâmetro. Se a média das estimativas for igual ao valor verdadeiro,
o estimador é não viesado; caso contrário, ele é viesado.
Eficiência: A eficiência de um estimador está relacionada à sua variabilidade e capacidade de fornecer estimativas
precisas. Um estimador é considerado eficiente se possui a menor variância possível em relação a outros estimadores
não tendenciosos do mesmo parâmetro. Em outras palavras, um estimador eficiente fornece estimativas mais próximas
do valor verdadeiro do parâmetro.
Consistência: A consistência é uma propriedade que garante que, à medida que o tamanho da amostra aumenta, o
estimador se aproxima cada vez mais do valor verdadeiro do parâmetro. Um estimador consistente é aquele que con-
verge para o valor verdadeiro do parâmetro à medida que o tamanho da amostra cresce.
Para entender melhor, vamos considerar um exemplo. Suponha que estamos interessados em estimar a proporção de
estudantes de uma escola que preferem matemática em relação a outras disciplinas. Temos uma amostra inicial de 100
Inferência Estatística 4
A L F A C O N
estudantes e calculamos a proporção amostral, obtendo 0,6. Agora, vamos aumentar o tamanho da amostra para 1000
e recalcular a proporção amostral, obtendo 0,55.
Se o estimador é consistente, à medida que aumentamos o tamanho da amostra, as estimativas da proporção popula-
cional devem se aproximar cada vez mais do valor verdadeiro. No exemplo, a primeira estimativa de 0,6 é menos precisa
do que a segunda estimativa de 0,55. Isso indica que, com uma amostra maior, a estimativa se torna mais precisa e se
aproxima mais do valor verdadeiro da proporção populacional.
A consistência é uma propriedade importante dos estimadores, pois nos dá confiança de que, com amostras grandes o
suficiente, podemos obter estimativas cada vez mais precisas e confiáveis dos parâmetros populacionais. É importante
ressaltar que nem todos os estimadores são consistentes, por isso é fundamental avaliar essa propriedade ao escolher
um estimador para uma determinada situação estatística.
Suficiência: Um estimador é considerado suficiente se contém toda a informação relevante contida na amostra sobre o
parâmetro populacional. Em outras palavras, um estimador suficiente utiliza todas as informações disponíveis na amostra
para fazer a estimativa do parâmetro, tornando desnecessário utilizar informações adicionais.
A característica de suficiência de um estimador é uma propriedade que indica se a informação contida na amostra é
suficiente para fornecer uma estimativa precisa do parâmetro populacional. Um estimador suficiente é aquele que cap-
tura toda a informação relevante contida nos dados amostrais sobre o parâmetro de interesse.
Para entender melhor, vamos considerar um exemplo. Suponha que estamos interessados em estimar a média de altura
de todos os estudantes de uma universidade. Temos uma amostra de 100 estudantes e coletamos suas alturas. Agora,
queremos saber se a média amostral é um estimador suficiente para estimar a média populacional.
Se a média amostral é suficiente, isso significa que não precisamos conhecer todos os dados individuais das alturas
dos estudantes para estimar a média populacional com precisão. A informação contida na média amostral é o suficiente
para realizar essa estimativa.
No exemplo, suponha que a média amostral seja calculada como 170 cm. Com base nesse valor, podemos inferir que
a média populacional também é em torno de 170 cm, com uma certa margem de erro. Nesse caso, a média amostral é
um estimador suficiente para estimar a média populacional.
A característica de suficiência é importante porque nos permite reduzir a quantidade de informação necessária para
realizar uma estimativa precisa. Em vez de usar todos os dados individuais da amostra, podemos usar um resumo esta-
tístico suficiente, como a média amostral, para obter estimativas confiáveis do parâmetro populacional.
Invariância: A invariância é uma propriedade dos estimadores que indica que a transformação do dado não altera o
estimador. Por exemplo, se temos um estimador para a média populacional, a adição ou subtração de uma constante
não afetará o valor do estimador.
Inferência Estatística 5
A L F A C O N
ESTATÍSTICA
Tipos de amostragem
Versão Condensada
Sumário
Tipos de amostragem���������������������������������������������������������������������������������������������������� 3
2.1 Solução�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������� 4
2
A L F A C O N
Tipos de amostragem
A alocação na amostragem estratificada é o processo de determinar o tamanho proporcional de cada estrato na seleção
da amostra. Quando utilizamos a amostragem estratificada, dividimos a população em subgrupos distintos chamados
estratos, com base em características específicas. A alocação é feita para garantir que cada estrato contribua de
forma proporcional para a amostra final, deste modo, ela ajuda a reduzir a variabilidade e o viés amostral, permitindo
uma análise mais precisa dos resultados.
Na amostragem estratificada, existem diferentes métodos de alocação para determinar o tamanho da amostra em cada
estrato. Sendo eles:
• Estratificada Uniforme: Nesse método de alocação, cada estrato recebe o mesmo tamanho de amostra, inde-
pendentemente da proporção de elementos em cada estrato. Por exemplo, se temos três estratos com tamanhos
de 100, 200 e 300, e desejamos uma amostra total de 100 elementos, cada estrato receberia uma alocação de 33
elementos, garantindo uma representação igualitária.
• Ótima de Neyman: A alocação Ótima de Neyman é um método que busca minimizar a variância da estimativa
de interesse, levando em consideração a variabilidade dentro dos estratos e a correlação entre os estratos.
Esse método requer informações detalhadas sobre a população e geralmente é aplicado em situações em que se
busca a máxima eficiência da amostra. A alocação ótima de Neyman pode ser complexa de implementar e requer
cálculos mais avançados.
• Tamanho do grupo
Tipos de amostragem 3
A L F A C O N
Portanto, podemos definir que na Alocação Ótima de Neyman, a amostra para cada estrato é proporcional, não às res-
pectivas áreas (número de elementos), mas sim às variâncias ponderadas pelas áreas.
Em relação à alocação de amostra na amostragem estratificada, assinale a alternativa correta que descreve os métodos
de alocação: estratificada uniforme, estratificada proporcional e ótima de Neyman.
a) Na alocação estratificada uniforme, o tamanho da amostra é igual para todos os estratos, independentemente do
tamanho populacional de cada estrato. Na alocação estratificada proporcional, o tamanho da amostra é determinado
proporcionalmente ao tamanho populacional de cada estrato. Na ótima de Neyman, o tamanho da amostra é determi-
nado considerando a variabilidade dos estratos e os custos de seleção.
b) Na alocação estratificada uniforme, o tamanho da amostra é determinado considerando a variabilidade dos estratos
e os custos de seleção. Na alocação estratificada proporcional, o tamanho da amostra é igual para todos os estratos,
independentemente do tamanho populacional de cada estrato. Na ótima de Neyman, o tamanho da amostra é deter-
minado proporcionalmente ao tamanho populacional de cada estrato.
d) Na alocação estratificada uniforme, o tamanho da amostra é determinado considerando a variabilidade dos estratos
e os custos de seleção. Na alocação estratificada proporcional, o tamanho da amostra é determinado considerando a
proporção de elementos em cada estrato. Na ótima de Neyman, o tamanho da amostra é igual para todos os estratos,
independentemente do tamanho populacional de cada estrato.
e) Na alocação estratificada uniforme, o tamanho da amostra é igual para todos os estratos, independentemente do
tamanho populacional de cada estrato. Na alocação estratificada proporcional, o tamanho da amostra é determinado
considerando a variabilidade dos estratos e os custos de seleção. Na ótima de Neyman, o tamanho da amostra é deter-
minado considerando a proporção de elementos em cada estrato.
2.1 Solução
Justificativa: A alternativa correta descreve de forma precisa os métodos de alocação na amostragem estratificada.
Na alocação estratificada uniforme, o tamanho da amostra é determinado proporcionalmente ao tamanho populacional
de cada estrato, garantindo que cada estrato contribua igualmente para a amostra total. Na alocação estratificada pro-
porcional, o tamanho da amostra é igual para todos os estratos, independentemente do tamanho populacional de cada
estrato, o que pode ser adequado quando se deseja obter estimativas precisas em cada estrato. Já na ótima de Neyman,
o tamanho da amostra é determinado considerando a variabilidade dos estratos e os custos de seleção, buscando uma
alocação que minimize a variância da estimativa dos parâmetros populacionais.
Tipos de amostragem 4
A L F A C O N
ESTATÍSTICA
Inferência estatística
Versão Condensada
Sumário
Inferência estatística�����������������������������������������������������������������������������������������������������3
2.1 Solução���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������5
2
A L F A C O N
Inferência estatística
1. Estimativa intervalar
A estimativa intervalar, também conhecida como intervalo de confiança, é uma técnica estatística utilizada para estimar
um parâmetro desconhecido de uma população com base em uma amostra. No caso específico da estimativa intervalar
para a média, estamos interessados em estimar a média populacional com base em uma amostra aleatória.
Um intervalo de confiança para a média é uma faixa de valores na qual acredita-se que a média populacional esteja
contida, com um certo nível de confiança. O nível de confiança é uma medida da certeza com que podemos afirmar que
a média populacional esteja dentro do intervalo. É comum utilizar níveis de confiança de 90%, 95% ou 99%.
Primeiro, coletamos uma amostra aleatória da população e calculamos a média amostral e o desvio padrão amostral.
Em seguida, utilizamos uma distribuição de probabilidade específica, juntamente com o tamanho da amostra e o nível
de confiança desejado, para calcular os valores críticos.
Os valores críticos representam os limites inferior e superior do intervalo de confiança. Eles são calculados adicionando
e subtraindo um valor da distribuição de probabilidade ao redor da média amostral, levando em consideração o desvio
padrão amostral e o tamanho da amostra.
Por exemplo, suponha que queremos estimar a média de idade dos concurseiros com um nível de confiança de 95%.
Coletamos uma amostra aleatória de 100 deles e calculamos a média amostral de 22 anos e o desvio padrão amostral
de 3 anos. Utilizando a distribuição e o tamanho da amostra, encontramos os valores críticos correspondentes ao nível
de confiança de 95%. Digamos que os valores críticos sejam 1,96 e -1,96.
ou seja,
22 ± (1,96. (3 / √100))
Inferência estatística 3
A L F A C O N
Isso resultaria em um intervalo de confiança de, por exemplo, 21,3 a 22,7 anos. Isso significa que com um nível de con-
fiança de 95%, acredita-se que a média de idade dos estudantes universitários esteja entre 21,3 e 22,7 anos.
A estimativa intervalar é uma ferramenta poderosa na inferência estatística, pois nos permite ter uma ideia da faixa
de valores prováveis para o parâmetro populacional de interesse. No entanto, é importante entender que a estimativa
intervalar não fornece o valor exato do parâmetro, mas sim uma faixa de valores plausíveis com uma certa probabilidade
de conter o valor verdadeiro.
O erro padrão é uma medida de variação de uma média amostral em relação à média da população. Sendo assim, é uma
medida que ajuda a verificar a confiabilidade da média amostral calculada. Para obter uma estimativa do erro padrão,
basta dividir o desvio padrão pela raiz quadrada do tamanho amostral.
Aqui está um passo a passo para calcular o intervalo de confiança para uma média populacional, utilizando uma amostra:
Colete uma amostra aleatória da população de interesse. Certifique-se de que a amostra seja representativa e suficien-
temente grande para obter resultados confiáveis.
Calcule a média amostral (x̄) e o desvio padrão amostral (s) da amostra coletada. Essas são as estimativas da média e
do desvio padrão populacionais, respectivamente.
Calcule o erro padrão (E), que é o desvio padrão da média amostral. O erro padrão é dado pela fórmula: E = (s / √n),
onde s é o desvio padrão amostral e n é o tamanho da amostra.
Inferência estatística 4
A L F A C O N
1.4 Fatores influenciam o tamanho do intervalo
Vários fatores podem influenciar o tamanho do intervalo de confiança. Aqui estão alguns dos principais fatores a serem
considerados:
Tamanho da amostra:
Quanto maior o tamanho da amostra, menor será o tamanho do intervalo de confiança. Isso ocorre porque uma amostra
maior tende a fornecer estimativas mais precisas da média populacional ou do parâmetro em questão.
Nível de confiança:
O nível de confiança escolhido para o intervalo de confiança também afeta o seu tamanho. Quanto maior o nível de
confiança desejado (por exemplo, 95% ou 99%), maior será o tamanho do intervalo de confiança. Isso ocorre porque
um nível de confiança mais alto requer uma faixa mais ampla de valores para garantir uma probabilidade maior de que
o parâmetro populacional esteja contido no intervalo.
Quanto maior for a variabilidade dos dados na amostra, maior será o tamanho do intervalo de confiança. Isso ocorre porque
uma maior variabilidade exige uma faixa maior de valores para abranger as possíveis variações da média populacional.
Erro padrão:
O erro padrão da estimativa também influencia o tamanho do intervalo de confiança. Quanto maior for o erro padrão,
maior será o tamanho do intervalo. O erro padrão é calculado com base no desvio padrão da amostra e no tamanho da
amostra. Quanto maior o desvio padrão amostral ou menor o tamanho da amostra, maior será o erro padrão e, conse-
quentemente, maior será o tamanho do intervalo de confiança.
1. Um pesquisador deseja estimar a média de idade de uma população. Ele coletou uma amostra de 100 indivíduos e
obteve uma média amostral de 35 anos e um desvio padrão amostral de 5 anos. Considerando um nível de confiança
de 95%, qual é o intervalo de confiança para a média de idade populacional?
a) 35 ± 1.96
b) 35 ± 1.96 * (5/√100)
c) 35 ± 2.58 * (5/√100)
d) 35 ± 2.58
e) 35 ± 2 * (5/√100)
2.1 Solução
Para calcular o intervalo de confiança para a média de idade populacional, utilizamos a fórmula: x̄ ± Z * (s/√n),
onde x̄ é a média amostral, s é o desvio padrão amostral, n é o tamanho da amostra e Z é o valor crítico corres-
pondente ao nível de confiança desejado.
Considerando um nível de confiança de 95%, o valor crítico é 1.96 (utilizando a distribuição normal padrão).
Substituindo os valores na fórmula, temos: 35 ± 1.96 * (5/√100).
Inferência estatística 5
A L F A C O N
Portanto, a resposta correta é a alternativa B) 35 ± 1.96 * (5/√100). Essa é a faixa de valores dentro da qual
acredita-se, com 95% de confiança, que a média de idade populacional esteja contida.
Inferência estatística 6
A L F A C O N
ESTATÍSTICA
Inferência estatística
Versão Condensada
Sumário
Inferência estatística�����������������������������������������������������������������������������������������������������3
4.1 Solução���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������5
2
A L F A C O N
Inferência estatística
A distribuição da média amostral e a curva normal são conceitos essenciais na estatística inferencial. Nesta aula, vamos
explorar a relação entre esses dois conceitos e entender como eles se aplicam na análise de dados.
A distribuição da média amostral é um conceito importante na estatística que se baseia na ideia de que, ao repetir o
processo de amostragem várias vezes em uma população, a média das amostras seguirá uma distribuição específica.
Essa distribuição é conhecida como distribuição da média amostral ou distribuição amostral da média.
A distribuição da média amostral é frequentemente aproximada por uma distribuição normal, especialmente quando o
tamanho da amostra é grande o suficiente (geralmente considerado maior que 30). Isso é conhecido como o Teorema
do Limite Central. Segundo esse teorema, independentemente da forma da distribuição populacional, a distribuição
da média amostral tenderá a se aproximar de uma distribuição normal à medida que o tamanho da amostra aumenta.
Se a população de interesse apresenta uma distribuição normal, as médias das amostras também seguirão uma
distribuição normal. Isso ocorre porque cada amostra em particular segue a distribuição da população. Por exemplo,
se estamos estudando a altura de indivíduos adultos, e essa variável segue uma distribuição normal na população, as
médias das amostras de altura também terão uma distribuição normal.
No caso em que a população não segue uma distribuição normal, cada amostra em particular também não terá uma
distribuição normal. No entanto, quando analisamos todas as médias das amostras em conjunto, a distribuição resultante
é aproximadamente normal. Isso ocorre devido ao Teorema do Limite Central, que afirma que, independentemente
da forma da distribuição populacional, a distribuição das médias amostrais tende a se aproximar de uma distribuição
normal à medida que o tamanho da amostra aumenta.
A curva normal, também conhecida como curva de Gauss ou curva em forma de sino, é uma distribuição contínua simé-
trica que é amplamente utilizada em estatística. Ela é caracterizada por sua forma simétrica em torno da média e pelos
parâmetros de média e desvio padrão. A curva normal é definida pela sua função de densidade de probabilidade, que
descreve a probabilidade de cada valor ocorrer em uma distribuição normal.
Inferência estatística 3
A L F A C O N
2. Relação da distribuição normal com a curva normal
A curva normal, também conhecida como curva de Gauss, é uma distribuição simétrica em forma de sino. Ela descreve
muitos fenômenos naturais e sociais e é frequentemente utilizada na estatística inferencial. A distribuição da média
amostral tende a se aproximar da curva normal, especialmente quando o tamanho da amostra é grande
Quando a população segue uma distribuição normal, a distribuição da média amostral também é uma distribuição normal.
As médias das amostras se agrupam em torno da média populacional, formando uma curva simétrica em forma de sino.
Quando a população não segue uma distribuição normal, a distribuição da média amostral não é exatamente normal,
mas é aproximadamente normal. Isso significa que as médias das amostras tendem a se agrupar em torno da média
populacional, mas podem apresentar pequenas assimetrias.
É possível padronizar a distribuição da média amostral para obter uma distribuição normal padrão. Isso é feito por meio
da padronização das médias das amostras, utilizando a média populacional e o desvio padrão populacional.
Inferência estatística 4
A L F A C O N
3.1 Fórmula de padronização:
Onde:
x̄ é a média amostral.
μ é a média populacional.
n é o tamanho da amostra.
Suponha que estamos analisando o tempo de resposta de um sistema. Sabemos que a população de tempos de res-
posta segue uma distribuição normal com média 10 e desvio padrão 2. Se fizermos várias amostras de tamanho 30
e calcularmos as médias de cada amostra, veremos que a distribuição das médias amostrais será aproximadamente
normal, com média 10 (igual à média populacional) e desvio padrão 2 / √30 (de acordo com a fórmula de padronização).
Agora, suponha que estamos estudando a quantidade de vendas diárias em uma loja. Sabemos que essa variável não
segue uma distribuição normal na população. No entanto, se fizermos várias amostras de tamanho 50 e calcularmos as
médias de cada amostra, a distribuição das médias amostrais será aproximadamente normal, com média igual à média
populacional e desvio padrão dividido pela raiz quadrada de 50.
A distribuição da média amostral e a curva normal estão intimamente relacionadas. Quando a população segue uma dis-
tribuição normal, a distribuição da média amostral também é normal. Já quando a população não é normal, a distribuição
das médias amostrais é aproximadamente normal. É importante compreender esses conceitos para realizar inferências
estatísticas corretas e interpretar os resultados de forma adequada.
1. A distribuição da média amostral segue uma curva normal, independentemente da forma da distribuição populacional.
Certo ( ) Errado ( )
4.1 Solução
A questão afirma que a distribuição da média amostral segue uma curva normal, independentemente da forma
da distribuição populacional. Essa afirmação está incorreta. De fato, quando a população segue uma distribuição
normal, a distribuição da média amostral também é normal. No entanto, quando a população não segue uma
Inferência estatística 5
A L F A C O N
distribuição normal, a distribuição das médias amostrais é aproximadamente normal, devido ao Teorema do Limite
Central. Portanto, a resposta correta é: b) Errado
Inferência estatística 6
A L F A C O N
ESTATÍSTICA
Inferência estatística
Versão Condensada
Sumário
Inferência estatística�����������������������������������������������������������������������������������������������������3
2
A L F A C O N
Inferência estatística
Hoje vamos falar sobre um tema muito importante para a estatística em concursos públicos: a regressão linear simples!
Vamos utilizar o método dos mínimos quadrados que é muito cobrado nas provas. Vamos entender os conceitos funda-
mentais, pontos essenciais para a prova com exemplos práticos, dicas importantes para não cair em pegadinhas e até
resolver um para fixar o conteúdo aprendido. Vamos lá!
Regressão é um método estatístico que permite examinar a relação entre duas ou mais variáveis.
A regressão linear simples é uma técnica estatística utilizada para estudar a relação entre duas variáveis, uma depen-
dente (y) e outra independente (x). O objetivo é encontrar a reta que melhor se ajusta aos dados observados, de forma
a minimizar os erros. Esse ajuste é feito através do método dos mínimos quadrados
Com eles podemos gerar o seguinte gráfico e analisarmos a relação entre a variável y (gastos) com a variável x (renda):
Inferência estatística 3
A L F A C O N
Podemos criar uma relação entre gasto e renda da seguinte forma:
Gasto = α + β ⋅ Renda
Variável dependente (y): É a variável que queremos prever ou explicar. É o nosso resultado ou resposta.
Variável independente (x): É a variável que usamos para prever ou explicar a variável dependente.
Reta de regressão: É a reta que melhor se ajusta aos dados observados, representada pela equação y = a + bx, onde
a é o intercepto e b é o coeficiente angular.
Para nosso estudo sobre Regressão linear simples, vamos usar a função:
y = α + βx + ε
Onde:
α é o intercepto ε é o erro
β é o coeficiente angular
Inferência estatística 4
A L F A C O N
Você pode estar se perguntando: “Onde esta o ε?”. Bem, se você voltar a olhar nosso gráfico, verá que os pontos não
estão alinhados com a reta. Lembre-se de que o método busca a reta que melhor se ajusta aos dados, mas pode haver
variação (erro) nos valores previstos. Esse erro é representado pelo ε (erro aleatório). Contudo, o erro aleatório é uma
parte teórica e não entra nos cálculos efetivos.
O Método dos Mínimos Quadrados é uma técnica utilizada para encontrar a reta de regressão que melhor se ajusta a
um conjunto de dados. Essa reta é chamada de reta de melhor ajuste ou reta de regressão.
A ideia principal é minimizar a soma dos quadrados das diferenças entre os valores reais dos dados (y) e os valores
^). Ou seja, o método busca uma reta que minimize os erros entre os valores obser-
previstos pela reta de regressão (y
vados e os valores estimados pela reta.
Neste sentido, podemos afirmar que Método dos Mínimos Quadrados é uma técnica que busca encontrar a reta de
regressão que melhor se ajusta a um conjunto de dados. Essa reta é escolhida de forma a minimizar a soma dos
quadrados dos erros entre os valores observados e os valores previstos pela reta.
Em outras palavras, quando temos os pontos dispersos no gráfico, os erros são as distâncias verticais entre esses pon-
tos e a reta de regressão. O método dos mínimos quadrados encontra a reta que faz com que a soma dos quadrados
desses erros seja a menor possível, ou seja, a reta que melhor se aproxima dos pontos disponíveis.
Inferência estatística 5
A L F A C O N
Essa minimização dos quadrados dos erros é fundamental para que a reta de regressão seja uma boa representação
dos dados e possa ser utilizada para fazer previsões. Dessa forma, o método dos mínimos quadrados é uma ferramenta
poderosa na análise estatística e ajuda a encontrar relações e tendências nos dados.
A ideia central do Método dos Mínimos Quadrados é criar uma reta que minimize os erros quadráticos, tornando-a a
melhor opção para descrever e estimar o comportamento dos dados analisados.
• Regressão Linear Simples relaciona apenas duas variáveis: x (variável independente) e y (variável dependente).
• O método dos mínimos quadrados que faz com que a soma dos quadrados desses erros seja a menor possível, ou
seja, a reta que melhor se aproxima dos pontos disponíveis.
• O α (ou intercepto) e o β (ou coeficiente angular) são os números que precisamos calcular na regressão linear.
• O erro aleatório é uma parte teórica e não entra nos cálculos efetivos.
Espero que essas explicações tenham te ajudado a compreender melhor a regressão linear simples! Continue praticando
e estudando para garantir seu sucesso em seus certames. Se precisar de ajuda, estou aqui para te auxiliar.
Inferência estatística 6
A L F A C O N
ESTATÍSTICA
Inferência estatística
Versão Condensada
Sumário
Inferência estatística�����������������������������������������������������������������������������������������������������3
2
A L F A C O N
Inferência estatística
Olá, pessoal! Professor Leandro, aqui! E hoje vamos focar especificamente no cálculo do coeficiente angular, que é um
dos pontos cruciais da regressão linear. Preparem-se para entender o passo a passo desse cálculo e não se apavorar
na resolução de questões sobre o tema.
Antes de partirmos para o cálculo do coeficiente angular, é fundamental entendermos alguns conceitos básicos. A
regressão linear simples relaciona duas variáveis: uma variável dependente, representada por y, e uma variável inde-
pendente (ou explicativa), representada por x. O objetivo é criar uma reta que melhor se ajuste aos pontos de dados,
permitindo-nos fazer previsões com base nos valores de x.
y = α + βx + ε
Onde:
O coeficiente angular (β) representa a inclinação da reta de regressão e é calculado utilizando o Método dos Mínimos
Quadrados.
Agora que relembramos os conceitos básicos, vamos focar no cálculo do coeficiente angular (β). Para isso, vamos utilizar
o Método dos Mínimos Quadrados, que consiste em encontrar a reta de regressão que minimiza a soma dos quadrados
dos erros entre os valores observados e os valores previstos pela reta.
x = [1, 2, 3, 4, 5]
y = [3, 5, 4, 6, 7]
Inferência estatística 3
A L F A C O N
Passo 1: Calculamos as médias de x e y
Amostras x y
A 1 3
B 2 5
C 3 4
D 4 6
E 5 7
MÉDIA
Amostras x y xy x2
A 1 3 3 1
B 2 5 10 4
C 3 4 12 9
D 4 6 24 16
E 5 7 35 25
x=3 y =5
Amostras x y xy x2
A 1 3 3 1
B 2 5 10 4
C 3 4 12 9
D 4 6 24 16
E 5 7 35 25
x=3 y =5 Σ xy = 84 Σ x2 = 55
Inferência estatística 4
A L F A C O N
Substituindo os valores:
Resolvendo:
Amostras
y = 0,9x + 2,3
8
7 7
6 6
5 5
4 4
3 3
0
0 1 2 3 4 5 6
Suponha que em um estudo sobre a relação entre o número de horas de estudo (x) e o desempenho em uma prova (y),
foram coletados os seguintes dados:
x y
Média 4,5 70
Cov(x;y) 12,6
Inferência estatística 5
A L F A C O N
Veja que não nos foi dada a variância. Sem problemas! Para calcular a variância de x, utilizamos o desvio padrão de x.
Var(x) = DP2 , ou seja, var(x) = 1,52 = 2,25
logo, o coeficiente angular (β) é aproximadamente 5,6. Isso significa que, em média, para cada hora adicional de estudo
(variável x), espera-se que o desempenho na prova (variável y) aumente em 5.6 pontos.
Inferência estatística 6
A L F A C O N
ESTATÍSTICA
Inferência estatística
Versão Condensada
Sumário
Inferência estatística�����������������������������������������������������������������������������������������������������3
2
A L F A C O N
Inferência estatística
Neste encontro, vamos falar especificamente sobre como fazer a montagem da equação da reta para a regressão linear.
Vamos lá!
A regressão linear é uma técnica estatística que nos permite modelar a relação entre duas variáveis, uma independente
(x) e outra dependente (y). A equação da reta da regressão linear nos permite fazer previsões e entender como a variável
dependente é afetada pela variável independente.
Para montar a equação da reta para a regressão linear, utilizamos a seguinte fórmula geral:
y = α + βx + ε
Onde:
ε é o erro aleatório, representando as diferenças entre os valores previstos e os valores reais de y, mas que não é usado
no cálculo.
Agora, vamos relembrar as fórmulas para calcular o valor do intercepto (α) e do coeficiente angular (β):
E:
Inferência estatística 3
A L F A C O N
Cálculo do Coeficiente Linear (α):
Com o coeficiente angular (β) calculado, podemos encontrar o valor do intercepto (α) utilizando a seguinte fórmula:
α = y - βx
Vamos agora aplicar os conceitos aprendidos em um exemplo prático. Suponha que temos os seguintes dados de uma
regressão linear simples:
Inferência estatística 4
A L F A C O N
Passo 2: Cálculo do Coeficiente linear (α)
y = α + βx
Portanto, a equação da reta para essa regressão linear será: y = 2,2 + 0,8x
Inferência estatística 5
A L F A C O N
1.3 Tópicos para revisar
• A regressão linear é uma técnica para modelar a relação entre duas variáveis.
• O coeficiente angular (β) representa a inclinação da reta, enquanto o intercepto (α) é o valor onde a reta cruza o
eixo y.
Em um estudo sobre a relação entre o número de litros de uma solução A (x) e a quantidade produzida de uma solução
B (y), foram coletados os seguintes dados:
2 60
4 65
6 70
8 75
10 80
Supondo que sejam usados 15 litros da Solução A, estime qual será a quantidade provável de Solução B obtida.
média_x = (2 + 4 + 6 + 8 + 10) / 5 = 6
somatorio_xy = 2200
somatorio_x2 = 22 + 42 + 62 + 82 + 102
somatorio_x2 = 4 + 16 + 36 + 64 + 100
somatorio_x2 = 220
Inferência estatística 6
A L F A C O N
Passo 4: Substitua os valores na fórmula para calcular o coeficiente angular (β):
β = 100 / 40
β = 2.5
α = y - βx
α = 70 - 2,5 .6
α = 55
y = 55 + 2,5x
y = 55 + 2,5. 15
y = 55 + 37,5
y = 92,5
Inferência estatística 7
A L F A C O N
Inferência estatística
Versão Condensada
Sumário
Inferência estatística�����������������������������������������������������������������������������������������������������3
1.3 Homocedasticia������������������������������������������������������������������������������������������������������������������������������������������������������������������ 4
1.5 Conclusão���������������������������������������������������������������������������������������������������������������������������������������������������������������������������� 4
2
A L F A C O N
Inferência estatística
Você já se perguntou por que nem sempre conseguimos prever as coisas com exatidão, mesmo usando modelos esta-
tísticos e matemáticos bem robustos? Bom, é aqui que entra o conceito de erro aleatório em regressão linear. Nesta
aula, vamos destrinchar os conceitos mais importantes, e, claro, te dar exemplos práticos - especialmente para aqueles
se preparando para concursos públicos.
O erro aleatório é o componente não determinístico do valor previsto para y. Em termos simples, quando tentamos
ajustar uma série de observações com uma linha reta de regressão, nem sempre acertamos precisamente o valor real.
Esta discrepância é chamada de erro aleatório.
Imagine construir uma regressão linear: você determina os coeficientes, ajusta a equação e, ao substituir um valor x,
calcula um y. No entanto, este y previsto nem sempre coincidirá com o valor real. A diferença entre o valor real e o
valor previsto é o erro aleatório. A regressão linear é uma ferramenta estatística que nos permite identificar e medir
as relações entre duas variáveis, mas no mundo real, as coisas raramente são perfeitas. Mesmo com uma boa linha de
regressão, haverá variações.
Claro que já vimos que ele não entra nos cálculos, mas é superimportante saber o que é para não ser surpreendido em
sua prova por algo tão simples.
O erro aleatório é, em essência, a diferença entre a observação real e a prevista pela linha de regressão. A natureza
“aleatória” desse erro é crucial. Significa que não há uma razão sistemática ou padrão para o erro. Às vezes, pode ser
positivo (previsão abaixo do real), às vezes negativo (previsão acima).
Os erros aleatórios possuem certas características e propriedades que são fundamentais para compreender:
a) Média dos Erros Aleatórios : A média ou esperança dos erros aleatórios é sempre zero. Isso signi-
fica que os desvios positivos da linha de regressão compensam os desvios negativos. Em essência, os desvios
positivos e negativos se equilibram. Se isso não acontecesse, indicaria um viés no modelo, sugerindo que a linha
de regressão não é uma boa representação dos dados. Em outras palavras, espera-se que os erros se distribuam
igualmente ao redor da linha de regressão, de modo que a média dos erros seja zero. Isso significa que os desvios
positivos da reta (valores acima da linha) são, em média, contrabalançados pelos desvios negativos (valores abaixo
da linha). Se isso não acontecesse, indicaria um viés no modelo, sugerindo que a linha de regressão não é uma boa
representação dos dados
b) Variância do Erro Aleatório : Cada erro aleatório tem sua própria variância, representada por
σ2. Isso indica a dispersão dos erros em torno de sua média. Mas é crucial entender que a variância desses erros
é constante. Esta propriedade é referida como homocedasticidade, um termo fundamental na regressão linear. Em
outras palavras, a variância dos erros não muda, independentemente do valor de x escolhido.
Inferência estatística 3
A L F A C O N
c) Covariância entre Erros : A covariância entre quaisquer dois erros aleatórios é
zero. Isso implica que os erros são independentes uns dos outros e não possuem relação linear.
1.3 Homocedasticia
Homocedasticidade é uma propriedade fundamental dos resíduos (erros) em modelos de regressão. Ela ocorre quando
a variância dos resíduos (ou erros) é constante em todos os níveis da variável independente. Em outras palavras,
independentemente do valor da variável independente (frequentemente denotada por x), a dispersão dos resíduos
permanece constante.
Quando falamos em regressão, é comum visualizar a relação entre a variável dependente e a variável independente
através de um gráfico de dispersão. A homocedasticidade é observada quando, ao traçar uma linha de regressão atra-
vés desses pontos, a dispersão dos pontos (ou resíduos) em torno dessa linha é mais ou menos a mesma ao longo de
toda a extensão da linha.
Por que a homocedasticidade é importante? Porque é uma das suposições fundamentais da regressão linear. Se esta
suposição for violada (ou seja, se houver heterocedasticidade), pode comprometer as propriedades dos estimadores
dos mínimos quadrados ordinários (MQO), tornando-os ineficientes.
Imagine um gráfico com pontos dispersos que representam observações. Ao traçar a linha de regressão linear, notare-
mos que nem todos os pontos caem exatamente na linha. Alguns pontos estão acima, enquanto outros estão abaixo.
A distância vertical entre a linha de regressão e qualquer ponto de observação é o erro aleatório para essa observação
específica.
1.5 Conclusão
A compreensão do erro aleatório é fundamental no estudo da regressão linear. Embora os erros não possam ser elimi-
nados, conhecê-los nos ajuda a entender a precisão e a confiabilidade do nosso modelo.
Inferência estatística 4
A L F A C O N
1.6 Erro sistemático
O erro sistemático refere-se a qualquer erro consistente, repetitivo e previsível presente em medições ou observações.
Esse erro não é devido ao acaso, mas a algum tipo de imperfeição ou falha no instrumento de medição, método de
observação ou processo experimental. Por exemplo, se uma balança está sempre mostrando um peso 0,5 kg a mais
do que o real, independentemente do item que você coloca nela, então há um erro sistemático de 0,5 kg na balança.
Corrigível: Uma vez identificado, é possível corrigir ou ajustar por meio de calibração ou outras técnicas.
Origem Conhecida: Pode ser causado por falhas no instrumento, técnica inadequada, condições experimentais ou até
mesmo preconceitos do observador.
Enquanto erros aleatórios são inerentemente imprevisíveis e se devem ao acaso, os erros sistemáticos têm uma causa
identificável e são consistentes. É crucial identificar e corrigir erros sistemáticos para melhorar a exatidão das medições
ou resultados.
1. Num estudo sobre a relação entre horas de exposição solar e níveis de vitamina D no corpo, utilizou-se regressão
linear. Constatou-se que, em média, para cada hora adicional de exposição solar, o nível de vitamina D aumentava
em 5 unidades. Um indivíduo que se expôs ao sol por 4 horas teve um aumento de 23 unidades no seu nível de
vitamina D. Assim, conclui-se que o erro aleatório associado a este indivíduo é de 3 unidades.
Certo ( ) Errado ( )
No contexto de regressão linear simples, o erro aleatório, também conhecido como resíduo, representa a diferença entre
o valor observado e o valor estimado pela linha de regressão. Este erro é assumido como tendo média igual a zero e
variância constante para todos os valores de
Certo ( ) Errado ( )
A L F A C O N
3. Ao analisar os resíduos de um modelo de regressão linear, é correto afirmar que, se os erros aleatórios não forem
independentemente e identicamente distribuídos (i.i.d.), pode haver heterocedasticidade ou autocorrelação nos
resíduos, comprometendo as propriedades dos estimadores dos mínimos quadrados ordinários (MQO).
Certo ( ) Errado ( )
1. Resposta: Certo.
Explicação: De acordo com o modelo, 4 horas x 5 unidades/hora = 20 unidades. Comparando com o valor
observado de 23 unidades, temos um erro aleatório de 3 unidades (23 - 20 = 3).
2. Resposta: Certo
Explicação: Na regressão linear, a linha de regressão é construída de forma a minimizar a soma dos quadrados
dos resíduos (ou erros aleatórios). O resíduo é efetivamente a diferença entre o valor observado e o valor previsto
pela linha de regressão. Para que as estimativas dos parâmetros da regressão sejam imparciais e, portanto, úteis,
os erros (ou resíduos) devem ter uma média de zero. Isto significa que, em média, o modelo não superestima
nem subestima sistematicamente os valores. Além disso, para os estimadores dos mínimos quadrados ordinários
(MQO) serem os melhores estimadores lineares não tendenciosos, é necessário que os erros tenham variância
constante, uma propriedade conhecida como homocedasticidade. Se esta propriedade não for satisfeita, esta-
mos diante de heterocedasticidade.
3. Resposta: Certo
Explicação: Para que os estimadores MQO sejam estimadores lineares não tendenciosos, várias suposições
precisam ser satisfeitas, incluindo que os erros (ou resíduos) são i.i.d. (independentemente e identicamente
distribuídos). Se os erros não são independentes, pode haver autocorrelação. A autocorrelação ocorre quando
os erros de diferentes observações estão correlacionados entre si, o que é problemático, especialmente em
séries temporais. Por outro lado, se os erros não têm uma distribuição idêntica, ou seja, se a variância dos erros
não é constante, estamos diante de heterocedasticidade. A heterocedasticidade refere-se à situação em que a
variância dos erros varia em diferentes níveis da variável independente. Ambas as situações, autocorrelação e
heterocedasticidade, violam as suposições clássicas da regressão linear e podem levar a estimativas tendenciosas
e ineficientes se não forem tratadas adequadamente.
A L F A C O N
Inferência estatística
Versão Condensada
Sumário
Inferência estatística�����������������������������������������������������������������������������������������������������3
2
A L F A C O N
Inferência estatística
Bem-vindos! Professor Leandro, aqui! Estamos avançando em nossa jornada e hoje nosso tema central é a Análise de
Variância da Regressão Linear. Um dos pontos-chave desse tópico é o “Coeficiente de Determinação”, também conhe-
cido como
A Análise de Variância (ANOVA) é uma técnica estatística amplamente usada para entender a variação em um conjunto
de dados. Na regressão linear, ela nos ajuda a avaliar a qualidade do modelo ajustado.
Imagine que após criar um modelo de regressão linear, você deseje saber o quão eficaz ele é. É aqui que entra o . Ele nos
fornece uma medida – geralmente um número decimal ou em percentagem – que indica a eficácia da regressão linear.
Em termos simples: Este coeficiente nos revela o percentual da variação total dos nossos dados que é explicado pela
regressão linear.
De forma mais formal: Se alguém perguntar sobre , você pode responder que ele representa o percentual da varia-
ção total relacionada à variável dependente (frequentemente representada como y) que é explicado pelo modelo de
regressão linear.
Mas lembre-se, na maioria das vezes, em provas e exercícios, o enfoque é prático. Portanto, é comum que se peça para
calcular o e não apenas definir teoricamente o que ele é.
Quando vemos o símbolo , estamos falando do Coeficiente de Determinação. E aqui está a fórmula para calculá-lo:
Essa fórmula pode parecer um pouco complicada agora, mas eu prometo que com um exemplo prático tudo ficará mais
claro!
Suponha que você tenha a seguinte tabela ANOVA para uma regressão linear simples:
Total 800 8
Inferência estatística 3
A L F A C O N
Para calcula o R2:
Isso significa que 56,25% da variação total dos seus dados é explicada pelo seu modelo de regressão linear. Mas o que
isso significa? Simplesmente que, da variação total de y, esse percentual (56,25%) é explicado pela regressão linear. O
restante corresponde aos erros ou resíduos.
Nossa meta é minimizar esses resíduos. Por quê? Porque quanto mais a regressão linear pode explicar a variação em
y, melhor o nosso modelo é. Idealmente, queremos que nosso coeficiente de determinação (R2) esteja o mais próximo
possível de 100%. Isso não significa que o modelo será perfeito, mas quanto mais próximo de 100%, mais ajustado ele é.
Então, lembre-se:
• Variação da regressão
Em nosso exemplo, 56% correspondem à regressão e o restante aos resíduos. Se os resíduos estão contribuindo quase
50%, isso significa que o modelo tem um ajuste médio.
O R2 nunca pode ser negativo. Ele varia de 0 a 1. Quando convertido para percentual, varia de 0% a 100%.
Quanto mais próximo de 100%, melhor a regressão linear. Quanto mais próximo de 0%, pior a regressão.
Existe uma relação entre o coeficiente de determinação (R2) e o coeficiente de correlação (r). Essa relação é: R2= r2 ou
O coeficiente de determinação, como aprendemos até agora, não leva em consideração os graus de liberdade do modelo.
Em algumas situações, é útil ajustar o R2 para refletir o número de variáveis independentes no modelo, levando a um
valor chamado “Coeficiente de Determinação Ajustado”.
Esse ajuste é especialmente útil quando estamos comparando modelos com diferentes números de variáveis
independentes.
Graus de liberdade
A primeira coisa a entender é o conceito de graus de liberdade. Imaginem que vocês têm um conjunto de dados e
querem saber o quanto deles é explicado por um modelo de regressão. É aqui que entra o coeficiente de determinação.
No entanto, uma lacuna que algumas vezes fica na análise é que não consideramos os graus de liberdade, que vêm do
número total de elementos em nossa amostra. O que isso significa?
Inferência estatística 4
A L F A C O N
Vamos a um exemplo. Suponhamos que vocês estejam comparando duas regressões lineares. A primeira tem um coe-
ficiente de determinação de 56% e a segunda 68%. A pergunta lógica seria: Qual delas é a melhor? A intuição diria que
a segunda, pois 68% são maiores que 56%, certo? Não exatamente. E o motivo é o número de elementos observados
em cada modelo, ou seja, os graus de liberdade.
Para uma comparação justa entre duas regressões com diferentes números de elementos, precisamos do coeficiente
de determinação ajustado. Ele considera os graus de liberdade e geralmente é um pouco menor que o coeficiente de
determinação comum.
Vamos calcular. Lembrem-se de que a fórmula para o coeficiente ajustado envolve o quadrado médio dos erros dividido
pelo quadrado médio total. E o que é o quadrado médio? Basicamente, é a média dos quadrados, obtida dividindo a
soma dos quadrados pelo grau de liberdade correspondente.
Para entender melhor, vamos usar a mesma tabela ANOVA (Análise de Variância) apresentada anteriormente. Ela apre-
senta a soma dos quadrados da regressão, dos resíduos e o total, com graus de liberdade correspondentes. Usando
essa tabela, podemos facilmente encontrar o coeficiente de determinação ajustado.
Total 800 8
Observe a diferença essencial aqui: ao ajustar para os graus de liberdade, estamos efetivamente penalizando modelos que
têm muitas variáveis independentes (ou preditores) mas que não necessariamente melhoram o poder preditivo do modelo.
O coeficiente de determinação ajustado é obtido no resultado da equação levando a um valor de 0,5, ou 50%. Isso
significa que, neste modelo específico, apenas 50% da variação total é explicada pela regressão, enquanto o restante é
atribuído aos erros. Portanto, se o coeficiente de determinação ajustado que você calcular for muito baixo, isso sugere
que o modelo de regressão não é adequado ou eficaz. Neste caso ela não explica as variações.
Inferência estatística 5
A L F A C O N
A principal mensagem aqui é a seguinte: enquanto o coeficiente de determinação R2 nos dá uma noção da variabilidade
que nosso modelo pode explicar, o nos fornece uma visão mais realista, considerando o número de variáveis no modelo.
Isso evita que caiamos na armadilha de adicionar variáveis indiscriminadamente ao modelo, pensando que estamos
melhorando-o, quando, na verdade, podemos estar apenas tornando-o mais complexo sem ganho real de explicação.
Para finalizar, quando estiver avaliando a qualidade de um modelo de regressão, é crucial olhar tanto para R2 quanto para
. E sempre tenha em mente: um modelo mais simples, com menos variáveis, mas com um poder explicativo próximo
de um modelo complexo, geralmente é preferível devido à sua maior facilidade de interpretação e menor probabilidade
de sobreajuste (ou overfitting).
Inferência estatística 6
A L F A C O N
Inferência estatística
Versão Condensada
Sumário
Inferência estatística�����������������������������������������������������������������������������������������������������3
1.3 Coeficientes������������������������������������������������������������������������������������������������������������������������������������������������������������������������ 4
1.7 Hipóteses���������������������������������������������������������������������������������������������������������������������������������������������������������������������������� 4
2
A L F A C O N
Inferência estatística
Bem-vindos! Professor Leandro, aqui! Estamos avançando em nossa jornada e hoje nosso tema central é regressão
linear múltipla. Vamos lá?
A regressão linear múltipla é uma extensão da regressão linear simples. Enquanto na simples lidamos com apenas duas
variáveis (uma independente e uma dependente), na múltipla, temos uma variável dependente e várias independentes.
Onde:
• α é o intercepto
• ε é o erro aleatório
Imagine que você quer entender o impacto de diferentes fatores no seu peso, como a quantidade de calorias consumi-
das e o tempo de exercício diário. Uma regressão linear múltipla pode ajudá-lo a entender como esses fatores, juntos,
afetam o peso.
Inferência estatística 3
A L F A C O N
1.3 Coeficientes
O foco da regressão é calcular os coeficientes que melhor se ajustam aos dados. Estes coeficientes indicam o grau de
influência de cada variável independente na variável dependente.
Em muitos casos, trabalhamos com amostras e não com a população inteira. Isso nos leva a fazer “estimativas” com base
na amostra coletada. Quando fazemos isso, estamos usando a “regressão amostral” para obter uma ideia aproximada
dos coeficientes da população.
Uma regra crucial é que o número de observações na sua amostra deve ser pelo menos 2 unidades maior que o número
de variáveis independentes. Por exemplo, se você tem três variáveis independentes, precisará de pelo menos cinco
observações na sua amostra ().
Para estimar os coeficientes da regressão, utilizamos o MQO. É uma técnica que busca encontrar a linha (no caso da
regressão linear simples) ou o plano (na regressão múltipla) que melhor se ajusta aos dados, minimizando a soma dos
quadrados dos erros.
Imaginemos que temos uma população. Dessa população, coletamos uma amostra. Agora, o objetivo é usar essa amostra
para estimar os coeficientes da regressão linear múltipla.
• α (intercepto)
Lembrando que, ao nos basearmos na amostra, estamos fazendo uma estimativa dos coeficientes. Para essa estima-
tiva, aplicaremos o método dos mínimos quadrados ordinários (MQO). Se você se recorda, esse é o mesmo método
utilizado na regressão linear simples. Entretanto, para que esse método nos traga resultados consistentes e confiáveis,
precisamos que algumas hipóteses sejam satisfeitas.
1.7 Hipóteses
A média, ou esperança, dos erros deve ser igual a zero. Esse é um conceito já familiar se você estudou regressão linear
simples. A boa notícia é que essa regra se mantém para a regressão linear múltipla!
A variância dos erros aleatórios deve ser constante. Isso significa que todos os erros têm a mesma variância. Quando
nos referimos a essa constância, usamos o termo homocedasticidade.
Inferência estatística 4
A L F A C O N
3. Erros não correlacionados (Corr (εi, εj) = 0, para i ≠ j
Um erro aleatório não deve ter relação com outro. Em outras palavras, a correlação entre dois erros aleatórios distintos
é zero. O que isso significa para nós? Que os erros cometidos pelo nosso modelo são independentes e que um erro não
influencia ou dá informações sobre outro.
Aqui vem um ponto crucial: caso uma ou mais dessas hipóteses não sejam satisfeitas, podemos enfrentar problemas
com nosso modelo. Por exemplo, nosso modelo pode perder eficiência, tornar-se inconsistente ou até mesmo enviesado.
Lembre-se sempre que ao estimar um modelo, ele possui certas propriedades. Se as hipóteses não forem cumpridas,
estas propriedades podem ser comprometidas.
A multicolinearidade ocorre quando duas ou mais variáveis independentes em uma análise de regressão têm uma
relação linear alta entre si. Isso significa que uma pode ser quase perfeitamente prevista pela outra. Este é um problema,
pois pode distorcer os resultados e tornar os coeficientes de sua análise menos confiáveis.
Imaginem que, ao criar uma regressão, você se depare com uma equação assim:
Se você descobrir que x2 = 2x1, ou seja, que x2 é essencialmente o dobro de x1, então há uma relação linear entre x1 e
x2. Isso indica multicolinearidade. Claro que não precisa ser o dobro, mas pode ser algo como xi = k . xj ± k
Para corrigir isso, você precisaria refazer sua análise. No caso acima, você substituiria x2
A multicolinearidade pode ser identificada através de vários métodos. Ao elaborar uma regressão linear múltipla, é essen-
cial identificar e resolver possíveis problemas. Em suas provas, não é necessário mergulhar profundamente em todos os
aspectos dessa relação linear; o importante é compreender a essência do conceito. A multicolinearidade pode afetar a
eficácia e interpretação de sua regressão, por isso é crucial identificar e corrigir este problema. E a teoria discutida aqui
fornece as ferramentas básicas para esse entendimento.
Inferência estatística 5
A L F A C O N
1.9 Ceteris paribus
Este é um termo em latim que significa “outras coisas sendo iguais”. No contexto da regressão linear múltipla, ele se
refere à ideia de avaliar o efeito de uma variável independente em uma variável dependente, mantendo-se todas as
outras variáveis constantes.
Por exemplo, se quisermos avaliar como x1 afeta y, mantemos x2, x3, etc., constantes. Desta forma, podemos isolar o
efeito de x1 em y.
Ao abordar questões sobre regressão linear múltipla, é fundamental compreender as suposições por trás da análise.
Alguns pontos a serem lembrados:
Linearidade: Estamos supondo que a relação entre as variáveis é linear, ou seja, pode ser representada por uma linha reta.
Variância constante: A variância dos termos de erro (ou residuais) deve ser constante.
Importante notar que não há uma suposição de que as variáveis independentes devem ser normalmente distribuídas.
A principal preocupação está na distribuição dos erros.
E pra fechar, saiba que a Regressão linear múltipla é uma ferramenta poderosa, mas vem com suas próprias armadi-
lhas e considerações, como a multicolinearidade. Ao entender bem as suposições e conceitos, você estará mais bem
preparado para aplicar esta técnica de maneira eficaz e interpretar seus resultados nas possíveis questões sobre este
assunto que venha a cair na sua prova.
Inferência estatística 6
A L F A C O N
ESTATÍSTICA
Inferência Estatística
Versão Condensada
Sumário
Inferência Estatística�����������������������������������������������������������������������������������������������������3
2
A L F A C O N
Inferência Estatística
Bem-vindos! Professor Leandro, aqui! Estamos avançando em nossa jornada e hoje nosso tema central é regressão linear
múltipla. Vamos desvendar os mistérios por trás desses conceitos, e garanto que, ao final, tudo ficará muito mais claro.
Quando falamos sobre regressão linear múltipla, estamos nos referindo à estimativa de um modelo que relaciona uma
variável dependente (como uma saída ou resultado) a várias variáveis independentes (os chamados preditores ou
entradas).
Exemplo: Se estivermos prevendo o preço de uma casa, poderíamos usar variáveis como tamanho da casa, número de
quartos e localização como preditores.
Os parâmetros da regressão são os coeficientes, que incluem o intercepto (α) (o ponto onde a linha de regressão cruza
o eixo y) e os coeficientes para cada variável independente (β1, β2, ...) (indicando o impacto dessa variável na variável
dependente).
Estimamos esses coeficientes usando um método muito conhecido chamado Método dos Mínimos Quadrados Ordiná-
rios (MQO). Este é o coração da técnica: ele busca minimizar a soma dos quadrados das diferenças entre os valores
previstos e observados.
Quando utilizamos o MQO na regressão, tanto simples quanto múltipla, obtemos o que chamamos de estimadores de
Máxima Verossimilhança. Estes estimadores também são conhecidos como estimadores BLUE (Best Linear Unbiased
Estimator).
Agora, você pode estar se perguntando: “O que é BLUE?”. Não, não estou falando da cor azul! BLUE refere-se aos
melhores estimadores lineares entre todos os que são não-enviesados. E a boa notícia é que, ao usar o MQO, automa-
ticamente conseguimos estimadores BLUE!
ͫ BLUE é um acrônimo para Best Linear Unbiased Estimator, que pode ser traduzido como “Melhor Estimador
Linear Não-enviesado”. Desmembrando esse nome:
ͫ Unbiased (Não-enviesado): O valor esperado do estimador é igual ao parâmetro real que ele está tentando
estimar.
Inferência Estatística 3
A L F A C O N
Os estimadores BLUE são considerados ideais em regressão linear porque eles têm a menor variância possível, ou seja,
eles são os mais “eficientes” entre todos os estimadores lineares não-enviesados. Em outras palavras, os Estimadores
BLUE são os que mais provavelmente estarão próximos do verdadeiro valor do parâmetro, reduzindo o risco de previ-
sões imprecisas.
Como disse anteriormente, os Estimadores BLUE são frequentemente associados ao Método dos Mínimos Quadrados
Ordinários (MQO). Na regressão linear, ao usarmos MQO sob certos pressupostos clássicos, os coeficientes estimados
são BLUE. Esses pressupostos incluem:
ͫ Erro esperado zero: O valor esperado dos erros (ou resíduos) é zero.
ͫ Não autocorrelação dos erros: Os erros associados a uma observação são não correlacionados com os erros
de outra observação.
Se todos esses pressupostos forem cumpridos, os coeficientes estimados usando o MQO serão BLUE. No entanto,
na prática, nem sempre todos esses pressupostos são satisfeitos. Por isso, testes e correções específicas podem ser
necessários para assegurar que seus estimadores sejam BLUE.
A regressão linear múltipla é frequentemente representada de forma matricial porque, ao trabalhar com várias variáveis
independentes, estamos, na verdade, lidando com matrizes de dados. Em vez de lidar com uma única variável de entrada,
temos várias, e todas elas se organizam em forma de matriz.
Aprenderemos como que efetivamente isso pode aparecer na sua prova: Considere uma regressão linear múltipla, escrita
na forma matricial só que essa forma aqui é chamada a forma matricial porque na verdade esse y significa:
Inferência Estatística 4
A L F A C O N
Temos ainda a Matriz (X), onde a primeira coluna é composta pelo número 1 que representa o nosso α.
Onde:
ͫ Os elementos xij representam o valor da j-ésima variável independente para a i-ésima observação.
Onde:
ͫ α é o intercepto.
Inferência Estatística 5
A L F A C O N
Onde:
Para compreender a regressão linear múltipla, vamos começar com um exemplo: Suponhamos que temos dados de
Água (litros/dia), Exercício (horas/semana) e Pressão Arterial (mmHg). O objetivo é entender como o consumo diário de
água e a quantidade de exercício que uma pessoa pratica por semana influenciam a sua pressão arterial. Vamos supor
os seguintes dados:
Dados:
A 2,5 5 120
B 3 3 130
C 2 6 115
D 3,5 2 135
Queremos modelar a pressão arterial por meio quantidade de água ingerida e o número de horas de exercícios por semana.
Matriz Y (Resposta):
Matriz X (Design):
A primeira coluna desta matriz sempre é composta pelo número 1, representando o coeficiente de intercepção. As demais
colunas representam as variáveis independentes.
Inferência Estatística 6
A L F A C O N
Matriz β (Coeficientes):
A ideia principal da regressão é expressar a equação matricial: y = Xβ + ε onde ε são os erros e β é a matriz dos coe-
ficientes que queremos encontrar. Lembre-se de que cada valor em β representa o efeito respectivo da variável inde-
pendente sobre Y.
ͫ XT é a matriz transposta de X
Mas, na realidade, durante sua prova ou exame, muitas vezes esses valores são fornecidos e você apenas precisa
aplicá-los corretamente.
Então, por exemplo, se na prova, eles fornecerem as matrizes (XT X)-1 e XT Y, sua única tarefa é multiplicar essas duas
matrizes para obter β.
Para simplificar a resolução, vou adiantar alguns cálculos intermediários, pois a multiplicação de matrizes e encontrar a
inversa são tarefas extensas. Supondo que após os cálculos tenhamos:
Inferência Estatística 7
A L F A C O N
Isso significa que, mantendo tudo o mais constante:
O intercepto é 60, que é a pressão arterial estimada para alguém que não bebe água e não pratica exercícios (o que
obviamente é um valor teórico e não realista).
Por cada litro de água consumido, espera-se uma redução de 35 mmHg na pressão arterial.
Por cada hora de exercício praticada por semana, espera-se uma redução de 5 mmHg na pressão arterial.
O teorema de Gauss-Markov é um conceito fundamental na estatística que afirma que, sob certas condições, o estimador
de Mínimos Quadrados Ordinários (MQO) é o “BLUE” - Melhor Estimador Linear Não-Enviesado.
“Melhor” neste contexto refere-se ao fato de que, entre todos os estimadores lineares não-enviesados, o MQO tem a
menor variância. Ou seja, é o mais preciso.
“Linear” indica que o estimador é uma combinação linear das observações da variável dependente.
“Não-Enviesado” significa que a expectativa do estimador é igual ao valor real do parâmetro que está tentando estimar.
Para o teorema de Gauss-Markov ser válido, algumas suposições devem ser satisfeitas:
1. Linearidade em parâmetros.
Se essas suposições forem satisfeitas, podemos afirmar com segurança que o estimador MQO é o “BLUE”.
A regressão linear múltipla é uma ferramenta poderosa em estatística que nos permite modelar a relação entre várias
variáveis independentes e uma dependente. O método dos mínimos quadrados é usado para estimar os coeficientes
do modelo. O teorema de Gauss-Markov garante que, sob certas condições, esse estimador é o melhor possível em
termos de precisão e falta de viés. Em concursos e aplicações práticas, é vital entender tanto o cálculo envolvido quanto
os conceitos teóricos subjacentes para aplicar corretamente a regressão linear múltipla.
Inferência Estatística 8
A L F A C O N
ESTATÍSTICA
Análise Multivariada
Versão Condensada
Sumário
Análise Multivariada������������������������������������������������������������������������������������������������������3
2
A L F A C O N
Análise Multivariada
Bem-vindos! Professor Leandro, aqui! Meus caros alunos! Hoje, avançaremos nos conceitos de regressão linear, mas
especificamente na análise da regressão linear múltipla.
Assim como na regressão simples, fazemos um teste de hipóteses na regressão múltipla. Mas as hipóteses são ligei-
ramente diferentes.
Hipótese nula (H0): Todos os coeficientes de regressão (betas) são nulos. Ou seja:
Isso implica que nenhuma das variáveis independentes tem qualquer efeito sobre a variável dependente.
O objetivo por trás deste teste é determinar se as variáveis que estamos considerando em nossa regressão têm algum
poder explicativo. Em outras palavras, queremos saber se alguma delas efetivamente altera ou influencia a variável
dependente.
Usamos uma tabela ANOVA para realizar o teste de hipóteses. Essa tabela nos ajudará a decidir se devemos aceitar ou
rejeitar a hipótese nula.
QM_regressão/
Regressão SQ_regressão p-1 SQ_regressão/(p-1)
QM_resíduo
Análise Multivariada 3
A L F A C O N
Onde:
Se a estatística F for significativamente grande, isso sugere que pelo menos uma das variáveis independentes está
relacionada à variável dependente, e rejeitamos a hipótese nula.
Suponha que você esteja analisando fatores que influenciam o peso de um indivíduo. As variáveis podem ser: calorias
consumidas, tempo de caminhada, quantidade de doces consumidos, idade, entre outros. Se após a análise, desco-
brimos que a estatística F é significativa, então pelo menos uma dessas variáveis tem uma relação com o peso. Testes
complementares podem nos ajudar a descobrir quais são as variáveis significantes.
Lembre-se, a estatística é uma ferramenta poderosa e é usada em quase todos os campos do conhecimento. Ao fazer
uma regressão, estamos tentando entender e prever o comportamento de uma variável com base em outras. A regressão
linear múltipla nos permite fazer isso considerando várias variáveis de uma só vez.
Primeiro, é essencial compreender que, em estatística, os graus de liberdade são uma métrica que representa o número
de valores que têm a liberdade de variar. E, na regressão linear múltipla, isso se torna vital para realizar testes de hipó-
teses e interpretar a variabilidade dos dados.
Exemplo:
Suponha que você esteja estudando a influência da idade (X1) e da renda (X2) sobre a decisão de compra de um produto
(Y). Aqui, temos duas variáveis independentes, portanto p=2. Se você coletou dados de 100 indivíduos, então n=100.
Portanto, nesse exemplo, se você construir uma tabela ANOVA, saberá que os graus de liberdade associados à regressão
são 1, aos resíduos são 98, e o total é 99.
Modelo proposto:
Neste modelo:
• y, x1 e x2 são as variáveis
• α, β1 e β2 são os parâmetros
Análise Multivariada 4
A L F A C O N
Temos 15 elementos na amostre, SQmodelo = 800 e SQerro = 320.
Total 1120 14 80
Por último, a estatística F é calculada como a razão entre o Quadrado Médio do Modelo e o Quadrado Médio do Erro:
Agora, o que significa esse valor F calculado? Para entender isso, vamos lembrar do formato da distribuição F de Sne-
decor. Se esse valor de F calculado estiver além de um certo valor crítico nesta distribuição (determinado pelo nível de
significância escolhido), então rejeitamos a hipótese nula de que os parâmetros da regressão são iguais a zero, indicando
que o modelo é significativo.
Esta é uma distribuição especial que nos ajuda a testar hipóteses específicas na regressão linear múltipla. Ela tem uma
forma particular, e quando falamos dela em questões, usualmente um valor tabelado é fornecido.
Análise Multivariada 5
A L F A C O N
Distribuição F de Fisher-Snedecor
Imagine que após conduzirmos nossa análise de regressão, nós obtivemos uma estatística F calculada, digamos 15.
Esta estatística tem graus de liberdade associados a ela, derivados das nossas variáveis e parâmetros. No nosso caso,
temos 2 graus de liberdade no numerador (p-1) e 12 no denominador (n-p).
Primeiro, consultamos a tabela F de Fisher-Snedecor. A tabela nos dará um valor tabelado para F baseado nos graus
de liberdade que temos. Por exemplo, se a tabela nos dá um valor F de 10, e nosso F calculado é 15, então nosso valor
é significativamente maior que o valor tabelado.
• Se Fcalculado ≤ Ftabelado : Aceitamos a hipótese nula (H0). Isso significa que os coeficientes da regressão não são esta-
tisticamente significativos e as variáveis preditoras não têm efeito significativo sobre a variável resposta.
• Se Fcalculado >Ftabelado : Rejeitamos a hipótese nula (H0). Isso indica que pelo menos uma das variáveis preditoras tem
um efeito significativo sobre a variável resposta.
Espero que essa explicação tenha sido clara. Como sempre, pratique muito, e em breve, a regressão linear juntamente
com suas peculiaridades serão conceitos fáceis para você! Até a próxima aula!
Análise Multivariada 6
A L F A C O N
ESTATÍSTICA
Análise Multivariada
Versão Condensada
Sumário
Análise Multivariada������������������������������������������������������������������������������������������������������3
2
A L F A C O N
Análise Multivariada
Olá, caros alunos! Prof. Leandro aqui! A soma dos quadrados é um conceito crucial na análise de variância. Ao trabalhar
com variância em estatística, o processo começa quando você pega o valor de uma amostra, subtrai a média (isso é
chamado de “desvio”), leva esse desvio ao quadrado e depois faz isso para todos os dados antes de somar todos os
valores quadrados. Esse é o fundamento para entender a soma dos quadrados em ANOVA.
Soma dos Quadrados Total (SQT) = Soma dos Quadrados Entre os Grupos (SQE) + Soma dos Quadrados Dentro dos
Grupos (SQD).
Agora, imagine que temos três populações (ou grupos) diferentes. Para ilustrar, vou considerar apenas 2 elementos por
grupo, para manter a simplicidade. Vamos chamá-los:
Agora, a média geral é calculada somando todos os valores e dividindo pelo número total de valores:
No nosso exemplo:
Análise Multivariada 3
A L F A C O N
1.1 Calculando a Soma dos Quadrados Entre os Grupos (SQE)
SQE considera as diferenças entre as médias dos grupos e a média geral. Usando a fórmula:
Onde n é o número de elementos no grupo. Faça isso para cada população e depois some os resultados.
Exemplo ilustrativo:
• População 1: 6 e 4, µ1 = 5
• População 2: 5 e 7, µ2 = 6
• População 3: 6 e 8, µ3 = 7
Na prática, pode haver mais do que apenas dois valores por população, e as populações não precisam necessariamente
ter o mesmo número de valores.
Agora que a gente entendeu a soma de quadrados entre os grupos, vamos entender o próximo passo: a soma de qua-
drados dentro dos grupos, também chamada de soma dos quadrados dos erros.
Essa parte é crucial para entender a variabilidade dentro de cada grupo e saber se existe alguma diferença significativa
entre os grupos.
Pois bem, para fazer isso, o que a gente faz? Dentro de cada grupo, a gente vai olhar cada observação, cada valor que
a gente tem.
Vamos voltar para o nosso exemplo. Na primeira população, temos os valores 6 e 4. A média desse grupo, como já cal-
culamos, é 5. Então, para cada valor, o que a gente vai fazer? Vamos pegar o valor, subtrair pela média do grupo, elevar
ao quadrado e somar tudo. QUÊ???? Calma, vou te mostrar.
Vamos lá:
SQerro1 = (6 – 5)2 + (4 – 5 )2
SQerro1 = 2
Análise Multivariada 4
A L F A C O N
Fazemos a mesma coisa para a segunda população:
SQerro2 = (5 - 6)2 + (7 - 6 )2
SQerro2 = (- 1)2 + (1 )2
SQerro2 = 2
SQerro3 = (6 - 7)2 + (8 - 7 )2
SQerro3 = (- 1)2 + (1 )2
SQerro3 = 2
Agora, somamos todos esses valores para ter a soma total dos quadrados dos erros:
SQerrototal = 2 + 2 + 2
SQerrototal = 6
SQtotal = 4 + 6 = 10
Perceba que chegamos ao conceito de que a variação total em nosso conjunto de dados (SQ total) é a soma da variação
entre os grupos e a variação dentro dos grupos.
É com base nessas somas de quadrados que, posteriormente, você calculará as variâncias e fará o teste F para deter-
minar se as médias dos grupos são estatisticamente diferentes ou não.
A ideia é simples: você quer saber quão dispersos estão seus dados em relação à média geral de todos os dados. Em
outras palavras, você quer ver a variabilidade total. E como fazemos isso?
Suponha que temos uma média geral X de 4, e seis valores em nossos dados: 2, 4, 1, 7, 4, 6.
A SQT é a soma das diferenças de cada valor para essa média geral, elevada ao quadrado:
SQT= 4 + 0 + 9 + 9 + 0 + 4 = 26
Análise Multivariada 5
A L F A C O N
Agora, a mágica! A essência da ANOVA é que:
SQT = SQE +S QD
Neste exemplo:
Essa é a beleza da análise de variância! E com essa ferramenta em mãos, você pode responder várias perguntas cien-
tíficas e tomar decisões informadas.
Quando você se deparar com um problema de ANOVA em sua prova, lembre-se deste processo. Calcule as médias,
encontre a variabilidade entre e dentro dos grupos e então decida se as médias são ou não diferentes estatisticamente.
Agora, se uma prova te pede para definir ou entender essas somas de quadrados, você está preparado!
Fique tranquilo, na prova o examinador normalmente fornece esses valores prontos. Você só precisa entender o conceito
e aplicá-los corretamente.
Espero que esta explicação tenha te ajudado a clarear as ideias sobre ANOVA e a importância das somas de quadrados.
Embora tenhamos utilizado pequenos grupos de apenas dois elementos cada para facilitar a compreensão, o cálculo
pode se tornar trabalhoso com conjuntos de dados maiores. Em muitas provas concursos públicos, o foco está mais em
compreender o conceito e a fórmula, ao invés de realizar extensos cálculos manuais. Portanto, é fundamental entender
a lógica por trás dessa métrica e saber quando e como aplicá-la. Até a próxima aula!
Análise Multivariada 6
A L F A C O N
Análise Multivariada
Versão Condensada
Sumário
Análise Multivariada������������������������������������������������������������������������������������������������������3
2
A L F A C O N
Análise Multivariada
1. Graus de Liberdade
Olá, caros alunos! Prof. Leandro aqui! Hoje, focaremos nos graus de liberdade, especialmente quando falamos da
tabela do teste ANOVA para análise de variância entre populações.
Primeiro, vamos entender a essência dos graus de liberdade. Os graus de liberdade são, fundamentalmente, o
número de valores em um cálculo final que são livres para variar.
Exemplo Simples:
Imagine a equação: x + y = 10
Nesta equação, quantos são os graus de liberdade? Se pensarmos bem, você pode escolher qualquer valor para x,
mas assim que você faz essa escolha, I é imediatamente determinado. Por exemplo, se x é 4, então y deve ser 6.
Portanto, nesta equação, temos 1 grau de liberdade. Vamos a outro exemplo. Se tivermos: x + y + z = 10
Aqui, você pode escolher valores para x e y. Mas, novamente, uma vez feito isso, z é determinado pelo que resta
para alcançar o total de 10. Portanto, nesta equação, temos 2 graus de liberdade.
Regra Geral:
Se você perceber, a regra geral aqui é que, para um conjunto de equações, os graus de liberdade são sempre o
número de variáveis menos um.
Agora, quando estamos falando sobre o teste ANOVA, os graus de liberdade não são determinados por uma simples
equação como as acima. Ao invés disso, eles são determinados pela quantidade de dados que temos e pelo número
de grupos que estamos comparando.
Se estivermos comparando, por exemplo, 3 grupos diferentes entre si usando o teste ANOVA, os graus de liberdade
são calculados da seguinte maneira:
k−1 (onde k é o número de grupos). Portanto, se tivermos 3 grupos, GLB seria 3−1=2.
n−k (onde n é o número total de observações e k é o número de grupos). Se tivéssemos, por exemplo, um total de
30 observações distribuídas igualmente entre 3 grupos, GLD seria
30−3=27.
A soma dos graus de liberdade entre os grupos e os graus de liberdade dentro dos grupos nos dá os graus de
liberdade totais.
Análise Multivariada 3
A L F A C O N
Análise Multivariada
Versão Condensada
Sumário
Análise Multivariada������������������������������������������������������������������������������������������������������3
2.1 Solução���������������������������������������������������������������������������������������������������������������������������������������������������������������������������������5
2
A L F A C O N
Análise Multivariada
1. Quadrados Médios
Olá, caros alunos! Prof. Leandro aqui! Dando sequência à nossa exploração da Análise Multivariada, nos concentraremos
hoje nos Quadrados Médios. Esse é um elemento crucial da Análise de Variância (ANOVA), que nos ajuda a entender
melhor os aspectos técnicos por trás dos testes que realizamos.
Os graus de liberdade (GL) representam a quantidade de informações contidas em nossos dados. Quando dividimos as
somas dos quadrados por seus respectivos graus de liberdade, obtemos o que chamamos de Quadrado Médio (QM).
De forma resumida, o Quadrado Médio é uma média da soma dos quadrados.
Agora, vamos dividir esse conceito em duas categorias principais: Quadrado Médio Entre (QME) e Quadrado Médio
Dentro (QMD).
Cálculo:
O QME é calculado tomando a Soma dos Quadrados Entre os grupos (SQE) e dividindo-a pelos graus de liberdade
correspondentes.
Cálculo:
O QMD é obtido dividindo a Soma dos Quadrados Dentro dos grupos (SQD) pelos graus de liberdade correspondentes.
Análise Multivariada 3
A L F A C O N
Quero que você entenda que o Quadrado Médio (seja ele Entre ou Dentro) é sempre a divisão da soma de quadrados
pelo número de graus de liberdade associado.
Suponhamos que estamos analisando três grupos: A, B e C, com um total de 30 elementos. Suponha que a Soma dos
Quadrados Entre os grupos (SQE) é 60 e a Soma dos Quadrados Dentro dos grupos (SQD) é 120.
Dado que temos três grupos, os graus de liberdade entre GLentre são k – 1 = 3 – 1 = 2. E para os graus de liberdade dentro
Gldentro, temos n – k = 30 – 3 = 27.
Entre 60 2
Dentro 120 27
Total 180 29
• Fonte de Variação: Refere-se à origem da variação. Podendo ser “Entre” os grupos, “Dentro” dos grupos, ou o “Total”.
• Soma de Quadrados (SQ): É a soma total da variação. No nosso exemplo, a soma de quadrados entre é 60 e a
soma de quadrados dentro é 120. O total, como o nome sugere, é a soma desses dois: 60 + 120 = 180.
• Graus de Liberdade (GL): Representa a quantidade de valores que podem variar livremente. Para o nosso exem-
plo, os graus de liberdade entre são 2 e os graus de liberdade dentro são 27. Novamente, o total é a soma desses
dois: 2 + 27 = 29.
• Quadrado Médio (QM): Este é o foco da nossa aula! O quadrado médio é calculado dividindo a soma de quadrados
pelos graus de liberdade.
Portanto, nesse exemplo, o Quadrado Médio Entre os grupos é 30 e o Quadrado Médio Dentro dos grupos é aproxima-
damente 4,44.
Análise Multivariada 4
A L F A C O N
1.4 Entendendo o Quadrado Médio
Pense no Quadrado Médio como uma “média” da soma dos quadrados, ponderada pelo número de graus de liberdade.
Este valor é crucial em testes estatísticos, como a ANOVA, para entender como a variação é distribuída entre e dentro
dos grupos.
O quadrado médio do erro (ou quadrado médio dentro) é uma peça essencial em nossa análise. No exemplo, ele é apro-
ximadamente a 4,44. Esse valor representa a estimativa da variância dos erros, assumindo que os erros têm variação
constante - essa é a premissa da homocedasticidade.
Em uma pesquisa sobre desempenho acadêmico de alunos, realizou-se uma Análise de Variância (ANOVA) para comparar
três métodos distintos de ensino. A tabela ANOVA obtida foi parcialmente preenchida como mostra abaixo:
Fonte de Variação Soma de Quadrados (SQ) Graus de Liberdade (GL) Quadrado Médio (QM)
Entre 3600 2 ?
Dentro 4800 57 ?
Total 8400 59 -
Considerando as informações apresentadas e os conhecimentos sobre análise multivariada, julgue o item subsequente.
O valor do quadrado médio entre os grupos é 1800 e o valor do quadrado médio dentro dos grupos é aproximadamente 84,21.
2.1 Solução
O Quadrado Médio (QM) é calculado dividindo a Soma de Quadrados (SQ) pelos Graus de Liberdade (GL).
Para o “Entre”:
QM = SQ ÷ GL = 3600 ÷ 2 = 1800.
Para o “Dentro”:
QM = SQ ÷ GL = 4800 ÷ 57 ≈ 84,21.
Assim, encerramos nossa análise sobre os Quadrados Médios. Espero que este exemplo tenha ajudado a clarear este
tópico para vocês. Continuem firmes nos estudos, e até a próxima aula!
Análise Multivariada 5
A L F A C O N
Análise multivariada
Versão Condensada
Sumário
Análise multivariada������������������������������������������������������������������������������������������������������3
2
A L F A C O N
Análise multivariada
Olá, caros alunos! Prof. Leandro aqui! Na aula de hoje, vamos aprofundar nosso conhecimento em análise multivariada,
mais especificamente, na estatística F. Esse valor é crucial para determinar se aceitamos ou rejeitamos a hipótese nula.
Vamos lá!
O Teste F é uma ferramenta estatística que nos permite comparar a variabilidade entre dois ou mais conjuntos de dados.
Ele é especialmente relevante quando lidamos com a Análise de Variância (ANOVA), como já discutido anteriormente.
A estatística F é a razão entre o quadrado médio do tratamento e o quadrado médio do erro. Formalmente, é calculada
pela seguinte fórmula:
* QM = Quadrado Médio
Para ilustrar, vamos usar um exemplo. Suponha que temos a seguinte tabela ANOVA (Análise de Variância):
Entre 44 4 11
Dentro 50 20 2,5
Total 94 24 -
Análise multivariada 3
A L F A C O N
Grau de liberdade no numerador: vem da fonte de variação “Entre”, neste exemplo é 4.
Grau de liberdade no denominador: vem da fonte de variação “Dentro”, neste exemplo é 20.
O grau de liberdade no numerador é geralmente dado por k−1, onde k é o número de grupos. E o do denominador é
dado por n−k, onde n é o tamanho total da amostra.
Agora, quando realizamos o teste F, a pergunta que nos fazemos é: “Como sabemos se o valor de F que calculamos
é grande o suficiente para ser estatisticamente significativo?” A resposta a essa pergunta vem da Distribuição F de
Snedecor.
A Distribuição F é uma distribuição contínua de probabilidade que surge ao comparar duas variâncias amostrais. Ela
depende de dois graus de liberdade: um para o numerador (variância entre grupos) e um para o denominador (variância
dentro dos grupos).
Quando você calcula a estatística F, ela segue uma distribuição específica chamada F de Snedecor. Esta distribuição
tem uma forma particular e é definida pelos graus de liberdade no numerador e no denominador.
Para verificar se a hipótese nula é aceita ou rejeitada, comparamos o F calculado com um valor tabelado. O valor tabe-
lado é encontrado na tabela F de Snedecor, usando:
Quando estamos falando de testes estatísticos que usam a distribuição F (como ANOVA), frequentemente nos depara-
mos com os termos “F calculado” e “F tabelado”. Vou te explicar o que são e como utilizá-los.
F calculado:
É o valor que você obtém ao realizar o cálculo do teste F em seus dados. Este valor é baseado na razão entre as variân-
cias que você está comparando.
Seu objetivo ao calcular esse valor é determinar se as diferenças entre as médias de seus grupos são estatisticamente
significativas.
Este valor é retirado de uma tabela F (também conhecida como tabela da distribuição F de Snedecor).
A tabela F apresenta valores críticos com base em dois graus de liberdade: um associado ao numerador (df entre grupos)
e um associado ao denominador (df dentro dos grupos).
A tabela também considera um nível de significância (geralmente denotado como α), que é a probabilidade de cometer
um erro do Tipo I (rejeitar a hipótese nula quando ela é verdadeira). O α mais comum em testes estatísticos é 0,05 (5%),
mas outros valores, como 0,01, também podem ser usados.
Análise multivariada 4
A L F A C O N
1.5 Usando a tabela F de Snedecor:
Um detalhe crucial: em provas, não esperem que peçam para vocês consultarem essa tabela diretamente. Geralmente,
eles fornecerão os valores necessários, mas é fundamental saber interpretá-los.
Após obter o valor Ftabelado para uma dada significância e graus de liberdade, comparamos com o F calculado:
“Na tabela F de Snedecor, o valor associado a uma significância de 5% e graus de liberdade 10 no numerador e 20 no
denominador é 2,50.”
O que isso significa? Significa que se a Estatística F que você calcular for maior que 2,50, você pode rejeitar a hipótese
nula com 95% de confiança.
Vale recordamos que rejeitar a hipótese nula é um conceito fundamental em testes de hipóteses na estatística. Para
entender o que isso significa, primeiro vamos estabelecer algumas definições:
Hipótese Nula (H0): É uma afirmação inicial que indica que não há efeito, relação ou diferença no estudo. Por exemplo,
se estamos testando a eficácia de uma nova droga, a hipótese nula pode afirmar que a droga não tem efeito ou que o
efeito da nova droga é igual ao da droga padrão.
Hipótese Alternativa (H1): É exatamente o oposto da hipótese nula. Ela afirma que existe um efeito, relação ou diferença.
No exemplo da droga, a hipótese alternativa poderia afirmar que a nova droga tem um efeito diferente da droga padrão.
Quando realizamos um teste de hipótese estatístico, comparamos os dados coletados com o que esperaríamos se a
hipótese nula fosse verdadeira. Se o resultado do teste estiver muito longe do que seria esperado sob a hipótese nula,
temos evidências para rejeitar essa hipótese.
Análise multivariada 5
A L F A C O N
Rejeitar a hipótese nula significa que, com base nos dados e no nível de significância estabelecido, decidimos que as
evidências são fortes o suficiente para descartar H0 e aceitar H1. Em outras palavras, concluímos que há uma diferença
significativa ou efeito no estudo.
Por outro lado, se os resultados não forem substancialmente diferentes do que esperaríamos sob a hipótese nula, não
rejeitamos H0. Isso não significa que H0 seja verdadeira, apenas que não temos evidências suficientes para descartá-la.
É crucial entender que «não rejeitar H0» não é o mesmo que «provar H0». A estatística raramente, se alguma vez, prova
algo definitivamente. Em vez disso, trabalhamos com níveis de confiança e probabilidades.
1. Um pesquisador realizou um experimento para avaliar a eficácia de quatro diferentes tipos de adubo na produção
de tomates. Para isso, aplicou cada tratamento em 10 parcelas distintas da mesma variedade de tomate. A tabela
abaixo apresenta a análise de variância dos resultados:
Dentro 36 720 20 - -
Total 39 800 - - -
Solução
Gabarito é a Letra b. O F calculado (1,33) é menor que o F tabelado (3,10), indicando que não rejeitamos a hipótese nula
e, consequentemente, as médias dos tratamentos são estatisticamente iguais. Assim, não há diferença significativa
entre os tipos de adubo.
A L F A C O N
2. Em um estudo, foi avaliado o desempenho de três diferentes técnicas de ensino em três grupos de 7 alunos cada.
Após um período de instrução, foram aplicados testes e as médias das notas obtidas foram comparadas para avaliar
se havia diferença entre as técnicas de ensino. A análise de variância forneceu os demonstrou os seguintes resul-
tados: A soma de quadrados entre os grupos foi 60, dentro dos grupos foi 270 e que o valor crítico da distribuição
F (com significância de 5% e graus de liberdade 2 e 18) para o teste foi de 3,5.
a) As três técnicas de ensino são estatisticamente equivalentes em termos de desempenho dos alunos.
c) O F calculado é maior que o F tabelado, o que indica que rejeitamos a hipótese nula.
e) As técnicas de ensino têm diferenças significativas entre si, já que o F calculado é maior que o F tabelado.
Solução:
Gabarito é a letra a.
Entre 2 60 30 2 3.50
Dentro 18 270 15 - -
Total 20 330 - - -
O F calculado (2) é menor que o F tabelado (3,50), levando à aceitação da hipótese nula. Portanto, não há diferenças
estatisticamente significativas entre as técnicas de ensino, o que significa que elas são equivalentes em termos de
desempenho dos alunos.
E é isso, futuros servidores públicos! A chave para dominar estatística, ou qualquer outro assunto, é a prática constante.
Resolvam muitas questões, identifiquem seus pontos fracos e trabalhem neles. Bons estudos e até a próxima aula!
A L F A C O N
Testes de Hipóteses
Versão Condensada
Sumário
Testes de Hipóteses������������������������������������������������������������������������������������������������������3
2
A L F A C O N
Testes de Hipóteses
1. Conceitos Fundamentais
Olá, concurseiros de plantão! Prof. Leandro, aqui! Hoje vamos nos aprofundar um pouco mais no intrigante e, às vezes,
um pouco intimidador mundo da estatística. Vamos começar dando uma pincelada nos conceitos fundamentais. A ideia
aqui é que você, de forma tranquila, vá absorvendo cada pedacinho dessa matéria que pode ser o seu diferencial na
hora da prova. Primeiramente, vamos entender os aspectos fundamentais conceituais dos testes de hipóteses. Apro-
fundaremos nesse tema mais tarde, mas por agora, vamos focar na fundação sólida que você vai construir.
Vamos começar entendendo que, quando falamos em teste de hipóteses, estamos basicamente tentando decidir entre
duas possibilidades distintas, duas hipóteses. Sim, é quase como um episódio de detetive, só que com números!
Então, imagine que você é um estatístico de primeira e tem que decidir entre duas possibilidades: a média é 40 ou a
média é diferente de 40. Ufa! Como decidir, não é mesmo? Calma que temos um plano: fazer um teste. E como é esse
teste? Bem, nós vamos coletar uma amostra, analisar esses dados e, através dessa análise, vamos conseguir identificar
qual das duas hipóteses é a correta. Parece simples? Vai ficar, prometo!
Antes de mais nada, precisamos entender a terminologia que vamos usar: Temos então a “Hipótese Nula”, representada
por H0, que é a nossa primeira suposição, a nossa hipótese inicial. Já a “Hipótese Alternativa”, representada por H1 ou
Ha, é a nossa segunda suposição, a que vai contradizer a hipótese nula caso se prove verdadeira.
Hipótese Nula (H0): É uma afirmação inicial que indica que não há efeito, relação ou diferença no estudo. Por exemplo,
se estamos testando a eficácia de uma nova droga, a hipótese nula pode afirmar que a droga não tem efeito ou que o
efeito da nova droga é igual ao da droga padrão.
Hipótese Alternativa (H1 ou Ha): É exatamente o oposto da hipótese nula. Ela afirma que existe um efeito, relação ou dife-
rença. No exemplo da droga, a hipótese alternativa poderia afirmar que a nova droga tem um efeito diferente da droga padrão.
Quando realizamos um teste de hipótese estatístico, comparamos os dados coletados com o que esperaríamos se a
hipótese nula fosse verdadeira. Se o resultado do teste estiver muito longe do que seria esperado sob a hipótese nula,
temos evidências para rejeitar essa hipótese.
Segura aí, que agora vai ficar interessante! A hipótese nula, regra geral, carrega consigo uma igualdade. Sim, geralmente
ela tem um sinal de igual (=) incorporado nela. Já a hipótese alternativa, essa é rebelde, ela traz uma desigualdade, pode
ser um sinal de diferente (≠), maior (>) ou menor (<). E é aqui que temos uma subdivisão dos tipos de testes: bilateral
ou bicaudal e os unilaterais.
No teste bilateral, ou bicaudal se preferir, nossa hipótese alternativa vai usar o sinal de diferente. É aqui que exploramos
duas pontas da distribuição normal, pensando que a média pode ser maior ou menor que um determinado valor. Isso
tem um grande impacto nos cálculos que realizaremos mais adiante.
H0 : µ = k
H 1: µ ≠ k
Testes de Hipóteses 3
A L F A C O N
Para ilustrar, imagine uma fábrica de bolas de tênis. Em média, cada bola deve pesar 58 gramas. É comum existir uma
pequena variação nesse peso, algumas bolas podem ser ligeiramente mais pesadas ou mais leves.
Imaginemos que realizamos uma verificação surpresa na linha de produção, selecionando uma amostra de bolas para
avaliar o peso médio. Se encontrássemos uma média de peso significativamente distinta, como 70 gramas, isso certa-
mente acenderia um sinal de alerta.
Analisemos juntos: tendo como base a média estabelecida de 58 gramas, a probabilidade de uma amostra mostrar uma
média de 70 gramas é quase inexistente. Este resultado atípico nos incentivaria a refutar a hipótese nula de que a média
é de 58 gramas, sugerindo que algo na produção pode estar desajustado.
Mas como decidimos se uma diferença é significativa ou não? Ah, é aqui que a mágica acontece, meus queridos con-
curseiros! Utilizamos critérios estatísticos para fazer essa decisão, levando em consideração a variabilidade dos dados
e o tamanho da amostra.
Quando estamos realizando um teste bilateral, estamos, na verdade, olhando para as duas caudas da distribuição nor-
mal, considerando a possibilidade de a média ser significativamente maior ou menor que o valor estipulado na hipótese
nula. É como se tivéssemos duas regiões críticas, uma em cada cauda da distribuição.
Mas, o que seria essa região crítica? A região crítica é aquela zona onde, se o valor observado cair lá, vamos rejeitar
nossa hipótese nula. É como uma área de alerta vermelho! E o que determina essa região crítica é o nosso nível de
significância, representado pelo famigerado “alfa” (α). Esse alfa é o grau de erro que estamos dispostos a aceitar. Comu-
mente, você vai ver valores como 0,05 (ou 5%), que é bastante utilizado na prática.
Áreas críticas
Agora, vamos falar sobre como calcular esse valor crítico, um passo fundamental em nosso teste de hipóteses.
Como discutimos anteriormente, vamos primeiro definir nossas hipóteses. Suponha que, baseado em evidências ante-
riores, alegamos que a média é 58g. Então:
H0: µ = 58 g
H1: µ ≠ 58 g
Testes de Hipóteses 4
A L F A C O N
asso 2: Nível de Significância (α)
Vamos escolher nosso nível de significância, que, como eu disse, é geralmente 0,05.
Pegamos uma amostra aleatória de nossas bolas de tênis e calculamos a média e o desvio padrão dessa amostra.
Aqui é onde a mágica acontece! Usaremos uma fórmula específica para calcular nossa estatística de teste. Para uma
média, a fórmula geralmente se parece com isso:
ͫ Z é a estatística de teste
ͫ x é a média da amostra
ͫ n é o tamanho da amostra
Depois de calcular a estatística de teste, vamos compará-la com o valor crítico, que é determinado pelo nosso nível de
significância. Se nosso valor de teste cair na região crítica (for maior ou menor que o valor crítico), então rejeitamos a
hipótese nula.
Para determinar o valor crítico, usamos uma tabela estatística (tabela Z ou T, dependendo da situação) e nosso nível de
significância. Se, por exemplo, estamos usando um nível de significância de 0,05 em um teste bilateral, então procuramos
o valor crítico que corresponde a 0,025 em cada cauda (porque 0,05/2 = 0,025).
Depois de realizar nosso teste, vamos resumir nossas descobertas e concluir se a média é realmente 58 g ou se temos
evidências suficientes para afirmar que é diferente.
E aí, meus queridos concurseiros, conseguiram acompanhar? Com essa metodologia, vocês estarão prontos para abordar
qualquer questão de teste de hipóteses que aparecer na frente de vocês!
No teste unilateral, você estará focado em uma direção específica - será que a média é maior que um certo valor (unila-
teral superior) ou menor (unilateral inferior)? A região crítica aqui está direcionada, seja para o lado positivo ou negativo.
Agora, se a sua dúvida é mais genérica, sem uma direção específica, você usará um teste bilateral, onde duas regiões
críticas estarão em jogo. Vamos explorar esses conceitos com mais detalhes.
Vamos retornar ao exemplo anterior. O peso da bola de tênis que deve estar presente em cada uma é, em média, 58g.
Ainda que seja comum ter uma pequena variação, é seu papel garantir que a média se mantenha.
Então, surge uma dúvida: será que a quantidade está correta? Você não tem uma direção específica para essa dúvida,
simplesmente quer verificar se a média é 58g. Essa é uma dúvida genérica, onde você não tem um palpite se está mais
Testes de Hipóteses 5
A L F A C O N
ou menos, apenas quer a verificação. Nesse caso, você optaria por um teste bilateral, analisando se o volume é signi-
ficativamente diferente de 58g, para mais ou para menos.
Por outro lado, vamos supor que você suspeita que está pesando mais que 58g em cada bola, desperdiçando assim
recursos preciosos. Nesse caso, sua dúvida é direcionada - você acredita que está colocando mais líquido do que
deveria. Aqui, um teste unilateral superior seria o mais indicado, pois você está focando em uma direção específica, o
lado direito da distribuição normal.
Mas, veja bem, também pode ocorrer o inverso: talvez as reclamações dos clientes sugiram que as bolas estão vindo
muito leves, o que é inadmissível em produtos profissionais, certo? Nesse caso, um teste unilateral inferior será o seu
aliado, ajudando a verificar se a média é de fato menor que 58g. Aqui, a região crítica estará concentrada no lado
esquerdo da distribuição.
Como você pode perceber, a definição de qual teste usar depende da sua dúvida inicial - é uma dúvida genérica, ou é
uma dúvida direcionada? O importante é que você entenda que a hipótese nula, a nossa famosa “status quo”, sempre
vai carregar o sinal de igual (=), representando a condição atual que está sendo testada.
Testes de Hipóteses 6
A L F A C O N
Agora, dando uma olhada no outro lado da moeda, temos a hipótese alternativa, que vai expressar a condição oposta
à hipótese nula. Aqui, poderemos ter sinais de maior (>), menor (<) ou diferente (≠), dependendo do direcionamento
da nossa pesquisa.
Acho fundamental destacar que o teste de hipóteses não se aplica apenas às médias. É uma ferramenta extremamente
flexível, podendo ser aplicada para variância, proporção, e diversos outros parâmetros dentro da estatística inferencial.
Por exemplo, você poderia aplicar esses conceitos para testar a igualdade de três ou mais populações, ou até para
analisar os coeficientes de uma regressão linear.
A estrutura básica do teste se mantém, independentemente do parâmetro que está sendo testado. Você terá sempre
uma hipótese nula, que representa a situação atual, e uma hipótese alternativa, que representa uma possível mudança
ou diferença.
Por hoje é só, pessoal! Estou ansioso para continuar essa jornada com vocês na próxima aula. Até lá, e bons estudos!
Testes de Hipóteses 7
A L F A C O N
Testes de hipóteses
Versão Condensada
Sumário
Testes de hipóteses������������������������������������������������������������������������������������������������������3
1.1 Significância������������������������������������������������������������������������������������������������������������������������������������������������������������������������� 3
2
A L F A C O N
Testes de hipóteses
1. Tipos de erros
Olá, meus queridos alunos concurseiros! Prof. Leandro, aqui! Hoje vamos nos aprofundar no mundo dos testes de hipó-
teses, um tema que não pode faltar em sua preparação!
Agora, olhando atentamente para o nosso assunto de hoje, é de suma importância entender que ao realizarmos um teste
de hipóteses, estamos sujeitos a cometer alguns tipos de erros, certo? É exatamente como em um teste de gravidez.
Você fez tudo certo, seguiu as instruções à risca, mas ainda assim, o teste pode te entregar um resultado falho. Então,
o erro não está em você, mas sim no teste. E, semelhantemente, no mundo da estatística, temos situações em que o
erro está no teste estatístico, não em você, meu nobre concurseiro. E por isso é vital entendermos bem os tipos de
erros que podem ocorrer: o erro tipo I e o erro tipo II. Mas antes vou trazer agora à luz a significância deste tema, uma
palavra que você vai ouvir bastante daqui para frente.
1.1 Significância
A significância, representada pela letrinha α (alfa), é algo que nós, estatísticos, escolhemos deliberadamente antes
de executar o teste. É quase como definir o nível de confiança que queremos para nosso teste, a margem de erro que
estamos dispostos a aceitar.
Pense nisso como uma espécie de linha que você estabelece, dizendo “olha, eu estou disposto a aceitar uma chance
de erro de 5%” por exemplo. Mas você deve estar se perguntando, “professor, por que não escolher 0% e eliminar o
erro completamente?” A resposta para isso é simples e, ao mesmo tempo, complexa: porque estamos trabalhando com
amostras, e há sempre uma chance, mesmo que minúscula, de pegarmos uma amostra atípica, que não representa bem
a nossa população.
Então, mesmo que você escolha uma significância de 1%, ainda há uma chance de 1% do teste te induzir a um erro tipo I,
que seria rejeitar uma hipótese nula verdadeira, um erro grave que pode nos levar a conclusões completamente erradas.
Então, por isso que a escolha da significância é tão crítica.
E sabe, ao optar por uma significância mais baixa, estamos, na verdade, aumentando nossa margem de erro, o que
pode tornar nosso teste menos preciso. Então, há sempre esse equilíbrio delicado a ser alcançado entre a significância
e a precisão do nosso teste. Normalmente, escolhemos uma significância de 5%, um meio-termo que tende a equilibrar
bem o risco e a precisão.
Mas aqui vai um alerta, jovem concurseiro! Não caia na armadilha de pensar que a significância pode ser calculada
através de uma fórmula mágica. Na verdade, ela é escolhida arbitrariamente pelo estatístico, uma decisão que leva em
conta uma série de fatores, incluindo o nível de risco que estamos dispostos a aceitar.
Então, ao se deparar com questões sobre este tema em sua prova, lembre-se bem dessas nuances. A significância não
é calculada, mas escolhida, uma escolha que pode ter repercussões sérias sobre os resultados do nosso teste.
Agora, vamos aprofundar um pouquinho nas hipóteses que estamos testando. Geralmente, nós temos duas: a hipótese
nula, que é nossa suposição inicial, nossa base, e a hipótese alternativa, que é basicamente o oposto da nula. A
hipótese nula, representada por H₀, é realmente a nossa pedra fundamental aqui. É ela que estamos testando, e só
vamos rejeitá-la se tivermos evidências suficientes para isso.
Testes de hipóteses 3
A L F A C O N
Imaginem uma indústria de shampoo localizada no Brasil, um dos maiores consumidores de produtos de beleza e higiene
pessoal do mundo. Agora, vamos supor que a máquina que enche os frascos de shampoo tem uma variabilidade natural,
algo que é completamente normal em processos industriais. O papel da equipe de controle de qualidade é justamente
monitorar essa variabilidade para garantir que ela não exceda limites aceitáveis. Afinal, ninguém quer comprar um frasco
pela metade, não é mesmo?
Então, quando falamos de Erros, estamos entrando no terreno das probabilidades. Isso quer dizer que, mesmo com a
melhor intenção e o melhor procedimento técnico, ainda podemos errar, porque estamos trabalhando com amostras, e
não com a população inteira. A estatística é assim, meus caros, uma ciência que lida com a incerteza, e é por isso que
ela é tão fascinante e, ao mesmo tempo, desafiadora.
Agora, vamos nos aprofundar mais tecnicamente nessa história. Quando realizamos um teste de hipótese, estamos, na
verdade, fazendo uma afirmação sobre a população com base em uma amostra. O Erro Tipo I ocorre quando rejeitamos
a hipótese nula, mesmo ela sendo verdadeira. A probabilidade de cometer esse erro é denotada por alfa (α), que é o
nível de significância do teste. Agora, como concurseiros de elite, vocês precisam entender que a escolha do nível de
significância é crucial. Comumente, utilizamos níveis de 0,05 ou 0,01, indicando que estamos dispostos a aceitar um
erro de 5% ou 1%, respectivamente.
P(erro I) = α
Voltando ao nosso cenário, imagine que em um teste com uma amostra, foi apontado de que as máquinas estavam
colocando menos do que deveriam nos frascos de shampoo. Ou seja:
Depois de parar a produção, a análise mais aprofundada mostrou que a máquina estava, de fato, operando perfeitamente,
preenchendo os frascos com exatamente 500 ml. Neste ponto, vocês podem imaginar a cara do nosso diretor, não é?
A frustração de ter parado uma linha de produção inteira, os custos associados, e tudo isso por um erro estatístico Erro
Tipo I ,no qual rejeitamos a hipótese base, mesmo ela sendo verdadeira.
No erro tipo II, o que acontece é que você aceita a hipótese nula, quando, na verdade, a hipótese nula é falsa. E, para
tornar isso mais claro, vamos usar o exemplo dado anteriormente.
Agora, numa bela manhã, o diretor chega apressado e te conta que há reclamações sobre o volume dos frascos de
shampoo que estão sendo vendidos. Ele está muito preocupado, pois há informações de que, em vez dos 500 ml decla-
rados, os frascos têm menos que isso, o que pode gerar multas pesadas para a empresa.
Aí você, munido de todo seu conhecimento estatístico, decide conduzir um teste de hipótese para verificar a veracidade
dessas alegações. Você estabelece duas hipóteses: a hipótese nula (H0), que afirma que a média é 500 ml (como
deveria ser), e a hipótese alternativa (H1), que afirma que a média é menor que 500 ml.
H0: µ = 500
Para não termos que verificar todos os frascos da fábrica (porque seria inviável, não é mesmo?), você pega uma amos-
tra representativa para análise. Após a análise, os dados indicam que você deve aceitar a hipótese nula, ou seja, de
acordo com sua amostra, os frascos têm, em média, 500 ml. Você, então, passa essa informação para o diretor, que fica
mais tranquilo e decide enfrentar as reclamações, afirmando que os produtos estão de acordo com as especificações.
Testes de hipóteses 4
A L F A C O N
No entanto, aqui é onde a trama ganha uma reviravolta: algum tempo depois, uma investigação mais minuciosa, revela-se
que, na verdade, os frascos têm menos de 500 ml. Ou seja, a hipótese nula que você aceitou era falsa! Isso, meu caro
aluno, é o famoso erro tipo II: aceitar a hipótese nula quando, na verdade, ela é falsa.
Entender isso é crucial porque, como você já deve ter percebido, tanto o erro tipo I quanto o erro tipo II estão centrados
na hipótese nula. O teste de hipóteses sempre vai girar em torno da hipótese nula, é ela que está no centro do palco,
enquanto a hipótese alternativa fica à espera nos bastidores. Essa relação dinâmica entre essas duas hipóteses é fun-
damental para que você não se confunda durante o teste.
Agora, você deve estar se perguntando sobre as probabilidades desses erros ocorrerem, não é mesmo? Bem, aqui entra
o β (beta), que é a probabilidade de ocorrência do erro tipo II.
P(erro II) = β
Mas antes que você se desespere, vou te contar um segredo: calcular esse β não é uma tarefa fácil e, na maioria das
vezes, esse valor não é conhecido.
No entanto, é fundamental entender que ele existe e que não necessariamente a soma das probabilidades de ocorrên-
cia do erro tipo I (α) e do erro tipo II (β) é igual a 1 (ou 100%). Isso mesmo, pode ser que a soma dessas probabilidades
seja maior ou menor que 1. E isso é um ponto de atenção: muitas vezes, as bancas tentam pegar os candidatos nessa
armadilha, então já vai anotando aí para não esquecer!
Agora, sei que pode estar se perguntando: mas professor, e o cálculo do β, como fica? Bem, fica tranquilo, porque geral-
mente, você não vai ser solicitado a calcular o β nas provas. O que você precisa é entender o conceito, compreender
que ele existe e que representa a probabilidade de ocorrer um erro tipo II.
Então, para resumir e não deixar nenhuma dúvida: o erro tipo II ocorre quando aceitamos a hipótese nula, mas ela é, na
verdade, falsa. E a probabilidade dessa ocorrência é representada pelo β. Esse entendimento, meu caro concurseiro,
vai te ajudar a encarar as questões de teste de hipóteses com muito mais confiança!
Imaginem que vocês tenham uma missão crítica. Vocês têm duas hipóteses: uma é que a média de um certo grupo é 500
e a outra é que a média desse grupo é diferente de 500. Aqui, nós chamamos a primeira de hipótese nula, representada
como H0 e a segunda de hipótese alternativa, representada como H1.
Agora, o que fazemos é pegar uma amostra dessa população e analisar. Com base nessa análise, tomaremos uma
decisão: rejeitar ou não rejeitar a hipótese nula. É uma grande responsabilidade, não acham?
Vamos quebrar isso em pedaços para que não reste nenhuma dúvida. Primeiramente, precisamos entender o que é o
“poder do teste”. O poder, ou potência do teste, é basicamente a probabilidade de fazer a coisa certa, de rejeitar a
hipótese nula quando ela realmente é falsa.
Agora, imaginem que, após realizar o teste, vocês decidiram rejeitar a hipótese nula. E então, depois de algum tempo,
descobrem que fizeram a escolha certa! A hipótese nula realmente era falsa! Isso, queridos alunos, é um momento de
pura satisfação estatística.
Mas, e aqui é onde as coisas ficam interessantes, não é sempre que acertaremos. Existe uma chance de cometermos
um erro, que no mundo da estatística é chamado de erro tipo II, representado como β (beta).
O beta é a probabilidade de cometermos um erro ao não rejeitar a hipótese nula quando, na verdade, ela é falsa. Porém, e aqui
está o grande truque, o poder do teste é calculado como 1 - β, que é o complementar do erro tipo II. Estão acompanhando?
Poder = 1 - β
Testes de hipóteses 5
A L F A C O N
1.5 Resumo dos conceitos de testes de hipóteses: tipos de erros
E com isso, encerramos nossa jornada de hoje no mundo dos testes de hipóteses. Espero que essa explicação tenha
sido esclarecedora e que agora você esteja mais do que preparado para enfrentar as provas que virão pela frente. Mas
lembre-se, qualquer dúvida, estou aqui para te ajudar. Até a próxima, futuro servidor público!
Testes de hipóteses 6
A L F A C O N
Testes de hipóteses
Versão Condensada
Sumário
Testes de hipóteses������������������������������������������������������������������������������������������������������3
2
A L F A C O N
Testes de hipóteses
Olá, meus queridos alunos concurseiros! Prof. Leandro, aqui! Em nossos encontros anteriores, já conversamos bastante
sobre médias, não é mesmo? Hoje, vamos um pouco além e vamos abordar o teste de hipóteses, um método poderoso
que nos ajuda a fazer inferências sobre uma população com base em uma amostra.
Então, você deve estar se perguntando: “O que é uma hipótese estatística, professor?” Bem, é uma suposição que
fazemos sobre um parâmetro populacional, como a média. E aqui é onde a coisa fica interessante, pois vamos usar essa
suposição para formar duas hipóteses concorrentes: a hipótese nula (H0) e a hipótese alternativa (H1).
Por exemplo, podemos querer verificar se a média de uma população é igual a 100. Então, a nossa hipótese nula seria
que a média é igual a 100, e a alternativa, que ela é diferente de 100. Quando trabalhamos com essas hipóteses, esta-
mos conduzindo um teste bilateral. Isso quer dizer que estamos considerando a possibilidade de a média ser maior ou
menor que 100, não apenas uma dessas opções.
E aí, por onde começamos? Pela hipótese nula, que é nossa suposição inicial sobre um parâmetro populacional, que
vamos denotar como H0.
Dá uma olhada aqui nessa fórmula que você vai usar para calcular a estatística de teste, a famosa letra z:
ͫ x: a média da amostra;
ͫ µ0: a média sob a hipótese nula (a média que esperaríamos encontrar se H0 fosse verdadeira);
E aqui vai uma dica de ouro para você não se perder com tantas letras e símbolos: desmembre essa fórmula em partes
menores para entender cada pedacinho dela.
Entendo que pode parecer um pouco confuso agora, mas vamos esclarecer isso com um exemplo prático, beleza?
Imagina que temos uma população e não sabemos exatamente qual é a sua média, mas suspeitamos que pode ser 100.
Para verificar isso, pegamos uma amostra dessa população para análise. Se a média dessa amostra for muito distante
de 100 (seja para mais ou para menos), temos fortes evidências para rejeitar a hipótese nula em favor da alternativa.
Agora, vamos incrementar um pouco nosso exemplo: suponha que o desvio padrão da população (DP) seja 20 e a amostra
que retiramos possui 100 elementos. E, ao calcular a média da amostra, encontramos um valor de 120. Você deve estar
pensando: “Poxa, 120 é bem diferente de 100, não é?” E você estaria absolutamente correto! Mas antes de tomarmos
qualquer decisão, precisamos levar em consideração o erro padrão, uma medida da variabilidade nas amostras.
Testes de hipóteses 3
A L F A C O N
Calculando o erro padrão, que é o desvio padrão dividido pela raiz quadrada do número de elementos na amostra:
Neste caso, 20 dividido por √100, que resulta em 2, temos uma medida da dispersão das médias amostrais.
Agora, vamos falar de um elemento crucial em todo esse processo: a significância (α). Esse é o nível de erro que estamos
dispostos a aceitar. Normalmente, escolhemos um α = 5%. E aqui é onde as coisas ficam interessantes, porque essa
significância vai definir os limites dentro dos quais estamos dispostos a aceitar a hipótese nula. Então, digamos que,
com um α = 5%, os limites do nosso intervalo de aceitação sejam 95 e 105. A média da nossa amostra, 120, está fora
desse intervalo, então rejeitamos a hipótese nula em favor da alternativa.
1.1 Método 1
1. Margem de Aceitação: Agora você estabelece a margem de aceitação, que é denotada como Z multiplicada pelo
erro padrão (Z*EP). Você pode estar pensando que isso se parece muito com o intervalo de confiança, e sim, você
está correto. Este método utiliza o que você já conhece sobre intervalos de confiança e aplica ao teste de hipóteses.
Agora, preste atenção, o valor de “Z” é dependente do nível de significância escolhido, que no nosso caso é de 5%.
Importante lembrar que estamos fazendo um teste bilateral, pois na hipótese alternativa, a indicação é de uma diferença,
não de uma igualdade. Lembre-se também de que, ao falar de média, estamos lidando com uma distribuição normal,
que tem uma forma de sino.
Agora, considere que o valor de alfa, que é a significância, é dividido igualmente entre as duas caudas da distribuição.
Isso significa que cada cauda representa 2,5%, totalizando 5%. Portanto, o valor de “Z” que você utilizará não será
baseado em 5%, mas sim em 2,5%, ou 0,025. Esse valor representa a área em uma das caudas, e somando ambas as
caudas obtemos os 5% do total.
Prosseguindo, vamos calcular o valor da margem de erro. Utilizando o valor de Z = 1,96 (que corresponde a um nível
de significância de 2,5%), e o erro padrão já determinado, conseguimos encontrar o valor da margem de erro, que será
de 3,92.
2. Intervalo de Aceitação: Agora, vamos construir o intervalo de aceitação, que está diretamente relacionado à hipó-
tese nula, H0. No nosso caso, a média sob H0 é de 100. A margem de erro calculada foi de ±3,92. Isso nos leva a
um intervalo de aceitação de 96,08 a 103,92.
Se a média da nossa amostra cair dentro desse intervalo, aceitaremos a hipótese nula, pois a diferença não é estatis-
ticamente significativa. No entanto, se a média da amostra cair fora desse intervalo, entraremos em uma região crítica,
indicando que a diferença é significativa, levando à rejeição da hipótese nula em favor da alternativa.
Por exemplo, se obtivéssemos uma média de amostra de 110, isso estaria bem fora do nosso intervalo de aceitação,
caindo na região crítica. Isso seria uma forte evidência contra a hipótese nula, indicando que a média populacional
provavelmente não é 100.
Isso conclui o processo, se a média da amostra cai dentro do intervalo de aceitação, aceitamos a hipótese nula. Se cai
na região crítica, rejeitamos a hipótese nula e aceitamos a hipótese alternativa.
Testes de hipóteses 4
A L F A C O N
1.2 Método 2 – estatistica teste
Você se lembra daquela fórmula que discutimos anteriormente sobre a margem de erro e o erro padrão? Pois bem, estamos
prestes a revisitá-las e manipulá-las um pouco para encontrar nossa querida estatística, a letra z. Para começar, você
deve lembrar que o erro padrão é calculado como o desvio padrão dividido pela raiz quadrada do número de amostras.
O denominador dela é o erro padrão, que é calculado como . Isso aqui mede, basicamente, o quanto esperamos
que a média da amostra varie de uma amostra para outra. E o numerador? Bom, o numerador, X – µ0 é o quanto a nossa
média amostral se desviou da média que esperávamos sob H0. E o que queremos é justamente ver se esse desvio é
grande o suficiente para rejeitarmos H0, certo?
Mas agora vem uma parte superimportante: temos que comparar esse z que calculamos com um valor crítico, que vem
da nossa decisão sobre o nível de significância (α). Esse valor crítico é o tal do Ztabelado, que depende se estamos fazendo
um teste unilateral ou bilateral.
No caso do teste bilateral, que é o que estávamos discutindo aqui, temos que dividir o α por 2, porque estamos consi-
derando as duas caudas da distribuição normal. E então, pegamos o valor de z correspondente a α/2 nas tabelas que
temos disponíveis.
E é aqui que entra a regra de ouro que vai te guiar na hora da prova: se o valor de z que calculamos for menor ou igual
ao Ztabelado, aí mantemos H0, mas se for maior, rejeitamos H0. É uma regrinha simples, mas que é o coração do teste de
hipóteses.
No nosso caso, para α=0.05, Ztabelado =1.96. E, como você calculou, o valor de z foi 10, que é muito maior que 1.96. Então,
nesse caso, rejeitamos H0. E isso é uma conclusão bem forte, meu amigo!
Agora, vamos falar um pouco sobre o teste unilateral, que é um pouco diferente. Nele, só estamos interessados em
uma das caudas da distribuição, então não dividimos o α por 2. Dependendo da nossa hipótese alternativa, vamos olhar
para a cauda da esquerda ou da direita da distribuição. E a regra de decisão é parecida: comparamos o valor de z que
calculamos com o Ztabelado, mas agora só de um lado.
E olha, eu sei que é muita coisa, mas com a prática, isso vai ficando cada vez mais claro. Não desanime e continue firme
nos estudos! Lembre-se sempre de revisar os conceitos e praticar bastante com exercícios.
Testes de hipóteses 5
A L F A C O N
Testes de Hipóteses
Versão Condensada
Sumário
Testes de Hipóteses������������������������������������������������������������������������������������������������������3
2
A L F A C O N
Testes de Hipóteses
Olá, meus queridos alunos concurseiros! Prof. Leandro, aqui! Hoje vamos explorar passo a passo o conceito de Teste de
Hipóteses para Proporção, de forma aprofundada e prática, para que você possa compreender e aplicar esses conheci-
mentos nos seus estudos para concursos. Neste momento, iremos destrinchar uma situação hipotética a partir de uma
transcrição que apresenta os fundamentos desse tipo de teste de hipótese.
Primeiramente, para entender a ideia central do teste de hipótese para proporção, você precisa saber que temos duas
hipóteses mutuamente excludentes - a hipótese nula, denotada por H0, e a hipótese alternativa, denotada por H1. A
hipótese nula sugere que a proporção de indivíduos que possuem uma determinada característica é igual a um valor
específico (x), enquanto a hipótese alternativa propõe que a proporção é diferente desse valor x.
Entendendo que essas hipóteses se autoexcluem, o processo começa com a coleta de uma amostra da população, na
qual calculamos a proporção de indivíduos com a característica em questão. Com base nessa amostra, decidimos aceitar
ou rejeitar a hipótese nula. Para ilustrar isso, imagine que estamos investigando a seguinte situação:
Nesta situação, coletamos uma amostra aleatória de 100 indivíduos e encontramos uma proporção de 14%. Agora, com
uma significância de 5%, precisamos decidir se aceitamos ou rejeitamos a hipótese nula.
Primeiro, calculamos o erro padrão da proporção amostral. A fórmula para calcular o erro padrão é a seguinte:
Onde:
ͫ n é o tamanho da amostra.
Testes de Hipóteses 3
A L F A C O N
Substituindo os valore teremos:
Onde:
ͫ Z é o valor crítico de uma distribuição normal padrão, que é determinado com base no nível de significância (α)
do teste. Como o nosso teste é bilateral (diferente de) e temos um nível de significância de 5%, dividimos esse
valor entre as duas caudas da distribuição, resultando em 2,5% em cada cauda. O valor z correspondente a 2,5%
é aproximadamente 1,96.
Com essa margem de erro, podemos calcular o intervalo de aceitação, que é dado por:
Testes de Hipóteses 4
A L F A C O N
Passo 4: Tomada de decisão
Agora, observamos a proporção encontrada na nossa amostra, que é 12% (ou 0,12). Como 0,12 está dentro do nosso
intervalo de aceitação [0,0412; 0,1588], nós não rejeitamos a hipótese nula.
Nesse caso, você pode afirmar, com um nível de confiança de 95%, que a diferença observada na proporção amostral
(12%) não é estatisticamente significativa e que não há evidências suficientes para rejeitar a hipótese nula de que a
proporção verdadeira seja de 10%.
Agora, meu caro concurseiro, vamos para o segundo método, o qual pode ser considerado o coração de muitas questões
de alternativa: a técnica da estatística teste, ou como é popularmente conhecida, o Z calculado. E, acredite, entender
esta técnica pode ser seu passaporte para conquistar aquela vaga almejada. Então, não quero que vocês apenas deco-
rem, mas sim compreendam cada passo.
Antes de mergulharmos no cálculo do Z, é importante relembrar o conceito de margem de erro, que vocês já aprenderam
que é igual ao valor da letra Z multiplicado pelo erro padrão (ε = Z ⋅ EP), não é mesmo? Isso vai nos guiar na formulação
da técnica da estatística teste.
No entanto, agora estamos em uma missão um pouco diferente: queremos calcular o valor da letra Z. Para isso, vamos
isolar o Z na nossa fórmula, passando o erro padrão que está multiplicando para dividindo. Ficaria assim:
Agora você deve estar se perguntando: “Mas professor, o que seria a margem de erro neste caso?”. Excelente pergunta,
meu caro aluno. A margem de erro aqui será a diferença entre a proporção encontrada na amostra () e a proporção da
hipótese nula (p). E aqui é que reside a magia da estatística, a capacidade de comparar a realidade de uma amostra
com uma hipótese estabelecida previamente.
Vamos falar um pouco sobre o erro padrão da proporção amostral, que é calculado como a raiz quadrada da multipli-
^) pelo complemento desta proporção (q), dividido pelo número de elementos na
cação da proporção da hipótese nula (p
amostra (n). A fórmula do erro padrão ficaria assim:
Testes de Hipóteses 5
A L F A C O N
Com esses elementos, já conseguimos calcular o valor da letra z, que ficará assim:
Onde:
Agora, vamos colocar a mão na massa e aplicar nossa fórmula em um exemplo prático. Suponhamos que encontramos
uma proporção de 12% na nossa amostra e queremos testar contra uma hipótese nula de 10%. Substituindo os valores
na fórmula, teríamos:
Depois de resolver as operações, encontramos que Z ≈ 0.66666..., uma dízima periódica que pode ser aproximada para
0.67. Mas como saber se aceitamos ou rejeitamos a hipótese nula com esse resultado?
Aqui entra a significância de 5%, que será dividida em duas caudas, cada uma com 2,5%, já que nosso teste é bicau-
dal. Numa distribuição normal, isso nos dá valores críticos de ±1.96 para Z. Se o Zcalculado estiver fora desse intervalo,
rejeitamos a hipótese nula. Neste caso, 0,67 está dentro do intervalo, indicando que devemos aceitar a hipótese nula.
Você pode estar se perguntando qual técnica usar: essa ou a que aprendemos anteriormente? A resposta é ambas! Exis-
tem questões que exigem conhecimento de ambas as técnicas, então dominá-las pode ser seu trunfo no dia da prova.
Encerramos aqui nossa aula de hoje, e espero que estejam sentindo-se mais confiantes com esse conteúdo. Lembrem-se:
o segredo está em compreender e não apenas decorar. Um grande abraço e até a próxima, futuros servidores públicos!
Testes de Hipóteses 6
A L F A C O N
Testes de Hipóteses
Versão Condensada
Sumário
Testes de Hipóteses������������������������������������������������������������������������������������������������������3
1. P-Valor��������������������������������������������������������������������������������������������������������������������������������������������������������������������� 3
2
A L F A C O N
Testes de Hipóteses
1. P-Valor
Olá, guerreiros e guerreiras dos concursos! Prof. Leandro, aqui! Hoje, temos um encontro marcado com um dos temas
mais instigantes e cruciais da estatística: o Teste de Hipóteses e, mais especificamente, vamos mergulhar fundo no
mundo do p-valor. Coloque a ansiedade de lado e vamos juntos desvendar esse universo. Preparado? Então, vem comigo!
Deixe-me dizer que o p-valor é um dos seus melhores amigos quando o assunto é Teste de Hipóteses. É ele que vai
te ajudar a validar ou não a famosa hipótese nula. E não se preocupe, vamos juntos construir um entendimento sólido
sobre isso. Então, pode abrir um sorrisão aí porque estamos juntos nessa jornada!
Agora, vamos definir com muito carinho o que é o p-valor. Ele também é conhecido como nível descritivo ou probabi-
lidade de significância. E aqui vai uma dica de ouro: guarde com carinho a definição que vou te apresentar agora, ela
será sua grande aliada em questões teóricas. Vamos lá:
ͫ P-valor é a probabilidade de você obter um resultado igual ou até mais extremo do que o que você observou
em seu teste, ou seja, o valor que você conseguiu na sua amostra.
Vamos agora dar uma aprofundada e explorar algumas consequências e nuances que derivam da definição do p-valor.
Uma maneira mais informal de entender o p-valor é que ele representa o menor nível de significância com o qual você
rejeitaria a hipótese nula. Mas atenção, essa é uma tradução do significado e não uma definição formal, ok?
Vou te contar mais um segredo: um p-valor pequeno indica que a probabilidade de obter um valor da estatística de
teste, como o observado, é muito improvável. E isso acende um sinal de alerta para a rejeição da hipótese nula (H0).
Sei que até agora parece muita informação, mas calma que agora vou te mostrar o caminho das pedras. Vamos traçar
um esquema que vai facilitar muito a sua compreensão sobre como usar o p-valor na prática.
Imagine que você está conduzindo um teste de hipóteses, uma missão quase que de detetive. Pois bem, com algumas
ferramentas e procedimentos simples que vou te ensinar, você conseguirá calcular o tão falado p-valor. E adivinha? Com
ele em mãos, você poderá, com apenas um olhar, decidir se aceita ou rejeita a hipótese nula.
Aqui vai a regra de ouro: se o p-valor for menor que o valor da significância (α), você deve rejeitar a hipótese nula. Grave
isso no seu coração! Agora, se o p-valor for maior ou igual ao valor da significância, você deve aceitar a hipótese nula.
Simples assim!
Testes de Hipóteses 3
A L F A C O N
A regra é clara:
ͫ Se o p-valor é menor que o nível de significância (alfa), nós rejeitamos a hipótese nula.
ͫ Se o p-valor é maior ou igual ao nível de significância (alfa), nós falhamos em rejeitar a hipótese nula.
Vamos colocar em prática tudo o que aprendemos até aqui com um exemplo que preparei especialmente para você.
Imagine que em um teste de hipótese você obteve um p-valor igual a 0.04 (ou 4%, como queira). Agora, você precisa
comparar isso com níveis de significância de 1% e de 5% para decidir sobre a hipótese nula. Vamos lá?
Você vai comparar o seu p-valor (0.04 ou 4%) com os níveis de significância apresentados. Se o p-valor for menor que
a significância, rejeite a hipótese nula. Se for maior ou igual, aceite a hipótese nula.
Vamos lá:
O p-valor (0.04) é maior que a significância (0.01), então aceitamos a hipótese nula.
O p-valor (0.04) é menor que a significância (0.05), então rejeitamos a hipótese nula.
Você percebeu como a coisa toda é quase como um jogo de “maior ou menor” como demonstrado no esquema acima?
E acredite, com a prática, isso se tornará cada vez mais natural para você!
Para garantir que você nunca mais esqueça como interpretar o p-valor, vou te mostrar uma maneira visual e bastante
intuitiva de compreendê-lo. Vamos desenhar nossa distribuição normal, que parece um sino, lembram?
Vamos começar considerando um nível de significância de 1%. Nesta distribuição, a região crítica é representada pela
calda que possui 1% da área total sob a curva. Agora, para o nosso p-valor de 4%, vamos colorir uma área que corres-
ponde a 4% na mesma distribuição. Você verá que esta área (4%) está fora da região crítica de 1%, o que significa que
aceitamos a hipótese nula neste caso.
Testes de Hipóteses 4
A L F A C O N
Agora, vamos considerar um nível de significância de 5%. Desta vez, a região crítica é mais ampla, cobrindo 5% da área
sob a curva. Nosso p-valor de 4% agora cai dentro desta região crítica, indicando que devemos rejeitar a hipótese nula.
Agora, queridos alunos, uma dica de ouro para nunca mais esquecer como trabalhar com p-valores na hora da prova:
1. Desenhe a Distribuição Normal: Comece sempre desenhando sua distribuição normal e marcando a região crítica
com base no nível de significância dado.
3. Análise Visual: Faça uma análise visual rápida. Se o p-valor cair dentro da região crítica, rejeite a hipótese nula. Se
ele cair fora da região crítica, aceite a hipótese nula.
Agora, você tem uma ferramenta visual poderosa para trabalhar com p-valores e testes de hipóteses. Acredito que, com
essa técnica, você estará muito mais preparado para enfrentar questões sobre este tema no seu concurso.
Vamos visualizar isso com um exemplo prático. Suponhamos que temos um p-valor de 8% e um nível de significância
de 5%. O que isso significa? Bom, aqui, nosso p-valor é maior que nosso alfa, o que sugere que devemos aceitar a
hipótese nula.
Agora, o que aconteceria se tivéssemos um nível de significância de 10%? A análise aqui seria um pouco diferente,
certo? Com = 10%, temos uma região crítica maior, e nosso p-valor de 8% cai dentro dessa região crítica. Assim, com
uma significância de 10%, nós rejeitaríamos a hipótese nula, mostrando que a escolha de alfa pode realmente mudar
nossas conclusões.
Testes de Hipóteses 5
A L F A C O N
Para facilitar ainda mais a sua compreensão, vamos considerar mais alguns exemplos. Imagine que recebemos um p-valor
de 3%. Se tivermos uma significância de 1%, acabaremos aceitando a hipótese nula, pois o p-valor é maior que o alfa.
Mas, se nossa significância for de 5%, aí a história é diferente, certo? Com um p-valor menor que o alfa, rejeitamos a
hipótese nula.
Espero que isso tenha ajudado a esclarecer um pouco mais sobre o assunto! Se tiver mais perguntas, não hesite em
perguntar.
Testes de Hipóteses 6
A L F A C O N