Escolar Documentos
Profissional Documentos
Cultura Documentos
- Há 2 tipos principais:
categóricas (qualitativas)
e numéricas
(quantitativas).
• Suponha que numa sala de cinema haja nove pessoas com idades, em
• anos: 8, 9, 10, 10, 11, 11, 11, 13 e 76.
mediana = 11
• A média descreve melhor seus ganhos (e é ela que afeta seu saldo bancário).
MODA
• Moda é o valor mais frequente, o que mais aparece.
• Valor que “está na moda”.
1: 70 – 30 = 40 anos
Calculem as demais:
• 2: 70 – 30 = 40 anos
• 3: 59 – 42 = 18 anos
Variância
Variância é uma das medidas mais importantes dentro da estatística.
• É usada para calcular o desvio-padrão que é, provavelmente, a medida de variabilidade mais
usada e famosa.
• Quando usamos a média aritmética como medida de tendência central podemos querer
saber como as observações se distribuem em torno da média.
• A variância permite calcular essa dispersão.
Variabilidade em gráfico
• O box-plot (diagrama de caixa) é um gráfico que permite termos uma ideia de
variabilidade (distância interquartílica) bem como de medidas de tendência central
(mediana), valores mínimo e máximo e
outliers (valores discrepantes).
• Ele é útil para se ter uma visão geral dos dados e é mais resistente à valores
discrepantes.
• Mas para aprendermos sobre box-plot precisamos entender o conceito de quartil.
• A mediana divide um conjunto de dados (ordenados) em
duas metades iguais: a inferior (que contém os dados
menores que a mediana) e a superior (que contém os dados
maiores que a mediana).
• Mínimo = 30
• Máximo = 70
• Mediana = 50
Box-plot • Máximo = 59
• Mediana = 50
• Primeiro quartil = 46,5
• Terceiro quartil = 53,5
• DI = 53,5 – 46,5 = 7.
• Se fizermos para os 3 exemplos
Exercício
• Crie uma tabela fictícia de dados e treine calcular no excel.
• Média
• Desvio padrão
• Coeficiente de variação
Exemplo de organização no Excel
Aula 4:
Probabilidade
probabilidade
• • Regras da probabilidade (axiomas):
• 1 – Probabilidade é um valor numérico entre zero e 1,
inclusive.
• Probabilidade=0 e evento impossível. Probabilidade=1 e
evento certo.
• 2 – A soma de todas as probabilidades de todos os
eventos possíveis é igual a 1. Probabilidade do universo
ocorrer é igual a 1.
• 3 – A probabilidade de um evento ocorrer é 1 menos a
probabilidade desse evento não ocorrer
(complemento).
Probabilidade
• Exemplo: Quando um indivíduo produz um gameta, somente um alelo de cada par é transmitido
para esse gameta. Cada filho recebe o seu ao acaso.
• O acaso não é um conceito vago – ele pode ser expresso quantitativamente em termos de
probabilidade.
• “A probabilidade de um evento ocorrer, independe de ter esse evento ocorrido em tentativas
anteriores”
• Ex: Qual a probabilidade de sair o número 4 em um dado: 1/6
• - Qual a probabilidade, em um outro dia, ao jogar o dado, de sair o número 4 outra vez?
• Os dois eventos são independentes, logo 1/6
Probabilidade
• 1° Princípio
• “A probabilidade de dois eventos independentes ocorrerem juntos é o produto das
probabilidades ocorrerem separadamente”. Esse princípio é conhecido como a regra do E.
• Se atirarmos duas vezes um dado, qual a probabilidade de obtermos o número 4 em ambas as
jogadas?
• 1/6 * 1/6 = 1/36
•
• Suponha que se jogue uma moeda duas vezes, qual a probabilidade de obter duas caras?
• 1/2 * 1/2 = 1/4
Probabilidade
• 2° Princípio
• “A ocorrência de dois eventos que se excluem mutualmente é igual a soma das
probabilidades com que cada evento ocorre”. Esse princípio é conhecido como a regra do ou.
• Qual a probabilidade de ocorrer a face 1 ou a face 6 no lançamento de um dado?
• 1/6 + 1/6 = 2/6
• Se atirarmos uma moeda, qual a probabilidade de obter cara ou coroa?
• 1/2 + 1/2 = 1
Exercício
• Onde:
𝑃 • n = número total de eventos
𝑛! 𝑠 𝑡
= 𝑥 𝑝 𝑥 𝑞 • p = probabilidade de um dos eventos
𝑠! 𝑡! • q = probabilidade do outro evento
• s = número de vezes que ocorre p
• t = número de vezes que ocorre q
Exemplo
Em uma ninhada de 8 coelhos, filhos de um casal de pelos curtos, heterozigotos, qual é a
probabilidade de serem 5 de pelos curtos e 3 de pelos longos?
8! 3 5 1 3
𝑃= 𝑥 𝑥 =
5!3! 4 4
P = 8*7*6*5*4*3*2*1 x (3 * 3 * 3 * 3 * 3) x (1 * 1 * 1) =
5*4*3*2*1*3*2*1 4*4*4*4*4 4*4*4
Aula 6:
Amostragem e
Distribuição
Amostral
População e amostra
• Você precisa provar a sopa toda para saber se ela está boa?
• Precisa tomar toda a garrafa de vinho para saber se é bom?
Uma amostra de tamanho n é do tipo aleatória simples (ou casual simples) se for composta por n
unidades retiradas ao acaso da população.
• Obtém-se, por exemplo, por meio de sorteio.
• Não dá para colocar todo mundo na amostra, mas todo mundo teve a MESMA chance de fazer parte
dela (representatividade).
• Precisa-se ter acesso a toda a população para esse tipo de amostragem (o que raramente é possível).
• Exemplo: obter uma amostra de tamanho igual a 10 dentro da população de 500 pacientes para avaliar
atendimento em um hospital.
• Solução: sorteio. Anotar nomes/códigos dos pacientes, colocar numa urna/saco, agitar e retirar 10
nomes.
AMOSTRA PROBABILÍSTICA ESTRATIFICADA
• EX: Em uma fábrica de lâmpadas, a cada 100 peças produzidas, uma é retirada para
teste
• A área da população é dividida
AMOSTRA PROBABILÍSTICA em seções (ou
conglomerados, ex.: bairros,
POR CONGLOMERADOS quarteirões). Os
conglomerados são
Amostra por conglomerados: algumas unidades selecionados aleatoriamente.
estão, por alguma razão divididas em Dentro de um conglomerado,
conglomerados. todos os elementos são
amostrados.
• Diferença entre o resultado da amostra e o verdadeiro valor da população. Ocorre pois as amostras são
aleatórias!
• Cada vez que uma amostra aleatória for retirada de uma população, um resultado diferente será
observado
• Selecione uma amostra de tamanho n=5 das idades dos estudantes de uma sala:
22, 21, 24, 23, 20, 22, 21, 25, 24, 24, 23, 19, 25, 24, 23, 23, 20, 21, 23, 20, 23, 22, 23,
23, 25, 25, 20, 23, 24, 20
• Repita 5vezes (tente ser o mais aleatório possível!), calcule a média de cada amostra e compare com a
média populacional µ=22,5
Erros amostrais
O que isso nos diz a respeito das médias amostrais?
TAMANHO DA AMOSTRA
Amostras devem ser bem representativas da população que foram retiradas.
Bom senso
• Amostras pequenas são ruins porque não representam adequadamente a população de onde
vieram.
• Amostras grandes também são ruins porque se tornam caras, demoradas ou impraticáveis.
Há várias calculadoras de tamanho amostral, uma para cada teste estatístico/objetivo de estudo.
• Na prática o que se deve fazer é ver na literatura da sua área os tamanhos amostrais mais usados e
avaliar qual seu orçamento/tempo/mão de obra disponíveis para coletá-la.
• E tenha em mente que o cálculo amostral (e mesmo a interpretação dos testes estatísticos)
dependem do conhecimento da variável de estudo e da sua área de atuação e não somente das
técnicas estatísticas.
• Na aula anterior vimos que os
histogramas podem ser utilizados
para se ter uma ideia da distribuição
de probabilidade da variável
estudada.
• Características:
• Curva em forma de sino;
• Seus parâmetros são a média e o desvio-padrão;
• Média, mediana e moda coincidem e estão no centro da
distribuição;
• Simetria em torno da média/mediana/moda: 50% dos valores
da variável aleatória X são iguais ou maiores do que a média e
50% de seus valores são iguais ou menores do que a média;
• A curva abriga toda a população (100% dos valores).
Distribuição normal
Intervalar
Estimação Pontual
• A estimativa pontual é um valor obtido a partir dos resultados (dados) de
uma variável aleatória de uma amostra representativa extraída da
população.
4−7 2 + 10−7 2
Variância: 𝑠’ =
1
= 18
Erro-padrão:
• Logo, a média da amostra, 7, esta 3 unidades longe da média populacional que é 10.
Intervalos de Confiança
• Anteriormente vimos o conceito de distribuição de amostras.
• Vimos que cada amostra pode, por puro acaso, conter observações diferentes da
população e, assim, as estatísticas calculadas variam de amostra para amostra.
• Até podemos usar essa estatística como estimativa do parâmetro (estimação por ponto)
mas como cada amostra fornece um valor e o parâmetro é um só e fixo, acabamos por ter
um problema.
Para contornar isso podemos calcular uma medida que junta a estimativa do parâmetro de
interesse (por exemplo, a média) com uma medida de erro e assim conseguir fazer
inferência.
• Vamos utilizar o cálculo da média mais o erro-padrão para criar essa medida.
• Essa medida é o intervalo de confiança (IC).
Intervalos de Confiança
O IC é um intervalo de valores que possui alta probabilidade de conter a média da
população.
• O IC fornece a amplitude dos valores que, com probabilidade especificada, contém o
parâmetro de interesse.
• O IC contém duas medidas: nível de confiança e margem de erro.
Intervalos de Confiança
• Nível de confiança diz quão certo você pode estar. Se você calcular o intervalo de
confiança para muitas amostras a maioria desses intervalos irá conter o valor da
população. Outra definição: porcentagem esperada de amostras que incluem o
parâmetro de todas as amostras possíveis.
• Margem de erro é o símbolo de ± que se vê nos números estimados em intensão de
voto. É uma medida de “precisão” do valor que está querendo encontrar. É a metade da
amplitude do intervalo de confiança.
Intervalos de Confiança
• • Para a média, um IC a 95% é calculado por meio da formula:
• • 𝑥̅ ― 1,96𝑠 𝑥̅
• Em que: 𝑥̅ é a media,
• 1,96 é o valor associado a 95% e
• 𝑠𝑥̅ é o erro padrão da média.
Intervalos de Confiança
Exemplo: Média de pressão sanguínea sistólica de 100 alunos foi 120,3mmHg com desvio-
padrão de 14mmHg. Qual confiança pode-se ter nesta estimativa?
• Solução:
• Adotando um nível de confiança de 95% e margem de erro de 5% temos:
14
120,3 ― 1,96× = 120,3 − 1,96×1,4 = 120,3 ± 2,74
100
• As decisões são tomadas com base em amostra dos fatos, logo é passível de erro. Quais são os
erros associados com as decisões?
Teste de Hipóteses
Em ciências a ideia é a mesma.
• Exemplo: imagine que quer saber se uma moeda é justa.
• Hipótese inicial (nula = H0): é justa (não viesada) P(cara)=0,5
• Hipótese alternativa (H1): não é justa (é viesada) P(cara)≠0,5
Teste de Hipóteses
Eu assumi que a moeda era justa (assumi H0 verdadeiro).
• Logo, se eu lançar a moeda 100 vezes quantas “caras” deve aparecer?
• 50
• Realizei um experimento: lancei a moeda 100 vezes e obtive 48 caras.
• Com base nesse resultado mantenho que a moeda e justa ou rejeito essa
hipótese?
• Essa diferença de 2 pontos e porque a moeda e injusta ou foi por acaso?
• Essa diferença de 2 pontos e grande o suficiente para eu concluir que a
moeda nao presta?
Teste de Hipóteses
• Suponha que no dia seguinte lancei a mesma moeda 100 vezes e
obteve 5 caras.
• E agora? Mantenho H0 ou rejeito-a?
Teste de Hipóteses
• E o famoso p-value ou p-valor ?
• O p-valor mede a probabilidade de se obter um resultado pelo menos
tão extremo quanto o observado dado que H0 é verdadeiro.
• O p-valor diz o quão provável seria obter uma amostra tal qual a que
foi obtida quando a hipótese da nulidade é verdadeira.
P- valor
• Princípios do p-valor:
1.PODE indicar a incompatibilidade dos dados com o modelo testado.
2.NÃO mede a probabilidade de que a hipótese estudada seja verdadeira nem a
probabilidade de que os dados foram gerados somente pelo acaso.
3.Conclusões científicas e outras tomadas de decisão não devem ser baseadas somente se
um p-valor está abaixo de um nível de significância previamente escolhido.
4.Inferência apropriada requer relato completo dos resultados e transparência.
5.Um p-valor, ou significância estatística, não mede o tamanho do efeito ou a importância
do resultado.
6.O p-valor sozinho não fornece uma boa medida de evidência dado a hipótese estudada
no modelo.
Teste qui-quadrado
• O Teste Qui-Quadrado e um teste simples e famoso utilizado para
avaliar associações entre duas variáveis categóricas.
• E comumente aplicado em Tabelas de Contingência.
• A Tabela de Contingencia e uma tabela de frequências em que os
valores (níveis/categorias) de uma variável categórica e cruzada com os
valores da outra variável categórica que se quer verificar associação.
Teste qui-quadrado
Exemplo: suponha que um pesquisador especula que as mulheres
fumem mais que os homens. Ele foi a campo e entrevistou 1091
pessoas e mediu apenas duas variáveis: sexo (com categorias homem
e Mulher) e tabagismo (Se fuma ou não fuma).
• Anderson-Darling test
• D’Agostino-Pearson amnibus normality test
• Shapiro-Wilk normality test
• Kolmogorov-Smirnov normality test.
Teste para avaliar normalidade
• Esses ensaios são limitados aos valores que foram inseridos, não tem
uma visão ampla do projeto.
Teste para avaliar normalidade