Você está na página 1de 150

Bioestatística I

Prof. Dr. Ricardo Andrade Furtado


• Aula 1: Introdução à Estatística
• Aula 2: Organização e Apresentação de Dados
• Aula 3: Medidas de Dispersão
• Aula 4: Probabilidade
• Aula 5: Distribuições de Probabilidade
Cronograma • Aula 6: Amostragem e Distribuição Amostral
• Aula 7: Estimação Pontual e Intervalar
• Aula 8: Testes de Hipóteses
• Aula 9: Correlação
• Aula 10: Revisão e Aplicações
1-
Introdução
O QUE É ESTATÍSTICA?
• Estatística é o estudo e uso de teoria e métodos
para a análise de dados que surgem de processos
ou fenômenos aleatórios.

• Pode-se dividir em estatística teórica e estatística


aplicada (prática).
• A estatística teórica envolve o desenvolvimento,
demonstrações e a base matemática. As técnicas
estatísticas são o objeto de estudo da estatística
teórica.
• A estatística aplicada é a aplicação dos conceitos e
técnicas. Estas não são objeto de estudo mas sim
ferramentas para se estudar e compreender
fenômenos de outros assuntos
O QUE É
ESTATÍSTICA?

• A estatística possui métodos para:


coletar, organizar, analisar,
interpretar e fazer inferência.

• Resumindo, é o estudo de como


tiramos informações dos dados.

• Como fazemos eles fazerem


sentido.
Quase todos os dias vc está exposto a
estatística:
Conjuntos de dados
Dados são obtidos em conjuntos

Conjuntos são chamados de população e amostra:

População ➔ conjuntos de todos os elementos como resultados,


medições ou contagens a serem estudados
Amostra➔ é um subconjunto, ou uma parte representativa, de
uma população.
Dois termos
importantes
• Parâmetro é uma descrição
numérica de uma
característica populacional
• Estatística é uma descrição
numérica de uma
característica amostral
RAMOS DA
ESTATÍSTICA
• Há dois ramos: descritiva e inferencial.

• Descritiva: ferramentas para organizar, resumir um banco de


dados.
Exemplo: proporções, médias, desvios-padrão.

• Inferencial: usar informação de uma amostra para se fazer


inferência a respeito da população da qual ela foi tirada.
Exemplo: intervalo de confiança e teste de hipóteses.
• Qual ramo você vai utilizar depende dos objetivos do estudo.
TIPOS DE VARIÁVEIS
• O que é uma variável?

- É o objeto de estudo da estatística.


- É a característica de interesse medida em cada
observação.
- É o que anotamos, contamos ou medimos.
- E como diz o nome, varia de observação para
observação.
• Quantos tipos de variáveis há?

- Há 2 tipos principais:
categóricas (qualitativas)
e numéricas
(quantitativas).

• Categóricas ou qualitativas: • Numéricas ou


qualidades, nomes, quantitativas: contáveis,
categorias. mensuráveis, números.
• Dependendo das circunstâncias, variáveis
TIPOS DE numéricas podem se tornar categóricas.
VARIÁVEIS • Por exemplo, idade, é numérica (1, 2, 3 anos de
idade, etc). Mas se a transformarmos em faixa
etária (de 0 a 5, de 6 a 10, etc), torna-se categórica
ordinal.

• Há também situações em que a maneira como se


escreve ou codifica uma variável pode sugerir um
tipo diferente de variável.
• Por exemplo, a variável sexo pode ser “homem” ou
“mulher”. Mas dependendo da maneira como se
registra os dados ou do pacotes estatístico, pode
ser escrito “1” para homen e “2” para mulher.
Atividade
• Identificar o tipo de dado (nominal, ordinal, discreto ou contínuo)
para diferentes conjuntos de informações relacionadas à saúde.

Grupo Nível de Número de Número de


Paciente Gênero Sanguineo Gravidade dor consultas filhos Peso Idade
1 M A LEVE 2 3 0 80 45
2 M A LEVE 1 1 2 90,2 40
3 F AB GRAVE 8 3 2 58,9 52
4 F O MODERADO 4 1 3 67,2 33
5 M B MODERADO 5 2 0 78 18
• Gráficos (chamados de figuras pelas revistas
científicas) são excelentes recursos que são utilizados
para descrever variáveis.

Há vários tipos mas sempre descrevem a variável por


meio da frequência (absoluta ou relativa).
2 - Organização e • Para variáveis categóricas o gráfico descreve as
frequências das categorias avaliadas.
apresentação de
• Para variáveis numéricas o gráfico descreve as
dados frequências dos valores registrados ou possíveis
(teóricos). É possível verificar valores médios e a
dispersão dos dados.

• Assim, para a construção do gráfico sempre devemos


ter em mãos a tabela de distribuição de frequências
da variável de interesse.
• Suponha que como gestor você tem disponível uma
TABELAS DE tabela de dados.
FREQUÊNCIAS • Estes são os dados brutos, ou seja, as informações
diretas dos funcionários que eles forneceram ou que
você observou/coletou como gestor.
• Cada coluna representa uma variável e cada variável
descreve uma dimensão daquele grupo de indivíduos
dentro do contexto/problema que você está
estudando.

• Olhe o exemplo a seguir:


Tabela de distribuição de frequências
• Uma ferramenta útil para facilitar essa análise é a tabela de distribuição de
frequências.

• Essa tabela apresenta todos os possíveis valores da variável em questão e quantas


vezes esses valores aparecem.
• Assim consegue-se observar como as observações se distribuem ao longo dos
possíveis valores.

• Para variáveis categóricas construímos a tabela apresentando a frequência absoluta


(N) e a frequência relativa (%).
• Frequência absoluta, ou simplesmente frequência, é a contagem, ou seja, de quantas
vezes aquele valor aparece nos dados.
• Frequência relativa é a proporção de unidades em cata categoria.
Tabela de distribuição de frequências para variável
categórica

𝐹𝑟𝑒𝑞𝑢e𝑛𝑐𝑖𝑎 𝑟𝑒𝑙𝑎𝑡𝑖𝑣𝑎 = Frequência absoluta/


tamanho da amostra
Tabela de distribuição de frequências para
variável numérica discreta
Para variáveis numéricas discretas
construímos a tabela da mesma
forma que para dados categóricos
apresentando a frequência absoluta
(N) e a frequência relativa (%).

• A diferença é que como os valores


são numéricos, por convenção
apresentamos os valores ordenados
do menor para o maior e sem
repetir os valores.
Variáveis numéricas contínuas

• Para as variáveis numéricas contínuas


também podemos construir tabelas de
distribuição de frequências

• Pelo elevado número de observações e


por causa de sua natureza contínua
construímos intervalos de valores
chamados classes.
Passos para criar as classes e a tabela de distribuição
de frequências para variáveis contínuas:
1 – Encontre os valores mínimo e máximo.

2 – Calcule a amplitude que é a diferença entre os valores máximo e mínimo.

3 – Escolha o número de classes. Vamos escolher “X” classes.

4 – Dividir a amplitude pelo número de classes para saber o tamanho delas.

5 – Arredonde o valor obtido para cima para obter o intervalo de classe.


6 - Criar as classes que contenham o tamanho do intervalo de classe. Sempre partindo do menor
valor possível.
7 - Construímos classes fechadas de um lado e abertas de outro: 10 ⊢ 20
Gráficos

Regras gerais para todos os gráficos:


- Todo gráfico deve ter título e apresentar as unidades (ou escalas).
- O título deve estar acima do gráfico. Em revistas geralmente são chamados de figuras, neste
caso o título fica abaixo.
- As unidades (escalas) devem aumentar da esquerda para a direita e de cima para baixo
(como no plano cartesiano).
- Legendas que explicam as categorias devem ser posicionadas, preferencialmente, à direita.
- Todos os gráficos devem ser citados no texto e numerados na ordem em que são citados.
GRÁFICOS PARA VARIÁVEIS
CATEGÓRICAS

• GRÁFICO DE BARRAS GRÁFICO DE SETORES (PIZZA)


GRÁFICOS PARA VARIÁVEIS
NUMÉRICAS

• Histograma é o gráfico para variáveis numéricas.


• Pode-se construir histogramas para variáveis discretas
ou contínuas.
• Geralmente utilizado quando o volume de dados é
grande.
• É semelhante ao gráfico de barras mas no histograma
os retângulos (barras) são juntos, a base fica no
intervalo de classe e sua área é proporcional à
frequência que representa.
• A área total do histograma é 100%.
HISTOGRAMA

1. Trace os eixos (vertical e horizontal).


2. Coloque as classes no eixo horizontal. Se os intervalos de classe
foram iguais (preferível) os retângulos têm a mesma largura.
3. Desenhe os retângulos com altura igual à frequência (ou frequência
relativa) da respectiva classe.
4. Desenhe as barras justapostas para representar a natureza numérica da
variável.
5. Coloque rótulos e títulos.
• Servem para resumir um conjunto de dados.
• Observar o comportamento ou padrão da variável no
Medidas de conjunto de dados e assim obter alguma informação.

Tendência • Também são chamadas de “medidas de posição”.


Central • São medidas utilizadas em variáveis numéricas (discretas e
contínuas) para descrevê-las.

• Há três mais utilizadas: média, mediana e moda.


• Medida de posição mais famosa, útil e usada.

MÉDIA • É o centro de massa, ou baricentro, de um conjunto de dados de uma


variável.
• Tecnicamente conhecida como média aritmética.

Dados x1, x2, … , xn observações, a média aritmética é definida por:


Exemplo

• Vantagens: excelentes propriedades matemáticas, utiliza todas as observações


para seu cálculo.
• Desvantagens: muito vulnerável à observações discrepantes (outliers).
• Exemplo: a observação 45,0 kg, que pode ser considerada um outlier:
Média
• A média pode ser calculada pela frequência
Mediana
• É o valor do meio (central) quando as observações
estão ordenadas (da menor para a maior).
• Divide o conjunto de dados em duas metades.
• Número ímpar de observações: observação do
meio.
• No conjunto de dados 3, 5 e 9 a mediana é o 5.
• Número par: média aritmética das duas
observações centrais.
• No conjunto de dados 3, 5, 7 e 9 a mediana é 6.
Mediana
• Exemplo: peso corporal (kg) de 12 mulheres selecionadas ao acaso:
Escolhendo entre mediana e média

• Suponha que numa sala de cinema haja nove pessoas com idades, em
• anos: 8, 9, 10, 10, 11, 11, 11, 13 e 76.

mediana = 11

• Qual é melhor para descrever a sala?


Escolhendo entre mediana e média
• Mas às vezes a média é melhor que a mediana.

• Suponha que tenha jogado três vezes na loteria.


• Na primeira ganhou R$0,00.
• Na segunda R$0,00.
• Na terceira R$300.000,00.
• A mediana é zero.
• A média é R$100.000,00.

• A média descreve melhor seus ganhos (e é ela que afeta seu saldo bancário).
MODA
• Moda é o valor mais frequente, o que mais aparece.
• Valor que “está na moda”.

• Exemplo: considere as seguintes notas de 13 alunos:


• 2,2,3,4,5,5,5,6,7,8,8,9,9
• moda = 5
MODA
• Às vezes um conjunto de dados não contém moda:
• 1,2,4,6,8,9,12,15
• Às vezes contém mais de uma moda:
• 2,2,2,3,4,5,6,6,7,7,7,8,9
• Moda: 2 e 7 (bimodal).

• Moda é mais informativa quando a amostra é grande.


• Quando a amostra é pequena (até 30 observações) não
tem muito sentido prático.
Exercício
Crie um histograma a partir dos dados abaixo
Paciente Peso
1 80
2 90,2 Aproveitando calcule:
3 58,9 Média
Mediana
4 67,2 Moda
5 78
6 100
7 51
8 87,6
9 78
10 85
3- Medidas de
Dispersão
• A variabilidade é a alma da estatística.
• Se não houvesse variabilidade não haveria
necessidade de se tomar decisões.
• Servem para resumir a distribuição das
observações em torno de um ponto central (como
a média) ou ao longo do eixo de números reais.
• Só a medida de tendência central, como a média,
não é suficiente para dar todas as informações a
respeito do conjunto de dados/observações.
• Aqui temos três conjuntos de dados representando
idades (em anos) de 9 pessoas: 1, 2 e 3.
Medidas de • Eles são iguais?
Dispersão • Onde diferem?
• Mas possuem algo em comum?
• Média em torno de 50.
Medidas de
Dispersão
Há cinco maneiras mais usadas para se medir
variabilidade são:
- Amplitude
- Variância
- Desvio-padrão
- Coeficiente de variação
- Box-plot
• Amplitude é a diferença entre os valores máximo e
mínimo da variável
• estudada no banco de dados.
• - 𝑎𝑚𝑝𝑙𝑖𝑡𝑢𝑑𝑒 = 𝑚a𝑥𝑖𝑚𝑜 − 𝑚i𝑛𝑖𝑚𝑜
AMPLITUDE • -Os próprios valores máximo e mínimo medem a
variabilidade dos dados por mostrarem os valores
limites/extremos da variável estudada.
• Fácil de calcular mas não mede bem a variabilidade
dos dados e valores discrepantes
AMPLITUDE
1 – 30, 35, 40, 45, 50, 55, 60, 65, 70
2 – 30, 45, 48, 49, 50, 51, 52, 55, 70
3 – 41, 45, 48, 49, 50, 51, 52, 55, 59
N = 9 (para os três)
Amplitude:

1: 70 – 30 = 40 anos
Calculem as demais:

• 2: 70 – 30 = 40 anos
• 3: 59 – 42 = 18 anos
Variância
Variância é uma das medidas mais importantes dentro da estatística.
• É usada para calcular o desvio-padrão que é, provavelmente, a medida de variabilidade mais
usada e famosa.
• Quando usamos a média aritmética como medida de tendência central podemos querer
saber como as observações se distribuem em torno da média.
• A variância permite calcular essa dispersão.

• Assim, podemos calcular a diferença entre cada observação e a média.


• Essa diferença é chamada de desvio.
• 𝑑𝑒𝑠𝑣𝑖𝑜 = 𝑜𝑏𝑠𝑒𝑟𝑣𝑎cã𝑜 − 𝑚e𝑑𝑖𝑎 ou 𝑑𝑒𝑠𝑣𝑖𝑜 = 𝑥 − 𝑥̅.

• Se os desvios são pequenos então as observações se concentram em torno da média.


• Se os desvios são grandes então as observações são muito dispersas (grande variabilidade).
Variância
Voltemos ao problema
inicial e tomemos o
primeiro conjunto de
dados:
1 – 30, 35, 40, 45, 50, 55,
60, 65, 70
Vamos calcular os desvios
e a média desses desvios: ?
Variância
• Veja que há um problema:
• como a soma dos desvios é zero a
média também é zero!

• Como resolver esse problema?


• Eliminando os sinais negativos.
• Como?
• Elevando os desvios ao quadrado!
variância
Variância

• Assim, o cálculo dessa variabilidade de


desvios se dá então pela soma
• desses desvios ao quadrado dividido
pelo número de observações.
• • Esse cálculo recebe o nome de
variância!
• • Fórmula da variância amostral (𝑠2)
variância

• A variância do primeiro conjunto de dados:


1 – 30, 35, 40, 45, 50, 55, 60, 65, 70
É:
variância
• Calcule para os outros 2 conjuntos de
dados:
• 2 – 30, 45, 48, 49, 50, 51, 52, 55, 70
• 3 – 41, 45, 48, 49, 50, 51, 52, 55, 59
Desvio-padrão
• A variância que calculamos para os primeiro conjunto de
dados representando as idades de 9 pessoas foi igual a:
S2 = 187,5
• Mas qual a unidade dessa variância?
• 𝑎𝑛𝑜𝑠2
• Mas isso é esquisito! Como resolver?
• Pelo processo inverso de se elevar ao quadrado: tirando a raiz
quadrada!
Desvio-padrão
• Assim, extraindo a raiz quadrada da variância
• 𝑠2 = 187,5 𝑎𝑛𝑜𝑠
• Teremos:
• 𝑠 = 13,69 𝑎𝑛𝑜𝑠
• E a essa nova medida damos o nome de desvio-padrão.
• 𝑠 = √𝑣𝑎𝑟𝑖â𝑛𝑐𝑖𝑎
• A interpretação do desvio-padrão para o primeiro
conjunto de dados é que, em média, cada observação está
distante da média 13,69 anos aproximadamente.
Desvio-padrão

• Calcule para os outros 2 conjuntos de


dados os desvios-padrão:
• 𝑠2 = 107,5 e 𝑠3= 27,75
COEFICIENTE DE VARIAÇÃO

• O coeficiente de variação (CV) é simplesmente a


divisão do desvio padrão pela média aritmética
multiplicado por 100 (para sair em porcentagem):

• Ele mede a dispersão em função da média.


• Assim, podemos comparar variáveis de diferentes
unidades.
• Para o primeiro conjunto de dados:

• Calcular os outros conjuntos de dados!!!!


Coeficiente de variação

• Dados os 3 conjuntos de dados calcule o CV para os demais (𝑥̅ = 50 𝑎𝑛𝑜𝑠).

Qual variou mais?


Box-plot

Variabilidade em gráfico
• O box-plot (diagrama de caixa) é um gráfico que permite termos uma ideia de
variabilidade (distância interquartílica) bem como de medidas de tendência central
(mediana), valores mínimo e máximo e
outliers (valores discrepantes).
• Ele é útil para se ter uma visão geral dos dados e é mais resistente à valores
discrepantes.
• Mas para aprendermos sobre box-plot precisamos entender o conceito de quartil.
• A mediana divide um conjunto de dados (ordenados) em
duas metades iguais: a inferior (que contém os dados
menores que a mediana) e a superior (que contém os dados
maiores que a mediana).

Box-plot • Se o conjunto de dados for grande, podemos dividir o


conjunto de dados em quatro partes iguais (quatro quartos)
chamados de quartis.
• Assim, para que se divida o conjunto em quatro partes
iguais devemos ter três quartis: o primeiro (inferior), o
segundo (a mediana) e o terceiro (superior).
• Para se obter os quartis:
1 - Organize os dados em ordem crescente, isto é, do menor
para o maior. Encontre a mediana (que é, também, o segundo
quartil); e marque esse valor.

Box-plot 2 - Encontre o primeiro quartil, da seguinte forma: tome o


conjunto de dados à esquerda da mediana; o primeiro quartil
é a mediana do novo conjunto de dados.
3 - Encontre o terceiro quartil, da seguinte forma: tome o
conjunto de dados à direita da mediana; o terceiro quartil é a
mediana do novo conjunto de dados.
• Exemplo:
1 – 30, 35, 40, 45, 50, 55, 60, 65, 70
Mediana = 50
Primeiro quartil = 37,5
Terceiro quartil = 62,5
Box-plot • Com isto conseguimos calcular uma medida de
variabilidade chamada Distância Interquartílica (DI) que nada
mais é que a diferença entre o terceiro e primeiro quartis:
62,5 – 37,5 = 25.

Com a DI dá para calcular outliers:


• Agora podemos desenhar o box-plot propriamente dito. Para isto:
1 - Calcule mínimo e máximo, primeiro e terceiro quartis e a mediana
(segundo quartis).
2 - Crie um segmento de reta em posição vertical, para representar a
amplitude dos dados.
3 - Marque, nesse segmento, o primeiro e o terceiro quartis e a
mediana.
Box-plot 4 - Crie uma caixa retangular (box) de maneira que o lado superior e o
inferior passem exatamente sobre os pontos que marcam o primeiro e
o terceiro quartis.
5 - Faca um ponto para representar a mediana (obedecendo a escala).
6 - Marque com uma bolinha/asterisco os outliers: valores menores
que 1Q-
1,5DI ou maiores que 3Q+1,5DI.
Box-plot
• Exemplo:
• 1 – 30, 35, 40, 45, 50, 55, 60, 65, 70

• Mínimo = 30
• Máximo = 70
• Mediana = 50

• Primeiro quartil = 37,5


• Terceiro quartil = 62,5
• DI = 62,5 – 37,5 = 25.
• Calcule para o segundo conjunto de dados:
• 2 – 30, 45, 48, 49, 50, 51, 52, 55, 70
• Mínimo = 30
• Máximo = 70
• Mediana = 50
Box-plot • Primeiro quartil = 46,5
• Terceiro quartil = 53,5
• DI = 53,5 – 46,5 = 7.
• Outlier superior: 53,5+1,5x7≥64 (70)
• Outlier inferior: 46,5-1,5x7≤36 (30)
• Calcule para o terceiro conjunto de
• dados:
• 3 – 41, 45, 48, 49, 50, 51, 52, 55, 59
• Mínimo = 41

Box-plot • Máximo = 59
• Mediana = 50
• Primeiro quartil = 46,5
• Terceiro quartil = 53,5
• DI = 53,5 – 46,5 = 7.
• Se fizermos para os 3 exemplos
Exercício
• Crie uma tabela fictícia de dados e treine calcular no excel.

• Média
• Desvio padrão
• Coeficiente de variação
Exemplo de organização no Excel
Aula 4:
Probabilidade
probabilidade
• • Regras da probabilidade (axiomas):
• 1 – Probabilidade é um valor numérico entre zero e 1,
inclusive.
• Probabilidade=0 e evento impossível. Probabilidade=1 e
evento certo.
• 2 – A soma de todas as probabilidades de todos os
eventos possíveis é igual a 1. Probabilidade do universo
ocorrer é igual a 1.
• 3 – A probabilidade de um evento ocorrer é 1 menos a
probabilidade desse evento não ocorrer
(complemento).
Probabilidade
• Exemplo: Quando um indivíduo produz um gameta, somente um alelo de cada par é transmitido
para esse gameta. Cada filho recebe o seu ao acaso.
• O acaso não é um conceito vago – ele pode ser expresso quantitativamente em termos de
probabilidade.
• “A probabilidade de um evento ocorrer, independe de ter esse evento ocorrido em tentativas
anteriores”
• Ex: Qual a probabilidade de sair o número 4 em um dado: 1/6
• - Qual a probabilidade, em um outro dia, ao jogar o dado, de sair o número 4 outra vez?
• Os dois eventos são independentes, logo 1/6
Probabilidade
• 1° Princípio
• “A probabilidade de dois eventos independentes ocorrerem juntos é o produto das
probabilidades ocorrerem separadamente”. Esse princípio é conhecido como a regra do E.
• Se atirarmos duas vezes um dado, qual a probabilidade de obtermos o número 4 em ambas as
jogadas?
• 1/6 * 1/6 = 1/36

• Suponha que se jogue uma moeda duas vezes, qual a probabilidade de obter duas caras?
• 1/2 * 1/2 = 1/4
Probabilidade

• 2° Princípio
• “A ocorrência de dois eventos que se excluem mutualmente é igual a soma das
probabilidades com que cada evento ocorre”. Esse princípio é conhecido como a regra do ou.
• Qual a probabilidade de ocorrer a face 1 ou a face 6 no lançamento de um dado?
• 1/6 + 1/6 = 2/6
• Se atirarmos uma moeda, qual a probabilidade de obter cara ou coroa?
• 1/2 + 1/2 = 1
Exercício

• 1. Se em um cruzamento são gerados dois filhotes, qual a probabilidade de


que ambos sejam machos.
• 2. Se em um cruzamento são gerados dois filhotes, qual a probabilidade de
que ambos sejam do mesmo sexo.
Quando se aplica a regra do E com a
regra do OU ao mesmo tempo.
• No lançamento de duas moedas, qual a probabilidade de se obter cara em
uma delas e coroa na outra?
• Para ocorrer “cara” na primeira moeda E “coroa” na segunda, OU “coroa” na
primeira e “cara” na segunda. Assim nesse caso se aplica a regra do “e”
combinada a regra do “ou”. A probabilidade de ocorrer “cara” E “coroa” (1/2
X 1/2 = 1/4) OU “coroa” e “cara” (1/2 X 1/2 = 1/4) é igual a 1/2 (1/4 + 1/4).

• Quando o número de possibilidades é alto
podemos usar a fórmula de

• Onde:
𝑃 • n = número total de eventos
𝑛! 𝑠 𝑡
= 𝑥 𝑝 𝑥 𝑞 • p = probabilidade de um dos eventos
𝑠! 𝑡! • q = probabilidade do outro evento
• s = número de vezes que ocorre p
• t = número de vezes que ocorre q
Exemplo
Em uma ninhada de 8 coelhos, filhos de um casal de pelos curtos, heterozigotos, qual é a
probabilidade de serem 5 de pelos curtos e 3 de pelos longos?
8! 3 5 1 3
𝑃= 𝑥 𝑥 =
5!3! 4 4

P = 8*7*6*5*4*3*2*1 x (3 * 3 * 3 * 3 * 3) x (1 * 1 * 1) =
5*4*3*2*1*3*2*1 4*4*4*4*4 4*4*4

P= 336 x 243 x 1 = 81648 = 0,2076 x 100 = 20,76%


6 1024 64 393216
Aula 5:
• Há dois tipos de variável aleatória (v.a.):
Distribuições discreta e continua.
de
Probabilidade
Distribuição Discreta
• Uma variável é aleatória (v.a.) é aquela que o acaso tem influência nos seus
valores.
• Matematicamente, uma v.a. é uma função cujo domínio é o espaço amostral Ω e o
contradomínio é o conjunto dos números reais, ℝ.
• Se a variável aleatória depende do acaso, então associado a cada valor da variável
aleatória (x) há uma probabilidade de ocorrência (p(x)).

• Os exemplos que vimos anteriormente sãl de distribuição de probabilidade de uma


variável aleatória discreta e que segue distribuição binomial.

• Numa v.a. discreta o número associado ao evento aleatório é discreto: vem de um


conjunto finito/infinito de valores mas é contável.
Distribuição Contínua
• Uma distribuição de probabilidade contínua é um conceito fundamental na estatística
que descreve a probabilidade de uma variável aleatória contínua assumir qualquer valor
dentro de um intervalo específico
• Diferentemente das distribuições discretas, onde a variável aleatória pode assumir
apenas valores específicos, as variáveis aleatórias contínuas podem assumir qualquer
valor em um intervalo contínuo.
• A distribuição de probabilidade contínua é geralmente descrita usando uma função de
densidade de probabilidade (PDF), que atribui probabilidades a intervalos de valores em
vez de valores específicos.
Distribuição
Contínua
A distribuição normal, também conhecida
como distribuição gaussiana, é um exemplo
clássico de uma distribuição de probabilidade
contínua. Ela tem uma forma de sino e é
frequentemente usada para modelar
fenômenos na natureza que são
aproximadamente simétricos. A distribuição
normal é caracterizada por dois parâmetros:
a média (μ) e o desvio padrão (σ), que
determinam a localização e a dispersão da
distribuição, respectivamente.
1. Amostragem: Métodos de amostragem e
importância da representatividade da
amostra.
2. Distribuição Amostral das Médias: Conceito
e importância para inferência estatística

Aula 6:
Amostragem e
Distribuição
Amostral
População e amostra

• Você precisa provar a sopa toda para saber se ela está boa?
• Precisa tomar toda a garrafa de vinho para saber se é bom?

• Em ciência e na indústria também não precisamos trabalhar


com o todo para saber como ele é ou se comporta.
População e amostra

• População é o conjunto de observações sobre a qual se deseja


obter informações. Compreende TODAS as observações
possíveis de se medir, estudar. É o todo. O universo.

• Na maioria das vezes o pesquisador trabalha com toda a


população ou com uma amostra dela?
PARÂMETROS E ESTATÍSTICAS

• Uma medida obtida diretamente na população é chamada de


parâmetro.
• Parâmetros são representados por letras gregas como μ (mi) que
representa a média aritmética na população ou σ (sigma) que
representa o desvio-padrão.
• Já uma medida obtida na amostra é chamada de estatística ou
estimativa.
• Estimativas são indicadas por letras do alfabeto latino como ȳ (y-
barra) que representa a média aritmética da variável y na amostra.
Levantamentos amostrais

• Como coletar amostras?

• A amostra é obtida de uma população bem definida, sendo subdividida em dois


grupos:

• Probabilísticos: Cada elemento da população possui a mesma probabilidade de ser


selecionado para compor a amostra → mecanismos aleatórios de seleção
• Não probabilísticos: A seleção da amostra depende do julgamento do pesquisador.
Há uma escolha deliberada dos elementos para compor a amostra → mecanismos
não aleatórios de seleção
AMOSTRA PROBABILÍSTICA simples

Uma amostra de tamanho n é do tipo aleatória simples (ou casual simples) se for composta por n
unidades retiradas ao acaso da população.
• Obtém-se, por exemplo, por meio de sorteio.
• Não dá para colocar todo mundo na amostra, mas todo mundo teve a MESMA chance de fazer parte
dela (representatividade).
• Precisa-se ter acesso a toda a população para esse tipo de amostragem (o que raramente é possível).

• Exemplo: obter uma amostra de tamanho igual a 10 dentro da população de 500 pacientes para avaliar
atendimento em um hospital.
• Solução: sorteio. Anotar nomes/códigos dos pacientes, colocar numa urna/saco, agitar e retirar 10
nomes.
AMOSTRA PROBABILÍSTICA ESTRATIFICADA

• Uma amostra aleatória é dita estratificada quando a população é heterogênea.


• Por exemplo, composta por homens e mulheres.
• obter uma amostra de tamanho igual a 10 dentro da população de 500 pacientes para avaliar
atendimento em um hospital. Há suspeita de que homens são mais bem atendidos que mulheres.
Assim, há 2 estratos: Homem e Mulher.
• Solução (estratificada não proporcional): separar Homens de Mulheres. Sortear 5 em cada
estrato. Juntar tudo numa única amostra de tamanho (n) igual a 10.
• Exemplo (estratificada proporcional): mesma situação anterior mas sabe-se que do total de 500
pacientes, 300 eram homens e 200 mulheres. Para obter uma amostra mais parecida com a
população estudada mantenha as proporções.
AMOSTRA PROBABILÍSTICA SISTEMÁTICA

• Neste tipo de amostra seleciona-se um indivíduo próximo do início da amostra (ou


lista que a descreve), pula alguns nomes e seleciona-se outro sujeito, pula o mesmo
tanto de nomes e seleciona outro sujeito e assim por diante até ter o tamanho da
amostra desejado.

• Também precisa-se de acesso à todos os indivíduos da população para isso.

• EX: Em uma fábrica de lâmpadas, a cada 100 peças produzidas, uma é retirada para
teste
• A área da população é dividida
AMOSTRA PROBABILÍSTICA em seções (ou
conglomerados, ex.: bairros,
POR CONGLOMERADOS quarteirões). Os
conglomerados são
Amostra por conglomerados: algumas unidades selecionados aleatoriamente.
estão, por alguma razão divididas em Dentro de um conglomerado,
conglomerados. todos os elementos são
amostrados.

• Asilo: conglomerado de idosos

• Universidade: conglomerados de pessoas com


bom nível sócioeconômico.

• Exército: conglomerado de jóvens saudáveis.

• Em resumo: quando não temos acesso a toda


AMOSTRA NÃO PROBABILÍTICA DE
CONVENIÊNCIA

• Composta por n unidades retiradas da população sem sorteio ou


• qualquer tipo método. Apenas porque elas estão disponíveis.

• Exemplo: Uma repórter entrevistando pessoas na rua


• Exemplo: um professor que toma os alunos de sua sala como amostra da
população de estudantes da escola, estado, etc.
Erros amostrais

• Diferença entre o resultado da amostra e o verdadeiro valor da população. Ocorre pois as amostras são
aleatórias!
• Cada vez que uma amostra aleatória for retirada de uma população, um resultado diferente será
observado

• Selecione uma amostra de tamanho n=5 das idades dos estudantes de uma sala:
22, 21, 24, 23, 20, 22, 21, 25, 24, 24, 23, 19, 25, 24, 23, 23, 20, 21, 23, 20, 23, 22, 23,
23, 25, 25, 20, 23, 24, 20
• Repita 5vezes (tente ser o mais aleatório possível!), calcule a média de cada amostra e compare com a
média populacional µ=22,5
Erros amostrais
O que isso nos diz a respeito das médias amostrais?
TAMANHO DA AMOSTRA
Amostras devem ser bem representativas da população que foram retiradas.
Bom senso
• Amostras pequenas são ruins porque não representam adequadamente a população de onde
vieram.
• Amostras grandes também são ruins porque se tornam caras, demoradas ou impraticáveis.

Há várias calculadoras de tamanho amostral, uma para cada teste estatístico/objetivo de estudo.
• Na prática o que se deve fazer é ver na literatura da sua área os tamanhos amostrais mais usados e
avaliar qual seu orçamento/tempo/mão de obra disponíveis para coletá-la.
• E tenha em mente que o cálculo amostral (e mesmo a interpretação dos testes estatísticos)
dependem do conhecimento da variável de estudo e da sua área de atuação e não somente das
técnicas estatísticas.
• Na aula anterior vimos que os
histogramas podem ser utilizados
para se ter uma ideia da distribuição
de probabilidade da variável
estudada.

• O histograma apresentado veio de


um estudo realizado pelo
matemático Adolphe Quetelet (1796-
1874) em que ele mediu a
circunferência torácica de 5732
Distribuição soldados e depois organizou os
dados em uma tabela de distribuição
amostral de frequências:
Histograma
• Esta curva em forma de sino é chamada
Distribuição Normal ou Curva de Gauss

• Muitas variáveis contínuas apresentam


esse tipo de distribuição: estatura, peso
corporal, produtos fabricados em série,
tamanho dos sapatos adultos,
quociente de inteligência (QI), medidas
de erro, distribuição de renda, retorno
no mercado de ações, notas escolares,
etc...
Distribuição normal

• Características:
• Curva em forma de sino;
• Seus parâmetros são a média e o desvio-padrão;
• Média, mediana e moda coincidem e estão no centro da
distribuição;
• Simetria em torno da média/mediana/moda: 50% dos valores
da variável aleatória X são iguais ou maiores do que a média e
50% de seus valores são iguais ou menores do que a média;
• A curva abriga toda a população (100% dos valores).
Distribuição normal

• Aproximadamente 68% (pouco mais


de ⅔) dos dados caem entre a média
― um desvio-padrão.
• Aproximadamente 95% dos dados
caem entre a média ― dois desvios-
padrões.
• Aproximadamente 99,7% dos dados
caem entre a média ― três desvios-
padrões.
Distribuição normal

• Verifique se os dados seguem padrão de distribuição normal.


• Seguem abaixo alguns critérios para tal verificação.
a) Há simetria no histograma e forma de sino?
b) A média, a mediana e a moda são próximas?
c) A amplitude não ultrapassa 6 vezes o desvio padrão?
d) A proporção de “outliers” é bem pequena e não ultrapassa 0,5%
Distribuição Normal
• Na prática nenhuma distribuição de dados
reais tem características idênticas às da
distribuição normal.
• Mas se, de acordo com a teoria e com o
histograma, puder pressupor que a
variável estudada segue uma distribuição
normal então pode-se utilizar as
características descritas acima para
descrever sua distribuição.
• Se n for grande (maior que 30) a
distribuição também será normal mesmo
que as amostras venham de população
“não-normal” (Teorema do Limite Central).
Aula 7: 1.Estimação Pontual: Uso da amostra para estimar
parâmetros populacionais.
Estimação 2.Intervalos de Confiança: Interpretação e
construção de intervalos de confiança para a
Pontual e média.

Intervalar
Estimação Pontual
• A estimativa pontual é um valor obtido a partir dos resultados (dados) de
uma variável aleatória de uma amostra representativa extraída da
população.

População: Amostra: (estimativas)


• Média
μ x
• Mediana
• Moda
• Variância σ2 S2
• Desvio padrão σ S
• Erro padrão ( a variância das médias)
Distribuição das médias amostrais
• Antes de falarmos de Intervalos de confiança, temos que falar de Erro Padrão
• O desvio padrão, como vimos, trata de um índice de dispersão da amostra em relação à
média, enquanto o erro padrão é uma medida que ajuda a avaliar a confiabilidade da
média calculada.
Erro padrão
• Suponha a população: 4, 10 e 16

Suponha todas as amostras de tamanho = 2:


Erro padrão
Quanto essas medias se distribuem em torno
da média populacional?
• Para a amostra 4 e 10:
4+10
Media: 𝑥̅ = =7
2

4−7 2 + 10−7 2
Variância: 𝑠’ =
1
= 18

Estimativa da variância das medias:

Erro-padrão:

• Logo, a média da amostra, 7, esta 3 unidades longe da média populacional que é 10.
Intervalos de Confiança
• Anteriormente vimos o conceito de distribuição de amostras.
• Vimos que cada amostra pode, por puro acaso, conter observações diferentes da
população e, assim, as estatísticas calculadas variam de amostra para amostra.
• Até podemos usar essa estatística como estimativa do parâmetro (estimação por ponto)
mas como cada amostra fornece um valor e o parâmetro é um só e fixo, acabamos por ter
um problema.
Para contornar isso podemos calcular uma medida que junta a estimativa do parâmetro de
interesse (por exemplo, a média) com uma medida de erro e assim conseguir fazer
inferência.
• Vamos utilizar o cálculo da média mais o erro-padrão para criar essa medida.
• Essa medida é o intervalo de confiança (IC).
Intervalos de Confiança
O IC é um intervalo de valores que possui alta probabilidade de conter a média da
população.
• O IC fornece a amplitude dos valores que, com probabilidade especificada, contém o
parâmetro de interesse.
• O IC contém duas medidas: nível de confiança e margem de erro.
Intervalos de Confiança
• Nível de confiança diz quão certo você pode estar. Se você calcular o intervalo de
confiança para muitas amostras a maioria desses intervalos irá conter o valor da
população. Outra definição: porcentagem esperada de amostras que incluem o
parâmetro de todas as amostras possíveis.
• Margem de erro é o símbolo de ± que se vê nos números estimados em intensão de
voto. É uma medida de “precisão” do valor que está querendo encontrar. É a metade da
amplitude do intervalo de confiança.
Intervalos de Confiança
• • Para a média, um IC a 95% é calculado por meio da formula:
• • 𝑥̅ ― 1,96𝑠 𝑥̅

• Em que: 𝑥̅ é a media,
• 1,96 é o valor associado a 95% e
• 𝑠𝑥̅ é o erro padrão da média.
Intervalos de Confiança
Exemplo: Média de pressão sanguínea sistólica de 100 alunos foi 120,3mmHg com desvio-
padrão de 14mmHg. Qual confiança pode-se ter nesta estimativa?
• Solução:
• Adotando um nível de confiança de 95% e margem de erro de 5% temos:

14
120,3 ― 1,96× = 120,3 − 1,96×1,4 = 120,3 ± 2,74
100

= [120,3 − 2,74; 120,3 + 2,74] = [117,56; 123,04]


Intervalos de Confiança
Interpretação:
• O 𝐼𝐶95 = 117,56; 123,04 NÃO significa que há 95% de probabilidade de o parâmetro
estar entre 117,56 e 123,05.
• Se tirássemos 100 amostras aleatórias, todas do mesmo tamanho que está e
calculássemos um IC a 95% para todas elas então 95 dos 100 IC iriam contém o valor
correto do parâmetro.
• Assim, não sabemos se o parâmetro está ou não dentro do intervalo. O IC apenas nos dá
uma informação de incerteza e não certezas.
• Nem sempre se quer fazer inferência
por estimação pontual ou intervalo de
confiança.
Aula 8: • Muitas vezes se quer descobrir qual
de duas afirmações contraditórias a
Testes de respeito do parâmetro é a correta.
Hipóteses • O Teste de Hipóteses é o método
estatístico que avalia qual das duas
afirmações contraditórias é a correta.
Teste de Hipóteses
O Teste de Hipóteses e outro método de inferência além da estimação pontual e do intervalo de
confiança.
• Ao invés de focar nos valores das estimativas, foca-se em afirmações contraditórias a respeito do
parâmetro.
• Exemplo: Um réu é inocente até que se prove o contrário.
Somente mediante de forte evidencia de culpa o réu passa a ser considerado culpado.
• Quais são as hipóteses possíveis?
• Hipótese inicial: inocente.
• Hipótese alternativa: culpado.

• As decisões são tomadas com base em amostra dos fatos, logo é passível de erro. Quais são os
erros associados com as decisões?
Teste de Hipóteses
Em ciências a ideia é a mesma.
• Exemplo: imagine que quer saber se uma moeda é justa.
• Hipótese inicial (nula = H0): é justa (não viesada) P(cara)=0,5
• Hipótese alternativa (H1): não é justa (é viesada) P(cara)≠0,5
Teste de Hipóteses
Eu assumi que a moeda era justa (assumi H0 verdadeiro).
• Logo, se eu lançar a moeda 100 vezes quantas “caras” deve aparecer?
• 50
• Realizei um experimento: lancei a moeda 100 vezes e obtive 48 caras.
• Com base nesse resultado mantenho que a moeda e justa ou rejeito essa
hipótese?
• Essa diferença de 2 pontos e porque a moeda e injusta ou foi por acaso?
• Essa diferença de 2 pontos e grande o suficiente para eu concluir que a
moeda nao presta?
Teste de Hipóteses
• Suponha que no dia seguinte lancei a mesma moeda 100 vezes e
obteve 5 caras.
• E agora? Mantenho H0 ou rejeito-a?
Teste de Hipóteses
• E o famoso p-value ou p-valor ?
• O p-valor mede a probabilidade de se obter um resultado pelo menos
tão extremo quanto o observado dado que H0 é verdadeiro.
• O p-valor diz o quão provável seria obter uma amostra tal qual a que
foi obtida quando a hipótese da nulidade é verdadeira.
P- valor
• Princípios do p-valor:
1.PODE indicar a incompatibilidade dos dados com o modelo testado.
2.NÃO mede a probabilidade de que a hipótese estudada seja verdadeira nem a
probabilidade de que os dados foram gerados somente pelo acaso.
3.Conclusões científicas e outras tomadas de decisão não devem ser baseadas somente se
um p-valor está abaixo de um nível de significância previamente escolhido.
4.Inferência apropriada requer relato completo dos resultados e transparência.
5.Um p-valor, ou significância estatística, não mede o tamanho do efeito ou a importância
do resultado.
6.O p-valor sozinho não fornece uma boa medida de evidência dado a hipótese estudada
no modelo.
Teste qui-quadrado
• O Teste Qui-Quadrado e um teste simples e famoso utilizado para
avaliar associações entre duas variáveis categóricas.
• E comumente aplicado em Tabelas de Contingência.
• A Tabela de Contingencia e uma tabela de frequências em que os
valores (níveis/categorias) de uma variável categórica e cruzada com os
valores da outra variável categórica que se quer verificar associação.
Teste qui-quadrado
Exemplo: suponha que um pesquisador especula que as mulheres
fumem mais que os homens. Ele foi a campo e entrevistou 1091
pessoas e mediu apenas duas variáveis: sexo (com categorias homem
e Mulher) e tabagismo (Se fuma ou não fuma).

• Com os dados crus em mãos construiu a tabela de contingencia 2x2


(dicotômica) a seguir:
Teste qui-quadrado
• Os passos para um teste de
hipóteses são os seguintes:
1 – Formular as hipóteses
2 – Determinar o nível de
significância
3 – Calcular o valor da estatística
do teste
4 – Comparar o valor calculado da
estatística do teste com o
teórico/critico (da tabela)
Teste qui-quadrado
• Primeiro passo
• Podemos criar as seguintes hipóteses
• - H0: a proporção de homens fumantes é igual a de mulheres fumantes
• - H1: a proporção de homens fumantes é diferente da proporção de
• mulheres fumantes

• Segundo passo e determinar o nivel de significancia.


• Nível de significância (𝛂) e a probabilidade de cometer erro
• Por convencao adota-se 1%, 5% ou 10%.
• Vamos adotar 5% (0,05).
Teste qui-quadrado 2x2
• O terceiro passo e calcular a estatística do teste.
Teste qui-quadrado
O quarto passo e comparar o valor calculado
de 𝜒2 com o valor teórico, da tabela.
O grau de liberdade (g.l.) é o número de
categorias menos 1.

• Como o valor calculado de 17,25 é maior que


o valor critico de 3,84 rejeitamos a hipótese
H0!
• Assim, rejeita-se que a associação é nula,
logo, há associação!
• E olhando novamente para a tabela com as
porcentagens, vimos claramente que há mais
mulheres fumantes.
Teste qui-quadrado 2x2
• Mas como significância estatística não é significância clínica, devemos calcular a magnitude do
efeito do tabagismo.
• Há várias medidas como o coeficiente fi (𝛗), o risco relativo e a razão de chances.
• Vamos calcular a razão de chances (RC) para verificar a magnitude da associação:

Ele e calculado por meio da formula:


𝑎
𝑏
• 𝑅𝐶 = 𝑐
𝑑
• Os valores de referência para RC são:
• 1,5: pequeno
• 2,0: moderado
• 3,0: grande
Teste qui-quadrado 2x2
• Ele no nosso exemplo,
423
177 2,4
• 𝑅𝐶 = 287 = = 1,7
1,4
204
• Assim, a razão de homens não-fumantes sobre homens fumantes
(2,4) e maior que a de mulheres não-fumantes sobre mulheres
fumantes (1,4) num fator de 0,7 vezes (RC=1,7).
• Apesar de haver então mais mulheres fumantes, seu efeito é
pequeno.
Teste qui-quadrado
2x2
• O Estudo do Coração de Helsinque mostrou redução na
incidência de eventos cardíacos em homens de meia-idade
com nível alto de colesterol, mas sem diagnóstico de doença
coronariana. Dos 2.051 participantes que, durante cinco anos,
receberam uma droga para reduzir o nível de colesterol, 56
registraram evento cardíaco. Dos 2.030 participantes que
receberam placebo durante cinco anos, 84 registraram evento
cardíaco.
a. Qual é a proporção de participantes que registraram evento
cardíaco no grupo tratado?
b. Qual é a proporção de participantes que registraram evento
cardíaco no grupo placebo?
c. Existe evidência suficiente do benefício da droga?
Teste qui-quadrado
2x2
• H0: P1 = P2 H1: P1 ≠ P2
• Nível de significância: 5%
• Estatística de teste:

• Gl=1x1=1 e valor critico=3,84


• 6,10 > 3,84 logo rejeita-se H0 a 5%.
Aula 9: Correlação
• Todo mundo já deve ter ouvido falar alguma
coisa do tipo:
- Os preços caem quando a oferta aumenta;
- A pressão arterial aumenta conforme a idade
avança;
• Em estatística essas associações entre variáveis
podem ser avaliadas por meio de correlações.
a variância mede a dispersão (ou variabilidade) de uma variável
em torno da média.
Correlação • Se duas variáveis são dependentes, então a variação em uma
está associada com a variação da outra.
• E a covariância mede o quanto duas variáveis estão
linearmente associadas.
Correlação
• Mas a covariância não tem limites de
valores: −∞ < 𝑐𝑜𝑣 𝑥, 𝑦 < +∞
• • Uma medida alternatira é dividir a
covariância pelos desvios-padrão das
duas variáveis. Essa nova medida é
chamada de correlação linear
(Pearson) e varia de -1 a +1:
Correlação
• Com essa nova amplitude de valores a correlação é uma medida mais
intuitiva de se medir o grau de associação entre duas variáveis
• De maneira geral, correlações em torno de 0,2 são fracas, 0,5 são
moderadas e 0,8 são fortes (independente do sinal).
• Quanto ao sinal, correlações negativas implicam que são
inversamente proporcionais: quando uma aumenta a outra diminui.
• Correlações positicas implicam que são diretamente proporcionais:
quando uma aumenta a outra também aumenta.
Correlação
Correlação
• CORRELAÇÃO NÃO SIGNIFICA CAUSALIDADE!
• Correlação que implica em causalidade:
quilometragem do carro e quantidade de combustível
consumido.
• Correlação que não implica em causalidade:
quantidade de venda de sorvete e ataques de tubarão
(Correlação espúria).
• O que explica?
• Outras variáveis correlacionadas com as principais
mas que não foram medidas (temperatura
ambiente/estação do ano no caso do tubarão).
Correlação

• Há outras formas de se avaliar associações:


• - Teste Qui-quadrado (variáveis categóricas);
• - Regressões (todas as variáveis);
• - Associações entre medidas repetidas no tempo;
• - Métodos multivariados;
• - Correlações não-paramétricas (Spearman);
Para avaliar seus dados, por onde
Aula 10: Revisão e começamos?
Aplicações
1º Não tenha uma visão limitada
quando planejar o projeto,
se possível colete dados que
possam te trazer informações
secundárias.
2º Tenha uma visão ampla de onde
a estatística pode chegar ou não.
Revisão e Aplicações
• Qualquer conclusão desejada pode ser obtida com a manipulação
intencional e tendenciosa de dados.
• O inverso é que se aplica adequadamente para a estatística: é
impossível provar qualquer coisa pela aplicação correta de métodos
estatísticos

• De nada adianta a utilização de métodos estatísticos, algumas vezes


sofisticados, para a análise de dados de pesquisas falhas, cuja
qualidade é questionável. A utilização da estatística nesse caso pode
conduzir a resultados ilusórios e enganosos.
Próximo passo:

• Determinar o tipo de dados que vc está trabalhando.


• Dados podem ser paramétricos ou não.

• Os testes paramétricos típicos só podem avaliar dados contínuos e os


resultados podem ser significativamente afetados por outliers. Em
contrapartida, alguns testes não paramétricos podem manusear
dados ordinais, dados ordenados e não serem seriamente afetados
por outliers.
Teste para avaliar normalidade

• Anderson-Darling test
• D’Agostino-Pearson amnibus normality test
• Shapiro-Wilk normality test
• Kolmogorov-Smirnov normality test.
Teste para avaliar normalidade

• Podemos confiar apenas nos testes?

• Claro que não

• Esses ensaios são limitados aos valores que foram inseridos, não tem
uma visão ampla do projeto.
Teste para avaliar normalidade

• O que eu gosto de avaliar:


• 1 – A distribuição dos dados
• Se são valores contínuos ou não
• Ranks preferencialmente são não paramétricos
• Muitos dados discrepantes outliers.

• 2 – O mais importante. A prospecção dos dados


• Muitas vezes coletamos poucos dados. Isso pode induzir a dados
não paramétricos.
• Se vc fizer uma prospecção para um N grande, como eles se
comportariam?
Teste para avaliar normalidade

• 3 – A forma de coleta dos dados (Projeto)


• 4 – Dados podem ser transformados
Transforme para uma distribuição Gaussiana (Log)

• Defina o teste estatístico como parte do planejamento


Testes não paramétricos

• Os tipos de testes não paramétricos são:


• Sinais de teste de uma amostra.
• Wilcoxon teste de sinal.
• Teste U de Mann-Whitney.
• Kruskal-Wallis.
• Teste da mediana do humor.
• Teste de Friedman.
Testes não paramétricos

• As vantagens dos testes não paramétricos são:


• Podem ser usados ​em diferentes situações, desde que não
tenham que obedecer a parâmetros estritos.
• Geralmente, seus métodos são mais simples, o que os torna
mais fáceis de entender.
• Podem ser aplicados em dados não numéricos.
• Facilita a obtenção da informação individual mais importante
e apropriada para o processo de pesquisa.
Testes não paramétricos

• As desvantagens dos testes não paramétricos são:


• Não são testes sistemáticos.
• A distribuição varia, o que dificulta a seleção da escolha
correta.
• Os formatos de aplicativos são diferentes e causam confusão.
• É possível que a informação seja perdida porque os dados
coletados se tornam informações qualitativas.
Testes paramétricos

• Teste T de Student para dados relacionados (amostras


dependentes).
• T de Student para dados não relacionados (amostras
independentes).
• Teste de Chi Square de Bartlett para demonstrar a
homogeneidade das variações.
• F (análise de variância ou ANOVA).
• Dependente de testes de múltipla comparação.
Testes paramétricos

• Algumas das vantagens dos testes paramétricos são:


• São mais eficientes.
• Perceptíveis às características da informação obtida.
• Os erros são muito improváveis.
• Os cálculos probabilísticos são muito precisos.
Testes paramétricos

• As desvantagens dos testes paramétricos são:


• Os cálculos são difíceis de executar.
• Os dados que podem ser observados são limitados.
• Muito sensíveis a outliers
Comparação

Você também pode gostar