Aula 1 - Variáveis Biológicas - Apresentação de Dados - Tendência Central e Dispersão

Você também pode gostar

Você está na página 1de 9

5/10/2021

 Pesquisadores e consultores normalmente se


interessam por aspectos da uma amostra

José C. F. Pantoja

 Qual é a prevalência de mastite no rebanho?


▪ Precisamos amostrar todas as vacas?

1 2

 Variável Aleatória  Normalmente representadas por letras


▪ Variável → Valores numéricos diferentes são possíveis maiúsculas
▪ Aleatória →Valores observados dependem de cada ▪ X, Y, Z
um dos resultados possíveis
 Letras minúsculas
representam valores
 Variável Aleatória particulares da variável
▪ Espaço de amostragem (S) S ▪ P (X = x)
▪ Resultados = conjunto de
números reais  Exemplo
▪ P (X = 1) → P (mastite) S = { mastite = 1, sadia = 0}
-2 -1 0 1 2 ▪ P (X = 0) → P (sadia)

3 4

 É comum definir variáveis diferentes usando o mesmo


espaço de amostragem Var.
aleatórias
 Y = número de tetas
dianteiras bem cobertas

 Z = número de tetas traseiras Categóricas Contínuas


bem cobertas

 T = número total de tetas


 Y, Z, T Nominais Ordinais
bem cobertas
▪ Número finito de resultados
possíveis

5 6

1
5/10/2021

 Variável categórica nominal  Estudo para avaliar a eficiência de um


▪ Valores classificados em vaca paridade producaoleite antisséptico de tetas aplicado com espuma
categorias ou classes Aila 1

▪ Ordem das classes não


Alemanha 1 baixa  Y = cobertura da teta
Alice 1 baixa
importa ▪ Y = 1 → ≥ 90% coberta
Ana Raio >2 baixa
▪ Y = 0 → < 90% coberta
▪ Exemplos Aninha 1
Bala >2 alta
▪ Estação de parição Barquinha >2 alta  Dois valores possíveis
▪ P = (verão, outono, inverno, Beleza 1  Exemplos de codificação
primavera) Betinha >2 alta
▪ Pode ser codificada Bibi 1 alta
▪ 1 ou 0
▪ S = (0, 1, 2, 4) Bolinha >2 baixa ▪ Sim ou não
▪ Números são apenas rótulos Bomba >2 alta ▪ Sucesso ou falha

7 8

 Variável Ordinal  Operações limitadas  X = hiperqueratose da extremidade da teta


▪ Valores classificados em ▪ Frequências ▪ Medida em 1000 tetas
classes ▪ Valor médio de X em uma população
▪ Médias
▪ Ordem das classes é
importante 1 2 3 Escore da 1 2 3 4
▪ Exemplos teta (X)
▪ Gravidade da mastite clínica N 250 550 130 70

▪ S = (leve , moderada, severa)


▪ Pode ser codificada
▪ S = (0, 1, 2) 1(250) + 2(550) + 3(130) + 4(70)
 Score médio = = 2.02
1000

9 10

 Variável Contínua vaca paridade producaoleite  Organizar e resumir observações


▪ Quantidades que podem ser medidas Aila 1 22
Alemanha 1 16  Nos ajudam a entender os dados
▪ Diferença entre 2 valores pode ser Alice 1 8
infinitamente pequena Ana Raio >2 13
▪ Na realidade instrumentos não possuem
Aninha 1 19  Formas 100
N = 205 vacas
Bala >2 28
precisão para isso 80
Barquinha >2 17 ▪ Tabelas
60
▪ Exemplos ▪ Gráficos %
▪ Produção de leite por vaca 40
▪ Medida em Kg, mL, µL, etc... ▪ Medidas-resumo 20
▪ Média 0
▪ Poder ser categorizada
▪ < 50 = baixa ▪ Mediana 1 2 3 >3
▪ ≥ 50 = alta Paridade
▪ Consequências???

11 12

2
5/10/2021

 Variáveis contínuas e categóricas  Hipótese:


▪ A prevalência de Mycobacterium spp no leite do tanque é
associada à procedência do leite?

 Pantoja et al., 2009  Franco et al., 2013

13 14

 Dados nominais ou ordinais  Podemos categorizar uma variável


 Frequências relativa, absoluta, e cumulativa contínua
 Exemplo  Exemplo
▪ Distribuição de partos em estações do ano (categórica nominal) ▪ Produção de leite (contínua, em lbs)
▪ Dividir em classes de interesse (baixa,
média, alta)
▪ Tabular o número de observações por
categoria de produção

(≥ 90)
Freq. Freq. (≤ 75)
absoluta relativa (75-90)

15 16

 Gráfico de Barras  Histograma


▪ Distribuição de frequência (absoluta ou relativa) ▪ Dados contínuos
50
▪ Variáveis nominais e ordinais ▪ Criar intervalos 45 N = 205 vacas
▪ Frequência relativa ou absoluta 40
Freq. relativa (%)

35
140 30
100 125  Para frequência relativa
N = 205 vacas 120
N = 205 vacas 25
80 ▪ Soma das áreas das 20
100 15
60 80 barras = 1 (100%) 10
% N ▪ Eixo vertical
40 60 5
40
40 21 ▪ P (Z) 0
20 19
20 ▪ Eixo horizontal <= 75 75-90 >=90
0 0 ▪ Intervalos com os valores Leite (lbs)
1 2 3 >3 1 2 3 >3 possíveis de Z
Paridade Paridade

17 18

3
5/10/2021

 Gráfico de Pizza (Pie Chart)


 Histograma com
frequência
absoluta  Distribuição de Distribuição de Patógenos (%)
N = 100 amostras
Frequência
▪ Peso das aves (g) 10 Streptococcus spp
▪ Absoluta ou
▪ Tamanho do relativa Staphylococcus spp
intervalo pode 45
▪ Importante 30 E.coli
variar especificar N
▪ 50, 100, etc... total da amostra
Klebsiella spp

▪ Interpretação? 15

19 20

 Gráfico de Dispersão Bidimensional  Gráfico de linha


▪ Relação entre duas medidas contínuas ▪ Prevalência e Incidência de Mastite Subclínica
60 Prevalência
 Cada ponto é um  Cada ponto Incidência
CCS eletrônica (x 1000 cél./mL)

50
pode ser 42
par de medidas ▪ Proporção, 40 35
37
35
37 36
40 41
37
34
▪ CCS no leite medida média, 31 31

com 2 testes mediana, valor % 30


21
único, etc... 17 17 17
19
20 14 15 16
12 13 13
 Como é a  Interessante 10
10

concordância entre para medidas


os testes de CCS? temporais 0
mai jun jul ago set out nov dez jan fev mar abr
Mês
 Rodrigues et al., 2009 CCS Somaticell (x 1000 cél./mL)

21 22

 Números que caracterizam uma distribuição

 Informação sobre um conjunto de


José C. F. Pantoja
observações

 Medidas de tendência central

 Medidas de dispersão

23 24

4
5/10/2021

 Média aritmética  Exemplo


▪ Medida de tendência central mais utilizada ▪ Produção de leite
▪ Objetivo é caracterizar um grupo de animais ou
39+37.8+35.6+27.8
medidas  𝑋ത = = 35 𝑘𝑔
4

𝑛
σ 𝑥𝑖  Cuidado!
 𝑋ത = 𝑖=1
𝑛
Vaca Leite
▪ Muito influenciável por valores 112 39.0
extremos 55 37.8
 Variáveis contínuas ou ordinais ▪ N pequeno 29 35.6
187 27.8

25 26

Vaca Leite  Produção de leite  Média ponderada


112 39.0
Vaca Leite CCS
▪ Observações tem pesos
55 37.8 39+37.8+35.6+27.8 1 20 200
29 35.6
 𝑋ത = = 35 𝑘𝑔
4 2 15 300
187 27.8  Média ponderada da
CCS no rebanho 3 10 8000
▪ Peso = leite 4 10 100
Vaca Leite
112 39.0
39+37.8+35.6+10.0
55 37.8  𝑋ത = = 30.6 𝑘𝑔 200(20) + 300(15) + 10(8000) + 10(100)
4  CCS ponderada = 𝑋ത = = 1627
29 35.6
20+15+10+10
187 10.0
200 + 300 + 8000 + 100
 CCS aritmética = 𝑋ത = = 2150
4

27 28

 Mediana  Quando N é impar:


▪ Não é tão sensível a valores extremos
▪ Ordenar os dados em sequencia crescente
▪ Objetivo é caracterizar um grupo de animais ou
medidas ▪ 10, 11, 14, 15, 19
▪ Mediana é o número do meio da série ordenada
 Quando N é impar:
𝑛+1
▪ 𝑋=[ ] ésimo valor ordenado = 50° percentil 𝑛+1
2
▪𝑋= é𝑠𝑖𝑚𝑜 valor ordenado = 50° percentil
2
 Quando N é par: 5+1
▪ 𝑋 = 𝑚é𝑑𝑖𝑎 𝑑𝑒 [
𝑛
]é𝑠𝑖𝑚𝑜 𝑒
𝑛
+ 1 é𝑠𝑖𝑚𝑜 𝑣𝑎𝑙𝑜𝑟𝑒𝑠
▪𝑋= é𝑠𝑖𝑚𝑜 = 3° 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎 𝑠é𝑟𝑖𝑒 = 14
2
2 2

29 30

5
5/10/2021

 Quando N é par:  Cálculo da mediana considera a ordem e a


▪ 10, 11, 14, 15, 19, 24 magnitude relativa das observações
▪ Mediana é a média dos números do meio da série ordenada  Medida robusta
▪ Menos sensível a valores extremos
𝑛 𝑛
▪ 𝑋 = 𝑚é𝑑𝑖𝑎 𝑑𝑒 é𝑠𝑖𝑚𝑜 𝑒 [ + 1]é𝑠𝑖𝑚𝑜 𝑣𝑎𝑙𝑜𝑟𝑒𝑠  2.15, 2.25, 2.30, 3.00, 3.38, 4.02, 4.05
2 2
6 6 ▪ Mediana = 3.00
+( +1) 3°+4° 14+15
2 2
▪𝑋= = = = 14.5
2 2 2
 2.15, 2.25, 2.30, 3.00, 3.38, 4.02, 40.5
▪ Mediana = 3.00

31 32

 Como calcular o 25º percentil (K = 25)


 Como calcular o K-ésimo percentil
 1, 2, 4, 8, 9, 11, 12, 14,15
▪ Ordenar dados de forma crescente 𝑁×𝐾 9×25
𝑁×𝐾

100
= 100
= 2.25 = decimal → arredondar para cima
▪ Se = inteiro, percentil desejado é a média do:
100 ▪ j = 3 → terceira observação = 4
𝑁×𝐾 𝑁×𝐾
▪ é𝑠𝑖𝑚𝑜 𝑒 + 1 é𝑠𝑖𝑚𝑜 𝑣𝑎𝑙𝑜𝑟𝑒𝑠
100 100
 1, 2, 4, 8, 9, 11, 12, 14 → qual é o 50º percentil?
𝑁×𝐾 𝑁×𝐾 8×50
▪ Se = não for inteiro: ▪ = = 4 = inteiro →
100 100 100
▪ Arredonde para o inteiro maior = j 𝑁×𝐾 𝑁×𝐾
[ 100 ] + [ 100 +1] 4º+5º 8+9
▪ 50º percentil = = = = 8.5
▪ Percentil desejado = j −é𝑠𝑖𝑚𝑜 𝑣𝑎𝑙𝑜𝑟 𝑑𝑎 𝑠é𝑟𝑖𝑒 2 2 2

33 34

 Avaliação de desempenho e definição de metas  Definição de pontos de corte


 Comparação de um rebanho a uma população de  Qual ponto de corte poderia ser usado para definir uma
rebanhos similares penalidade para a qualidade do leite?
CCS do ▪ O mesmo serviria para todas as populações?
 Interpretação
▪ Os melhores 20%
tanque TBC CC SCC TEMP
CFU/mL Cells/mL C
da população Média CCS últimos 12 213 Percentiles
possuem CCS < 25th 1000 20 163 3.3
184 meses – Rebanho A
50th 3000 50 204 3.9
▪ Os piores 20% da 20° percentil população 184 75th 8000 160 247 3.9
população N 7241 7275 9626 10079
possuem CCS > 372 Mediana 284 Mean 12546 242 206 3.7
SD 50183 447 62 0.8
 Como está o 80° percentil população 372 Geometric Mean 1187 48 197 -

rebanho A?

35 36

6
5/10/2021

 Moda  Mas qual é a melhor medida de tendência


▪ Observação que ocorre mais frequentemente central...
 2.15, 2.25, 2.30, 3.00, 3.38, 4.02, 4.05  Depende da distribuição dos valores
▪ Não há moda Animal Sexo
1 0
 a)  b)
 Sexo de bovinos confinados 2 1
▪ Moda = 1 (macho) 3 1
4 1
5 1
 c)  d)
6 0
7 0

37 38

 Amplitude (Range)
 Mas qual é a melhor medida de tendência
central...  Diferença entre a observação maior e menor
 Uso limitado
 Depende da distribuição dos valores ▪ Considera somente valores extremos
▪ Maioria dos valores são ignorados

 Muito influenciável por valores extremos


 2.15, 2.25, 2.30, 3.00, 3.38, 4.02, 4.05
 Média >  Mediana =  Mediana > ▪ Amplitude = 4.05 – 2.15 = 1.90

mediana média média  2.15, 2.25, 2.30, 3.00, 3.38, 4.02, 40.5
▪ Amplitude = 40.5 – 2.15 = 38.35

39 40

 Intervalo Interquartil (Interquartile Range)  Resumo unidimensional de dados


 Diferença entre 3º e 1º quartis (75º – 25º ▪ Somente 1 eixo
percentis)  Caixa central delimitada por
▪ Não influenciado facilmente por valores extremos ▪ 1° e 3° quartis dos dados
▪ Inclui 50% das observações centrais  Média
 Mediana
 Min. & Max.
 Valores extremos
▪ Depende do tipo de boxplot

41 42

7
5/10/2021

 Padrão:  Quantifica a variabilidade ao redor da média das


observações
▪ 1° e 3° quartis dos dados
▪ Média  Quão “espalhadas” são as observações
 Seria lógico pensar em:
▪ Mediana
σ𝑛 ത
𝑖=1(𝑥𝑖 −𝑋)
 Diferentes definições para barras  𝑆2 = → Problema: soma = 0
𝑛
▪ Min. e Max. σ𝑛 𝑥 −𝑋ത 2
 𝑆 2 = 𝑖=1 𝑖 → elevar cada desvio ao
▪ 1.5 x intervalo interquartil (𝑛 −1)
quadrado
▪ 3° quartil + 1.5 x int.interquartil
▪ 1° quartil - 1.5 x int.interquartil  Unidade é elevada ao quadrado (ex: kg2)

43 44

 Produção de leite por vaca  Desvio padrão = raiz quadrada da variância


Vaca Leite
 𝑋ത = 35.1 kg 112 39.0 ▪ Mais usado na prática do que a variância
55 37.8
2 Vaca Leite
 Soma dos desvios = 39 − 35.1 + 29
187
35.6
27.8
 S = 𝑆 2 → S = 25.3 = 5.03 kg 112 39.0
37.8 − 35.1 2 + 35.6 − 35.1 2 + ▪ Unidade original é preservada 55 37.8

27.8 − 35.1 2 ▪ Média = 35.1 ± 5.03 kg 29 35.6


187 27.8

 𝑆2 =
15.21+7.29+0.25+53.29
=
76.04
= 25.3  Cuidado!
4−1 3
▪ Ao comparar desvios padrões de dados diferentes
▪ Unidades diferentes não são comparáveis!
 Unidade = Kg 2

45 46

 Permite a comparação da variabilidade entre


conjuntos de dados medidos em unidades diferentes
 Excel - SAS
▪ Não possui unidades
▪ Entrada de dados para análise
 Relaciona o desvio padrão com a média
𝑠 5.03 ▪ Estatísticas descritivas
 CV = x 100 → CV (leite) = × 100 = 14.3%
𝑋ത 35.1

 Medido em % ▪ Gráficos
 Difícil de avaliar se CV é grande ou pequeno

47 48

8
5/10/2021

 Excel – Tabela Dinâmica

 Estatísticas descritivas
▪ Média, mediana, variância, desvio padrão
▪ Tabelas com estatísticas descritivas

 Percentis

 Box plot

49

Você também pode gostar