Você está na página 1de 56

UNIVERSIDADE FEDERAL DE SÃO PAULO –

UNIFESP
Eng. Química

Estatística

Profª. Drª. Iara R. A. P. Bresolin


iara.bresolin@unifesp.br
Bibliografia para descontrair
Bibliografia básica

✓DEVORE, JAY L. Probabilidade e Estatística: para


Engenharia e Ciências. Editora Thomson Learning,
2006.

✓TRIOLA, M. F. Introdução à estatística. Editora LTC,


2011.
A natureza da Estatística

Ciência → raízes na história do homem

Desde a antiguidade se faz registro de:


✓ Número de habitantes
✓ Nascimento
✓ Óbitos
✓ Estimativa de riqueza individual
A natureza da Estatística

✓ Na idade média colhiam-se informações com


finalidades tributárias ou bélicas
✓ Século XI: iniciaram análises de casamentos,
batizados.
✓ Século XVIII: o estudo destes fatos foram se
tornando verdadeiramente científicos → Godofredo
Achenwall deu o nome para essa ciência de
ESTATÍSTICA
A natureza da Estatística

As tabelas tornaram-se mais complexas e a


estatística deixou de ser simples catalogação de
dados numéricos coletivos para se tornar o estudo
de como chegar a conclusões sobre o todo
(população), partindo da observação de partes
desse todo (amostra) → INFERÊNCIA
Eleições americanas- 1948
O que é estatística?

Estatística é a ciência que trata da coleta, da análise


e da disposição de dados.

Portanto, a estatística é uma ferramenta fundamental


no processo de solução de problemas.
Todas as medidas apresentam VARIAÇÕES!
Todas as medidas apresentam VARIAÇÕES!

A estatística fornece técnicas para avaliar estas “variações”


Ramos da estatística

1) Estatística Descritiva: Consiste em resumir e


descrever as características principais de um
conjunto de dados.

✓ Via métodos gráficos

✓ Via cálculo de medidas numéricas

2) Estatística Inferencial: Usar informações de


uma AMOSTRA para tirar conclusões (INFERIR)
sobre toda POPULAÇÃO.
População e amostra

População: consiste em uma coleção de


objetos bem definida.

Quando são conhecidas as informações de


todos os objetos (população).

Amostra: consiste em um subconjunto de


uma população.

Quando são conhecidas as informações de


um grupo dos objetos (amostra).
Variável

Toda característica que pode variar de elemento para


elemento de uma dada população é uma variável.

✓ Consideremos o gênero dos alunos da sala:

Essa dado é uma variável!

✓ Seja uma fábrica de parafusos:

O diâmetro (d) de todos os parafusos produzidos em


um determinado dia é uma variável!
Variável numérica (quantitativa) → O diâmetro
de todos os parafusos produzidos em um
determinado dia.

✓ Variável discreta: resultante de contagem

✓ Variável contínua: resultante de uma medida

Variável categorizada (qualitativa) → O gênero


dos alunos do Campus.
Variável discreta

✓ Número de alunos aprovados na UC de


Estatística;
✓ Número de parafusos produzidos em um dia
(não confundir com o diâmetro dos parafuso que é
uma medida!);
✓ Número de votos que um candidato recebeu;
✓ Número de gols em uma partida de futebol.
Variável contínua

A medida do pH de uma dada solução

1) Podemos calcular por titulação, medindo-se a


quantidade (volume) do agente titulante adicionado.

2,25 mL

Volume titulante = 5,00 – 2,25 mL = 2,75 mL

Mas, o volume pode ter sido: 2,7499 ou 2,7511


Variável contínua

2) Podemos medir o pH também com o auxílio de um pHmetro.

Também nesse caso o pH real pode ser: 6,722; 6,725; 6,7233...


ou seja, embora o volume de titulante ou o pH aqui só possa
assumir valores definidos, tanto o volume como o pH são
variáveis contínuas.
Estatística descritiva

✓ Baseadas em visualizações gráficas de um


conjunto de dados.

✓ Baseadas em cálculos numéricos de um


conjunto de dados.
Métodos gráficos: Dot Plot

Sejam as temperaturas (ºC) de uma Cidade A medidas às


12:00 h:

T = 30; 25; 32; 34; 31; 29; 28; 30; 32; 34; 34; 32; 30; 26; 43.
Gráfico Ramo e Folha

Seja o conjunto do número de multas de trânsito notificadas


em uma certa via da Cidade de Diadema, observadas durante
16 dias:
Dados observados brutos: 10; 15; 22; 9; 15; 16; 9; 24; 11;
20; 22; 25; 40; 28; 30; 31
Vamos organizá-los: (ordená-los em ordem crescente, por
exemplo)
Rol: 9; 9; 10; 11; 15; 15; 16; 20; 22; 22; 24; 25; 28; 30; 31; 40

“RAMO” “FOLHA”
Histogramas - variáveis discretas

Seja o conjunto do número de defeitos em um dado produto.


Consideremos a seguinte amostra de 40 observações:

Frequência de um dado valor x = Nº de vezes que o valor ocorre

Frequência relativa do valor x = Frequência de um dado valor x


Número total de observações
Frequência relativa do valor (x = 5) = 6 = 0,15
40
Frequência percentual do valor (x = 5) = 15%
Obs: A soma das frequências relativas = 1
Tabela de frequência
Tabela de frequência
Tabela de frequência
Histogramas - variáveis contínuas

✓ Colete os “n” dados.


✓ Os dados devem ser divididos em “Classes”.
✓ O número de classes são usualmente entre 5 e 20.
✓ O número de classes = número de dados (n)
✓ Amplitude Total: At = Valor máximo – Valor mínimo
Exemplo

Sejam os valores de pH de 50 amostras medidos


pelos alunos numa aula de laboratório.
2,6; 2,6; 2,8; 3,1; 4,0; 4,0; 4,0; 4,1; 4,2; 4,5;
5,1; 5,1; 5,2; 5,2; 5,3; 5,3; 5,3; 5,8; 5,9; 6,0;
6,0; 6,0; 6,0; 6,1; 6,1; 6,2; 6,2; 6,3; 6,4; 6,5;
6,6; 6,8; 7,0; 7,0; 7,0; 7,0; 7,0; 7,1; 7,2; 7,2;
7,2; 7,6; 7,7; 7,8; 7,9; 8,0; 8,6; 8,8; 8,9; 9,1.

Número de classes =  50 = 7,07 = 7

Largura da classe = Amplitude total_ = 9,1−2,6 = 0,928 ≈0,93


Número de classes 7
Tabela de frequência

2,6; 2,6; 2,8; 3,1; 4,0;


4,0; 4,0; 4,1; 4,2; 4,5;
5,1; 5,1; 5,2; 5,2; 5,3;
5,3; 5,3; 5,8; 5,9; 6,0;
6,0; 6,0; 6,0; 6,1; 6,1;
6,2; 6,2; 6,3; 6,4; 6,5;
6,6; 6,8; 7,0; 7,0; 7,0;
7,0; 7,0; 7,1; 7,2; 7,2;
7,2; 7,6; 7,7; 7,8; 7,9;
8,0; 8,6; 8,8; 8,9; 9,1.
Tabela de frequência
Comportamento dos Histogramas
Cálculo de medidas numéricas:
Medidas de posição

Média amostral:

Notações:
n = tamanho da amostra
xi = i-ésima observação de uma dada variável “x”
Média amostral

Sejam as temperaturas x (ºC) de uma cidade A, medidas


às 12:00 h (horário local):

Dados brutos
x = 30; 25; 32; 34; 26; 29; 33; 25; 28; 34; 34; 27; 30; 26; 43

x = 30,4 ºC
Média amostral

50

45
“outlier”
40
Temperatura (ºC)

35

30

25

20

15

10

0
0 2 4 6 8 10 12 14 16

Observações
Média populacional

N = tamanho da população

Em casos práticos, a média da população é


inviável de ser calculada

x Inferência 
Mediana

Com os dados de uma amostra organizados em forma de ROL


(na ordem crescente), a mediana amostral é representada
pelo valor que divide o conjunto de dados em duas partes
iguais.

Considerando uma amostra com cinco observações dispostas


em ordem crescente:

x1 , x2 , x3 , x4 , x5
mediana amostral
Mediana

Observação: No caso de amostras com um número par


de observações, a mediana consistirá na média das
duas observações centrais.

x1 , x2 , x3 , x4 , x5 , x6
x3 + x4
mediana amostral 2

A mediana, diferentemente da média, praticamente não


sofre efeitos pela presença de outlires, quer sejam
valores muito baixos ou muito altos.
Mediana

Sejam as temperaturas x (ºC) de uma cidade A, medidas às


12:00 h (horário local):

Dados brutos
x = 30; 25; 32; 34; 26; 29; 33; 25; 28; 34; 34; 27; 30; 26; 43

Rol:
x = 25; 25; 26; 26; 27; 28; 29; 30; 30; 32; 33; 34; 34; 34; 43

x = 30,4ºC
x = 30,0 ºC outlier
Mediana

Supondo que o valor de 43ºC seja agora 80ºC (um outlier


maior).

Rol:
x = 25; 25; 26; 26; 27; 28; 29; 30; 30; 32; 33; 34; 34; 34; 80


x = 32,9ºC x = 30,0 ºC outlier
Medidas de dispersão
A soma dos desvios pode refletir o grau da dispersão:

Zero?? Mas a dispersão existe!

Então, a soma dos quadrados dos desvios é:


Variância e desvio padrão

Desvio padrão, bem como a variância, são medidas de


dispersão. Elas medem o quanto cada elemento de uma
distribuição se desviou de um valor central. No caso, este
valor central é a média.
Variância amostral (S2)

Unidade de S2 →unidade da média2

Desvio padrão amostral (S)

Unidade de S →unidade da média


Variância e desvio padrão

Para população finita:

Variância da população (2)

Desvio padrão população ()

Para população infinita →  só é feito por INFERÊNCIA!


Box Plot

O box Plot (Diagrama de Caixa) exibe


simultaneamente vários aspectos: tendência
central ou posição, dispersão ou variabilidade e
afastamento da simetria.

Ele é especialmente útil quando trabalhamos


com conjuntos limitados de dados para os
quais outras ferramentas (tais como
histogramas, que requerem 25 – 400 pontos)
podem ser inválidas ou insuficientes.
Box Plot
Através da disposição dos valores em ordem crescente
tem-se uma idéia clara sobre a localização e a dispersão
dos dados. Para o gráfico box plot precisamos calcular:
limite da haste inferior, limite da haste superior, primeiro
quartil, terceiro quartil e a mediana.
Quartis

Quartis - outra forma de caracterizar


quantitativamente a distribuição de uma
variável. Consiste em encontrar os valores
abaixo dos quais estão 25% dos dados
(Primeiro Quartil), 50% dos dados (Mediana) e
75% dos dados (Terceiro Quartil).
Exemplo

Dados brutos:
20 11 2,5 5 5 5,5 3 3,5 3 0,4 3,2 5 3 3,2 7,4 6

Dados ordenados (Rol):


0,4 2,5 3 3 3 3,2 3,2 3,5 5 5 5 5,5 6 7,4 11 20

✓ 25% dos dados estão abaixo de 3, assim, o Primeiro Quartil é


Q1=3;
✓ 50% dos dados estão abaixo de 4,25, assim, o Segundo
Quartil, que também é a Mediana é Q2=M=4,25;
✓ 75% dos dados estão abaixo de 5,75, assim, o Terceiro Quartil
é Q3=5,75
O box plot é um gráfico construído com base no
resumo dos cinco números, constituído por:

✓ Valor mínimo
✓ Primeiro quartil (Q1)
✓ Mediana (segundo quartil Q2)
✓ Terceiro quartil (Q3)
✓ Valor máximo
Supondo (genérico):
Q1 = 5; Q2 = 7; Q3 = 8.

v v v v v v v v v v v v v v v v v v v v
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Supondo ainda:
Mínimo = 3; Máximo = 15

v v v v v v v v v v v v v v v v v v v v
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Os valores atípicos, são valores muito afastados da
grande maioria dos dados. Supondo que todas as
observações sejam menores que ou iguais a 10, e
apenas uma observação seja igual a 15. Então 15 é
um valor atípico ou outliers.

v v v v v v v v v v v v v v v v v v v v
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Consideremos o conjunto de dados que gerou o
boxplot ; há 18 observações.

A mediana divide o conjunto em duas partes, cada


uma com 9 observações.

A mediana será, então, a média dos dois valores centrais:


O cálculo do primeiro e do terceiro quartis é feito calculando-
se as medianas das duas metades – o primeiro quartil é a
mediana da metade inferior e o terceiro quartil é a mediana da
metade superior.
Para os dados anteriores, cada metade tem 9 observações.
Logo, a mediana deixará 4 observações abaixo e 4
observações acima, ou seja, a mediana de cada uma dessas
partes será a quinta observação:
Consideremos outro conjunto de dados como exemplo:

Como há um número ímpar de observações (13), a


mediana deixará 6 observações abaixo e 6 observações
acima dela. Logo, a mediana é a 7ª observação.
Q1 Q3
Q2

Neste caso, considera-se o valor da mediana para calcular


o Q1=19 e Q3=28
Determinação de valores atípicos
(outliers)

A regra que adotamos para identificação dos


valores atípicos se baseia na amplitude
interquartil (AIQ), definida como a distância entre
o primeiro e o terceiro quartis:

AIQ = Q3 – Q1

Note que AIQ é o comprimento da caixa.


Determinação de valores atípicos
(outliers)

Quaisquer valores abaixo de Q1 ou acima de Q3


por mais de 1,5×AIQ serão considerados valores
atípicos e terão tratamento especial no box plot.

Existem também os outliers extremos, que são


valores abaixo de Q1 ou acima de Q3 por mais de
3×AIQ.
Assim, serão valores atípicos os valores x tais que
x < Q1 – 1,5×AIQ ou x > Q3 + 1,5×AIQ
Para o nosso primeiro exemplo, com 18 observações,
obtemos:

Q1 – 1,5×AIQ = 5 – 1,5×(8 – 5) = 0,5


Q3 + 1,5×AIQ = 8 + 1,5×(8 – 5) =12,5

v v v v v v v v v v v v v v v v v v v v
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Você também pode gostar