Escolar Documentos
Profissional Documentos
Cultura Documentos
1
Definição de Estatística
2
A Estatística, geralmente, divide-se em:
• Estatística Descritiva: consiste na recolha, apresentação, análise e interpretação dos dados
relativos a um dado evento, através de quadros, gráficos, medidas (para posterior dedução das
leis que regem esses eventos).
• Inferência Estatística: aplicação de métodos científicos para inferir, tirar conclusões, tomar
decisões sobre um conjunto (população) com base na análise de uma parte (amostra).
3
A Estatística, geralmente, divide-se em:
4
Estatística Descritiva e Inferência Estatística
No âmbito da Estatística Descritiva procura-se representar de forma inteligível a informação
contida num conjunto de dados relativos a um dado evento. Esta tarefa adquire grande
relevância quando o volume de dados é significativo e concretiza-se na construção de tabelas,
gráficos ou cálculo de medidas que representem convenientemente a informação contida nos
dados (para posterior dedução das leis que regem esses eventos).
5
População e amostra
População
Conjunto de elementos ou objetos sob estudo com alguma caraterística comum, delimitado com
precisão.
É sobre a população que se pretende fazer inferência. Geralmente é composta por um número
muito elevado de indivíduos, tornando praticamente impossível o acesso a todos os elementos
(indivíduos).
Amostra
Parte ou subconjunto da população, que se supõe ser “representativa” da mesma. É a parte da
população a que se tem acesso e sobre a qual as observações, medições, são efetuadas. Existem
várias técnicas de amostragem (escolha dos indivíduos que farão parte da amostra).
6
População e amostra
População
Amostra
7
Exemplo
Pretende-se estudar o efeito de um novo medicamento para curar uma doença. Seleciona-se
um grupo de 20 doentes, administrando-se o novo medicamento a 10 desses doentes escolhidos
ao acaso e o medicamento habitual aos restantes.
População
Conjunto de todos os doentes com a doença que o medicamento a estudar pretende tratar.
Amostra:
Conjunto dos 20 doentes selecionados.
8
Variáveis
Atributos ou caraterísticas de uma população
Ao estudar uma população ou uma amostra dessa população o que se pretende é conhecer as suas
caraterísticas ou atributos
Qualquer que seja o atributo considerado, o seu valor numérico pode variar de elemento para
elemento. Para assimilar este facto representam-se estes valores por uma variável, seja X (as variáveis
designam-se por letras maiúsculas) . Se a amostra observada tem dimensão n (ou seja, n elementos)
tem-se x1,x2,…,xn onde xi (i=1,2,…,n) é o valor do atributo na i-ésima observação (os valores específicos
que essas variáveis têm sobre os objetos observados representam-se por minúsculas).
9
Variáveis
Chama-se conjunto ou coleção de dados a um conjunto de observações de certo(s) atributo(s),
qualquer que seja a forma como foram recolhidos.
10
Variáveis
É necessário saber-se qual a forma que cada variável assume antes de se poder tomar uma
decisão relativamente ao uso dos métodos estatísticos mais apropriados.
11
Variáveis
12
Variáveis
Variáveis qualitativas: as modalidades não são passíveis de ser medidas, não é
possível efectuar operações algébricas sobre estas variáveis. Podem ser
nominais ou ordinais.
Nominais: variáveis que não se podem ordenar. São variáveis qualitativas por
excelência, variáveis sem qualquer relação de ordem entre elas. Pode-se atribuir
um código numérico a cada categoria da variável em estudo, mas não faz
qualquer sentido calcular medidas quantitativas como a média ou o desvio
padrão.
13
Variáveis
Ordinais: variáveis que se podem ordenar. São variáveis em que as diversas
categorias possuem uma ordem intrínseca com significado. O uso de códigos
numéricos deve ter em conta essa ordem.
14
Variáveis
Variáveis quantitativas ou numéricas: estas variáveis exprimem caraterísticas mensuráveis de objetos
ou de indivíduos, i.e, suscetíveis de ser medidas. A cada indivíduo corresponde um número que é a
medida da variável. As modalidades são os valores possíveis da variável estatística ou os agrupamentos
desses valores (classes). Podem ser discretas ou contínuas.
Exemplos: número de filhos, peso, altura, tempo de vida de uma máquina, débito de uma canalização, número de
cigarros fumados, receita de um agregado doméstico privado, taxas de juro, número de acidentes por apólice de
seguro, etc.
Exemplos: número de crianças a cargo de uma família, número de acidentes de trabalho num determinado
estabelecimento, número de divisões por unidade de alojamento, número de acidentes por apólice de seguro, número
de vendas de um determinado aparelho, número de batimentos do coração por minuto, número de filhos por casal,
número de cigarros fumados por dia.
15
Variáveis
Contínuas: tomam um número infinito não numerável de valores.
Exemplos: a altura, o peso e a idade de um indivíduo, a distância entre dois pontos, o débito duma
canalização, a pressão sanguínea, temperatura corporal, tempo de vida de uma máquina, receita de um
agregado doméstico privado.
A distinção entre variáveis discretas e contínuas é muitas vezes artificial. Na prática a distinção entre
variáveis estatísticas assenta essencialmente nos valores serem ou não apresentados agrupados em
classes.
A precisão duma medida é sempre limitada e os resultados são apresentados muitas vezes sob a
forma discreta. Inversamente, desde que uma variável estatística discreta possa tomar um grande número
de valores, os valores vizinhos aparecem, relativamente, muito próximos, e a variável é considerada e
tratada como sendo uma variável contínua.
16
Classifique como qualitativa/quantitativa
e nominal/ordinal ou discreta/contínua as
seguintes variáveis.
Exemplo: Classifique como qualitativa/quantitativa e
nominal/ordinal ou discreta/contínua as seguintes variáveis.
• A dimensão (número de pessoas) de uma família - Quantitativa discreta
17
Escalas de medida das variáveis quantitativas
18
Escalas de medida das variáveis quantitativas
Variáveis de escala por intervalos:
São variáveis quantitativas, que além de poderem ser ordenadas, possuem a propriedade da
diferença entre dois valores desta escala poder ser calculada e interpretada, a distâncias iguais
correspondem quantidades iguais. No entanto, não é possível atribuir um significado à razão
entre dois valores e o zero não representa a ausência total da característica que está a ser
medida.
19
Escalas de medida das variáveis quantitativas
Variáveis de escala por intervalos:
Temperatura do ar em graus centígrados ou graus Fahrenheit. Justificação: zero graus no Porto
não representam ausência de temperatura no Porto; 30 graus em Lisboa e 10 graus em Braga não
significa que em Lisboa está três vezes mais calor do que em Braga:
10º C = 50º F e 30º C = 86º F , mas 30º C 10º C 86º F 50º F .
Os resultados de 150 candidatos a um MBA num teste de admissão (valores admissíveis no
teste:200-800). Um resultado de 600 não pode ser visto como sendo 50% mais alto que um resultado
de 400. Mas a diferença entre as classificações 600 e 580 é a mesma que a diferença de classificações
entre 520 e 500.
20
Apresentação dos dados
Representação Tabular e Gráfica de Dados Qualitativos
• Tabelas de frequências
• Gráficos de barras
• Gráficos circulares
21
Representação Tabular de Dados Qualitativos
22
Representação Gráfica de Dados Qualitativos
23
Representação Gráfica de Dados Qualitativos
24
Exercício 1
Numa turma de 17 alunos de Estatística realizou-se um estudo sobre a variável Sexo
{F, M}. Os dados obtidos foram:
F, M, M, M, M, M, F, M, M, M, M, M, F, M, F, F, M
25
Exercício 1
26
Exercício 1
27
Representação Tabular e Gráfica de Dados Quantitativos -
Variáveis Discretas
• Tabelas de frequências
• Gráficos de barras
28
Representação Tabular de Dados Quantitativos -
Variáveis Discretas
29
Representação Gráfica de Dados Quantitativos -
Variáveis Discretas
30
Exercício 2
Foi feito um inquérito a um grupo de alunos inscritos na u.c. Probabilidades e Estatística sobre o
n.º de irmãos, tendo-se obtido os seguintes resultados:
0, 3, 0, 1, 1, 2, 1, 2, 0, 0, 0, 1, 2, 1, 2, 4, 1, 3, 1, 1
31
Exercício 2
32
Exercício 2
33
Exercício 2
34
Representação Tabular e Gráfica de Dados Quantitativos -
Variáveis Contínuas
• Tabelas de frequências
• Histogramas
• Polígono de frequências
35
Representação Tabular de Dados Quantitativos -
Variáveis Contínuas
36
Representação Tabular de Dados Quantitativos -
Variáveis Contínuas
Nº de classes: k
𝑘 ≈ log 2 𝑛 + 1
Método para a construção de classes:
amplitude das classes: a
sempre que possível, as classes devem ter todas a mesma amplitude e facilitar a leitura dos resultados
𝑚𝑎𝑖𝑜𝑟 𝑣𝑎𝑙𝑜𝑟 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 −𝑚𝑒𝑛𝑜𝑟 𝑣𝑎𝑙𝑜𝑟 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜
a≈ colocar o valor de k sem estar arredondado
𝑘
• qualquer observação pertence a uma e uma só classe;
• o limite inferior da primeira classe deve ser menor ou igual que o mínimo da amostra;
• o limite superior da última classe deve ser maior do que o máximo da amostra;
• notação utilizada é a de classes abertas à direita e fechadas à esquerda, no entanto, existem situações em que tal não
é utilizado.
37
Representação Tabular de Dados Quantitativos -
Variáveis Contínuas
38
Representação Tabular de Dados Quantitativos -
Variáveis Contínuas
39
Representação Gráfica de Dados Quantitativos -
Variáveis Contínuas
40
Representação Gráfica de Dados Quantitativos -
Variáveis Contínuas
POLÍGONO DE FREQUÊNCIAS resulta de unir sucessivamente, por segmentos de reta, os
pontos médios dos lados superiores dos retângulos do histograma.
41
Representação Gráfica de Dados Quantitativos -
Variáveis Contínuas
42
Exercício 3
43
Exercício 3
44
Exercício 3
45
Exercício 3
46
Exercício 3
47
Exercício 3
48
Exercício 3
49
Caraterísticas Amostrais
Classificação das medidas descritivas:
- medidas de localização: localizam os valores observados da variável no eixo dos números reais.
Exemplos: média, moda, mediana, quantis: quartis, decis e percentis (decis e percentis não
pertencem ao programa)
- medidas de dispersão: medem a dispersão da informação
Exemplos: intervalo de variação, intervalo interquartis, desvio padrão, variância, coeficiente de
variação.
- medidas de assimetria: distinguem as distribuições segundo a forma como se distribui a
informação.
Exemplos: 1º e 2º coeficientes de assimetria de Pearson.
- medidas de achatamento (ou curtose): diferenciam distribuições segundo o achatamento (não
pertencem ao programa)
50
Medidas de Localização: Média aritmética
51
Exercício 4
Considere a variável “Idade” de 17 estudantes, cujos valores a seguir se repetem:
19, 20, 28, 20, 22, 22, 21, 21, 20, 19, 24, 23, 23, 31, 24, 24, 25
2. Calcule a média
52
Exercício 4
53
Exercício 4
O valor da média aritmética das idades dos 17 estudantes pode obter-se diretamente:
54
Exercício 4
55
Caraterísticas mais importantes da média aritmética:
(1) A média aritmética é fácil de calcular e interpretar.
(2) É uma medida que pode tomar um valor diferente de todos os valores observados e é
influenciada por todos eles. Qualquer alteração num destes valores produz uma modificação no
valor da média.
(3) O valor da média pode ser enviesado por apenas alguns valores extremos. Por considerar
todos os valores observados no seu cálculo a média poderá deixar de ser representativa se a
distribuição for altamente assimétrica devido a alguns valores extremos.
(4) A média é a medida de tendência central mais eficiente quando se trata de inferir sobre uma
população a partir de dados recolhidos apenas para uma amostra.
56
Medidas de Localização: Mediana
57
Exercício 5
Com base nos dados do Exercício 4, calcule o valor da mediana da idade dos 17 estudantes.
58
Exercício 5
Considere-se a amostra ordenada:
19, 19, 20, 20, 20, 21, 21, 22, 22, 23, 23, 24, 24, 24, 25, 28, 31
n = 17 (ímpar)
Portanto, a mediana é 𝑥9:17 = 22.
Conclusão: 50% dos alunos têm idade igual ou inferior a 22 anos e 50% dos alunos têm idade
igual ou superior a 22 anos.
Ou
Análise da tabela de distribuição.
59
Caraterísticas mais importantes da mediana:
(1) A mediana é fácil de calcular e compreender.
(2) É determinada pelo número de observações e não pelo seu valor. Deste modo, os valores
extremos, quer sejam grandes ou pequenos, não afetam o valor da mediana.
(3) É uma medida muito utilizada sobretudo para distribuições fortemente assimétricas por não
ser afetada por valores extremos.
60
Medidas de Localização: Moda
Valor mais frequente da distribuição ou seja o valor com frequência máxima. Representa-se por
Mo.
Se os dados são realizações de uma variável quantitativa discreta e se apresentam tabelados
encontra-se o valor da Mo através das colunas 𝑛𝑖 ou 𝑓𝑖 .
Em amostras cujos valores são todos igualmente frequentes – não é possível identificar a moda.
Em amostras em que existe mais do que um valor com a frequência mais elevada a moda é igual
ao conjunto de valores mais frequentes (classe modal).
61
Exercício 6
Com base nos dados do Exercício 4, calcule a moda da idade dos 17 estudantes.
62
Exercício 6
Considerando a tabela de distribuições de frequências, pode verificar-se que existem dois
valores com maior frequência: 20 e 24.
63
Caraterísticas mais importantes da moda:
(1) É uma medida, em geral, menos utilizada que a média e a mediana.
(2) A moda não existe em algumas distribuições enquanto que noutras poderá existir mais do
que uma moda. Neste último caso a distribuição diz-se multimodal.
64
Medidas de Localização: Quantis
Quantis mais conhecidos: quartis, decis e percentis (não pertencem ao programa)
Os quartis são os valores da variável que dividem a distribuição de frequências em quatro partes
iguais.
Q1 = 1º quartil = quartil de ordem 1
Q2 = 2º quartil = quartil de ordem 2 = Me
Q3 = 3º quartil = quartil de ordem 3
65
Medidas de Localização: Quantis
Com base nos dados do Exercício 4, calcule o 1º e 3º Quartis da variável idade dos 17
estudantes.
67
Exercício 7
68
Medidas de Dispersão: Variância e Desvio Padrão
69
Medidas de Dispersão: Variância e Desvio Padrão
70
Exercício 8
Considere os 3 conjuntos de dados:
1º conjunto: 10, 10, 10, 10, 10, 10
2º conjunto: 9, 9, 9, 10, 10, 10, 11, 11, 11
3º conjunto: 0, 5, 5, 5, 10, 15, 15, 15, 20
Em cada um dos três conjuntos, a média e a mediana são sempre as mesmas: 10.
Calcule a variância e o desvio padrão dos três conjuntos de dados.
71
Exercício 7
72
Exercício 8
3º Conjunto
Conclusão: Conjuntos de observações com a mesma medida de localização podem ter variabilidade muito
diferente. A dispersão dos valores em torno da média é nula no 1º conjunto (não há variabilidade), tem um
certo valor no 2º conjunto e um valor muito maior no 3º.
73
Medidas de Dispersão: Intervalo de Variação e
Intervalo Interquartis
74
Medidas de Dispersão: Coeficiente de Variação
75
Medidas de Assimetria:
A assimetria é a falta de simetria do histograma / gráfico de barras em relação à reta vertical
que passa pela abcissa correspondente à média.
A (as)simetria é o principal traço caraterizador da forma de uma distribuição de frequências.
76
Medidas de Assimetria: Comparação das Medidas
de Tendência Central
77
Medidas de Assimetria: Índices Numéricos
Indicadores quantitativos que permitem estimar o grau de assimetria de uma distribuição:
- 1º coeficiente de assimetria de Pearson
Para evitar o emprego da moda pode adotar-se pelo 2º coeficiente de assimetria de Pearson:
78
Exercício 9
Com base nos dados do Exercício 4, estude a assimetria da distribuição de frequências da
79
Exercício 9
2º coeficiente de assimetria de Pearson
3× 22,7−22
𝑔𝑝 = ≈ 0,67
3,12
80
Caraterísticas Amostrais: dados contínuos
Se os dados são realizações de uma variável quantitativa contínua, e se apresentam agrupados em classes,
apenas é possível calcular valores aproximados das caraterísticas amostrais.
81
Medidas de Localização: Média aritmética
82
Medidas de Localização: Mediana
83
Medidas de Localização: Moda
84
Medidas de Localização: Quartis
85
Medidas de Dispersão: Variância e Desvio Padrão
86
Exercício 10
As precipitações, medidas em mm, ao longo de 50 anos e registadas no mês de Julho numa
87
Exercício 10
1. Agrupe os dados em classes, utilizando a regra de Sturges.
3. Determine um valor aproximado das medidas de dispersão: variância e desvio padrão dos
88
Exercício 10
89
Exercício 10
90
Exercício 10
91
Exercício 10
92
Exercício 10
93