Você está na página 1de 93

Capítulo 1 – Estatística Descritiva

ENGENHARIA DA COMPUTAÇÃO GRÁFICA E MULTIMÉDIA


MCG – MÓDULO 3

1
Definição de Estatística

"Ciência que dispõe de processos apropriados para recolher, organizar,


classificar, apresentar e interpretar conjuntos de dados“.
A Estatística é um método de análise numérica de conjuntos constituídos por um grande
número de elementos, método de estudo de fenómenos que apresentam variabilidade e
incerteza(modelos aleatórios ou estocásticos em oposição aos modelos determinísticos).

Tem como objetivo analisar os dados recolhidos, extraindo informação, descrevendo-os e


organizando-os para posterior interpretação das situações que representam e eventual
utilização na previsão de acontecimentos futuros.

2
A Estatística, geralmente, divide-se em:
• Estatística Descritiva: consiste na recolha, apresentação, análise e interpretação dos dados
relativos a um dado evento, através de quadros, gráficos, medidas (para posterior dedução das
leis que regem esses eventos).

• Inferência Estatística: aplicação de métodos científicos para inferir, tirar conclusões, tomar
decisões sobre um conjunto (população) com base na análise de uma parte (amostra).

3
A Estatística, geralmente, divide-se em:

4
Estatística Descritiva e Inferência Estatística
No âmbito da Estatística Descritiva procura-se representar de forma inteligível a informação
contida num conjunto de dados relativos a um dado evento. Esta tarefa adquire grande
relevância quando o volume de dados é significativo e concretiza-se na construção de tabelas,
gráficos ou cálculo de medidas que representem convenientemente a informação contida nos
dados (para posterior dedução das leis que regem esses eventos).

O objetivo da Inferência Estatística é mais ambicioso e, naturalmente, as metodologias e


técnicas utilizadas são mais sofisticadas.
Com base na análise de um conjunto limitado de dados, pretende-se caracterizar o todo a partir
do qual tais dados foram obtidos. Consiste na aplicação de métodos científicos para inferir, tirar
conclusões e tomar decisões sobre um conjunto com base na análise de uma parte.

5
População e amostra
População
Conjunto de elementos ou objetos sob estudo com alguma caraterística comum, delimitado com
precisão.
É sobre a população que se pretende fazer inferência. Geralmente é composta por um número
muito elevado de indivíduos, tornando praticamente impossível o acesso a todos os elementos
(indivíduos).

Indivíduos ou unidades estatísticas: elementos da população em estudo.

Amostra
Parte ou subconjunto da população, que se supõe ser “representativa” da mesma. É a parte da
população a que se tem acesso e sobre a qual as observações, medições, são efetuadas. Existem
várias técnicas de amostragem (escolha dos indivíduos que farão parte da amostra).

6
População e amostra

População
Amostra

A forma de seleção de uma amostra a partir da população, designado por processo de


amostragem, é determinante par a qualidade das inferências que venham a fazer-se.
Quando a amostra não representa corretamente a população diz-se enviesada.

7
Exemplo
Pretende-se estudar o efeito de um novo medicamento para curar uma doença. Seleciona-se
um grupo de 20 doentes, administrando-se o novo medicamento a 10 desses doentes escolhidos
ao acaso e o medicamento habitual aos restantes.

População
Conjunto de todos os doentes com a doença que o medicamento a estudar pretende tratar.

Amostra:
Conjunto dos 20 doentes selecionados.

8
Variáveis
Atributos ou caraterísticas de uma população
Ao estudar uma população ou uma amostra dessa população o que se pretende é conhecer as suas
caraterísticas ou atributos

Qualquer que seja o atributo considerado, o seu valor numérico pode variar de elemento para
elemento. Para assimilar este facto representam-se estes valores por uma variável, seja X (as variáveis
designam-se por letras maiúsculas) . Se a amostra observada tem dimensão n (ou seja, n elementos)
tem-se x1,x2,…,xn onde xi (i=1,2,…,n) é o valor do atributo na i-ésima observação (os valores específicos
que essas variáveis têm sobre os objetos observados representam-se por minúsculas).

Simplificadamente, pode dizer-se que


Variáveis são caraterísticas observáveis que variam entre os diferentes indivíduos de uma
população.

9
Variáveis
Chama-se conjunto ou coleção de dados a um conjunto de observações de certo(s) atributo(s),
qualquer que seja a forma como foram recolhidos.

10
Variáveis
É necessário saber-se qual a forma que cada variável assume antes de se poder tomar uma
decisão relativamente ao uso dos métodos estatísticos mais apropriados.

As variáveis podem ser qualitativas ou quantitativas.

11
Variáveis

12
Variáveis
Variáveis qualitativas: as modalidades não são passíveis de ser medidas, não é
possível efectuar operações algébricas sobre estas variáveis. Podem ser
nominais ou ordinais.

Exemplos: localização geográfica, o setor de atividade económica, marca de


automóvel, cor, sexo.

Nominais: variáveis que não se podem ordenar. São variáveis qualitativas por
excelência, variáveis sem qualquer relação de ordem entre elas. Pode-se atribuir
um código numérico a cada categoria da variável em estudo, mas não faz
qualquer sentido calcular medidas quantitativas como a média ou o desvio
padrão.

Exemplos: sexo, estado matrimonial, nacionalidade, profissão, tipo sanguíneo, raça,


estado civil, religião, cor dos olhos, números das camisolas dos futebolistas.

13
Variáveis
Ordinais: variáveis que se podem ordenar. São variáveis em que as diversas
categorias possuem uma ordem intrínseca com significado. O uso de códigos
numéricos deve ter em conta essa ordem.

Exemplos: classificação do peso segundo 3 níveis: pouco pesados, pesados ou muito


pesados; classificação de um determinado produto como sendo: muito fraco, fraco,
razoável, bom ou muito bom; grau de satisfação; nível de ansiedade; resposta a um
tratamento; classificações obtidas pelos alunos num teste de Estatística: mau, medíocre,
suficiente, bom ou muito bom.

14
Variáveis
Variáveis quantitativas ou numéricas: estas variáveis exprimem caraterísticas mensuráveis de objetos
ou de indivíduos, i.e, suscetíveis de ser medidas. A cada indivíduo corresponde um número que é a
medida da variável. As modalidades são os valores possíveis da variável estatística ou os agrupamentos
desses valores (classes). Podem ser discretas ou contínuas.
Exemplos: número de filhos, peso, altura, tempo de vida de uma máquina, débito de uma canalização, número de
cigarros fumados, receita de um agregado doméstico privado, taxas de juro, número de acidentes por apólice de
seguro, etc.

Discretas: tomam um número finito ou infinito numerável de valores.

Exemplos: número de crianças a cargo de uma família, número de acidentes de trabalho num determinado
estabelecimento, número de divisões por unidade de alojamento, número de acidentes por apólice de seguro, número
de vendas de um determinado aparelho, número de batimentos do coração por minuto, número de filhos por casal,
número de cigarros fumados por dia.

15
Variáveis
Contínuas: tomam um número infinito não numerável de valores.

Exemplos: a altura, o peso e a idade de um indivíduo, a distância entre dois pontos, o débito duma
canalização, a pressão sanguínea, temperatura corporal, tempo de vida de uma máquina, receita de um
agregado doméstico privado.

A distinção entre variáveis discretas e contínuas é muitas vezes artificial. Na prática a distinção entre
variáveis estatísticas assenta essencialmente nos valores serem ou não apresentados agrupados em
classes.
A precisão duma medida é sempre limitada e os resultados são apresentados muitas vezes sob a
forma discreta. Inversamente, desde que uma variável estatística discreta possa tomar um grande número
de valores, os valores vizinhos aparecem, relativamente, muito próximos, e a variável é considerada e
tratada como sendo uma variável contínua.

16
Classifique como qualitativa/quantitativa
e nominal/ordinal ou discreta/contínua as
seguintes variáveis.
Exemplo: Classifique como qualitativa/quantitativa e
nominal/ordinal ou discreta/contínua as seguintes variáveis.
• A dimensão (número de pessoas) de uma família - Quantitativa discreta

• Estado civil - Qualitativa nominal

• A cor dos olhos - Qualitativa nominal

• O número de automóveis de um português - Quantitativa discreta

• O comprimento das orelhas de um cão - Quantitativa contínua

• A temperatura mínima diária - Quantitativa contínua

• O custo de produção de uma camisola - Quantitativa contínua


• Categorias existentes na carreira docente do ensino superior público - Qualitativa ordinal

17
Escalas de medida das variáveis quantitativas

18
Escalas de medida das variáveis quantitativas
Variáveis de escala por intervalos:
São variáveis quantitativas, que além de poderem ser ordenadas, possuem a propriedade da
diferença entre dois valores desta escala poder ser calculada e interpretada, a distâncias iguais
correspondem quantidades iguais. No entanto, não é possível atribuir um significado à razão
entre dois valores e o zero não representa a ausência total da característica que está a ser
medida.

Variáveis de escala de rácios:


São variáveis quantitativas com as mesmas propriedades duma escala por intervalos
possuindo adicionalmente um zero absoluto como valor mínimo, de modo que as razões entre
duas medidas têm sempre o mesmo valor qualquer que seja a unidade utilizada. O zero
representa a ausência total da característica que está a ser medida. Não só é possível atribuir um
significado à diferença entre dois valores como também à razão entre eles.

19
Escalas de medida das variáveis quantitativas
Variáveis de escala por intervalos:
Temperatura do ar em graus centígrados ou graus Fahrenheit. Justificação: zero graus no Porto
não representam ausência de temperatura no Porto; 30 graus em Lisboa e 10 graus em Braga não
significa que em Lisboa está três vezes mais calor do que em Braga:
10º C = 50º F e 30º C = 86º F , mas 30º C 10º C  86º F 50º F .
Os resultados de 150 candidatos a um MBA num teste de admissão (valores admissíveis no
teste:200-800). Um resultado de 600 não pode ser visto como sendo 50% mais alto que um resultado
de 400. Mas a diferença entre as classificações 600 e 580 é a mesma que a diferença de classificações
entre 520 e 500.

Variáveis de escala de rácios:


Altura, peso, tempo, volume, número de filhos.

20
Apresentação dos dados
Representação Tabular e Gráfica de Dados Qualitativos

• Tabelas de frequências
• Gráficos de barras
• Gráficos circulares

21
Representação Tabular de Dados Qualitativos

22
Representação Gráfica de Dados Qualitativos

23
Representação Gráfica de Dados Qualitativos

24
Exercício 1
Numa turma de 17 alunos de Estatística realizou-se um estudo sobre a variável Sexo
{F, M}. Os dados obtidos foram:

F, M, M, M, M, M, F, M, M, M, M, M, F, M, F, F, M

Construa a tabela de frequências e represente graficamente os dados.

25
Exercício 1

26
Exercício 1

27
Representação Tabular e Gráfica de Dados Quantitativos -
Variáveis Discretas

• Tabelas de frequências

• Gráficos de barras

• Função de distribuição empírica

28
Representação Tabular de Dados Quantitativos -
Variáveis Discretas

29
Representação Gráfica de Dados Quantitativos -
Variáveis Discretas

30
Exercício 2
Foi feito um inquérito a um grupo de alunos inscritos na u.c. Probabilidades e Estatística sobre o
n.º de irmãos, tendo-se obtido os seguintes resultados:

0, 3, 0, 1, 1, 2, 1, 2, 0, 0, 0, 1, 2, 1, 2, 4, 1, 3, 1, 1

Construa a tabela de distribuição de frequências, o gráfico de barras e o gráfico da função de


distribuição empírica.

31
Exercício 2

32
Exercício 2

33
Exercício 2

34
Representação Tabular e Gráfica de Dados Quantitativos -
Variáveis Contínuas
• Tabelas de frequências

• Histogramas

• Polígono de frequências

• Polígono de frequências acumuladas

35
Representação Tabular de Dados Quantitativos -
Variáveis Contínuas

36
Representação Tabular de Dados Quantitativos -
Variáveis Contínuas
Nº de classes: k
𝑘 ≈ log 2 𝑛 + 1
Método para a construção de classes:
amplitude das classes: a
sempre que possível, as classes devem ter todas a mesma amplitude e facilitar a leitura dos resultados
𝑚𝑎𝑖𝑜𝑟 𝑣𝑎𝑙𝑜𝑟 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜 −𝑚𝑒𝑛𝑜𝑟 𝑣𝑎𝑙𝑜𝑟 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑑𝑜
a≈ colocar o valor de k sem estar arredondado
𝑘
• qualquer observação pertence a uma e uma só classe;
• o limite inferior da primeira classe deve ser menor ou igual que o mínimo da amostra;
• o limite superior da última classe deve ser maior do que o máximo da amostra;
• notação utilizada é a de classes abertas à direita e fechadas à esquerda, no entanto, existem situações em que tal não
é utilizado.

37
Representação Tabular de Dados Quantitativos -
Variáveis Contínuas

38
Representação Tabular de Dados Quantitativos -
Variáveis Contínuas

39
Representação Gráfica de Dados Quantitativos -
Variáveis Contínuas

40
Representação Gráfica de Dados Quantitativos -
Variáveis Contínuas
POLÍGONO DE FREQUÊNCIAS resulta de unir sucessivamente, por segmentos de reta, os
pontos médios dos lados superiores dos retângulos do histograma.

41
Representação Gráfica de Dados Quantitativos -
Variáveis Contínuas

42
Exercício 3

43
Exercício 3

44
Exercício 3

45
Exercício 3

46
Exercício 3

47
Exercício 3

48
Exercício 3

49
Caraterísticas Amostrais
Classificação das medidas descritivas:
- medidas de localização: localizam os valores observados da variável no eixo dos números reais.
Exemplos: média, moda, mediana, quantis: quartis, decis e percentis (decis e percentis não
pertencem ao programa)
- medidas de dispersão: medem a dispersão da informação
Exemplos: intervalo de variação, intervalo interquartis, desvio padrão, variância, coeficiente de
variação.
- medidas de assimetria: distinguem as distribuições segundo a forma como se distribui a
informação.
Exemplos: 1º e 2º coeficientes de assimetria de Pearson.
- medidas de achatamento (ou curtose): diferenciam distribuições segundo o achatamento (não
pertencem ao programa)

50
Medidas de Localização: Média aritmética

51
Exercício 4
Considere a variável “Idade” de 17 estudantes, cujos valores a seguir se repetem:

19, 20, 28, 20, 22, 22, 21, 21, 20, 19, 24, 23, 23, 31, 24, 24, 25

1. Construa a tabela de distribuição de frequências.

2. Calcule a média

52
Exercício 4

53
Exercício 4
O valor da média aritmética das idades dos 17 estudantes pode obter-se diretamente:

Se considerarmos a tabela de distribuição de frequências correspondente, pode calcular-se a


média através

54
Exercício 4

55
Caraterísticas mais importantes da média aritmética:
(1) A média aritmética é fácil de calcular e interpretar.
(2) É uma medida que pode tomar um valor diferente de todos os valores observados e é
influenciada por todos eles. Qualquer alteração num destes valores produz uma modificação no
valor da média.
(3) O valor da média pode ser enviesado por apenas alguns valores extremos. Por considerar
todos os valores observados no seu cálculo a média poderá deixar de ser representativa se a
distribuição for altamente assimétrica devido a alguns valores extremos.
(4) A média é a medida de tendência central mais eficiente quando se trata de inferir sobre uma
população a partir de dados recolhidos apenas para uma amostra.

56
Medidas de Localização: Mediana

57
Exercício 5

Com base nos dados do Exercício 4, calcule o valor da mediana da idade dos 17 estudantes.

58
Exercício 5
Considere-se a amostra ordenada:
19, 19, 20, 20, 20, 21, 21, 22, 22, 23, 23, 24, 24, 24, 25, 28, 31
n = 17 (ímpar)
Portanto, a mediana é 𝑥9:17 = 22.
Conclusão: 50% dos alunos têm idade igual ou inferior a 22 anos e 50% dos alunos têm idade
igual ou superior a 22 anos.
Ou
Análise da tabela de distribuição.

59
Caraterísticas mais importantes da mediana:
(1) A mediana é fácil de calcular e compreender.

(2) É determinada pelo número de observações e não pelo seu valor. Deste modo, os valores
extremos, quer sejam grandes ou pequenos, não afetam o valor da mediana.

(3) É uma medida muito utilizada sobretudo para distribuições fortemente assimétricas por não
ser afetada por valores extremos.

60
Medidas de Localização: Moda
Valor mais frequente da distribuição ou seja o valor com frequência máxima. Representa-se por
Mo.
Se os dados são realizações de uma variável quantitativa discreta e se apresentam tabelados
encontra-se o valor da Mo através das colunas 𝑛𝑖 ou 𝑓𝑖 .

Em amostras cujos valores são todos igualmente frequentes – não é possível identificar a moda.
Em amostras em que existe mais do que um valor com a frequência mais elevada a moda é igual
ao conjunto de valores mais frequentes (classe modal).

61
Exercício 6

Com base nos dados do Exercício 4, calcule a moda da idade dos 17 estudantes.

62
Exercício 6
Considerando a tabela de distribuições de frequências, pode verificar-se que existem dois
valores com maior frequência: 20 e 24.

Temos assim que a classe modal = {20, 24}.

63
Caraterísticas mais importantes da moda:
(1) É uma medida, em geral, menos utilizada que a média e a mediana.

(2) A moda não existe em algumas distribuições enquanto que noutras poderá existir mais do
que uma moda. Neste último caso a distribuição diz-se multimodal.

(3) O valor da moda não sofre a influência de valores extremos.

64
Medidas de Localização: Quantis
Quantis mais conhecidos: quartis, decis e percentis (não pertencem ao programa)
Os quartis são os valores da variável que dividem a distribuição de frequências em quatro partes
iguais.
Q1 = 1º quartil = quartil de ordem 1
Q2 = 2º quartil = quartil de ordem 2 = Me
Q3 = 3º quartil = quartil de ordem 3

65
Medidas de Localização: Quantis

Onde [x], representa a parte inteira de x


66
Exercício 7

Com base nos dados do Exercício 4, calcule o 1º e 3º Quartis da variável idade dos 17

estudantes.

67
Exercício 7

68
Medidas de Dispersão: Variância e Desvio Padrão

69
Medidas de Dispersão: Variância e Desvio Padrão

70
Exercício 8
Considere os 3 conjuntos de dados:
1º conjunto: 10, 10, 10, 10, 10, 10
2º conjunto: 9, 9, 9, 10, 10, 10, 11, 11, 11
3º conjunto: 0, 5, 5, 5, 10, 15, 15, 15, 20

Em cada um dos três conjuntos, a média e a mediana são sempre as mesmas: 10.
Calcule a variância e o desvio padrão dos três conjuntos de dados.

71
Exercício 7

72
Exercício 8
3º Conjunto

Conclusão: Conjuntos de observações com a mesma medida de localização podem ter variabilidade muito
diferente. A dispersão dos valores em torno da média é nula no 1º conjunto (não há variabilidade), tem um
certo valor no 2º conjunto e um valor muito maior no 3º.

73
Medidas de Dispersão: Intervalo de Variação e
Intervalo Interquartis

74
Medidas de Dispersão: Coeficiente de Variação

75
Medidas de Assimetria:
A assimetria é a falta de simetria do histograma / gráfico de barras em relação à reta vertical
que passa pela abcissa correspondente à média.
A (as)simetria é o principal traço caraterizador da forma de uma distribuição de frequências.

Comparação das Medidas de Tendência Central


O método mais simples para medir o grau de assimetria de uma distribuição consiste em
comparar três medidas de tendência central: a média, a moda e a mediana.

76
Medidas de Assimetria: Comparação das Medidas
de Tendência Central

77
Medidas de Assimetria: Índices Numéricos
Indicadores quantitativos que permitem estimar o grau de assimetria de uma distribuição:
- 1º coeficiente de assimetria de Pearson

Para evitar o emprego da moda pode adotar-se pelo 2º coeficiente de assimetria de Pearson:

78
Exercício 9
Com base nos dados do Exercício 4, estude a assimetria da distribuição de frequências da

variável idade dos 17 estudantes.

79
Exercício 9
2º coeficiente de assimetria de Pearson

3× 22,7−22
𝑔𝑝 = ≈ 0,67
3,12

O coeficiente indica assimetria positiva

80
Caraterísticas Amostrais: dados contínuos

Se os dados são realizações de uma variável quantitativa contínua, e se apresentam agrupados em classes,
apenas é possível calcular valores aproximados das caraterísticas amostrais.

81
Medidas de Localização: Média aritmética

82
Medidas de Localização: Mediana

83
Medidas de Localização: Moda

84
Medidas de Localização: Quartis

85
Medidas de Dispersão: Variância e Desvio Padrão

86
Exercício 10
As precipitações, medidas em mm, ao longo de 50 anos e registadas no mês de Julho numa

região foram as seguintes:

87
Exercício 10
1. Agrupe os dados em classes, utilizando a regra de Sturges.

2. Determine um valor aproximado das medidas de localização: média, moda, mediana e

quartis dos dados agrupados em classes.

3. Determine um valor aproximado das medidas de dispersão: variância e desvio padrão dos

dados agrupados em classes.

88
Exercício 10

89
Exercício 10

90
Exercício 10

91
Exercício 10

92
Exercício 10

93

Você também pode gostar