ISCTE - IUL - Probabilidades - e - Estatística - (Cap1)

ISCTE - IUL
Conceição Figueiredo, João Araújo e Ricardo Sousa
(2024)
Departamento de Métodos Quantitativos para Gestão e Economia
Probabilidades e Estatı́stica
Probabilidades e Estatı́stica ISCTE - IUL
Conteúdo
1 Introdução à Estatı́stica Descritiva 4
1.1 Tipos de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Tabela de frequências e representações gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Medidas de localização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Tendência central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Tendência não central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.3 Relação entre quartis, decis e percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Medidas de dispersão, assimetria e curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Medidas de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Medidas de assimetria e curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.3 Box Plot e outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Medidas de associação entre variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1 Correlação de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.2 Coeficiente V de Cramer e coeficiente Phi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Estatı́stica Descritiva: Exemplos de outputs com o R/RSTUDIO . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7 Estatı́stica Descritiva: Exercı́cios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Ricardo Manuel Sousa@iscte-iul.pt LATEX 1

Lista de Figuras
4 Distribuições bimodais e unimodal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5 Distribuições (as)simétricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6 Skewness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
7 Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
9 Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
10 Outliers moderados e severos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
11 Representação gráfico dos dados: Preferência de férias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
12 Representação gráfica dos dados: Notas (amostra2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
13 Boxplot dos dados: Notas (amostra2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
14 Layout do Excel: Agregado familiar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
15 Representação gráfica das idades dos habitantes de uma aldeia. . . . . . . . . . . . . . . . . . . . . . . . . . 16
16 Layout do Excel: Ogiva. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
17 Layout do Excel: Boxplot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
18 Layout do Excel: Colunas empilhadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
19 Layout do Excel: Gráfico de dispersão com reta de regressão . . . . . . . . . . . . . . . . . . . . . . . . . . 17
20 Layout do Excel: Gráfico de dispersão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
21 Diagrama de Dispersão TV/GPA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
22 Boxplot e Histograma: Dados (amostra3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Lista de Tabelas
1 Tabela de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Nı́vel de associação (proposto) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Tabela de contingência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4 Nı́vel de associação (Cohen, 2013) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5 Agregado familiar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
6 Idades dos habitantes da aldeia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
7 Index - HEI. Fonte healthy-eating-index-hei. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
8 TV hours week - Grade point average . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
9 Número de sinistros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
10 Pesos dos estudantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
11 Classificação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
12 Dados para o coeficiente de correlação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
13 Disposição dos alunos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
14 O tabagismo e a presença de doença pulmonar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
15 Tipo de sangue - Sintomas (Esp.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Livros recomendados
https://silabo.pt/categoria-produto/ciencias-exatas-e-naturais/estatistica/
https://diascurto.wixsite.com/sitedc/livros

1 Introdução à Estatı́stica Descritiva

O que é a Estatı́stica?
Não é uma tarefa simples definir Estatı́stica. Por vezes define-se como sendo um conjunto de técnicas de tratamento de dados,
mas é muito mais do que isso. A Estatı́stica é uma “arte” e uma ciência que permite tirar conclusões e de uma maneira geral
fazer inferências a partir de um conjunto de dados. A Estatı́stica é um método e não uma teoria
Quem pretende efectuar estudos ou tomar decisões, começa por recolher ou compilar a informação que lhe parece relevante.
Sendo a maior parte dos casos, de natureza quantitativa, isto é, dados numéricos.
Até 1900 a Estatı́stica resumia-se ao que hoje em dia se chama Estatı́stica Descritiva. Mas a necessidade de uma formalização
dos métodos utilizados fez com que nos anos seguintes, a Estatı́stica se desenvolvesse numa outra direcção, nomeadamente
no que diz respeito ao desenvolvimento de métodos e técnicas de Inferência Estatı́stica.
Assim por volta de 1960, os textos de Estatı́stica debruçam-se especialmente sobre métodos de estimação e de testes de
hipóteses, assumindo determinados modelos ou famı́lia de modelos, descurando os aspectos práticos da análise de dados.
Porém, na última década, em grande parte, devido às facilidades computacionais postas à sua disposição, os estatı́sticos, têm-
se vindo a preocupar cada vez mais com a necessidade de desenvolver métodos de análise e exploração de dados, que dêem
uma maior importância aos dados e que se traduz na seguinte frase: “Deixem os dados falarem por si”.
Assim por vários motivos, o estudo estatı́stico fica muitas vezes pela exploração e descrição dos dados. Quando vai até ao
fim, à última fase do processo aparece em geral, associada à realização de inferências estatı́sticas. Hoje em dia em todos os
campos da ciência e nas mais variadas profissões, as pessoas têm necessidade de se envolver em problemas de Estatı́stica.
A Estatı́stica é um método que dispõe de uma famı́lia de instrumentos, que permite apreender e quantificar diferentes tipos
de fenómenos do mundo que nos rodeia, e que opera num quadro de noções, princı́pios e premissas bem definidas. No
entanto, numa situação real e concreta, quando um procedimento estatı́stico é aplicado, as premissas ou hipóteses podem ou
não verificar-se, o que nunca é completamente claro.
Semelhante situação torna inevitável um elevado grau de subjectividade nas aplicações e leva modernamente à investigação
de métodos robustos que sejam válidos para um largo leque de hipóteses ou modelos teóricos.
Cumulativamente, sobretudo nas aplicações às ciências sociais e humanas, a precisão conseguida pela linguagem matemática
nas ciências exactas fica severamente dependente da qualidade das medidas e das observações, podendo eventualmente a
ordem de grandeza dos erros tornar irrelevante o tratamento estatı́stico.
Esta contrariedade justifica a pesquisa que modernamente se faz de métodos resistentes que sejam insensı́veis à presença de
erros grosseiros ou valores anormais (outliers) ou um grande número de pequenos erros (arredondamentos).
A Estatı́stica tem como objetivo, observar um fenómeno, recolher, analisar e interpretar os dados de modo a auxiliar a
formulação de decisões. É normalmente dividida em duas áreas: Estatı́stica Descritiva e a Inferência Estatı́stica.
A Estatı́stica Descritiva consite na recolha, apresentação, análise e interpretação de dados numéricos através da criação de
instrumentos adequados: quadros, gráficos e indicadores numéricos (Reis, 2008).
Na Inferência Estatı́stica é (primeiro) necessário introduzir os conceitos de população e amostra.
Definição 1. População e amostra

Uma população é o conjunto completo de todos os objetos/indivı́duos com caracterı́sticas comuns que interessam para
um investigador estudar/analisar. A dimensão/tamanho da população, N, pode ser muito grande (mas finita e neste caso
ser estudada através de um censo ou de uma sondagem) ou infinita.
Uma amostra é um subconjunto retirado de uma população. A dimensão/tamanho da amostra é representado por n.
Definição 2. Censo e sondagem

Censo é um estudo que inclui todos os elementos da população, enquanto uma sondagem é um estudo (da população)
efetuado a partir da análise de uma amostra (representativa).
Uma amostra é um subconjunto (representativo) da população . É selecionada de forma aleatória ou não aleatória, com o
objetivo de extrair informações e fazer inferências sobre a população. O tamanho da amostra pode variar e é geralmente muito

menor do que o tamanho da população, mas deve ser grande o suficiente para ser estatisticamente significativa e representativa.
A Inferência Estatı́stica é uma metodologia que permite fazer estimativas e tirar conclusões sobre uma população a partir da
informação contida numa amostra (representativa da população de onde foi retirada).
Definição 3. Parâmetro e Estatı́stica
Um parâmetro é uma medida numérica que descreve uma caracterı́stica especı́fica de uma população.
Uma estatı́stica é uma medida numérica que descreve uma caracterı́stica especı́fica de uma amostra.
1.1 Tipos de variáveis

Começamos antes de mais por definir uma variável aleatória. Uma variável aleatória pode definir-se como uma caracterı́stica
cuja manifestação assume pelo menos duas modalidades distintas e é imprevisı́vel, ou seja, aleatória e, de um modo geral,
expressa os resultados de uma experiência aleatória.
Em geral as variáveis aleatórias são representadas por letras maiúsculas (por exemplo, X), enquanto os resultados elementares
por elas assumidos representar-se-ão através de letras minúsculas (x1 , x2 , ...).
As variáveis podem ser qualitativas (numa escala nominal o ordinal):
• Nominal - Categorias qualitativas, mutuamente exclusivas (não se intercetam) e não hierarquizáveis (não existe ordem
logo não há uma modalidade que possa ser considerada inferior ou superior a outra. Quando são atribuı́dos números
às diferentes classes estes são simplesmente usados como ‘etiquetas’ (por exemplo a variável, dicotómica, sexo : 1 -
masculino; 2 - feminino ou a nacionalidade: 1 - portuguesa; 2 - espanhola ...).
• Ordinal - As modalidades podem ser ordenadas de acordo com um determinado critério. É válida não só a relação de
identidade (como na escala nominal) mas também a relação de ordem. Nas ciências humanas são escalas muito usadas,
como a escala de Likert (1 - totalmente contra; 2 - parcialmente contra; 3 - nem contra nem a favor; 4 - parcialmente a
favor; 5 - totalmente a favor).
As variáveis quantitativas podem ser discretas ou contı́nuas (numa escala intervalar ou de razão).
As variáveis quantitativas discretas assumem um conjunto numerável (finito ou infinito) de valores (por exemplo o número
de pintas de um dado, o número de filhos, ...).
As variáveis quantitativas contı́nuas podem assumir qualquer valor num dado intervalo real (por exemplo o tempo, o peso,
a altura, a idade, o QI, a pressão arterial, ...).
• Intervalar - Apresentam modalidades representadas por números para os quais são válidas as relações de identidade, de
ordem e as operações de soma e subtração A distância numérica entre dois números está associada à distância empı́rica
no mundo real. Entre as diferenças obtidas a partir do números são válidas as relações de multiplicação e divisão (mas
não entre o números propriamente ditos). A origem da escala é meramente arbitrária. Na temperatura zero não significa
ausência de frio/calor. O valor zero em graus Celsius corresponde a 32 na unidade Fahrenheit e a 273 na unidade Kelvin.
• Razão - As modalidades são representadas por números reais para os quais todas as operações são válidas. Ao contrário
das variáveis numa escala intervalar, o valor zero indica ausência total da caracterı́stica em estudo.
1.2 Tabela de frequências e representações gráficas

Quando se realiza uma experiência estatı́stica as observações são registadas ela ordem que são efetuadas, sem qualquer tipo
de preocupações. Obtêm-se assim os dados em bruto. Devemos por isso organizar os dados numa tabela de frequências.
A primeira coluna da tabela (Tabela 1) devem estar as valores da variável (se discreta) ou intervalos reais (se contı́nua) ou
categorias (classes exaustivas e mutuamente exclusivas se qualitativas).
A frequência absoluta (Fi , i = 1, · · · , k) é o número de observações associada a cada categoria (k representa o número de
categorias). A frequência relativa ( fi ) é o quociente entre a frequência absoluta e o número total de observações (aqui desig-
nado por n). As frequências absolutas acumuladas e as frequências relativas acumuladas representam-se por CumFi e Cum fi
respetivamente, quando faz sentido calcular (Reis et al., 2015).

k Fi k
• fi =
• ∑ Fi = n n • ∑ fi = 1
i=1 i=1
Tabela 1: Tabela de frequências
Xi Fi fi CumFi Cum fi
x1 F1 f1 CumF1 = F1 Cum f1
x2 F2 f2 CumF2 = F1 + F2 Cum f2 = f1 + f2
x3 F3 f3 CumF3 = F1 + F2 + F3 Cum f3 = f1 + f2 + f3
··· ··· ··· ··· ···
xk Fk fk n 1
Total n 1
Dois do tipos de gráficos mais usados são os gráficos de barras e os gráficos circulares. Nos dados qualitativos e quantita-
tivos discretos a largura das barras (deve deixar-se um espaço entre as barras adjacentes) é igual para todas as categorias e a
altura é igual à frequência. As categorias são representadas no eixo horizontal e as frequências no eixo vertical.
Os gráficos circulares (normalmente usados nos dados qualitativos) estão divididos em setores circulares cuja área (e ângulo
ao centro correspondente) é proporcional à frequência da categoria que representam.
Quando a variável é qualitativa, numa escala ordinal, ou quantitativa, faz sentido falar em frequências acumuladas. O CumFi
dá-nos o número que observações com valor inferior ou igual à caracterı́stica xi [F(xi ) = CumFi ].
O gráfico da distribuição de frequências acumuladas de dados quantitativos discretos é uma ‘escada de graus’, onde a altura
de cada grau é a frequência acumulada e o ‘salto’ entre classes é a frequência (simples). Os pontos de descontinuidade existem
nos ‘saltos’, pelo que a função cumulativa é contı́nua à direita desses pontos.
Quanto trabalhamos com dados quantitativos contı́nuos é, quase sempre, necessário agrupá-los em classes para os represen-
tar graficamente (os métodos para agrupar os dados em classes não será objeto de estudo).
Definição 4. Histograma
É uma representação gráfica de dados quantitativos onde as classes são representadas no eixo horizontal e as frequências
no eixo vertical. Se as classes tiverem todas a mesma amplitude, a altura representa a frequência.
No caso das classes não terem todas a mesma amplitude, a área das barras é proporcional à sua frequência.
Definição 5. Polı́gono de frequências

Representação gráfica dos dados em que se une, através de segmentos de reta, todos os pontos cuja abcissa é o ponto
médio de uma classe e a ordenada é a sua frequência.
1.3 Medidas de localização

1.3.1 Tendência central
As medidas posição ou de localização central mas importantes são a média, a mediana e a moda.
A média aritmética (ou só média) é a soma de todos os valores numéricos observados a dividir pelo número de observações
(se os valores forem todos iguais a uma constante a, isto é, se não existir dispersão, a média é a):
∑ni=1 xi
x̄ = .
n
Quando os dados estão organizados numa tabela de frequências para determinarmos a média usamos:
∑ki=1 Fi xi k
x̄ = = ∑ fi xi .
n i=1

• Média geométrica: x̄g = (x1 × x2 × · · · × xn )1/n .

Suponha que a taxa anual de inflação num paı́s, durante os 3 últimos anos, for de 24%, 10% e 2%. Calcule a taxa
média de inflação anual, isto é, a taxa constante com que, em 3 anos, o mesmo nı́vel de preços poderia ser atingido:
(1 + t) = [(1 + 0.024) × (1 + 0.1) × (1 + 0.02)]1/3 ⇔ t = 11.6% (1 + t = x̄g = 1.116).
n
• Média harmónica: x̄h = n .
∑i=1 1/xi
Um automóvel percorreu 10 km à velocidade de 120 km/h e os outros 10 km à velocidade de 80 km/h (recorde que
2
velocidade = espaço/tempo). Determine a velocidade média: vm = = 96 (x̄h = km/h).
|{z} 1/120 + 1/80
x̄h
A mediana divide ao meio o conjunto de valores observados (ordenados por ordem crescente ou decrescente). É menor valor
da variável que contém pelo menos 50% das observações.
O conjunto de dados é dividido de forma a que o número de observações inferiores ou iguais à mediana seja igual ao número
de observações superiores ou igual à mediana (o cálculo da mediana pressupõe que os dados já foram previamente ordenados).
Consideremos x1 , x2 , ..., xn um conjunto de observações. Usando a notação x(i) para representar o i-ésimo valor observado
mais pequeno, passamos a ter a nossa amostra ordenada, pelo que se verifica que x(1) ≤ x(2) ≤ · · · ≤ x(n) .
Em particular x(1) e x(n) são respetivamente o mı́nimo e o máximo da amostra.
x( ) + x( 2n +1)
 n
 2 se n par,


2
Me = x̃ =

x( n+1 ) se n ı́mpar.


2
A moda é o valor que ocorre com maior frequência num conjunto de observações. A moda pode não existir (conjunto amodal)
e se existir pode não ser única. Se for única a distribuição diz-se unimodal, se tiver duas modas diz-se bimodal, se tiver mais
de duas diz-se multimodal. Se os dados estiverem agrupados em classes numa tabela de frequências o cálculo da moda é mais
complexo.
(a) Distribuição unimodal (b) Distribuição bimodal (c) Histograma bimodal
Figura 4: Distribuições bimodais e unimodal
Comparação entre a média, a mediana e a moda

Em distribuições simétricas (unimodais), a média, a mediana e a moda têm o mesmo valor (x̄ = Me = Mo ).
Numa distribuição assimétrica positiva, a média é maior que a mediana e esta (geralmente) maior do que a moda, que é a
medida de localização menos usada (x̄ > Me > Mo ).
Numa distribuição assimétrica negativa, a média é menor que a mediana e esta (geralmente) menor que a moda, que é a medida
de localização menos usada (x̄ < Me < Mo ).

(a) Distribuição simétrica (b) Distribuição assimétrica positiva (c) Distribuição assimétrica negativa
Figura 5: Distribuições (as)simétricas
1.3.2 Tendência não central

Os quantis são as medidas de posição ou localização não central que vamos estudar. O percentis, os decis e os quartis são os
que têm mais interesse estudar. O quantil de ordem p representa-se por Q p (0 < p < 1):
(np) + x(np+1)
 x

 se np inteiro,
Qp = 2


x[np+1] se np não inteiro.
1.3.3 Relação entre quartis, decis e percentis

• Q0.50 = Me = p50 = d5 = q2 (a mediana é igual ao percentil 50, ao decil 5 e ao 2.º quartil).
• Q0.25 = p25 = q1 (o 1.º quartil é igual ao percentil 25).
• Q0.75 = p75 = q3 (o 3.º quartil é igual ao percentil 75).
1.4 Medidas de dispersão, assimetria e curtose

1.4.1 Medidas de dispersão
As medidas de localização não nos dão toda a informação necessária sobre os dados.
Precisamos de estudar também as medidas de dispersão. As mais importantes são a variância e o desvio padrão.
No entanto também podemos calcular outras medidas (absolutas ou relativas) de dispersão:
• Amplitude total, range em inglês (r): r = x(n) − x(1) (diferença entre o máximo e o mı́nimo);
• Amplitude interquartil, interquartile range em inglês (IR): IR = q3 − q1 (diferença entre o 3.º e 1.º quartis);
∑ni=1 |xi − x̄|
• O desvio absoluto médio (dm ): dm = (pouco usada porque a função módulo não é diferenciável).
n
O desvio padrão de uma amostra (s) indica se os valores estão próximos ou afastados da média (dispersão). A variância (s2 )
é o quadrado do desvio padrão. A variância corrigida da amostra e o desvio padrão corrigido da amostra (geralmente mais
usadas na inferência estatı́stica) representam-se respetivamente por s′2 e s′ .
∑ni=1 (xi − x̄)2 ′2 ∑ni=1 (xi − x̄)2 n n

s2 = ,s = −→ ns2 = (n − 1)s′2 = ∑ (xi − x̄)2 = ∑ xi2 − nx̄2
n n−1 i=1 i=1
∑ki=1 Fi (xi′ − x̄)2

Quando os dados estão agrupados em k classes é necessário usar o ponto médio (xi′ ): s2 ≈ .
n
As medidas de variabilidade absoluta dependem das unidades das observações. Para comparar a variabilidade de distribuições
diferentes usam-se medidas de variabilidade relativa que são quantidades adimensionais.
s
A medida mais usada é o coeficiente de variação (é frequente exprimir este coeficiente em %): Cv = × 100%, x̄ , 0.
|x̄|
IR q3 − q1
Outra media de variabilidade relativa (robusta à existência de outliers) é o desvio quartil reduzido: = .
2Me 2q2

1.4.2 Medidas de assimetria e curtose

Vamos definir primeiro o conceito de momento para estudar as medidas de assimetria e curtose.
Definição 6. Momento centrado na média de ordem r (inteiro não negativo)
∑ni=1 (xi − x̄)r
É a média dos desvios em relação à média elevados à potência de ordem r, mr = .
n
As medidas de assimetria indicam se uma distribuição é assimétrica ou não. O coeficiente de assimetria é dado por uma
medida normalizada (para poderem serem feitas comparações) que se obtém dividindo m3 (momento centrado na média de
ordem três) pelo cubo do desvio padrão.
Existem dois coeficientes. Os dois coeficientes tomam valores muito próximos quando o n é grande (n → +∞).
m3 ∑ni=1 (xi − x̄)3 n2 n ∑ni=1 (xi − x̄)3

g1 = = −→ G 1 = skew = × g1 = × .
s3 ns3 (n − 1)(n − 2) (n − 1)(n − 2) s3
(a) g1 ≈ 0 (b) g1 > 0 (c) g1 < 0
Figura 6: Skewness
As medidas de curtose indicam sobre o ‘peso’ das caudas da distribuição. coeficiente de curtose é dado por uma medida
normalizada (para comparações) que se obtém dividindo m4 (momento centrado na média de ordem quatro) pelo desvio
padrão elevado a 4.
O R/RSTUDIO também dá o excesso de curtose (Dias, 2021). Os valores dos dois coeficientes diferem aproximadamente 3
unidades com n grande (n → +∞), k2 = k1 − 3 (excesso de curtose):
m4 n2 (n + 1) 3(n − 1)2
k1 = 4
−→ k2 = kurt = × k1 − .
s (n − 1)(n − 2)(n − 3) (n − 2)(n − 3)
(a) Mesocúrtica: k1 ≈ 3 (k2 ≈ 0) (b) Leptocúrtica: k1 > 3 (k2 > 0) (c) Platicúrtica: k1 < 3 (k2 < 0)
Figura 7: Kurtosis
A interpretação não é fácil por isso costuma-se comparar o seu valor com a da curva Normal que, com k1 = 3 (k2 = 0), é
designada de Mesocúrtica (a). Assim se k1 > 3 (k2 > 0) a curva da distribuição é mais esguia, designada Leptocúrtica (b),
com caudas mais ‘pesadas’ do que a distribuição Normal (‘caudas pesadas e um pico alto’). Se k1 < 3 (k2 < 0) a curva
da distribuição é mais achatada, designada por Platicúrtica (c), com caudas menos ‘pesadas’ do que a distribuição Normal
(‘caudas leves e um pico baixo’).

1.4.3 Box Plot e outliers

Quando se pretende examinar, além da assimetria, se na coleção de dados há valores estranhos ou outliers (valores com com-
portamento que se afastam da grande maioria dos restantes valores da variável) é usual confrontar os dados com uma medida
de dispersão. A amplitude interquartı́lica (IR = q3 − q1 ), por não ser sensı́vel a esse afastamento, é usada na identificação dos
outliers. A regra prática consiste em considerar um outlier se:
• Outlier moderado (•): BIE = q1 − 3IR < xi < q1 − 1.5IR = BII ∨ BSI = q3 + 1.5IR < xi < q3 + 3IR = BSE;
• Outlier severo (∗): xi < q1 − 3IR ∨ xi > q3 + 3IR;
• BII designa a barreira interna inferior e BIS designa a barreira interna superior;
• BEI designa a barreira externa inferior e BES designa a barreira externa superior;
• O menor(maior) valor que não é outlier é designado por valor adjacente inferior(superior) [VAI(S)].
Qualquer análise de dados exige uma atenção especial dos outliers. Podem dever-se a erros de registo ou não, e a sua
inclusão ou exclusão da análise estatı́stica deve ser ponderada. Na fase de análise dos resultados deve fazer-se uma referência
fundamentada aos outliers encontrados procurando uma interpretação. O Histograma e a Boxplot são importantes na análise
exploratória de dados já que são (métodos) gráficos complementares.
(a) Assimetria negativa (b) Simetria (c) Assimetria positiva
Figura 8: Boxplots
(a) Assimetria negativa (b) Simetria (c) Assimetria positiva
Figura 9: Histogramas
Figura 10: Outliers moderados e severos

1.5 Medidas de associação entre variáveis

Quando temos duas variáveis, X e Y , podemos recolher uma coleção de pares de dados (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) e estudar se
exite alguma (possı́vel) relação entre as variáveis. No entanto, antes, deve-se estudar cada uma das variáveis individualmente.
Os dados podem ser do tipo qualitativo (nominal ou ordinal) ou do tipo quantitativo (discreto ou contı́nuo).
1.5.1 Correlação de Pearson

Antes de ser calculado o coeficiente de correlação de Person devemos representar o diagrama de dispersão, onde se represen-
tam os pontos da coleção de dados, de modo a ter uma ideia do tipo de relação existente (ou inexistente) entre as variáveis. A
correlação é uma medida estatı́stica que expressa o grau e a direção da relação entre duas variáveis. Se estivermos a analisar
duas variáveis quantitativas, a medida mais usada é o coeficiente de correlação de Pearson. Varia entre -1 (correlação linear
forte negativa) e 1 (correlação linear forte positiva), com um valor próximo de zero a significar ausência de correlação linear
entre as variáveis. O coeficiente de correlação de Pearson tem sido usado com sucesso quando os resultados da classificação
não são afetados por diferenças de dispersão e de escala de variáveis.
Cov(X,Y ) ∑n (xi − x̄)(yi − ȳ) ∑ni=1 xi yi − nx̄ȳ
−1 ≤ r = Cor(X,Y ) = = p n i=1 p n =q q ≤1
sx sy ∑r=1 (xi − x̄)2 ∑i=1 (yi − ȳ)2 ∑ni=1 xi2 − nx̄2 ∑ni=1 xi2 − nx̄2
A covariância é uma medida estatı́stica que reflete o grau de variação conjunta de duas variáveis aleatórias, indicando se
tendem a variar na mesma direção (covariância positiva), ou seja se uma aumenta a outra também aumenta, ou em direções
opostas (covariância negativa), se uma aumenta a outra diminui. O valor da covariância pode assumir qualquer valor real
[−∞ < Cov(X,Y ) < +∞], por isso apenas podemos verificar a direção da relação mas não a intensidade da relação (depende
das unidades de medida das variáveis). A covariância fornece uma indicação inicial da relação entre variáveis, diferenciando-
se da correlação, que normaliza essa relação, permitindo a interpretação por que o valor está limitado ente -1 e 1.
A existência de correlação não implica necessariamente uma relação de causa e efeito entre as variáveis.
Quando uma das variáveis é qualitativa ordinal e a outra quantitativa, ou as duas variáveis são qualitativas ordinais, o coefici-
ente de correlação de Spearman é o mais usado (no entanto não o iremos calcular este ano).
Tabela 2: Nı́vel de associação (proposto)
Muito fraca Fraca Moderada Forte Muito forte

|r| < 0.1 0.1 ≤ |r| < 0.3 0.3 ≤ |r| < 0.5 0.5 ≤ |r| < 0.7 |r| ≥ 0.7
1.5.2 Coeficiente V de Cramer e coeficiente Phi

O coeficiente φ (Phi) é uma medida estatı́stica especialmente concebida para avaliar a força da associação entre duas variáveis
binárias. Esta métrica é particularmente relevante em situações onde ambas as variáveis são qualitativas (nominais ou ordinais)
e dicotómicas. É o caso particular do V de Cramer para tabelas 2 × 2. Matematicamente, calcula-se com base numa tabela de
contingência, sendo uma medida derivada do teste de Qui-quadrado (χ 2 ). Para tabelas de maior dimensão, ou seja uma das
variáveis tem 3 ou mais categorias, temos o V de Cramer.
Tabela 3: Tabela de contingência
Y Totais |a × d − b × c|
0≤φ = p ≤ 1(perfeita associação)
a b a+b (a + b)(a + c)(b + d)(c + d)
X
c d c+d
Totais a+c b+d a+b+c+d
Tabela 4: Nı́vel de associação (Cohen, 2013)

s
X2
Pequeno Moderado Elevado 0≤V = ≤ 1(perfeita associação)
N × [min(L,C) − 1]
Coeficiente φ [0.1, 0.3[ [0.3, 0.5[ [0.5, 1[

1.6 Estatı́stica Descritiva: Exemplos de outputs com o R/RSTUDIO
1. Considere as preferências de férias de 100 portugueses registadas na seguinte tabela de frequências.
Preferência de férias
Xi Fi fi
Casa 8 0.08
Praia 46 0.46
Campo 32 0.32
Outra 14 0.14
Total 100 1
(a) Represente a tabela no R/RSTUDIO.

(b) Utilize o R/RSTUDIO para obter o gráfico de barras e o gráfico circular da variável.
1 rm(list=ls()) #Remove variáveis e objetos que estão armazenados no ambiente de trabalho
2
3 install.packages("knitr")
4 library(knitr)
5
6 install.packages("dplyr")
7 library(dplyr)
8 # Criar o dataframe
9 dados <- data.frame(
10 X_i = c("Casa", "Praia", "Campo", "Outra"),
11 F_i = c(8, 46, 32, 14),
12 f_i = c(0.08, 0.46, 0.32, 0.14)
13 )
14 print(dados) #Para visualizar a tabela
15 install.packages("ggplot2")
16 library(ggplot2)
17 # Usar o barplot para criar um gráfico de barras da frequência (F_i)
18 barplot(dados$F_i, names.arg = dados$X_i, main = "Frequência de Preferência de Férias",
19 xlab = "Destino", ylab = "Frequência", col = "blue", ylim = c(0, max(dados$F_i) + 10))
20 # Criar o gráfico circular com os valores de F_i
21 pie(dados$f_i, labels = dados$f_i, main = "Preferência de Férias",
22 col = c("blue", "red", "orange", "darkgreen"),
23 cex = 0.8)#Diminui o tamanho dos pontos em 20% em comparação com o tamanho padrão.
24 # Adicionar a legenda com rótulos X_i
25 legend("topright", legend = dados$X_i, fill = c("blue", "red", "orange", "darkgreen"), cex = 0.8)
26 # cex: ajusta o tamanho do texto tanto nas "fatias" do gráfico como na legenda.
(a) Gráfico de barras (b) Gráfico circular
Figura 11: Representação gráfico dos dados: Preferência de férias.

2. Utilize o R/RSTUDIO para efetuar as seguintes operações:

(a) Comece por gerar 300 números inteiros (aleatórios) entre 0 e 20.
(b) Construa uma tabela de frequências absolutas simples com 5 classes de amplitude 4.
(c) Represente o Histograma dos dados agrupados em 5 classes.
1 set.seed(123) # Para resultados reprodutı́veis
2 numeros_aleatorios <- sample(0:20, 50, replace = TRUE) # gera 300 números inteiros aleatórios entre 0 e 20
3
4 #Construir as classes com intervalos definidos
5 classes1 <- cut(amostra1, breaks = c(0, 4, 8, 12, 16, 20))
6 frequencias1 <- table(classes1)
7 frequencias1
8
9 tabela_frequencias1 <- data.frame(
10 Classes = names(frequencias1), Frequencia = as.integer(frequencias1)
11 )
12 print(tabela_frequencias1)
13
14 hist(amostra1, freq = TRUE, breaks = c(0,4,8,12,16,20),
15 main = "Histograma (5 classes)", col = "red",
16 xlab = "Notas (Classes)", ylab = "Frequências absolutas simples")
3. Utilize o R/RSTUDIO para efetuar as seguintes operações:

(a) Comece por gerar 300 números aleatórios (com a distribuição normal) entre 0 e 20 (notas);
(b) Construa uma tabela de frequências, absolutas e relativas simples, com a regra de Sturges.
(c) Represente o Histograma dos dados agrupados com a regra de Sturges e a Ogiva.
1 # Gerar números aleatórios "normais"
2 set.seed(123) # Para resultados reprodutı́veis
3 amostra2 <- rnorm(300, mean = 12, sd = 2)
4 amostra2
5
6 #Construir as classes com a regra de Sturges
7 classes2 <- cut(amostra2, breaks = nclass.Sturges(amostra2))
8 frequencias2 <- table(classes2)
9 frequencias2
10
11 # Agora, criando um dataframe com esses números
12 tabela_frequencias2 <- data.frame(
13 Classes = names(frequencias2),
14 Fi = as.integer(frequencias2),
15 fi = round(as.integer(frequencias2) / sum(frequencias2), 4)
16 )
17 # Adicionar a coluna de frequências acumuladas
18 tabela_frequencias2$CumFi <- cumsum(tabela_frequencias2$Fi)
19 tabela_frequencias2$Cumfi <- cumsum(tabela_frequencias2$fi)
20
21 print(tabela_frequencias2)
22
23 hist(amostra2, freq = TRUE, breaks = "Sturges", main = "Notas (amostra2)", col = "red", border = "orange", xlab = "Classes",
24
25 histcum <- hist(amostra2, plot = FALSE)
26 # Calcular as frequências acumuladas
27 frequencias_acumuladas <- cumsum(histcum$counts) /length(amostra2)
28 # Definir os pontos médios das classes
29 mids <- histcum$mids
30
31 # Adicionando o primeiro ponto (0,0)
32 mids <- c(min(amostra2) - 1, mids, max(amostra2) + 1)
33 frequencias_acumuladas <- c(0, frequencias_acumuladas, max(frequencias_acumuladas))
34
35 # Criar a ogiva
36 plot(mids, frequencias_acumuladas, type = "o", main = "Ogiva (Sturges)",
37 xlab = "Notas (Classes)", ylab = "Frequência relativas acumuladas",
38 xlim = range(amostra2))

(a) Histograma (b) Ogiva
Figura 12: Representação gráfica dos dados: Notas (amostra2).
4. Com base nos dados (amostra2) de forma aleatória no exemplo 3 (amostra2):

(a) Calcule o máximo, o mı́nimo e a amplitude (r).
(b) Calcule o 1.º quartil (q1 ), o 3.º quartil (q3 ) e a amplitude interquartil (IR).
(c) Calcule a média (x̄), a mediana (q2 ), a variância corrigida (s′2 ) e o desvio padrão corrigido (s′ ).
(d) Calcule o coeficiente de variação (Cv ), o coeficiente de assimetria (G1 ) e coeficiente de, excesso, curtose (k2 ).
(e) Represente a Boxplot dos dados, identificando as barreiras internas (BII, BSI).
1 max(amostra2)
2 min(amostra2)
3 r <- max2-min2
4 r #Mostra a amplitude (range)
5 quartiles2 <- quantile(amostra2, c(0.25, 0.5, 0.75)) # Calcular os quartis e os percentis
6 quartiles2
7 IR <- quartiles[3]-quartiles[1] #Calcula a amplitude inter quartil
8 percentiles2 <- quantile(amostra2, c(0.10, 0.20, 0.30, 0.40, 0.60, 0.70, 0.80, 0.90))
9 percentiles2
10 mean(amostra2)
11 median(amostra2)
12 var(amostra2)
13 sd(amostra2)
14 sd(amostra2)/mean(amostra2)
15
16 library(stats)
17 install.packages("DescTools") #Análise de dados: estatı́sticas descritivas, testes, etc.
18 library(DescTools)
19 install.packages("pastecs") #Package for Analysis and Studies of Environmental Science
20 library(pastecs)
21 Skew(amostra2)
22 Kurt(amostra2)
23 summary #Estatı́sticas resumo
24 install.packages("psych")
25 library(psych)
26 estatisticas <- describe(amostra2) #Mais estatı́sticas
27 print(estatisticas)
28
29 boxplot(amostra2, horizontal = TRUE, col = "lightblue", main = "Notas (amostra2)")
30 BII <- quartiles2[1]-1.5*IR
31 BII
32 BSI <- quartiles2[3]+1.5*IR
33 BSI
34 # Adicionar uma linha vertical tracejada em x = 16.88867
35 abline(v = 7.22399, col = "red", lty = 2)
36 abline(v = 16.88867, col = "red", lty = 2)

Figura 13: Boxplot dos dados: Notas (amostra2).
5. Considere os dados, de 100 Agregados familiares, organizados na tabela seguinte:
Tabela 5: Agregado familiar
Xi Fi fi
1 8 0.08
2 20 0.20
3 30 0.30
4 26 0.26
5 12 0.12
6 4 0.04
Complete (no Excel) a tabela de frequências

(utilizando as fórmulas disponı́veis) e construa
o gráfico da distribuição de frequências acumu-
ladas: Inserir Gráficos-Dispersão-Dispersão
com Linhas Retas). Calcule (também no Ex-
cel) a média, a mediana, a moda, o 1.º quartil
e o 3.º quartil, a variância, o desvio padrão e o
coeficiente de variação.
Figura 14: Layout do Excel: Agregado familiar.

6. Considere as idades dos 50 habitantes de uma aldeia, organizados na tabela seguinte (Tabela 6) e complete (no Excel)
a tabela de frequências e construa o histograma com o polı́gono de frequências (simples). Para o histograma: Inserir
Gráficos-Dispersão-Dispersão com Linhas Retas e para o polı́gono de frequências: Inserir Gráficos-Dispersão-
Dispersão com Linhas Retas e Marcadores. Se tivermos os dados em bruto podemos recorrer às Ferramentas (suple-
mentos de Excel): Dados-Análise de Dados-Histograma.
Tabela 6: Idades dos habitantes da aldeia
[li , Li [ Fi fi
[15, 25[ 1 0.02
[25, 35[ 4 0.08
[35, 45[ 9 0.18
[45, 55[ 14 0.28
[55, 65[ 12 0.24
[65, 75[ 9 0.18
[75, 85[ 1 0.06

(a) Layout do Excel: Histograma. (b) Layout do Excel: Polı́gono de frequências.
Figura 15: Representação gráfica das idades dos habitantes de uma aldeia.
O polı́gono de frequências acumuladas, também cha-

mado de Ogiva representa-se de forma semelhante ao
polı́gono de frequências (simples) no entanto, como é
óbvio, são usadas as frequências acumuladas em vez
das simples e os limites da classe em vez do ponto
médio.
Figura 16: Layout do Excel: Ogiva.

7. Insira, de forma aleatória com a função apropriada e limites à escolha, dados numa coluna do Excel e construa a Boxplot
fazendo Inserir Gráficos-Caixa de Bigodes. Manipule os dados de forma a obter outliers severos e moderados.
Figura 17: Layout do Excel: Boxplot.
8. Considere a seguinte tabela, de dupla entrada, relativa ao nı́vel de atividade de 4460 participantes. Represente os dados
fazendo Inserir Gráfico-Colunas 2D-Colunas Empilhadas. Deve formatar o gráfico: Trocar linhas/colunas.
Tabela 7: Index - HEI. Fonte healthy-eating-index-hei.
Homens Mulheres
Sedentário 957 1 226
Ativo 340 417
Muito ativo 842 678
Total 2 139 2 321
Figura 18: Layout do Excel: Colunas empilhadas

9. Comece por criar aleatoriamente duas colunas com 30 observações cada. Calcule o coeficiente de regressão de Pearson
e interprete o resultado. Represente graficamente os dados fazendo Inserir Gráfico-Dispersão. Selecionar o gráfico,
clicar no botão direito e Adicionar linha de tendência (mostrar equação no gráfico).
Figura 19: Layout do Excel: Gráfico de dispersão com reta de regressão
10. Represente o gráfico de dispersão dos dados, calcule o coeficiente de correlação e interprete o resultado:
(a) Excel (Ferramentas-Suplementos-Análise de Dados).
(b) R/RSTUDIO (Recorrendo aos dados introduzidos no Excel).
Tabela 8: TV hours week - Grade point average
TV GPA
20 2.35
5 3.8
8 3.5
10 2.75
13 3.25
7 3.4
13 2.9
5 3.5
25 2.25
14 2.75
Figura 20: Layout do Excel: Gráfico de dispersão.
1 rm(list=ls())
2 setwd("/Users/user/Desktop")
3 TV <- c(20, 5, 8, 10, 13, 7, 13, 5, 25, 14)
4 GPA <- c(2.35, 3.8, 3.5, 2.75, 3.25, 3.4,
5 2.9, 3.5, 2.25, 2.75)
6 coeficiente_correlacao <- cor(TV, GPA)
7 plot(TV, GPA, main="Diagrama de Dispersão TV/GPA",
8 xlab="Horas de TV", ylab="GPA",
9 pch=19, col="red", cex=0.5)
Figura 21: Diagrama de Dispersão TV/GPA

11. Calcule as estatı́sticas descritivas, dos - Dados em bruto - recorrendo ao:

(a) Excel.
(b) R/RSTUDIO.
Estatı́sticas descritivas
Dados em bruto
1 rm(list=ls())
2 setwd("/Users/user/Desktop")
3 getwd()
4 dir()
5 install.packages("readxl")
6 library(readxl) #Para ler ficheiros de Excel
7 amostra3 <- read_excel("PE1.xlsx", sheet="Exe11")
8 attach(amostra3) #"diz" ao R que a primeira linha tem o nome das variáveis
9 head(amostra3, 6)
10 # Application: Boxplot and Histogram
11 par(mfrow=c(1,2))
12 boxplot(amostra3$Dados, horizontal = TRUE, col = "blue", border ="green", main = "Dados (amostra3)")
13 hist(amostra3$Dados, freq = TRUE, col = "red", border ="yellow", breaks = "Sturges",
14 main = "Dados (amostra3)", xlab = "Classes")
Figura 22: Boxplot e Histograma: Dados (amostra3).
Link para os vı́deos do Professor Dias Curto - Tudo sobre o R e RSTUDIO

Link para os vı́deos do Professor Dias Curto - Tudo sobre o EXCEL
Link para a página diascurto.wixsite

1.7 Estatı́stica Descritiva: Exercı́cios propostos
1. Calcule a média, a mediana e a média aparada dos dados:
{1126, 1135, 1178, 4325}

1 x <- c(1126, 1135, 1178, 4325)
2 mean(x)
3 median(x)
4 mean(x, trim = 0.25)
2. Calcule os quartis dos dados:

{1126, 1135, 1178, 4325}
1 q1 <- quantile(x, 0.25)
2 q3 <- quantile(x, 0.75)
3 q1
4 q3
5 Q1 <- quantile(x, 0.25, type = 1)
6 Q3 <- quantile(x, 0.75, type = 1)
7 Q1
8 Q3
3. Calcule a média, a mediana e a média aparada dos dados:
{1000, 1900, 2600, 300}

1 y <- c(1000, 1900, 2600, 300)
2 mean(y)
3 median(y)
4 mean(y, trim = 0.25)
4. Calcule e interprete os quartis e os percentis 1, 5, 45, 80, 95 e 99 dos dados:
{5, 6, 8, 10, 12, 9, 15, 13, 17, 16, 9, 8, 7, 6}.

1 w <- c(5,6,8,10,12,9,15,13,17,16,9,8,7,6)
2 quantile(w, c(0.25, 0.5, 0.75, 0.01, 0.05, 0.45, 0.8, 0.95, 0.99))
3 install.packages("dplyr")
4 library(dplyr)
5 sort_w <- sort(w)
6 sort_wpc <- round(percent_rank(sort_w),2)
7 print(sort_wpc)
5. Considere os seguintes dados:

{11, 12, 14, 18, 29, 33, 36, 47, 48}.
Determine e interprete:
(a) A média, a mediana, a moda, o 1.º quartil e o 3.º quartil.
(b) A variância e o desvio padrão.
(c) O coeficiente de assimetria e o coeficiente (excesso) de curtose.
6. Considere os seguintes dados relativos às notas de Matemática de 10 alunos de um colégio privado em Lisboa:
{69, 85, 75, 89, 73, 61, 62, 75, 98, 63}.
(a) A média, a mediana, o 1.º quartil e o 3.º quartil.

7. Considere os seguintes dados:

{7.8, 7.0, 8.2, 7.6, 6.9, 7.7, 7.2, 7.8, 7.3, 7.5}.
8. Considere os seguintes dados relativos ao tempo que 18 jovens demoraram a fazer o cubo mágico:
{7.3, 12.7, 7.4, 8.5, 9.0, 9.5, 9.2, 12.4, 10.3, 12.3, 11.3, 10.4, 7.3, 9.4, 8.2, 12.9, 8.9, 8.9}.
1 install.packages("DescTools")
3 install.packages("moments")
4 library(moments)
5 dados <- c(7.3, 12.7, 7.4, 8.5, 9.0, 9.5, 9.2, 12.4, 10.3,
6 12.3, 11.3, 10.4, 7.3, 9.4, 8.2, 12.9, 8.9, 8.9)
7 Kurt(dados, method = 1)#k2
8 Skew(dados, method = 2)#G1
(d) Analise o histograma dos dados.

3 dados <- c(7.3, 12.7, 7.4, 8.5, 9.0, 9.5, 9.2, 12.4, 10.3,
4 12.3, 11.3, 10.4, 7.3, 9.4, 8.2, 12.9, 8.9, 8.9)
5 nclass.Sturges(dados)
6 hist(dados, main = "Histograma dos Dados (Sturges)",
7 xlab = "Valores", ylab = "Frequência", col = "blue", breaks = 6)
9. O número de sinistros participados por cada apólice do ramo automóvel é uma informação de grande importância para
que as seguradoras possam determinar o valor do prémio do seguro. A tabela seguinte apresenta a informação relativa
à sinistralidade em Responsabilidade Civil de uma seguradora francesa.
Tabela 9: Número de sinistros.
N.º de sinistros N.º de apólices

0 96 978
1 9 240
2 704
3 43
4 9
Missing 26
Total 107 000
(a) Complete a tabela de frequências, calculando as frequências absolutas e relativas simples e acumuladas.
(b) Represente a informação por meio de um gráfico de barras.
(c) Calcule a média, a mediana, a moda, a variância e o desvio padrão do número de sinistros por apólice.
(d) Determine e interprete o coeficiente de variação.

10. Considere a tabela seguinte, que mostra a distribuição dos pesos de 40 estudantes do ISCTE.
Tabela 10: Pesos dos estudantes.
Peso (kg) Frequência

[57, 61[ 3
[61, 65[ 5
[65, 69[ 9
[69, 73[ 12
[73, 77[ 5
[77, 81[ 4
[81, 85[ 2
(a) Complete a tabela de frequências e represente graficamente os dados através de um histograma.

4 library(moments)
5 frequencias <- c(3, 5, 9, 12, 5, 4, 2) #Definir as frequências para cada intervalo
6 #Intervalos representativos para cada grupo de frequências
7 pontos_medios <- c(59, 63, 67, 71, 75, 79, 83) #Ponto médio de cada intervalo para simplificar
8 dados <- rep(pontos_medios, times = frequencias)
9 hist(dados, breaks = seq(56.5, 85.5, by = 4), main = "Histograma de Frequências",
10 xlab = "Intervalos", ylab = "Frequência", col = "lightblue", right = FALSE)
11 intervalos <- c("[57, 61[", "[61, 65[", "[65, 69[", "[69, 73[", "[73, 77[", "[77, 81[", "[81, 85[")
12 df_frequencias <- data.frame(Intervalo = intervalos, Frequência = frequencias)
13 print(df_frequencias)
(b) Analise a assimetria e a curtose da distribuição.

(c) Calcule a média e o desvio padrão com base nos pontos médios das classes.
4 library(moments)
5 #Frequências e pontos médios já definidos
6 frequencias <- c(3, 5, 9, 12, 5, 4, 2)
7 pontos_medios <- c(59, 63, 67, 71, 75, 79, 83)
8 media_ponderada <- sum(pontos_medios * frequencias) / sum(frequencias) #Calcular a média ponderada
9 #Calcular o desvio padrão ponderado
10 diferencas_quadradas <- (pontos_medios - media_ponderada)ˆ2
11 variancia_ponderada <- sum(diferencas_quadradas * frequencias) / sum(frequencias)
12 desvio_padrao_ponderado <- sqrt(variancia_ponderada)
13 #Mostra os resultados
14 media_ponderada
15 desvio_padrao_ponderado

11. Considere a tabela seguinte, que mostra a classificação de 100 estudantes do ISCTE no exame de Estatı́stica.
Tabela 11: Classificação.
Classificação Frequência
[2, 4[ 4
[4, 6[ 12
[6, 8[ 16
[8, 10[ 23
[10, 12[ 19
[12, 14[ 15
[14, 16[ 6
[16, 18[ 4
[18, 20[ 1
(a) Complete a tabela de frequências e represente graficamente os dados através de um histograma.

1 frequencias <- c(4, 12, 16, 23, 19, 15, 6, 4, 1) #Definir as frequências
2 #Cria o vetor de dados com base nos intervalos e frequências
3 dados <- c(rep(3, 4), rep(5, 12), rep(7, 16), rep(9, 23), rep(11, 19), rep(13, 15),
4 rep(15, 6), rep(17, 4), rep(19, 1))
5 hist(dados, breaks = seq(1.5, 20.5, by = 2), main = "Histograma de Frequências",
6 xlab = "Intervalos", ylab = "Frequência", col = "skyblue", right = FALSE)
7 intervalos <- c("[2,4[", "[4,6[", "[6,8[", "[8,10[", "[10,12[", "[12,14[", "[14,16[", "[16,18[", "[18,20[")
8 df_frequencias <- data.frame(Intervalo = intervalos, Frequência = frequencias)
9 print(df_frequencias)
(b) Analise a assimetria e a curtose da distribuição.

(c) Calcule a média e o desvio padrão com base nos pontos médios das classes.
12. Um morador na zona sul do Tejo desloca-se diariamente de automóvel para o seu emprego em Lisboa utilizando para
o efeito a Ponte Vasco de Gama. Durante 16 dias anotou o tempo (em minutos) que leva de sua casa até à portagem da
ponte. Eis os registos efectuados:
{79, 71, 58, 47, 81, 95, 58, 68, 88, 64, 68, 69, 34, 71, 64, 70}.
(a) Interprete a média, a mediana e a moda dos dados.
(b) Calcule os quartis, a amplitude inter-quartis e averigúe a existência de outliers.
(c) Elabore a caixa de bigodes (Boxplot) e tire conclusões quanto à assimetria da distribuição.
13. Um agricultor da exploração Grandes Nabos, após consulta de documentos sobre os gastos gerais, reteve em seu poder
a seguinte colecção de dados:
{26.9, 26.8, 27.6, 27.5, 27.6, 22.9, 26.3, 26.6, 31.8, 28.8, 29.4, 28.0, 28.4, 28.5, 29.9, 30.0, 29.9, 8.4, 28.8, 30.3, 31.2}.
(a) Calcule a média, a mediana e a moda dos dados.
(b) Calcule os quartis, a amplitude inter-quartis e averigúe a existência de outliers.
(c) Elabore a caixa de bigodes (Boxplot) e tire conclusões quanto à assimetria da distribuição.
14. Considere as notas de três turmas:
• Turma A: {0,0,0,0,0,20,20,20,20,20};
• Turma B: {0,1,2,3,8,9,11,12,17,18,19,20};
• Turma C: {10,10,10,10,10,10,10,10,10}.
A média de cada uma das turmas é igual a 10. Isso quer dizer que as turmas são semelhantes?

15. Os ordenados (em euros) da Empresa X são: {500, 500, 600, 1300, 1400, 2200, 60000}. Comente:
• A moda é 500 e (Sindicato);

• A mediana é 1300 e (Comunicação Social);
• A média é de 9500 e (CEO).
16. Considere os seguintes dados (pesos em kg) e comente a afirmação (verdadeira ou falsa):
• Homem: Média é de 80 kg e o desvio padrão de 11 kg;
• Elefante: Média é de 4 200 kg e o desvio padrão de 294 kg.
”A dispersão nos pesos é mais elevada nos Elefantes do que nos Homens, porque o desvio padrão é maior.”
17. Uma companhia de transportes de carga pretende comparar a variabilidade do peso com a variabilidade do volume de
caixas que transporta. Com os dados da tabela sugira um método para efetuar essa comparação.
Média Desvio padrão

Peso (kg) 10 3
Volume (dm3 ) 30 6
18. Observe os histogramas apresentados em baixo (com base em três amostras aleatórias de 1000 observações cada), diga
qual das distribuições tem maior (e menor) coeficiente, de excesso, de curtose (kurtosis):
(a) (b) (c)
19. Associe a cada um dos gráficos de dispersão o coeficientes de correlação correspondentes:
(a) (b) (c)
• Cor = −0.89 −→ ??? • Cor = −0.05 −→ ??? • Cor = +0.88 −→ ???

20. Represente o gráfico de dispersão e calcule o coeficiente de correlação de Pearson dos dados na Tabela 12 :
(a) Excel (Ferramentas-Suplementos-Análise de Dados).
(b) R/RSTUDIO (Recorrendo aos dados introduzidos no Excel).
1 library(readxl)#Carrega o package necessário
2 # Ler o ficheiro do Excel como um dataframe
3 dados <- read_excel("caminho/.../dados.xlsx")
4 #Calcular a correlação entre duas colunas do dataframe
5 correlacao <- cor(dados$X, dados$Y)
6 print(correlacao)#Mostrar o resultado
Tabela 12: Dados para o coeficiente de correlação.
X 1 3 4 6 8 9 11 14
Y 1 2 4 4 5 7 8 9
21. Associe a cada um dos gráficos de dispersão o coeficientes de correlação correspondentes:
(a) (b) (c)
• Cor = −0.50 −→ ??? • Cor = +0.10 −→ ??? • Cor = +0.60 −→ ???

22. Um investigador efetuou uma experiência para determinar se o género do professor, influência a disposição para os
alunos (homens) assistirem à aula. Para isso foi recolhida uma amostra, e os resultados encontram-se na tabela seguinte.
Tabela 13: Disposição dos alunos
Masculino Feminino Totais

Com disposição 8 15 23
Sem disposição 17 10 27
Totais 25 25 50
(a) Calcule o coeficiente Phi para avaliar a força da associação entre as variáveis em estudo.
(b) Interprete o resultado obtido.
23. Foi realizado um estudo para investigar a relação entre o hábito de fumar e a ocorrência de doenças pulmonares. Os
dados foram recolhidos numa amostra de indivı́duos e categorizados conforme apresentado na Tabela 14:
Tabela 14: O tabagismo e a presença de doença pulmonar
Doença Pulmonar Presente Doença Pulmonar Ausente Totais

Fumador 70 30 100
Não Fumador 40 60 100
Totais 110 90 200
(b) Que recomendações poderiam ser feitas com base na sua análise?
24. A Covid-19 é uma doença infecciosa causada pelo vı́rus SARS-CoV-2, declarada pela OMS como uma pandemia.
Recentes estudos sugeriram um efeito protetor de anticorpos anti-A, associando a presença destes no soro (grupos O e
B) às apresentações brandas da doença, enquanto a ausência de circulação de anticorpos anti-A (grupos A e AB) esteve
relacionada às formas graves. O dados encontram-se registados na Tabela 15:
Tabela 15: Tipo de sangue - Sintomas (Esp.)
Sintomas Leves/Moderados Sintomas Graves Totais

Tipo de sangue: A e AB 24 16 40
Tipo de sangue: O e B 41 4 60
Totais 58 13 100
(b) Que análise faz do valor obtido?

Referências
Cohen, J. (2013). Statistical power analysis for the behavioral sciences. Academic press.
Dias, C. (2021). Estatı́stica com R: Aprenda Fazendo. 1.ª Edição.
Reis, E. (2008). Estatı́stica descritiva. Lisboa: Edições Sı́labo.
Reis, E., Melo, P., Andrade, R., and Calapez, T. (2015). Estatı́stica aplicada. Lisboa: Edições Sı́labo.

ISCTE - IUL - Probabilidades - e - Estatística - (Cap1)

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

ISCTE - IUL - Probabilidades - e - Estatística - (Cap1)

Enviado por

Direitos autorais:

Formatos disponíveis

ISCTE - IUL

Conceição Figueiredo, João Araújo e Ricardo Sousa

Departamento de Métodos Quantitativos para Gestão e Economia

Ricardo Manuel Sousa@iscte-iul.pt LATEX 1

Ricardo Manuel Sousa@iscte-iul.pt LATEX 2

Ricardo Manuel Sousa@iscte-iul.pt LATEX 3

1 Introdução à Estatı́stica Descritiva

Definição 1. População e amostra

Definição 2. Censo e sondagem

Ricardo Manuel Sousa@iscte-iul.pt LATEX 4

1.1 Tipos de variáveis

1.2 Tabela de frequências e representações gráficas

Ricardo Manuel Sousa@iscte-iul.pt LATEX 5

Tabela 1: Tabela de frequências

Definição 5. Polı́gono de frequências

1.3 Medidas de localização

Ricardo Manuel Sousa@iscte-iul.pt LATEX 6

• Média geométrica: x̄g = (x1 × x2 × · · · × xn )1/n .

(a) Distribuição unimodal (b) Distribuição bimodal (c) Histograma bimodal

Figura 4: Distribuições bimodais e unimodal

Comparação entre a média, a mediana e a moda

Ricardo Manuel Sousa@iscte-iul.pt LATEX 7

Figura 5: Distribuições (as)simétricas

1.3.2 Tendência não central

1.3.3 Relação entre quartis, decis e percentis

1.4 Medidas de dispersão, assimetria e curtose

∑ni=1 (xi − x̄)2 ′2 ∑ni=1 (xi − x̄)2 n n

∑ki=1 Fi (xi′ − x̄)2

Ricardo Manuel Sousa@iscte-iul.pt LATEX 8

1.4.2 Medidas de assimetria e curtose

m3 ∑ni=1 (xi − x̄)3 n2 n ∑ni=1 (xi − x̄)3

(a) g1 ≈ 0 (b) g1 > 0 (c) g1 < 0

Ricardo Manuel Sousa@iscte-iul.pt LATEX 9

1.4.3 Box Plot e outliers

(a) Assimetria negativa (b) Simetria (c) Assimetria positiva

(a) Assimetria negativa (b) Simetria (c) Assimetria positiva

Figura 10: Outliers moderados e severos

Ricardo Manuel Sousa@iscte-iul.pt LATEX 10

1.5 Medidas de associação entre variáveis

1.5.1 Correlação de Pearson

Tabela 2: Nı́vel de associação (proposto)

Muito fraca Fraca Moderada Forte Muito forte

1.5.2 Coeficiente V de Cramer e coeficiente Phi

Tabela 3: Tabela de contingência

Tabela 4: Nı́vel de associação (Cohen, 2013)

Ricardo Manuel Sousa@iscte-iul.pt LATEX 11

1.6 Estatı́stica Descritiva: Exemplos de outputs com o R/RSTUDIO

1. Considere as preferências de férias de 100 portugueses registadas na seguinte tabela de frequências.

(a) Represente a tabela no R/RSTUDIO.

(a) Gráfico de barras (b) Gráfico circular

Figura 11: Representação gráfico dos dados: Preferência de férias.

Ricardo Manuel Sousa@iscte-iul.pt LATEX 12

2. Utilize o R/RSTUDIO para efetuar as seguintes operações:

3. Utilize o R/RSTUDIO para efetuar as seguintes operações:

Ricardo Manuel Sousa@iscte-iul.pt LATEX 13

(a) Histograma (b) Ogiva

Figura 12: Representação gráfica dos dados: Notas (amostra2).

4. Com base nos dados (amostra2) de forma aleatória no exemplo 3 (amostra2):

Ricardo Manuel Sousa@iscte-iul.pt LATEX 14

Figura 13: Boxplot dos dados: Notas (amostra2).

5. Considere os dados, de 100 Agregados familiares, organizados na tabela seguinte:

Tabela 5: Agregado familiar

Complete (no Excel) a tabela de frequências