Você está na página 1de 27

ISCTE - IUL

Conceição Figueiredo, João Araújo e Ricardo Sousa

(2024)

Departamento de Métodos Quantitativos para Gestão e Economia

Probabilidades e Estatı́stica
Probabilidades e Estatı́stica ISCTE - IUL

Conteúdo
1 Introdução à Estatı́stica Descritiva 4
1.1 Tipos de variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Tabela de frequências e representações gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Medidas de localização . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1 Tendência central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.2 Tendência não central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.3 Relação entre quartis, decis e percentis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Medidas de dispersão, assimetria e curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Medidas de dispersão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Medidas de assimetria e curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.3 Box Plot e outliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Medidas de associação entre variáveis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1 Correlação de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.2 Coeficiente V de Cramer e coeficiente Phi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 Estatı́stica Descritiva: Exemplos de outputs com o R/RSTUDIO . . . . . . . . . . . . . . . . . . . . . . . . 12
1.7 Estatı́stica Descritiva: Exercı́cios propostos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

Ricardo Manuel Sousa@iscte-iul.pt LATEX 1


Probabilidades e Estatı́stica ISCTE - IUL

Lista de Figuras
4 Distribuições bimodais e unimodal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
5 Distribuições (as)simétricas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
6 Skewness . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
7 Kurtosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
8 Boxplots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
9 Histogramas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
10 Outliers moderados e severos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
11 Representação gráfico dos dados: Preferência de férias. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
12 Representação gráfica dos dados: Notas (amostra2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
13 Boxplot dos dados: Notas (amostra2). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
14 Layout do Excel: Agregado familiar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
15 Representação gráfica das idades dos habitantes de uma aldeia. . . . . . . . . . . . . . . . . . . . . . . . . . 16
16 Layout do Excel: Ogiva. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
17 Layout do Excel: Boxplot. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
18 Layout do Excel: Colunas empilhadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
19 Layout do Excel: Gráfico de dispersão com reta de regressão . . . . . . . . . . . . . . . . . . . . . . . . . . 17
20 Layout do Excel: Gráfico de dispersão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
21 Diagrama de Dispersão TV/GPA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
22 Boxplot e Histograma: Dados (amostra3). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Lista de Tabelas
1 Tabela de frequências . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Nı́vel de associação (proposto) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Tabela de contingência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4 Nı́vel de associação (Cohen, 2013) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
5 Agregado familiar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
6 Idades dos habitantes da aldeia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
7 Index - HEI. Fonte healthy-eating-index-hei. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
8 TV hours week - Grade point average . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
9 Número de sinistros. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
10 Pesos dos estudantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
11 Classificação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
12 Dados para o coeficiente de correlação. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
13 Disposição dos alunos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
14 O tabagismo e a presença de doença pulmonar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
15 Tipo de sangue - Sintomas (Esp.) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

Ricardo Manuel Sousa@iscte-iul.pt LATEX 2


Probabilidades e Estatı́stica ISCTE - IUL

Livros recomendados

https://silabo.pt/categoria-produto/ciencias-exatas-e-naturais/estatistica/
https://diascurto.wixsite.com/sitedc/livros

Ricardo Manuel Sousa@iscte-iul.pt LATEX 3


Probabilidades e Estatı́stica ISCTE - IUL

1 Introdução à Estatı́stica Descritiva


O que é a Estatı́stica?
Não é uma tarefa simples definir Estatı́stica. Por vezes define-se como sendo um conjunto de técnicas de tratamento de dados,
mas é muito mais do que isso. A Estatı́stica é uma “arte” e uma ciência que permite tirar conclusões e de uma maneira geral
fazer inferências a partir de um conjunto de dados. A Estatı́stica é um método e não uma teoria
Quem pretende efectuar estudos ou tomar decisões, começa por recolher ou compilar a informação que lhe parece relevante.
Sendo a maior parte dos casos, de natureza quantitativa, isto é, dados numéricos.
Até 1900 a Estatı́stica resumia-se ao que hoje em dia se chama Estatı́stica Descritiva. Mas a necessidade de uma formalização
dos métodos utilizados fez com que nos anos seguintes, a Estatı́stica se desenvolvesse numa outra direcção, nomeadamente
no que diz respeito ao desenvolvimento de métodos e técnicas de Inferência Estatı́stica.
Assim por volta de 1960, os textos de Estatı́stica debruçam-se especialmente sobre métodos de estimação e de testes de
hipóteses, assumindo determinados modelos ou famı́lia de modelos, descurando os aspectos práticos da análise de dados.
Porém, na última década, em grande parte, devido às facilidades computacionais postas à sua disposição, os estatı́sticos, têm-
se vindo a preocupar cada vez mais com a necessidade de desenvolver métodos de análise e exploração de dados, que dêem
uma maior importância aos dados e que se traduz na seguinte frase: “Deixem os dados falarem por si”.
Assim por vários motivos, o estudo estatı́stico fica muitas vezes pela exploração e descrição dos dados. Quando vai até ao
fim, à última fase do processo aparece em geral, associada à realização de inferências estatı́sticas. Hoje em dia em todos os
campos da ciência e nas mais variadas profissões, as pessoas têm necessidade de se envolver em problemas de Estatı́stica.
A Estatı́stica é um método que dispõe de uma famı́lia de instrumentos, que permite apreender e quantificar diferentes tipos
de fenómenos do mundo que nos rodeia, e que opera num quadro de noções, princı́pios e premissas bem definidas. No
entanto, numa situação real e concreta, quando um procedimento estatı́stico é aplicado, as premissas ou hipóteses podem ou
não verificar-se, o que nunca é completamente claro.
Semelhante situação torna inevitável um elevado grau de subjectividade nas aplicações e leva modernamente à investigação
de métodos robustos que sejam válidos para um largo leque de hipóteses ou modelos teóricos.
Cumulativamente, sobretudo nas aplicações às ciências sociais e humanas, a precisão conseguida pela linguagem matemática
nas ciências exactas fica severamente dependente da qualidade das medidas e das observações, podendo eventualmente a
ordem de grandeza dos erros tornar irrelevante o tratamento estatı́stico.
Esta contrariedade justifica a pesquisa que modernamente se faz de métodos resistentes que sejam insensı́veis à presença de
erros grosseiros ou valores anormais (outliers) ou um grande número de pequenos erros (arredondamentos).
A Estatı́stica tem como objetivo, observar um fenómeno, recolher, analisar e interpretar os dados de modo a auxiliar a
formulação de decisões. É normalmente dividida em duas áreas: Estatı́stica Descritiva e a Inferência Estatı́stica.

A Estatı́stica Descritiva consite na recolha, apresentação, análise e interpretação de dados numéricos através da criação de
instrumentos adequados: quadros, gráficos e indicadores numéricos (Reis, 2008).
Na Inferência Estatı́stica é (primeiro) necessário introduzir os conceitos de população e amostra.

Definição 1. População e amostra


Uma população é o conjunto completo de todos os objetos/indivı́duos com caracterı́sticas comuns que interessam para
um investigador estudar/analisar. A dimensão/tamanho da população, N, pode ser muito grande (mas finita e neste caso
ser estudada através de um censo ou de uma sondagem) ou infinita.

Uma amostra é um subconjunto retirado de uma população. A dimensão/tamanho da amostra é representado por n.

Definição 2. Censo e sondagem


Censo é um estudo que inclui todos os elementos da população, enquanto uma sondagem é um estudo (da população)
efetuado a partir da análise de uma amostra (representativa).

Uma amostra é um subconjunto (representativo) da população . É selecionada de forma aleatória ou não aleatória, com o
objetivo de extrair informações e fazer inferências sobre a população. O tamanho da amostra pode variar e é geralmente muito

Ricardo Manuel Sousa@iscte-iul.pt LATEX 4


Probabilidades e Estatı́stica ISCTE - IUL

menor do que o tamanho da população, mas deve ser grande o suficiente para ser estatisticamente significativa e representativa.
A Inferência Estatı́stica é uma metodologia que permite fazer estimativas e tirar conclusões sobre uma população a partir da
informação contida numa amostra (representativa da população de onde foi retirada).
Definição 3. Parâmetro e Estatı́stica
Um parâmetro é uma medida numérica que descreve uma caracterı́stica especı́fica de uma população.

Uma estatı́stica é uma medida numérica que descreve uma caracterı́stica especı́fica de uma amostra.

1.1 Tipos de variáveis


Começamos antes de mais por definir uma variável aleatória. Uma variável aleatória pode definir-se como uma caracterı́stica
cuja manifestação assume pelo menos duas modalidades distintas e é imprevisı́vel, ou seja, aleatória e, de um modo geral,
expressa os resultados de uma experiência aleatória.
Em geral as variáveis aleatórias são representadas por letras maiúsculas (por exemplo, X), enquanto os resultados elementares
por elas assumidos representar-se-ão através de letras minúsculas (x1 , x2 , ...).
As variáveis podem ser qualitativas (numa escala nominal o ordinal):
• Nominal - Categorias qualitativas, mutuamente exclusivas (não se intercetam) e não hierarquizáveis (não existe ordem
logo não há uma modalidade que possa ser considerada inferior ou superior a outra. Quando são atribuı́dos números
às diferentes classes estes são simplesmente usados como ‘etiquetas’ (por exemplo a variável, dicotómica, sexo : 1 -
masculino; 2 - feminino ou a nacionalidade: 1 - portuguesa; 2 - espanhola ...).
• Ordinal - As modalidades podem ser ordenadas de acordo com um determinado critério. É válida não só a relação de
identidade (como na escala nominal) mas também a relação de ordem. Nas ciências humanas são escalas muito usadas,
como a escala de Likert (1 - totalmente contra; 2 - parcialmente contra; 3 - nem contra nem a favor; 4 - parcialmente a
favor; 5 - totalmente a favor).
As variáveis quantitativas podem ser discretas ou contı́nuas (numa escala intervalar ou de razão).
As variáveis quantitativas discretas assumem um conjunto numerável (finito ou infinito) de valores (por exemplo o número
de pintas de um dado, o número de filhos, ...).
As variáveis quantitativas contı́nuas podem assumir qualquer valor num dado intervalo real (por exemplo o tempo, o peso,
a altura, a idade, o QI, a pressão arterial, ...).
• Intervalar - Apresentam modalidades representadas por números para os quais são válidas as relações de identidade, de
ordem e as operações de soma e subtração A distância numérica entre dois números está associada à distância empı́rica
no mundo real. Entre as diferenças obtidas a partir do números são válidas as relações de multiplicação e divisão (mas
não entre o números propriamente ditos). A origem da escala é meramente arbitrária. Na temperatura zero não significa
ausência de frio/calor. O valor zero em graus Celsius corresponde a 32 na unidade Fahrenheit e a 273 na unidade Kelvin.
• Razão - As modalidades são representadas por números reais para os quais todas as operações são válidas. Ao contrário
das variáveis numa escala intervalar, o valor zero indica ausência total da caracterı́stica em estudo.

1.2 Tabela de frequências e representações gráficas


Quando se realiza uma experiência estatı́stica as observações são registadas ela ordem que são efetuadas, sem qualquer tipo
de preocupações. Obtêm-se assim os dados em bruto. Devemos por isso organizar os dados numa tabela de frequências.
A primeira coluna da tabela (Tabela 1) devem estar as valores da variável (se discreta) ou intervalos reais (se contı́nua) ou
categorias (classes exaustivas e mutuamente exclusivas se qualitativas).
A frequência absoluta (Fi , i = 1, · · · , k) é o número de observações associada a cada categoria (k representa o número de
categorias). A frequência relativa ( fi ) é o quociente entre a frequência absoluta e o número total de observações (aqui desig-
nado por n). As frequências absolutas acumuladas e as frequências relativas acumuladas representam-se por CumFi e Cum fi
respetivamente, quando faz sentido calcular (Reis et al., 2015).

Ricardo Manuel Sousa@iscte-iul.pt LATEX 5


Probabilidades e Estatı́stica ISCTE - IUL

k Fi k
• fi =
• ∑ Fi = n n • ∑ fi = 1
i=1 i=1

Tabela 1: Tabela de frequências

Xi Fi fi CumFi Cum fi
x1 F1 f1 CumF1 = F1 Cum f1
x2 F2 f2 CumF2 = F1 + F2 Cum f2 = f1 + f2
x3 F3 f3 CumF3 = F1 + F2 + F3 Cum f3 = f1 + f2 + f3
··· ··· ··· ··· ···
xk Fk fk n 1
Total n 1

Dois do tipos de gráficos mais usados são os gráficos de barras e os gráficos circulares. Nos dados qualitativos e quantita-
tivos discretos a largura das barras (deve deixar-se um espaço entre as barras adjacentes) é igual para todas as categorias e a
altura é igual à frequência. As categorias são representadas no eixo horizontal e as frequências no eixo vertical.
Os gráficos circulares (normalmente usados nos dados qualitativos) estão divididos em setores circulares cuja área (e ângulo
ao centro correspondente) é proporcional à frequência da categoria que representam.
Quando a variável é qualitativa, numa escala ordinal, ou quantitativa, faz sentido falar em frequências acumuladas. O CumFi
dá-nos o número que observações com valor inferior ou igual à caracterı́stica xi [F(xi ) = CumFi ].
O gráfico da distribuição de frequências acumuladas de dados quantitativos discretos é uma ‘escada de graus’, onde a altura
de cada grau é a frequência acumulada e o ‘salto’ entre classes é a frequência (simples). Os pontos de descontinuidade existem
nos ‘saltos’, pelo que a função cumulativa é contı́nua à direita desses pontos.
Quanto trabalhamos com dados quantitativos contı́nuos é, quase sempre, necessário agrupá-los em classes para os represen-
tar graficamente (os métodos para agrupar os dados em classes não será objeto de estudo).
Definição 4. Histograma
É uma representação gráfica de dados quantitativos onde as classes são representadas no eixo horizontal e as frequências
no eixo vertical. Se as classes tiverem todas a mesma amplitude, a altura representa a frequência.

No caso das classes não terem todas a mesma amplitude, a área das barras é proporcional à sua frequência.

Definição 5. Polı́gono de frequências


Representação gráfica dos dados em que se une, através de segmentos de reta, todos os pontos cuja abcissa é o ponto
médio de uma classe e a ordenada é a sua frequência.

1.3 Medidas de localização


1.3.1 Tendência central
As medidas posição ou de localização central mas importantes são a média, a mediana e a moda.

A média aritmética (ou só média) é a soma de todos os valores numéricos observados a dividir pelo número de observações
(se os valores forem todos iguais a uma constante a, isto é, se não existir dispersão, a média é a):

∑ni=1 xi
x̄ = .
n
Quando os dados estão organizados numa tabela de frequências para determinarmos a média usamos:

∑ki=1 Fi xi k
x̄ = = ∑ fi xi .
n i=1

Ricardo Manuel Sousa@iscte-iul.pt LATEX 6


Probabilidades e Estatı́stica ISCTE - IUL

• Média geométrica: x̄g = (x1 × x2 × · · · × xn )1/n .


Suponha que a taxa anual de inflação num paı́s, durante os 3 últimos anos, for de 24%, 10% e 2%. Calcule a taxa
média de inflação anual, isto é, a taxa constante com que, em 3 anos, o mesmo nı́vel de preços poderia ser atingido:
(1 + t) = [(1 + 0.024) × (1 + 0.1) × (1 + 0.02)]1/3 ⇔ t = 11.6% (1 + t = x̄g = 1.116).
n
• Média harmónica: x̄h = n .
∑i=1 1/xi
Um automóvel percorreu 10 km à velocidade de 120 km/h e os outros 10 km à velocidade de 80 km/h (recorde que
2
velocidade = espaço/tempo). Determine a velocidade média: vm = = 96 (x̄h = km/h).
|{z} 1/120 + 1/80
x̄h

A mediana divide ao meio o conjunto de valores observados (ordenados por ordem crescente ou decrescente). É menor valor
da variável que contém pelo menos 50% das observações.
O conjunto de dados é dividido de forma a que o número de observações inferiores ou iguais à mediana seja igual ao número
de observações superiores ou igual à mediana (o cálculo da mediana pressupõe que os dados já foram previamente ordenados).
Consideremos x1 , x2 , ..., xn um conjunto de observações. Usando a notação x(i) para representar o i-ésimo valor observado
mais pequeno, passamos a ter a nossa amostra ordenada, pelo que se verifica que x(1) ≤ x(2) ≤ · · · ≤ x(n) .
Em particular x(1) e x(n) são respetivamente o mı́nimo e o máximo da amostra.

x( ) + x( 2n +1)
 n
 2 se n par,


2
Me = x̃ =

x( n+1 ) se n ı́mpar.


2

A moda é o valor que ocorre com maior frequência num conjunto de observações. A moda pode não existir (conjunto amodal)
e se existir pode não ser única. Se for única a distribuição diz-se unimodal, se tiver duas modas diz-se bimodal, se tiver mais
de duas diz-se multimodal. Se os dados estiverem agrupados em classes numa tabela de frequências o cálculo da moda é mais
complexo.

(a) Distribuição unimodal (b) Distribuição bimodal (c) Histograma bimodal

Figura 4: Distribuições bimodais e unimodal

Comparação entre a média, a mediana e a moda


Em distribuições simétricas (unimodais), a média, a mediana e a moda têm o mesmo valor (x̄ = Me = Mo ).
Numa distribuição assimétrica positiva, a média é maior que a mediana e esta (geralmente) maior do que a moda, que é a
medida de localização menos usada (x̄ > Me > Mo ).
Numa distribuição assimétrica negativa, a média é menor que a mediana e esta (geralmente) menor que a moda, que é a medida
de localização menos usada (x̄ < Me < Mo ).

Ricardo Manuel Sousa@iscte-iul.pt LATEX 7


Probabilidades e Estatı́stica ISCTE - IUL

(a) Distribuição simétrica (b) Distribuição assimétrica positiva (c) Distribuição assimétrica negativa

Figura 5: Distribuições (as)simétricas

1.3.2 Tendência não central


Os quantis são as medidas de posição ou localização não central que vamos estudar. O percentis, os decis e os quartis são os
que têm mais interesse estudar. O quantil de ordem p representa-se por Q p (0 < p < 1):

(np) + x(np+1)
 x

 se np inteiro,
Qp = 2


x[np+1] se np não inteiro.

1.3.3 Relação entre quartis, decis e percentis


• Q0.50 = Me = p50 = d5 = q2 (a mediana é igual ao percentil 50, ao decil 5 e ao 2.º quartil).
• Q0.25 = p25 = q1 (o 1.º quartil é igual ao percentil 25).
• Q0.75 = p75 = q3 (o 3.º quartil é igual ao percentil 75).

1.4 Medidas de dispersão, assimetria e curtose


1.4.1 Medidas de dispersão
As medidas de localização não nos dão toda a informação necessária sobre os dados.
Precisamos de estudar também as medidas de dispersão. As mais importantes são a variância e o desvio padrão.
No entanto também podemos calcular outras medidas (absolutas ou relativas) de dispersão:
• Amplitude total, range em inglês (r): r = x(n) − x(1) (diferença entre o máximo e o mı́nimo);
• Amplitude interquartil, interquartile range em inglês (IR): IR = q3 − q1 (diferença entre o 3.º e 1.º quartis);
∑ni=1 |xi − x̄|
• O desvio absoluto médio (dm ): dm = (pouco usada porque a função módulo não é diferenciável).
n
O desvio padrão de uma amostra (s) indica se os valores estão próximos ou afastados da média (dispersão). A variância (s2 )
é o quadrado do desvio padrão. A variância corrigida da amostra e o desvio padrão corrigido da amostra (geralmente mais
usadas na inferência estatı́stica) representam-se respetivamente por s′2 e s′ .

∑ni=1 (xi − x̄)2 ′2 ∑ni=1 (xi − x̄)2 n n


s2 = ,s = −→ ns2 = (n − 1)s′2 = ∑ (xi − x̄)2 = ∑ xi2 − nx̄2
n n−1 i=1 i=1

∑ki=1 Fi (xi′ − x̄)2


Quando os dados estão agrupados em k classes é necessário usar o ponto médio (xi′ ): s2 ≈ .
n
As medidas de variabilidade absoluta dependem das unidades das observações. Para comparar a variabilidade de distribuições
diferentes usam-se medidas de variabilidade relativa que são quantidades adimensionais.
s
A medida mais usada é o coeficiente de variação (é frequente exprimir este coeficiente em %): Cv = × 100%, x̄ , 0.
|x̄|
IR q3 − q1
Outra media de variabilidade relativa (robusta à existência de outliers) é o desvio quartil reduzido: = .
2Me 2q2

Ricardo Manuel Sousa@iscte-iul.pt LATEX 8


Probabilidades e Estatı́stica ISCTE - IUL

1.4.2 Medidas de assimetria e curtose


Vamos definir primeiro o conceito de momento para estudar as medidas de assimetria e curtose.
Definição 6. Momento centrado na média de ordem r (inteiro não negativo)
∑ni=1 (xi − x̄)r
É a média dos desvios em relação à média elevados à potência de ordem r, mr = .
n

As medidas de assimetria indicam se uma distribuição é assimétrica ou não. O coeficiente de assimetria é dado por uma
medida normalizada (para poderem serem feitas comparações) que se obtém dividindo m3 (momento centrado na média de
ordem três) pelo cubo do desvio padrão.
Existem dois coeficientes. Os dois coeficientes tomam valores muito próximos quando o n é grande (n → +∞).

m3 ∑ni=1 (xi − x̄)3 n2 n ∑ni=1 (xi − x̄)3


g1 = = −→ G 1 = skew = × g1 = × .
s3 ns3 (n − 1)(n − 2) (n − 1)(n − 2) s3

(a) g1 ≈ 0 (b) g1 > 0 (c) g1 < 0

Figura 6: Skewness

As medidas de curtose indicam sobre o ‘peso’ das caudas da distribuição. coeficiente de curtose é dado por uma medida
normalizada (para comparações) que se obtém dividindo m4 (momento centrado na média de ordem quatro) pelo desvio
padrão elevado a 4.
O R/RSTUDIO também dá o excesso de curtose (Dias, 2021). Os valores dos dois coeficientes diferem aproximadamente 3
unidades com n grande (n → +∞), k2 = k1 − 3 (excesso de curtose):

m4 n2 (n + 1) 3(n − 1)2
k1 = 4
−→ k2 = kurt = × k1 − .
s (n − 1)(n − 2)(n − 3) (n − 2)(n − 3)

(a) Mesocúrtica: k1 ≈ 3 (k2 ≈ 0) (b) Leptocúrtica: k1 > 3 (k2 > 0) (c) Platicúrtica: k1 < 3 (k2 < 0)

Figura 7: Kurtosis

A interpretação não é fácil por isso costuma-se comparar o seu valor com a da curva Normal que, com k1 = 3 (k2 = 0), é
designada de Mesocúrtica (a). Assim se k1 > 3 (k2 > 0) a curva da distribuição é mais esguia, designada Leptocúrtica (b),
com caudas mais ‘pesadas’ do que a distribuição Normal (‘caudas pesadas e um pico alto’). Se k1 < 3 (k2 < 0) a curva
da distribuição é mais achatada, designada por Platicúrtica (c), com caudas menos ‘pesadas’ do que a distribuição Normal
(‘caudas leves e um pico baixo’).

Ricardo Manuel Sousa@iscte-iul.pt LATEX 9


Probabilidades e Estatı́stica ISCTE - IUL

1.4.3 Box Plot e outliers


Quando se pretende examinar, além da assimetria, se na coleção de dados há valores estranhos ou outliers (valores com com-
portamento que se afastam da grande maioria dos restantes valores da variável) é usual confrontar os dados com uma medida
de dispersão. A amplitude interquartı́lica (IR = q3 − q1 ), por não ser sensı́vel a esse afastamento, é usada na identificação dos
outliers. A regra prática consiste em considerar um outlier se:
• Outlier moderado (•): BIE = q1 − 3IR < xi < q1 − 1.5IR = BII ∨ BSI = q3 + 1.5IR < xi < q3 + 3IR = BSE;
• Outlier severo (∗): xi < q1 − 3IR ∨ xi > q3 + 3IR;
• BII designa a barreira interna inferior e BIS designa a barreira interna superior;
• BEI designa a barreira externa inferior e BES designa a barreira externa superior;
• O menor(maior) valor que não é outlier é designado por valor adjacente inferior(superior) [VAI(S)].
Qualquer análise de dados exige uma atenção especial dos outliers. Podem dever-se a erros de registo ou não, e a sua
inclusão ou exclusão da análise estatı́stica deve ser ponderada. Na fase de análise dos resultados deve fazer-se uma referência
fundamentada aos outliers encontrados procurando uma interpretação. O Histograma e a Boxplot são importantes na análise
exploratória de dados já que são (métodos) gráficos complementares.

(a) Assimetria negativa (b) Simetria (c) Assimetria positiva

Figura 8: Boxplots

(a) Assimetria negativa (b) Simetria (c) Assimetria positiva

Figura 9: Histogramas

Figura 10: Outliers moderados e severos

Ricardo Manuel Sousa@iscte-iul.pt LATEX 10


Probabilidades e Estatı́stica ISCTE - IUL

1.5 Medidas de associação entre variáveis


Quando temos duas variáveis, X e Y , podemos recolher uma coleção de pares de dados (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) e estudar se
exite alguma (possı́vel) relação entre as variáveis. No entanto, antes, deve-se estudar cada uma das variáveis individualmente.
Os dados podem ser do tipo qualitativo (nominal ou ordinal) ou do tipo quantitativo (discreto ou contı́nuo).

1.5.1 Correlação de Pearson


Antes de ser calculado o coeficiente de correlação de Person devemos representar o diagrama de dispersão, onde se represen-
tam os pontos da coleção de dados, de modo a ter uma ideia do tipo de relação existente (ou inexistente) entre as variáveis. A
correlação é uma medida estatı́stica que expressa o grau e a direção da relação entre duas variáveis. Se estivermos a analisar
duas variáveis quantitativas, a medida mais usada é o coeficiente de correlação de Pearson. Varia entre -1 (correlação linear
forte negativa) e 1 (correlação linear forte positiva), com um valor próximo de zero a significar ausência de correlação linear
entre as variáveis. O coeficiente de correlação de Pearson tem sido usado com sucesso quando os resultados da classificação
não são afetados por diferenças de dispersão e de escala de variáveis.
Cov(X,Y ) ∑n (xi − x̄)(yi − ȳ) ∑ni=1 xi yi − nx̄ȳ
−1 ≤ r = Cor(X,Y ) = = p n i=1 p n =q q ≤1
sx sy ∑r=1 (xi − x̄)2 ∑i=1 (yi − ȳ)2 ∑ni=1 xi2 − nx̄2 ∑ni=1 xi2 − nx̄2

A covariância é uma medida estatı́stica que reflete o grau de variação conjunta de duas variáveis aleatórias, indicando se
tendem a variar na mesma direção (covariância positiva), ou seja se uma aumenta a outra também aumenta, ou em direções
opostas (covariância negativa), se uma aumenta a outra diminui. O valor da covariância pode assumir qualquer valor real
[−∞ < Cov(X,Y ) < +∞], por isso apenas podemos verificar a direção da relação mas não a intensidade da relação (depende
das unidades de medida das variáveis). A covariância fornece uma indicação inicial da relação entre variáveis, diferenciando-
se da correlação, que normaliza essa relação, permitindo a interpretação por que o valor está limitado ente -1 e 1.
A existência de correlação não implica necessariamente uma relação de causa e efeito entre as variáveis.
Quando uma das variáveis é qualitativa ordinal e a outra quantitativa, ou as duas variáveis são qualitativas ordinais, o coefici-
ente de correlação de Spearman é o mais usado (no entanto não o iremos calcular este ano).

Tabela 2: Nı́vel de associação (proposto)

Muito fraca Fraca Moderada Forte Muito forte


|r| < 0.1 0.1 ≤ |r| < 0.3 0.3 ≤ |r| < 0.5 0.5 ≤ |r| < 0.7 |r| ≥ 0.7

1.5.2 Coeficiente V de Cramer e coeficiente Phi


O coeficiente φ (Phi) é uma medida estatı́stica especialmente concebida para avaliar a força da associação entre duas variáveis
binárias. Esta métrica é particularmente relevante em situações onde ambas as variáveis são qualitativas (nominais ou ordinais)
e dicotómicas. É o caso particular do V de Cramer para tabelas 2 × 2. Matematicamente, calcula-se com base numa tabela de
contingência, sendo uma medida derivada do teste de Qui-quadrado (χ 2 ). Para tabelas de maior dimensão, ou seja uma das
variáveis tem 3 ou mais categorias, temos o V de Cramer.

Tabela 3: Tabela de contingência

Y Totais |a × d − b × c|
0≤φ = p ≤ 1(perfeita associação)
a b a+b (a + b)(a + c)(b + d)(c + d)
X
c d c+d
Totais a+c b+d a+b+c+d

Tabela 4: Nı́vel de associação (Cohen, 2013)


s
X2
Pequeno Moderado Elevado 0≤V = ≤ 1(perfeita associação)
N × [min(L,C) − 1]
Coeficiente φ [0.1, 0.3[ [0.3, 0.5[ [0.5, 1[

Ricardo Manuel Sousa@iscte-iul.pt LATEX 11


Probabilidades e Estatı́stica ISCTE - IUL

1.6 Estatı́stica Descritiva: Exemplos de outputs com o R/RSTUDIO

1. Considere as preferências de férias de 100 portugueses registadas na seguinte tabela de frequências.

Preferência de férias

Xi Fi fi
Casa 8 0.08
Praia 46 0.46
Campo 32 0.32
Outra 14 0.14
Total 100 1

(a) Represente a tabela no R/RSTUDIO.


(b) Utilize o R/RSTUDIO para obter o gráfico de barras e o gráfico circular da variável.
1 rm(list=ls()) #Remove variáveis e objetos que estão armazenados no ambiente de trabalho
2
3 install.packages("knitr")
4 library(knitr)
5
6 install.packages("dplyr")
7 library(dplyr)
8 # Criar o dataframe
9 dados <- data.frame(
10 X_i = c("Casa", "Praia", "Campo", "Outra"),
11 F_i = c(8, 46, 32, 14),
12 f_i = c(0.08, 0.46, 0.32, 0.14)
13 )
14 print(dados) #Para visualizar a tabela
15 install.packages("ggplot2")
16 library(ggplot2)
17 # Usar o barplot para criar um gráfico de barras da frequência (F_i)
18 barplot(dados$F_i, names.arg = dados$X_i, main = "Frequência de Preferência de Férias",
19 xlab = "Destino", ylab = "Frequência", col = "blue", ylim = c(0, max(dados$F_i) + 10))
20 # Criar o gráfico circular com os valores de F_i
21 pie(dados$f_i, labels = dados$f_i, main = "Preferência de Férias",
22 col = c("blue", "red", "orange", "darkgreen"),
23 cex = 0.8)#Diminui o tamanho dos pontos em 20% em comparação com o tamanho padrão.
24 # Adicionar a legenda com rótulos X_i
25 legend("topright", legend = dados$X_i, fill = c("blue", "red", "orange", "darkgreen"), cex = 0.8)
26 # cex: ajusta o tamanho do texto tanto nas "fatias" do gráfico como na legenda.

(a) Gráfico de barras (b) Gráfico circular

Figura 11: Representação gráfico dos dados: Preferência de férias.

Ricardo Manuel Sousa@iscte-iul.pt LATEX 12


Probabilidades e Estatı́stica ISCTE - IUL

2. Utilize o R/RSTUDIO para efetuar as seguintes operações:


(a) Comece por gerar 300 números inteiros (aleatórios) entre 0 e 20.
(b) Construa uma tabela de frequências absolutas simples com 5 classes de amplitude 4.
(c) Represente o Histograma dos dados agrupados em 5 classes.
1 set.seed(123) # Para resultados reprodutı́veis
2 numeros_aleatorios <- sample(0:20, 50, replace = TRUE) # gera 300 números inteiros aleatórios entre 0 e 20
3
4 #Construir as classes com intervalos definidos
5 classes1 <- cut(amostra1, breaks = c(0, 4, 8, 12, 16, 20))
6 frequencias1 <- table(classes1)
7 frequencias1
8
9 tabela_frequencias1 <- data.frame(
10 Classes = names(frequencias1), Frequencia = as.integer(frequencias1)
11 )
12 print(tabela_frequencias1)
13
14 hist(amostra1, freq = TRUE, breaks = c(0,4,8,12,16,20),
15 main = "Histograma (5 classes)", col = "red",
16 xlab = "Notas (Classes)", ylab = "Frequências absolutas simples")

3. Utilize o R/RSTUDIO para efetuar as seguintes operações:


(a) Comece por gerar 300 números aleatórios (com a distribuição normal) entre 0 e 20 (notas);
(b) Construa uma tabela de frequências, absolutas e relativas simples, com a regra de Sturges.
(c) Represente o Histograma dos dados agrupados com a regra de Sturges e a Ogiva.
1 # Gerar números aleatórios "normais"
2 set.seed(123) # Para resultados reprodutı́veis
3 amostra2 <- rnorm(300, mean = 12, sd = 2)
4 amostra2
5
6 #Construir as classes com a regra de Sturges
7 classes2 <- cut(amostra2, breaks = nclass.Sturges(amostra2))
8 frequencias2 <- table(classes2)
9 frequencias2
10
11 # Agora, criando um dataframe com esses números
12 tabela_frequencias2 <- data.frame(
13 Classes = names(frequencias2),
14 Fi = as.integer(frequencias2),
15 fi = round(as.integer(frequencias2) / sum(frequencias2), 4)
16 )
17 # Adicionar a coluna de frequências acumuladas
18 tabela_frequencias2$CumFi <- cumsum(tabela_frequencias2$Fi)
19 tabela_frequencias2$Cumfi <- cumsum(tabela_frequencias2$fi)
20
21 print(tabela_frequencias2)
22
23 hist(amostra2, freq = TRUE, breaks = "Sturges", main = "Notas (amostra2)", col = "red", border = "orange", xlab = "Classes",
24
25 histcum <- hist(amostra2, plot = FALSE)
26 # Calcular as frequências acumuladas
27 frequencias_acumuladas <- cumsum(histcum$counts) /length(amostra2)
28 # Definir os pontos médios das classes
29 mids <- histcum$mids
30
31 # Adicionando o primeiro ponto (0,0)
32 mids <- c(min(amostra2) - 1, mids, max(amostra2) + 1)
33 frequencias_acumuladas <- c(0, frequencias_acumuladas, max(frequencias_acumuladas))
34
35 # Criar a ogiva
36 plot(mids, frequencias_acumuladas, type = "o", main = "Ogiva (Sturges)",
37 xlab = "Notas (Classes)", ylab = "Frequência relativas acumuladas",
38 xlim = range(amostra2))

Ricardo Manuel Sousa@iscte-iul.pt LATEX 13


Probabilidades e Estatı́stica ISCTE - IUL

(a) Histograma (b) Ogiva

Figura 12: Representação gráfica dos dados: Notas (amostra2).

4. Com base nos dados (amostra2) de forma aleatória no exemplo 3 (amostra2):


(a) Calcule o máximo, o mı́nimo e a amplitude (r).
(b) Calcule o 1.º quartil (q1 ), o 3.º quartil (q3 ) e a amplitude interquartil (IR).
(c) Calcule a média (x̄), a mediana (q2 ), a variância corrigida (s′2 ) e o desvio padrão corrigido (s′ ).
(d) Calcule o coeficiente de variação (Cv ), o coeficiente de assimetria (G1 ) e coeficiente de, excesso, curtose (k2 ).
(e) Represente a Boxplot dos dados, identificando as barreiras internas (BII, BSI).
1 max(amostra2)
2 min(amostra2)
3 r <- max2-min2
4 r #Mostra a amplitude (range)
5 quartiles2 <- quantile(amostra2, c(0.25, 0.5, 0.75)) # Calcular os quartis e os percentis
6 quartiles2
7 IR <- quartiles[3]-quartiles[1] #Calcula a amplitude inter quartil
8 percentiles2 <- quantile(amostra2, c(0.10, 0.20, 0.30, 0.40, 0.60, 0.70, 0.80, 0.90))
9 percentiles2
10 mean(amostra2)
11 median(amostra2)
12 var(amostra2)
13 sd(amostra2)
14 sd(amostra2)/mean(amostra2)
15
16 library(stats)
17 install.packages("DescTools") #Análise de dados: estatı́sticas descritivas, testes, etc.
18 library(DescTools)
19 install.packages("pastecs") #Package for Analysis and Studies of Environmental Science
20 library(pastecs)
21 Skew(amostra2)
22 Kurt(amostra2)
23 summary #Estatı́sticas resumo
24 install.packages("psych")
25 library(psych)
26 estatisticas <- describe(amostra2) #Mais estatı́sticas
27 print(estatisticas)
28
29 boxplot(amostra2, horizontal = TRUE, col = "lightblue", main = "Notas (amostra2)")
30 BII <- quartiles2[1]-1.5*IR
31 BII
32 BSI <- quartiles2[3]+1.5*IR
33 BSI
34 # Adicionar uma linha vertical tracejada em x = 16.88867
35 abline(v = 7.22399, col = "red", lty = 2)
36 abline(v = 16.88867, col = "red", lty = 2)

Ricardo Manuel Sousa@iscte-iul.pt LATEX 14


Probabilidades e Estatı́stica ISCTE - IUL

Figura 13: Boxplot dos dados: Notas (amostra2).

5. Considere os dados, de 100 Agregados familiares, organizados na tabela seguinte:

Tabela 5: Agregado familiar

Xi Fi fi
1 8 0.08
2 20 0.20
3 30 0.30
4 26 0.26
5 12 0.12
6 4 0.04

Complete (no Excel) a tabela de frequências


(utilizando as fórmulas disponı́veis) e construa
o gráfico da distribuição de frequências acumu-
ladas: Inserir Gráficos-Dispersão-Dispersão
com Linhas Retas). Calcule (também no Ex-
cel) a média, a mediana, a moda, o 1.º quartil
e o 3.º quartil, a variância, o desvio padrão e o
coeficiente de variação.

Figura 14: Layout do Excel: Agregado familiar.


6. Considere as idades dos 50 habitantes de uma aldeia, organizados na tabela seguinte (Tabela 6) e complete (no Excel)
a tabela de frequências e construa o histograma com o polı́gono de frequências (simples). Para o histograma: Inserir
Gráficos-Dispersão-Dispersão com Linhas Retas e para o polı́gono de frequências: Inserir Gráficos-Dispersão-
Dispersão com Linhas Retas e Marcadores. Se tivermos os dados em bruto podemos recorrer às Ferramentas (suple-
mentos de Excel): Dados-Análise de Dados-Histograma.

Tabela 6: Idades dos habitantes da aldeia

[li , Li [ Fi fi
[15, 25[ 1 0.02
[25, 35[ 4 0.08
[35, 45[ 9 0.18
[45, 55[ 14 0.28
[55, 65[ 12 0.24
[65, 75[ 9 0.18
[75, 85[ 1 0.06

Ricardo Manuel Sousa@iscte-iul.pt LATEX 15


Probabilidades e Estatı́stica ISCTE - IUL

(a) Layout do Excel: Histograma. (b) Layout do Excel: Polı́gono de frequências.

Figura 15: Representação gráfica das idades dos habitantes de uma aldeia.

O polı́gono de frequências acumuladas, também cha-


mado de Ogiva representa-se de forma semelhante ao
polı́gono de frequências (simples) no entanto, como é
óbvio, são usadas as frequências acumuladas em vez
das simples e os limites da classe em vez do ponto
médio.

Figura 16: Layout do Excel: Ogiva.


7. Insira, de forma aleatória com a função apropriada e limites à escolha, dados numa coluna do Excel e construa a Boxplot
fazendo Inserir Gráficos-Caixa de Bigodes. Manipule os dados de forma a obter outliers severos e moderados.

Figura 17: Layout do Excel: Boxplot.

8. Considere a seguinte tabela, de dupla entrada, relativa ao nı́vel de atividade de 4460 participantes. Represente os dados
fazendo Inserir Gráfico-Colunas 2D-Colunas Empilhadas. Deve formatar o gráfico: Trocar linhas/colunas.

Tabela 7: Index - HEI. Fonte healthy-eating-index-hei.

Homens Mulheres
Sedentário 957 1 226
Ativo 340 417
Muito ativo 842 678
Total 2 139 2 321

Figura 18: Layout do Excel: Colunas empilhadas

Ricardo Manuel Sousa@iscte-iul.pt LATEX 16


Probabilidades e Estatı́stica ISCTE - IUL

9. Comece por criar aleatoriamente duas colunas com 30 observações cada. Calcule o coeficiente de regressão de Pearson
e interprete o resultado. Represente graficamente os dados fazendo Inserir Gráfico-Dispersão. Selecionar o gráfico,
clicar no botão direito e Adicionar linha de tendência (mostrar equação no gráfico).

Figura 19: Layout do Excel: Gráfico de dispersão com reta de regressão

10. Represente o gráfico de dispersão dos dados, calcule o coeficiente de correlação e interprete o resultado:
(a) Excel (Ferramentas-Suplementos-Análise de Dados).
(b) R/RSTUDIO (Recorrendo aos dados introduzidos no Excel).

Tabela 8: TV hours week - Grade point average

TV GPA
20 2.35
5 3.8
8 3.5
10 2.75
13 3.25
7 3.4
13 2.9
5 3.5
25 2.25
14 2.75
Figura 20: Layout do Excel: Gráfico de dispersão.

1 rm(list=ls())
2 setwd("/Users/user/Desktop")
3 TV <- c(20, 5, 8, 10, 13, 7, 13, 5, 25, 14)
4 GPA <- c(2.35, 3.8, 3.5, 2.75, 3.25, 3.4,
5 2.9, 3.5, 2.25, 2.75)
6 coeficiente_correlacao <- cor(TV, GPA)
7 plot(TV, GPA, main="Diagrama de Dispersão TV/GPA",
8 xlab="Horas de TV", ylab="GPA",
9 pch=19, col="red", cex=0.5)

Figura 21: Diagrama de Dispersão TV/GPA

Ricardo Manuel Sousa@iscte-iul.pt LATEX 17


Probabilidades e Estatı́stica ISCTE - IUL

11. Calcule as estatı́sticas descritivas, dos - Dados em bruto - recorrendo ao:


(a) Excel.
(b) R/RSTUDIO.

Estatı́sticas descritivas

Dados em bruto

1 rm(list=ls())
2 setwd("/Users/user/Desktop")
3 getwd()
4 dir()
5 install.packages("readxl")
6 library(readxl) #Para ler ficheiros de Excel
7 amostra3 <- read_excel("PE1.xlsx", sheet="Exe11")
8 attach(amostra3) #"diz" ao R que a primeira linha tem o nome das variáveis
9 head(amostra3, 6)
10 # Application: Boxplot and Histogram
11 par(mfrow=c(1,2))
12 boxplot(amostra3$Dados, horizontal = TRUE, col = "blue", border ="green", main = "Dados (amostra3)")
13 hist(amostra3$Dados, freq = TRUE, col = "red", border ="yellow", breaks = "Sturges",
14 main = "Dados (amostra3)", xlab = "Classes")

Figura 22: Boxplot e Histograma: Dados (amostra3).

Link para os vı́deos do Professor Dias Curto - Tudo sobre o R e RSTUDIO


Link para os vı́deos do Professor Dias Curto - Tudo sobre o EXCEL
Link para a página diascurto.wixsite

Ricardo Manuel Sousa@iscte-iul.pt LATEX 18


Probabilidades e Estatı́stica ISCTE - IUL

1.7 Estatı́stica Descritiva: Exercı́cios propostos

1. Calcule a média, a mediana e a média aparada dos dados:

{1126, 1135, 1178, 4325}


1 x <- c(1126, 1135, 1178, 4325)
2 mean(x)
3 median(x)
4 mean(x, trim = 0.25)

2. Calcule os quartis dos dados:


{1126, 1135, 1178, 4325}
1 q1 <- quantile(x, 0.25)
2 q3 <- quantile(x, 0.75)
3 q1
4 q3
5 Q1 <- quantile(x, 0.25, type = 1)
6 Q3 <- quantile(x, 0.75, type = 1)
7 Q1
8 Q3

3. Calcule a média, a mediana e a média aparada dos dados:

{1000, 1900, 2600, 300}


1 y <- c(1000, 1900, 2600, 300)
2 mean(y)
3 median(y)
4 mean(y, trim = 0.25)

4. Calcule e interprete os quartis e os percentis 1, 5, 45, 80, 95 e 99 dos dados:

{5, 6, 8, 10, 12, 9, 15, 13, 17, 16, 9, 8, 7, 6}.


1 w <- c(5,6,8,10,12,9,15,13,17,16,9,8,7,6)
2 quantile(w, c(0.25, 0.5, 0.75, 0.01, 0.05, 0.45, 0.8, 0.95, 0.99))
3 install.packages("dplyr")
4 library(dplyr)
5 sort_w <- sort(w)
6 sort_wpc <- round(percent_rank(sort_w),2)
7 print(sort_wpc)

5. Considere os seguintes dados:


{11, 12, 14, 18, 29, 33, 36, 47, 48}.
Determine e interprete:
(a) A média, a mediana, a moda, o 1.º quartil e o 3.º quartil.
(b) A variância e o desvio padrão.
(c) O coeficiente de assimetria e o coeficiente (excesso) de curtose.
6. Considere os seguintes dados relativos às notas de Matemática de 10 alunos de um colégio privado em Lisboa:

{69, 85, 75, 89, 73, 61, 62, 75, 98, 63}.

Determine e interprete:
(a) A média, a mediana, o 1.º quartil e o 3.º quartil.
(b) A variância e o desvio padrão.
(c) O coeficiente de assimetria e o coeficiente (excesso) de curtose.

Ricardo Manuel Sousa@iscte-iul.pt LATEX 19


Probabilidades e Estatı́stica ISCTE - IUL

7. Considere os seguintes dados:


{7.8, 7.0, 8.2, 7.6, 6.9, 7.7, 7.2, 7.8, 7.3, 7.5}.
Determine e interprete:
(a) A média, a mediana, a moda, o 1.º quartil e o 3.º quartil.
(b) A variância e o desvio padrão.
(c) O coeficiente de assimetria e o coeficiente (excesso) de curtose.
8. Considere os seguintes dados relativos ao tempo que 18 jovens demoraram a fazer o cubo mágico:

{7.3, 12.7, 7.4, 8.5, 9.0, 9.5, 9.2, 12.4, 10.3, 12.3, 11.3, 10.4, 7.3, 9.4, 8.2, 12.9, 8.9, 8.9}.

Determine e interprete:
(a) A média, a mediana, a moda, o 1.º quartil e o 3.º quartil.
(b) A variância e o desvio padrão.
(c) O coeficiente de assimetria e o coeficiente (excesso) de curtose.
1 install.packages("DescTools")
2 library(DescTools)
3 install.packages("moments")
4 library(moments)
5 dados <- c(7.3, 12.7, 7.4, 8.5, 9.0, 9.5, 9.2, 12.4, 10.3,
6 12.3, 11.3, 10.4, 7.3, 9.4, 8.2, 12.9, 8.9, 8.9)
7 Kurt(dados, method = 1)#k2
8 Skew(dados, method = 2)#G1

(d) Analise o histograma dos dados.


1 install.packages("DescTools")
2 library(DescTools)
3 dados <- c(7.3, 12.7, 7.4, 8.5, 9.0, 9.5, 9.2, 12.4, 10.3,
4 12.3, 11.3, 10.4, 7.3, 9.4, 8.2, 12.9, 8.9, 8.9)
5 nclass.Sturges(dados)
6 hist(dados, main = "Histograma dos Dados (Sturges)",
7 xlab = "Valores", ylab = "Frequência", col = "blue", breaks = 6)

9. O número de sinistros participados por cada apólice do ramo automóvel é uma informação de grande importância para
que as seguradoras possam determinar o valor do prémio do seguro. A tabela seguinte apresenta a informação relativa
à sinistralidade em Responsabilidade Civil de uma seguradora francesa.

Tabela 9: Número de sinistros.

N.º de sinistros N.º de apólices


0 96 978
1 9 240
2 704
3 43
4 9
Missing 26
Total 107 000

(a) Complete a tabela de frequências, calculando as frequências absolutas e relativas simples e acumuladas.
(b) Represente a informação por meio de um gráfico de barras.
(c) Calcule a média, a mediana, a moda, a variância e o desvio padrão do número de sinistros por apólice.
(d) Determine e interprete o coeficiente de variação.

Ricardo Manuel Sousa@iscte-iul.pt LATEX 20


Probabilidades e Estatı́stica ISCTE - IUL

10. Considere a tabela seguinte, que mostra a distribuição dos pesos de 40 estudantes do ISCTE.

Tabela 10: Pesos dos estudantes.

Peso (kg) Frequência


[57, 61[ 3
[61, 65[ 5
[65, 69[ 9
[69, 73[ 12
[73, 77[ 5
[77, 81[ 4
[81, 85[ 2

(a) Complete a tabela de frequências e represente graficamente os dados através de um histograma.


1 install.packages("DescTools")
2 library(DescTools)
3 install.packages("moments")
4 library(moments)
5 frequencias <- c(3, 5, 9, 12, 5, 4, 2) #Definir as frequências para cada intervalo
6 #Intervalos representativos para cada grupo de frequências
7 pontos_medios <- c(59, 63, 67, 71, 75, 79, 83) #Ponto médio de cada intervalo para simplificar
8 dados <- rep(pontos_medios, times = frequencias)
9 hist(dados, breaks = seq(56.5, 85.5, by = 4), main = "Histograma de Frequências",
10 xlab = "Intervalos", ylab = "Frequência", col = "lightblue", right = FALSE)
11 intervalos <- c("[57, 61[", "[61, 65[", "[65, 69[", "[69, 73[", "[73, 77[", "[77, 81[", "[81, 85[")
12 df_frequencias <- data.frame(Intervalo = intervalos, Frequência = frequencias)
13 print(df_frequencias)

(b) Analise a assimetria e a curtose da distribuição.


(c) Calcule a média e o desvio padrão com base nos pontos médios das classes.
1 install.packages("DescTools")
2 library(DescTools)
3 install.packages("moments")
4 library(moments)
5 #Frequências e pontos médios já definidos
6 frequencias <- c(3, 5, 9, 12, 5, 4, 2)
7 pontos_medios <- c(59, 63, 67, 71, 75, 79, 83)
8 media_ponderada <- sum(pontos_medios * frequencias) / sum(frequencias) #Calcular a média ponderada
9 #Calcular o desvio padrão ponderado
10 diferencas_quadradas <- (pontos_medios - media_ponderada)ˆ2
11 variancia_ponderada <- sum(diferencas_quadradas * frequencias) / sum(frequencias)
12 desvio_padrao_ponderado <- sqrt(variancia_ponderada)
13 #Mostra os resultados
14 media_ponderada
15 desvio_padrao_ponderado

Ricardo Manuel Sousa@iscte-iul.pt LATEX 21


Probabilidades e Estatı́stica ISCTE - IUL

11. Considere a tabela seguinte, que mostra a classificação de 100 estudantes do ISCTE no exame de Estatı́stica.

Tabela 11: Classificação.

Classificação Frequência
[2, 4[ 4
[4, 6[ 12
[6, 8[ 16
[8, 10[ 23
[10, 12[ 19
[12, 14[ 15
[14, 16[ 6
[16, 18[ 4
[18, 20[ 1

(a) Complete a tabela de frequências e represente graficamente os dados através de um histograma.


1 frequencias <- c(4, 12, 16, 23, 19, 15, 6, 4, 1) #Definir as frequências
2 #Cria o vetor de dados com base nos intervalos e frequências
3 dados <- c(rep(3, 4), rep(5, 12), rep(7, 16), rep(9, 23), rep(11, 19), rep(13, 15),
4 rep(15, 6), rep(17, 4), rep(19, 1))
5 hist(dados, breaks = seq(1.5, 20.5, by = 2), main = "Histograma de Frequências",
6 xlab = "Intervalos", ylab = "Frequência", col = "skyblue", right = FALSE)
7 intervalos <- c("[2,4[", "[4,6[", "[6,8[", "[8,10[", "[10,12[", "[12,14[", "[14,16[", "[16,18[", "[18,20[")
8 df_frequencias <- data.frame(Intervalo = intervalos, Frequência = frequencias)
9 print(df_frequencias)

(b) Analise a assimetria e a curtose da distribuição.


(c) Calcule a média e o desvio padrão com base nos pontos médios das classes.
12. Um morador na zona sul do Tejo desloca-se diariamente de automóvel para o seu emprego em Lisboa utilizando para
o efeito a Ponte Vasco de Gama. Durante 16 dias anotou o tempo (em minutos) que leva de sua casa até à portagem da
ponte. Eis os registos efectuados:
{79, 71, 58, 47, 81, 95, 58, 68, 88, 64, 68, 69, 34, 71, 64, 70}.
(a) Interprete a média, a mediana e a moda dos dados.
(b) Calcule os quartis, a amplitude inter-quartis e averigúe a existência de outliers.
(c) Elabore a caixa de bigodes (Boxplot) e tire conclusões quanto à assimetria da distribuição.
13. Um agricultor da exploração Grandes Nabos, após consulta de documentos sobre os gastos gerais, reteve em seu poder
a seguinte colecção de dados:
{26.9, 26.8, 27.6, 27.5, 27.6, 22.9, 26.3, 26.6, 31.8, 28.8, 29.4, 28.0, 28.4, 28.5, 29.9, 30.0, 29.9, 8.4, 28.8, 30.3, 31.2}.
(a) Calcule a média, a mediana e a moda dos dados.
(b) Calcule os quartis, a amplitude inter-quartis e averigúe a existência de outliers.
(c) Elabore a caixa de bigodes (Boxplot) e tire conclusões quanto à assimetria da distribuição.
14. Considere as notas de três turmas:

• Turma A: {0,0,0,0,0,20,20,20,20,20};
• Turma B: {0,1,2,3,8,9,11,12,17,18,19,20};
• Turma C: {10,10,10,10,10,10,10,10,10}.

A média de cada uma das turmas é igual a 10. Isso quer dizer que as turmas são semelhantes?

Ricardo Manuel Sousa@iscte-iul.pt LATEX 22


Probabilidades e Estatı́stica ISCTE - IUL

15. Os ordenados (em euros) da Empresa X são: {500, 500, 600, 1300, 1400, 2200, 60000}. Comente:

• A moda é 500 e (Sindicato);


• A mediana é 1300 e (Comunicação Social);
• A média é de 9500 e (CEO).

16. Considere os seguintes dados (pesos em kg) e comente a afirmação (verdadeira ou falsa):
• Homem: Média é de 80 kg e o desvio padrão de 11 kg;
• Elefante: Média é de 4 200 kg e o desvio padrão de 294 kg.
”A dispersão nos pesos é mais elevada nos Elefantes do que nos Homens, porque o desvio padrão é maior.”
17. Uma companhia de transportes de carga pretende comparar a variabilidade do peso com a variabilidade do volume de
caixas que transporta. Com os dados da tabela sugira um método para efetuar essa comparação.

Média Desvio padrão


Peso (kg) 10 3
Volume (dm3 ) 30 6

18. Observe os histogramas apresentados em baixo (com base em três amostras aleatórias de 1000 observações cada), diga
qual das distribuições tem maior (e menor) coeficiente, de excesso, de curtose (kurtosis):

(a) (b) (c)

19. Associe a cada um dos gráficos de dispersão o coeficientes de correlação correspondentes:

(a) (b) (c)

• Cor = −0.89 −→ ??? • Cor = −0.05 −→ ??? • Cor = +0.88 −→ ???

Ricardo Manuel Sousa@iscte-iul.pt LATEX 23


Probabilidades e Estatı́stica ISCTE - IUL

20. Represente o gráfico de dispersão e calcule o coeficiente de correlação de Pearson dos dados na Tabela 12 :
(a) Excel (Ferramentas-Suplementos-Análise de Dados).
(b) R/RSTUDIO (Recorrendo aos dados introduzidos no Excel).
1 library(readxl)#Carrega o package necessário
2 # Ler o ficheiro do Excel como um dataframe
3 dados <- read_excel("caminho/.../dados.xlsx")
4 #Calcular a correlação entre duas colunas do dataframe
5 correlacao <- cor(dados$X, dados$Y)
6 print(correlacao)#Mostrar o resultado

Tabela 12: Dados para o coeficiente de correlação.

X 1 3 4 6 8 9 11 14
Y 1 2 4 4 5 7 8 9

21. Associe a cada um dos gráficos de dispersão o coeficientes de correlação correspondentes:

(a) (b) (c)

• Cor = −0.50 −→ ??? • Cor = +0.10 −→ ??? • Cor = +0.60 −→ ???

Ricardo Manuel Sousa@iscte-iul.pt LATEX 24


Probabilidades e Estatı́stica ISCTE - IUL

22. Um investigador efetuou uma experiência para determinar se o género do professor, influência a disposição para os
alunos (homens) assistirem à aula. Para isso foi recolhida uma amostra, e os resultados encontram-se na tabela seguinte.

Tabela 13: Disposição dos alunos

Masculino Feminino Totais


Com disposição 8 15 23
Sem disposição 17 10 27
Totais 25 25 50

(a) Calcule o coeficiente Phi para avaliar a força da associação entre as variáveis em estudo.
(b) Interprete o resultado obtido.
23. Foi realizado um estudo para investigar a relação entre o hábito de fumar e a ocorrência de doenças pulmonares. Os
dados foram recolhidos numa amostra de indivı́duos e categorizados conforme apresentado na Tabela 14:

Tabela 14: O tabagismo e a presença de doença pulmonar

Doença Pulmonar Presente Doença Pulmonar Ausente Totais


Fumador 70 30 100
Não Fumador 40 60 100
Totais 110 90 200

(a) Calcule o coeficiente Phi para avaliar a força da associação entre as variáveis em estudo.
(b) Que recomendações poderiam ser feitas com base na sua análise?
24. A Covid-19 é uma doença infecciosa causada pelo vı́rus SARS-CoV-2, declarada pela OMS como uma pandemia.
Recentes estudos sugeriram um efeito protetor de anticorpos anti-A, associando a presença destes no soro (grupos O e
B) às apresentações brandas da doença, enquanto a ausência de circulação de anticorpos anti-A (grupos A e AB) esteve
relacionada às formas graves. O dados encontram-se registados na Tabela 15:

Tabela 15: Tipo de sangue - Sintomas (Esp.)

Sintomas Leves/Moderados Sintomas Graves Totais


Tipo de sangue: A e AB 24 16 40
Tipo de sangue: O e B 41 4 60
Totais 58 13 100

(a) Calcule o coeficiente Phi para avaliar a força da associação entre as variáveis em estudo.
(b) Que análise faz do valor obtido?

Ricardo Manuel Sousa@iscte-iul.pt LATEX 25


Probabilidades e Estatı́stica ISCTE - IUL

Referências
Cohen, J. (2013). Statistical power analysis for the behavioral sciences. Academic press.
Dias, C. (2021). Estatı́stica com R: Aprenda Fazendo. 1.ª Edição.
Reis, E. (2008). Estatı́stica descritiva. Lisboa: Edições Sı́labo.

Reis, E., Melo, P., Andrade, R., and Calapez, T. (2015). Estatı́stica aplicada. Lisboa: Edições Sı́labo.

Ricardo Manuel Sousa@iscte-iul.pt LATEX 26

Você também pode gostar