Você está na página 1de 99

Estatística e Metodologias de Investiga o

LIC. EQUINICULTURA E ENF. VETERINÁRIA 2023/2024


JOSÉ TELO DA GAMA: JOSE.GAMA@IPPORTALEGRE.PT



Estatística descritiva
Medidas estatísticas
Anteriormente, vimos como resumir a informação contida nos dados utilizando tabelas e
gráficos. De seguida, iremos ver outro processo para resumir a informação, utilizando medidas
calculadas a partir dos dados.

Das medidas que iremos definir para caracterizar os dados, destacam-se as medidas de
localização nomeadamente as que localizam o centro da amostra (e não só) e as medidas de
dispersão que medem a variabilidade dos dados.
Estatística descritiva
Medidas estatísticas
Ao resumir a informação contida nos dados na forma de alguns números está-se a proceder
inevitavelmente a uma redução “drástica” desses dados. Assim, estas medidas devem ser
convenientemente escolhidas, de modo a representar o melhor possível o conjunto de dados
que se pretende sumariar.

Iremos definir várias medidas mas não podemos dizer, de uma forma geral, que uma é melhor
do que outra, já que a sua utilização depende do contexto e da situação em que necessitam de
ser calculadas e de como vão ser utilizadas.
Estatística descritiva
Medidas estatísticas: Medidas de localização
Antes de definir as medidas comecemos por introduzir uma notação conveniente para
representar o conjunto de dados que habitualmente é uma amostra. Assim, o conjunto de
dados ou observações que constituem a amostra será representado por

, 2, 3, …, n

onde , 2, 3, ... , n representam, respetivamente, o resultado da 1ª observação, da 2ª


observação, ... , da n-ésima observação, não necessariamente ordenadas, de um conjunto de
dados de dimensão n.
𝒙
𝒙
𝑥
𝒙
𝑥
𝒙
𝑥
𝑥
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
De entre as medidas de localização, merecem especial relevo aquelas que permitem localizar o
centro de uma amostra. Existem, no entanto, vários processos para definir o centro, cujas
medidas não dão normalmente o mesmo resultado. Destas medidas, destacamos desde já a
média, a mediana e a moda.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Média (aritmética)
A média é a medida de localização do centro da amostra mais vulgarmente utilizada.
Representa-se por e calcula-se do seguinte modo:

• somam-se todos os elementos do conjunto de dados;

• divide-se o resultado da soma pelo número de elementos da conjunto de dados.

Utilizando a notação introduzida anteriormente, a média obtém-se a partir da expressão:


𝑥
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Média (aritmética)
Exemplo
Consideremos novamente o exemplo referente ao número de crias por ninhada de uma amostra
constituída por 20 chinchilas

Calculando a média do número de crias por ninhada das 20 chinchilas tem-se:


Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Média (aritmética)
Exemplo
Consideremos agora a informação anterior organizada numa tabela de frequências:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Média (aritmética)
Quando os dados são discretos as diferentes classes correspondem aos diferentes valores que
surgem na amostra. Desta forma, a média calcula-se a partir da seguinte expressão:

Onde:
i corresponde a cada um dos distintos valores da variável;

i é a frequência absoluta de cada um dos diferentes valores.


𝑓
𝑥
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Média (aritmética)
Regressando ao exemplo apresentado tem-se:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Média (aritmética)
Quando os dados são discretos ou contínuos e as classes são intervalos de valores, ao calcular a
média só muito raramente se obtém o seu valor exato, obtendo−se na maior parte das vezes
um valor aproximado usando a seguinte expressão:

onde
i é a frequência absoluta de cada intervalo

ʹi é o ponto médio do intervalo correspondente à classe i (considerado como elemento


representativo da classe)
𝑥
𝑓
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Média (aritmética)
Exemplo
Consideremos o exemplo estudado anteriormente sobre o tempo de vida (em meses) de 50
animais que nasceram com uma doença rara.

Conclui-se que cada animal viveu em


média 21 meses, aproximadamente.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
A mediana é uma medida de localização do centro da distribuição de dados definida do
seguinte modo:

ordenados os elementos da amostra, a mediana é o valor (pertencente ou não à amostra) que


a divide ao meio, isto é, 50% dos elementos da amostra são menores ou iguais à mediana e os
outros 50% são maiores ou iguais à mediana.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Exemplo
Considerem-se os dados referentes ao número de crias em ninhadas de cinco gatas. Depois de
ordenados os dados (por ordem crescente), obtiveram-se os seguintes resultados:

Facilmente se verifica que o valor mediano (ou seja, o valor central) é o 3º valor, ou seja 4 o que
nos permite efetuar a seguinte interpretação:

‘50% das ninhadas têm no máximo (ou no mínimo) quatro crias’.


Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Suponhamos agora que se consideram não cinco mas seis ninhadas de gatas cujos dados são os
que se seguem:

Neste caso existem, não uma, mas sim duas ocorrências centrais, que dizem respeito aos
valores da variável que se encontram na 3ª e 4ª posição respetivamente. O valor mediano
obtém-se calculando a média destes dois valores centrais:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Para a determinação da mediana utiliza-se a seguinte regra.

Depois de ordenado o conjunto de n elementos:

• se n é ímpar, a mediana é o elemento central;

• se n é par, a mediana é a semissoma dos dois elementos centrais.


Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Desta forma, representando a mediana por , podemos dizer que a mediana de uma amostra
ordenada

( ), (2), (3), ... , (n)

1. Corresponde ao valor central das observações se n é ímpar.

Por outras palavras, a mediana é a observação de ordem +1 ou seja,


𝒙
𝒙
𝒙
𝒙
𝑀
𝑑
𝑛
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Voltando ao primeiro exemplo, repare-se que:

Repare-se que = 5 (ímpar) e que o valor central se encontra na posição

sendo
𝑛
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
2. a média aritmética dos dois valores centrais se n é par, ou seja, a

semissoma das observações de ordens e + 1, isto é,

No segundo exemplo tem-se:


𝑛
𝑛
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Neste caso = 6 (par) e o primeiro valor central encontra-se na posição

Assim,
𝑛
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Exemplo
Consideremos novamente o exemplo referente ao número de crias das 20 ninhadas de
chinchilas, cuja tabela de frequências é a que se segue:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
O n é par ( = 20) o que significa que vamos ter dois valores centrais. Determinemos a sua
posição recorrendo às frequências acumuladas.

O primeiro valor central encontra-se na posição

Como se pode observar na tabela, o valor da variável que corresponde à 10ª e 11ª posições é 2
crias, pelo que

Podemos dizer que ’50% das ninhadas de chinchilas têm 2 ou menos crias’.
𝑛
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Exemplo
Consideremos agora um exemplo referente ao ‘número de animais abandonados’ recebidos na
última semana numa amostra de 25 instituições de apoio a animais abandonados. Depois de
organizada a informação numa tabela, obteve-se a seguinte distribuição de frequências:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Neste exemplo, o n é impar o que significa que vamos ter apenas um valor central.
Determinemos a posição deste valor recorrendo às frequências acumuladas. O valor central
encontra-se na posição

Como se pode observar na tabela, o valor da variável correspondente à 13ª posição é 4, pelo
que

= (13) = 4 animais

Podemos dizer que ‘50% das instituições receberam 4 ou menos animais’.


𝑀
𝑑
𝑥
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Quando se trabalha com dados agrupados em intervalos não é possível encontrar um valor
exato para a mediana. Existem, no entanto, alguns processos que nos permitem encontrar um
valor aproximado.

Nestes casos, identificaremos apenas o intervalo que contém o valor mediano e que se designa
por classe mediana. Para o fazer, basta observar as frequências relativas acumuladas e verificar
qual o intervalo que contém o valor que divide a distribuição em duas partes iguais, ou seja,
qual o intervalo onde é possível identificar 50% das observações mais baixas.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Exemplo
A tabela que se segue diz respeito ao tempo de vida de 50 animais que nasceram com uma
doença rara:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Mediana
Facilmente se verifica que a classe mediana corresponde ao intervalo [12,24[. Repare-se que
66% dos animais tiveram um tempo de vida inferior a 24 meses.

Uma estimativa possível para o valor da mediana corresponde ao ponto médio da classe
mediana:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Moda
Para um conjunto de dados qualitativos ou quantitativos discretos, define-se moda e
representa-se por , como sendo a categoria ou valor da variável que surge com maior
frequência.

Se os dados forem contínuos e estiverem agrupados em intervalos, define-se como classe


modal o intervalo de classe com maior frequência. Neste último caso, uma estimativa possível
para o valor da moda é o ponto médio da classe modal.
𝑀
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Moda
Assim, é possível, a partir das representações gráficas adequadas para cada um destes tipos de
dados, identificar imediatamente o valor que representa a moda ou o intervalo que representa
a classe modal.

Num conjunto de dados pode existir mais do que uma moda ou até nem existir moda. Assim, se
o conjunto de dados:

• tiver uma só moda, diz-se unimodal;


• tiver duas modas, diz-se bimodal;
• tiver mais do que duas modas, diz-se multimodal ou plurimodal;
• não tiver moda, diz-se amodal.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central: Moda
Esta medida é especialmente útil quando se pretende reduzir a informação de conjuntos de
dados qualitativos, ou seja, apresentados sob a forma de categorias, para os quais não se pode
calcular a média e por vezes a mediana (se estes não forem suscetíveis de ordenação).
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CLASSIFICAÇÃO DE UMA DISTRIBUIÇÃO QUANTO À FORMA (SIMETRIA/ASSIMETRIA)

Podemos classificar uma distribuição quanto à sua forma, comparando o valor de três medidas
de tendência central: média, mediana e moda.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CLASSIFICAÇÃO DE UMA DISTRIBUIÇÃO QUANTO À FORMA (SIMETRIA/ASSIMETRIA)

Assim, se o valor destas três medidas for igual, diz-se que estamos perante uma distribuição
simétrica; e não sendo exatamente iguais se ainda assim os valores forem aproximados, diz-se
que a distribuição é “quase” simétrica. A mancha de uma distribuição de frequências simétrica
assemelha-se a
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CLASSIFICAÇÃO DE UMA DISTRIBUIÇÃO QUANTO À FORMA (SIMETRIA/ASSIMETRIA)

Uma distribuição é assimétrica positiva (ou enviesada à direita) quando o valor da moda é
inferior à mediana e este por sua vez, é inferior à média. O aspeto gráfico de uma distribuição
deste tipo é o seguinte
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CLASSIFICAÇÃO DE UMA DISTRIBUIÇÃO QUANTO À FORMA (SIMETRIA/ASSIMETRIA)

Uma distribuição é assimétrica negativa (ou enviesada à esquerda) quando o valor da média é
inferior ao valor da mediana e este por sua vez, é inferior ao valor da moda. Este tipo de
distribuição tem o seguinte aspeto:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CONSIDERAÇÕES SOBRE A MÉDIA E A MEDIANA

1. A média será sempre uma medida representativa dos dados?

Exemplo
Considere o seguinte conjunto de dados:

Ao determinar a média obtém-se


Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CONSIDERAÇÕES SOBRE A MÉDIA E A MEDIANA

Embora todos os dados, menos um, estejam no intervalo [10,6 ; 15,1[, o valor obtido para a
média está “bem afastado” daquele intervalo! Uma medida que se pretendia representativa
dos dados, não está a conseguir esse objetivo, pois se nos disserem que um conjunto de dados
tem média 24,1 imediatamente pensamos em valores que não se afastem muito daquele valor.

Acontece que a média é muito sensível a valores muito grandes ou muito pequenos, dizendo-
se por isso, que é uma medida pouco resistente.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CONSIDERAÇÕES SOBRE A MÉDIA E A MEDIANA

No exemplo apresentado, foi o valor 113,5 que inflacionou a média. Além disso, temos alguma
razão para pensar que pode ter havido um erro ao digitar o valor 113,5, digitando um 1 a mais!
Se em vez de 113,5, o valor correto fosse 13,5 qual seria o valor da média? Neste caso, a média
do seguinte conjunto de dados

seria

significativamente diferente do obtido no caso anterior!


Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CONSIDERAÇÕES SOBRE A MÉDIA E A MEDIANA

Sendo a média uma medida tão sensível aos dados, é preciso ter cuidado com a sua utilização,
pois pode dar uma imagem distorcida dos dados que se pretende representar.

A média é considerada uma boa medida do centro da amostra quando a distribuição dos
dados for aproximadamente simétrica.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CONSIDERAÇÕES SOBRE A MÉDIA E A MEDIANA

2. Pode-se sempre calcular a média?

Chama-se a atenção para que com dados de tipo qualitativo nominal não faz sentido calcular a
média, mesmo que os dados sejam números. Se, por exemplo, tivermos um conjunto de “1’s”
e “2’s”, referindo-se à variável sexo, em que se utilizou o 1 para representar o sexo masculino e
o 2 para representar o sexo feminino (variável codificada), não tem qualquer significado
calcular a média daquele conjunto de dados.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CONSIDERAÇÕES SOBRE A MÉDIA E A MEDIANA

3. Qual das medidas é preferível? A média ou a mediana?

Quando a distribuição é simétrica, a média e a mediana coincidem.

A mediana não é tão sensível quanto a média às observações que são muito maiores ou
muito menores do que as restantes. Por outro lado, a média reflete o valor de todas as
observações.

Exemplo
Considere-se o seguinte conjunto de notas de um estudante:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CONSIDERAÇÕES SOBRE A MÉDIA E A MEDIANA

A média e a mediana deste conjunto de dados são, respetivamente,

Admita-se que uma das notas de 10 foi substituída por uma de 18. Neste caso, a mediana
continuaria a ser 11, enquanto a média subiria para 11,75!

Como medida de localização, a mediana é mais resistente do que a média, pois não é tão
sensível aos dados.

Não se pode dizer, assim, em termos absolutos, qual destas medidas é preferível,
dependendo do contexto em que estão a ser utilizadas.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CONSIDERAÇÕES SOBRE A MÉDIA E A MEDIANA

4. Pode-se sempre calcular a mediana?

Para dados de tipo qualitativo, pode calcular-se a mediana desde que esteja subjacente uma
hierarquia nas diferentes classes ou modalidades que a variável pode assumir, ou seja, para
dados do tipo qualitativo ordinal.

Exemplo
Considere-se uma avaliação qualitativa do estado geral de saúde de 10 animais, tendo-se 3 com
um estado Extremamente Débil (ED), 3 com um estado Débil (D), 2 com um estado razoável (R),
um com um estado Bom e, por último, outro cujo estado foi classificado como Extremamente
Bom (EB).
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência central
CONSIDERAÇÕES SOBRE A MÉDIA E A MEDIANA

A mediana deste conjunto de observações corresponde ao “Estado débil” pois, é possível


estabelecer uma hierarquia entre as categorias obtendo o conjunto de dados ordenados.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Se dividirmos a distribuição em quatro partes iguais, a cada um dos valores que divide a
distribuição em quartos chamamos quartil.

Sendo (1), (2), (3),…, (n) os n valores ordenados por ordem crescente de uma variável
quantitativa e representando por Q1, Q2 e Q3, o 1º, 2º e 3º quartis, respetivamente, tem-se:
𝑥
𝑥
𝑥
𝑥
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
O 1º quartil Q1, é o valor da variável abaixo do qual se encontra 1⁄4 (25%) das observações da
distribuição, consequentemente acima do qual se encontra 3⁄4 (75%) das observações da
distribuição;

O 2º quartil Q2 (=Md), é o valor da variável abaixo e acima do qual se encontra 1⁄2 (50%) das
observações da distribuição;

O 3º quartil Q3, é o valor da variável abaixo do qual se encontra 3⁄4 (75%) das observações da
distribuição, consequentemente acima do qual se encontra 1⁄4 (25%) das observações da
distribuição.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Observações

• Os decis representam-se habitualmente por 1, 2, ... , 9 e os percentis por 1 , 2 , ..., 99.

• Repare-se que d = 2 = 5 = 50, 1 = 25 e 3 = 75

Exemplo 1
Registou-se o número de animais atendidos em 11 dias numa determinada clínica veterinária:

Quais os valores que dividem esta distribuição em 4 partes iguais?


𝑀
𝑄
𝐷
𝑃
𝑄
𝑃
𝑄
𝐷
𝑃
𝐷
𝐷
𝑃
𝑃
𝑃
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Para determinar a posição dos quartis na distribuição, ao trabalhar com uma variável
quantitativa discreta, utilizamos as seguintes expressões:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis

= 11 (ímpar)

Posição do :

Então,

1 = (3) =6
𝑛
𝑄
𝑥
𝑸
𝑣
𝑎
𝑙
𝑜
𝑟
𝑒
𝑠
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Posição do 2:

Então,

2 = (6) =9

Posição do 3:

Finalmente,

3 = (9) = 11
𝑄
𝑄
𝑥
𝑥
𝑸
𝑸
𝑣
𝑎
𝑣
𝑎
𝑙
𝑜
𝑙
𝑟
𝑜
𝑒
𝑟
𝑠
𝑒
𝑠
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Exemplo 2
Os dados seguintes dizem agora respeito ao número de animais atendidos na clínica em 12 dias:

n = 12 (par)

Posição do 1:
𝑸
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Então,

n = 12 (par)

Posição do 2 (primeiro valor central):

Então,
𝑸
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Observação
Quando n é par tem-se sempre dois valores centrais sendo, por este motivo, necessário efetuar
sempre a média aritmética destes valores para calcular o valor do segundo quartil.

Posição do 3:

Então,
𝑸
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Exemplo 3

Consideremos, uma vez mais, o exemplo referente ao número de crias por ninhada de 20
chinchilas, cuja tabela de frequências é a que se segue:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Exemplo 3
Quando os dados estão organizados numa tabela de frequências, o cálculo dos quartis processa-
se de forma semelhante ao realizado no estudo da mediana. Ora vejamos:

= 20 (par)

Posição do :

Então,
𝑛
𝑸
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Posição do 2 (primeiro valor central):

Então,
𝑸
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Posição do 3:

Então,

Observação
Podem existir quartis com o mesmo valor e quartis com valores iguais ao valor mínimo e/ou
valor máximo do conjunto de dados. Tudo depende da distribuição de valores da variável a
estudar.
𝑸
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Exemplo 4
Consideremos novamente o exemplo referente ao ‘número de animais abandonados’ recebidos
na última semana numa amostra de 25 instituições de apoio a animais abandonados:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
n = 25 (impar)

Posição do 1:

Então,

Posição do 2:

Então,
𝑸
𝑸
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Posição do 3:

Finalmente,
𝑸
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Exemplo 5
Considere-se novamente a tabela que diz respeito ao tempo de vida de 50 animais que
nasceram com uma doença rara:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Quando se trabalha com dados agrupados em intervalos, à semelhança do que acontecia com a
mediana, não é possível encontrar um valor exato para os quartis. Existem, no entanto, alguns
processos que nos permitem encontrar um valor aproximado.

Nestes casos, identificaremos apenas o intervalo que contém o valor do quartil e para o fazer
basta observar as frequências relativas acumuladas e verificar qual o intervalo onde é possível
identificar 25%/50%/75% das observações mais baixas.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Facilmente se verifica que a classe que contém o 1º quartil corresponde ao intervalo [0, 12[.
Repare-se que 42% dos animais tiveram um tempo de vida inferior a 12 meses.

Uma estimativa possível para o valor do 1º quartil corresponde ao ponto médio do intervalo
[0, 12[.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central: Quartis
Anteriormente já vimos a classe mediana corresponde ao intervalo [12, 24[. Assim,

Finalmente, verifica-se que a classe que contém o 3º quartil corresponde ao intervalo [24, 36[.

Uma estimativa possível para o valor do 3º quartil corresponde ao ponto médio do intervalo
[24,36[:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central
DIAGRAMA DE EXTREMOS E QUARTIS

Determinados os quartis e considerando os valores extremos, isto é, o valor máximo e o valor


mínimo da variável estatística em estudo, podemos construir o chamado diagrama de extremos
e quartis.

O diagrama de extremos e quartis é um tipo de representação gráfica, em que se realçam


algumas características do conjunto de dados (i.e., simetria, enviesamento e concentração/
dispersão dos dados).

O conjunto dos valores compreendidos entre o 1º e o 3º quartis, que vamos representar por
Q1 e Q3 é representado por um retângulo (caixa) com a mediana indicada por uma barra.
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central
DIAGRAMA DE EXTREMOS E QUARTIS

A largura do retângulo não dá qualquer informação, pelo que pode ser qualquer. Consideram-
se seguidamente duas linhas que unem os meios dos lados do retângulo com os extremos da
distribuição, ou seja, com o valor mínimo e o valor máximo. Para obter esta representação,
começa-se por recolher a seguinte informação referente à amostra (ou população): os 2
extremos (mínimo e máximo), a mediana e o 1º e 3º quartis. A representação do diagrama de
extremos e quartis tem o seguinte aspeto:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central
DIAGRAMA DE EXTREMOS E QUARTIS

O extremo inferior é o mínimo do conjunto de dados e o extremo superior é o máximo.

Exemplo
Relativamente ao exemplo apresentado anteriormente tem-se o seguinte diagrama de extremos
e quartis:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central
DIAGRAMA DE EXTREMOS E QUARTIS

Qual a importância da representação do diagrama de extremos e quartis?


Realça informação importante sobre os dados, nomeadamente sobre o centro da amostra
(mediana), variabilidade e simetria. Repare-se que da forma como o diagrama se constrói, se
pode retirar imediatamente a seguinte informação:
Estatística descritiva
Medidas estatísticas: Medidas de localização: Tendência não central
DIAGRAMA DE EXTREMOS E QUARTIS

Como se pode reconhecer a simetria ou o enviesamento dos dados, a partir desta representação?
Existem três características da representação extremos e quartis que nos dão ideia da simetria ou
enviesamento dos dados e da sua maior ou menor concentração:

• distância entre a linha indicadora da mediana e os lados do retângulo;

• comprimento da caixa;

• comprimento das linhas que saem dos lados dos retângulos.


Estatística descritiva
Medidas estatísticas: Medidas de dispersão
Um aspeto importante no estudo descritivo de um conjunto de dados é o da determinação da
variabilidade ou dispersão desses dados relativamente à medida de localização do centro do
conjunto de dados. Efetivamente, as medidas de localização que estudámos não são suficientes
para caracterizar completamente um conjunto de dados.

Exemplo
Considerem-se os três conjuntos de dados:

Calcule a média e a mediana de cada um dos conjuntos de dados. O que conclui?


Estatística descritiva
Medidas estatísticas: Medidas de dispersão
Embora tenham a mesma média e mediana, têm um aspeto bem diferente no que diz respeito à
variabilidade.

Existem medidas que nos permitem analisar a dispersão dos valores da variável, isto é, que nos
permitem medir a variação dos dados e que são as chamadas medidas de dispersão.
Estatística descritiva
Medidas estatísticas: Medidas de dispersão
A amplitude de um conjunto de n observações é a diferença entre o maior valor e o menor valor
desse conjunto:

= á − í = − 1

Exemplo
Considere os resultados da distância de um voo direto, em
metros, alcançada por aves de dois criadores diferentes.
𝐴
𝑇
𝑀
𝑥
𝑖
𝑚
𝑜
𝑚
𝑛
𝑖
𝑚
𝑜
𝑥
𝑥
Estatística descritiva
Medidas estatísticas: Medidas de dispersão
Criador A

= á − í = 6 − 1 = 100 − 10 = 90

Criador B

= á − í = 6 − 1 = 70 − 40 = 30

Conclui-se que as aves do criador A apresentam uma maior dispersão de valores relativamente
ao voo direto.
𝐴
𝐴
𝑚
𝑚
𝑝
𝑝
𝑙
𝑙
𝑖
𝑖
𝑡
𝑡
𝑢
𝑢
𝑑
𝑑
𝑒
𝑒
𝑀
𝑀
𝑥
𝑥
𝑖
𝑖
𝑚
𝑚
𝑜
𝑜
𝑚
𝑚
𝑛
𝑛
𝑖
𝑖
𝑚
𝑚
𝑜
𝑜
𝑥
𝑥
𝑥
𝑥
Estatística descritiva
Medidas estatísticas: Medidas de dispersão
Exemplo
Considere agora as seguintes distribuições:

Distribuição A

Distribuição B

Calcule a amplitude para cada um dos conjuntos de observações. O que conclui?

Esta medida de dispersão tem a desvantagem de ser determinada unicamente pelos valores extremos, ou seja, não nos dá
informação sobre o que se passa no “interior” da distribuição.

Observação
Se os dados estiverem agrupados em intervalos de classes, a amplitude é a diferença entre o
limite superior da última classe e o limite inferior da primeira classe.
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Amplitude Interquartil
A amplitude interquartil de um conjunto de dados é uma medida determinada pela diferença
entre o valor do 3º quartil e o valor do 1º quartil, ou seja,

= 3 − 1

Exemplo
Retomando o exemplo referente ao número de animais atendidos em 11 dias numa
determinada clínica veterinária (visto anteriormente), sabe-se que

1 =6
3 = 11

Desta forma: = 3 − 1 = 11 − 6 = 5
𝐴
𝑄
𝑄
𝐼
𝑄
𝑎
𝑎
𝑛
𝑛
𝑖
𝑄
𝑚
𝑖
𝑚
𝑎
𝑎
𝑖
𝑠
𝑖
𝑠
𝐴
𝐼
𝑄
𝑄
𝑎
𝑛
𝑖
𝑚
𝑎
𝑖
𝑠
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Amplitude Interquartil
A forma como a amplitude interquartil foi definida permite-nos analisar a dispersão de valores
tendo em conta a amplitude de 50% das observações centrais.

A amplitude interquartil é uma medida mais resistente à presença de observações com um


valor muito grande ou muito pequeno, ainda assim apresenta algumas limitações pois apenas
analisa a dispersão de valores de 50% das observações centrais ignorando as restantes.
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Desvio absoluto médio
Define-se desvio absoluto médio (DAM) e representa-se por , como sendo a medida que se
obtém somando os valores absolutos dos desvios das observações relativamente à média e
dividindo o resultado da soma por :

𝑛
𝑑
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Desvio absoluto médio
Exemplo 1
Calculando o DAM dos conjuntos A, B e C apresentados inicialmente tem-se:

Conjunto A
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Desvio absoluto médio
Conjunto B
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Desvio absoluto médio
Conjunto C

Observação: É preferível, quer do ponto de vista teórico quer do ponto de vista computacional, trabalhar
com quadrados ao invés de módulos.
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)
Define-se variância amostral, e representa-se por 2, como sendo a medida que se obtém
somando os quadrados dos desvios das observações relativamente à média e dividindo o
resultado da soma por − 1 ou por :

Observação
A variância populacional representa-se por 2 e a sua expressão é dada por

onde representa a dimensão da população.


𝑁
𝑛
𝑛
𝜎
𝑠
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)
Exemplo 1
Calculando a variância dos conjuntos A, B e C apresentados inicialmente tem-se:

Conjunto A
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)
Conjunto B
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)
Conjunto C

Verifica-se, uma vez mais, que dos três conjuntos apresentados é o conjunto C o que apresenta
maior variabilidade dos dados em relação à média.
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)

( ã )
𝑑
𝑎
𝑑
𝑜
𝑠
𝑒
𝑚
𝑡
𝑎
𝑏
𝑒
𝑙
𝑎
𝑠
𝑛
𝑜
𝑎
𝑔
𝑟
𝑢
𝑝
𝑎
𝑑
𝑜
𝑠
𝑒
𝑚
𝑖
𝑛
𝑡
𝑒
𝑟
𝑣
𝑎
𝑙
𝑜
𝑠
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)
Exemplo 2
Na tabela seguinte está representado o ‘número de crias por ninhada’ de uma amostra de 20
chinchilas.
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)
Exemplo 2
Na tabela seguinte está representado o ‘número de crias por ninhada’ de uma amostra de 20
chinchilas.
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)
Repare-se que

Como os dados estão organizados numa tabela de frequências tem-se a seguinte expressão para
o cálculo da variância
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)
Exemplo 3
Consideremos, uma vez mais, o exemplo estudado anteriormente sobre o tempo de vida (em
meses) de 50 animais que nasceram com uma doença rara.
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)
Exemplo 3
Consideremos, uma vez mais, o exemplo estudado anteriormente sobre o tempo de vida (em
meses) de 50 animais que nasceram com uma doença rara.
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)
Repare-se que

Como os dados estão agrupados em classes e também organizados numa tabela de frequências
tem-se a seguinte expressão para o cálculo da variância
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Variância (amostral)

( )
𝑑
𝑎
𝑑
𝑜
𝑠
𝑒
𝑚
𝑡
𝑎
𝑏
𝑒
𝑙
𝑎
𝑠
𝑎
𝑔
𝑟
𝑢
𝑝
𝑎
𝑑
𝑜
𝑠
𝑒
𝑚
𝑖
𝑛
𝑡
𝑒
𝑟
𝑣
𝑎
𝑙
𝑜
𝑠
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Desvio padrão
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a
mesma dos dados.

Por exemplo, ao recolhermos informação sobre a característica altura, em cm, a variância virá
em cm2, que é uma medida de área, portanto dificilmente interpretável como medida de
variabilidade.

Assim, para obter uma medida da variabilidade ou dispersão na mesma unidade que os dados, e
portanto de mais fácil interpretação, consideramos a raiz quadrada da variância e obtemos o
desvio padrão.
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Desvio padrão
Pelas razões apontadas anteriormente, a medida de dispersão que se costuma utilizar é o desvio
padrão, que se representa por e é a raiz quadrada (positiva) da variância:

Mais uma vez, estamos a utilizar a notação já introduzida anteriormente, para representarmos a
amostra.

Observação
O desvio padrão populacional é dado por
𝑠
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Desvio padrão
Exemplo
Consideremos o exemplo no qual calculámos a variância do número de crias de 20 chinchilas,
obtendo-se

2 ≃ 1,3132 crias2.

O desvio padrão será

O desvio padrão é uma medida que só pode assumir valores não negativos (≥ 0) e quanto maior
for, maior será a dispersão dos dados.
𝑠
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Desvio padrão
Relativamente aos três conjuntos de dados apresentados no início do estudo das medidas de
dispersão, verificamos que:

• O conjunto A apresenta um desvio padrão igual a zero, como seria de esperar, pois se os
valores são todos iguais, a dispersão é nula.

• Os conjuntos B e C apresentam um desvio padrão s igual, respetivamente, a

Conjunto B

Conjunto C
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Coeficiente de variação
De um modo geral, verifica-se que a variabilidade presente num conjunto de dados aumenta
com a localização.

Se quisermos comparar conjuntos de dados diferentes convém utilizar uma medida que dê uma
ideia da variabilidade relativamente à localização.
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Coeficiente de variação
Uma medida que habitualmente se utiliza e que nos dá a dispersão relativa (em %) dos dados
em relação à média é o chamado coeficiente de variação

O coeficiente de dispersão (CD) indica-nos a dispersão relativa (com o resultado na forma


decimal) dos dados em relação à média e é definido pela razão entre o desvio padrão e a média
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Coeficiente de variação
Podemos definir o seguinte:

• se < 15% diz-se que os dados estão pouco dispersos relativamente à média (dispersão
fraca);

• se 15% ≤ ≤ 30% diz-se que os dados estão moderadamente dispersos relativamente à


média (dispersão média);

• se > 30% diz-se que os dados estão muito dispersos relativamente à média (dispersão
forte).
Observação
Os limites apresentados na classificação anterior podem diferir consoante a natureza do estudo
que se pretende realizar, ficando ao critério do investigador a definição dos mesmos.
𝐶
𝐶
𝑉
𝑉
𝐶
𝑉
Estatística descritiva
Medidas estatísticas: Medidas de dispersão: Coeficiente de variação
Exemplo
Considerando novamente o exemplo do ‘número de crias’ das 20 chinchilas

tem-se

Verifica-se, assim, que os dados referentes ao número de crias das 20 chinchilas estão muito
dispersos em relação à média ( = 2,45 ) porque > 30%.

Desta forma, a média não é representativa da distribuição do número de crias sendo, neste
caso, preferível utilizar a mediana como medida de resumo.
𝑥
𝑐
𝑟
𝑖
𝑎
𝑠
𝐶
𝑉

Você também pode gostar