Você está na página 1de 12

Estatística Descritiva

População (N) Amostra (n) Observações (xi)

o todo parte da população | conjunto de observações estudados variáveis


Variável: é um atributo, propriedade ou característica de um objeto ou de uma pessoa, que pode mudar de objeto para objeto, ou de pessoa para pessoa.

Variável Independente: identifica-se Variável Dependente: define-se Variável Interveniente: sendo alheias Variável Estranha ou Parasita: Variável aleatória: característica
com a dimensão ou a característica que como a “característica que aparece às experiências, mesmo assim, não Nos estudos experimentais estudada.
o investigador manipula ou muda quando o investigador deixam de influir nos resultados algumas variáveis associadas à
deliberadamente para conhecer o seu aplica, suprime ou modifica a podendo mesmo desvirtuá-los. Por variável independente e,
impacto numa outra variável. variável independente. Quando exemplo, as atitudes do investigador embora alheias ao estudo em
assume esta variável como efeito da em relação ao estudo bem como a causa, afetam os resultados da
variável independente, então é sua própria motivação para o realizar; variável dependente,
chamada variável critério” as condições ambientais e/ou “contaminando-os”.
económicas em que decorre a
investigação, entre outros.

- Quantitativa - Qualitativa
Os dados são organizados na forma de uma tabela de Os dados qualitativos são organizados na forma de uma tabela
frequências, análoga à construída para o caso dos dados de frequências que apresenta o número de elementos -
qualitativos. No entanto, em vez das categorias apresentam-se frequência absoluta (ou só frequência) de cada uma das
os valores distintos da amostra, os quais vão constituir as categorias ou classes.
classes. Nominais (cor do cabelo, marca da roupa, etc)
Discretas (característica numérica e que não dá para dividir: nº Ordinais (classificações em texto)
filhos, nº idas ao hospital…)
Contínuas (característica numérica que é divisível e decimal:
peso, altura)
Estatística Descritiva
Medidas de Localização – são valores caracterizadores da variável estatística e têm por finalidade principal a descrição do fenómeno. Tais valores, porque evidenciam características particulares
do conjunto de dados, facilitam a análise e interpretação dos mesmos. O seu objetivo é substituir toda a distribuição por um valor único que a represente.
- Tendência Central (o que se encontra no centro dos dados: média, mediana e a moda)
- Medidas de dispersão (variância, desvio padrão, quantis, amplitude interquartil, coeficiente de variação e coeficiente da assimetria).
Quando for estudar uma amostra em estudo só posso analisar:
- em bruto (todas podem ser trabalhadas)
- agrupada (em categorias (só em discretas ; gráfico de barros) ou em classes (só contínuas ; histograma, diagrama de extremos e quartis ; polígono de frequências).

Média - dados não agrupados Média - dados agrupados Média - dados agrupados em classes

Esta medida é a mais utilizada e a de maior facilidade de No caso de os dados serem discretos e estarem Se os dados estão agrupados em classes, então o valor
interpretação. Considere-se uma amostra de n elementos representados numa tabela de frequências absolutas, sabe- encontrado para a média é obtido através da expressão:
por x1 , x2 ,..., xn onde xi , i = 1,2,...., n é o i-ésimo elemento se exatamente o número de vezes que determinado valor
da amostra. A média, geralmente designada por X , é a soma aparece na amostra. Nesta situação, o cálculo da média
de todos os elementos observados dividida pelo número de aritmética pode ser simplificado utilizando a expressão:
elementos da amostra, definindo-se pela expressão:

onde - Mi é o ponto médio da classe (marca da classe), que é


considerado como o elemento representativo dessa classe. -
fi representa a frequência absoluta da “observação i”,
onde: - fi representa a frequência absoluta da “observação i”,
- k o número de “classes”.

Moda
Define-se moda de um conjunto de dados discretos (e representa-se por Mo) como o valor com maior frequência; ou seja, o valor que mais vezes aparece na amostra.

❖ Distribuição Bimodal: possui dois valores modais. ❖ Distribuição Multimodal: possui três ou mais valores ❖ Amodal: não possui moda.
modais.

Exemplos:
A moda de {maçã, banana, laranja, laranja, laranja, pêssego} é laranja.
A série {1, 3, 5, 5, 6, 6} apresenta duas modas (BIMODAL): 5 e 6.
A série {1, 3, 5, 5, 6, 6, 7, 7} apresenta mais do que duas modas (MULTIMODAL): 5, 6 e 7
A série {1, 3, 2, 5, 8, 7, 9} não apresenta moda (AMODAL).
Estatística Descritiva
Mediana - dados não agrupados Mediana - dados não agrupados Mediana - Dados agrupados em Tabela Mediana - Dados agrupados em Tabela (em classes)

Sejam x1, x2,..., xn, n dados A mediana representa-se por Md. Suponhamos que os dados apareciam apresentados por Se os dados estão agrupados em classes, então o valor
estatísticos ordenados (por tabelas: encontrado para a mediana pode ser encontrado da
exemplo, do menor para o maior). No caso de termos um número de seguinte forma:
dados relativamente grande, Se n é ímpar,
Se n é ímpar, a mediana é o valor podemos determinar a ordem do 1. Por uma tabela de frequências acumuladas
da variável que ocupa posição elemento ou dos elementos centrais identifica-se a classe que contém a mediana
central (deixa tantos para a direita do seguinte modo: (50%) e a que chamamos classe mediana.
compara a esquerda). ou
Se n é par, a mediana é média Se n é ímpar, 2. Calcula-se o valor da mediana utilizando a
aritmética dos dois valores fórmula
centrais.

Se n é par,

Onde:
A mediana é o elemento de ordem 13. • l é o limite inferior da classe mediana;
• Fa é a frequência absoluta acumulada da classe anterior
Na coluna Fi vamos procurar o número 13.
à classe mediana (valor de Fa da classe antes da mediana);
Não encontrando este número, vamos assinalar o • f Md é a frequência da classe mediana;
número imediatamente superior a 13, neste caso 15. •n é a dimensão da amostra ou número de elementos
•a é amplitude da classe mediana.
A mediana é o X13 = 3.
Quando os dados estão agrupados em classes, para o
Se n é par, cálculo da mediana admite-se que os valores da variável se
distribuem igualmente por cada uma delas. Por isso,
nestes casos, considera-se a mediana o elemento de
ordem n/2, não se fazendo a distinção se n é par ou n é
ímpar:
Estatística Descritiva
MÉDIA-MODA-MEDIANA - Que relação existem entre as 3 medidas?

Considerações finais sobre medidas de localização:


• Das medidas de localização estudadas, a média é a mais utilizada, embora em certos casos,
a utilização da mediana ou da moda seja preferível.
• A média é muito sensível a valores extremos, isto é, quando se altera drasticamente o valor
de um dos dados a média varia consideravelmente.
• A mediana é preferível à média quando se está interessado em conhecer o ponto médio da
distribuição, aquele valor que a divide em duas partes iguais.
• A moda revela a sua importância perante o estudo de caracteres qualitativos, já que tanto a
média como a mediana são medidas aplicáveis apenas a caracteres quantitativos.
• Pode dizer-se que a importância das medidas consideradas está dependente do tipo de
variável estatística, da distribuição dos dados e do objetivo que se tem em vista.
• Os fatores que mais influenciam a escolha da medida de localização são o nível de medida e
o objetivo de trabalho.
• No caso da média, não existe no nominal, não faz sentido no ordinal e é adequada em
intervalos.
• A mediana não existe no nível nominal, é a mais adequada no nível ordinal pois exige
ordenação.
• A moda serve em todos os casos, mas é mais adequada no nominal.

Representação gráfica dos dados


Título – Todo o gráfico tem que ter título. Este deve indicar claramente aquilo que se pretende representar com o gráfico.
Legenda – Não é possível interpretar um gráfico se não forem indicadas as modalidades do carácter, seja de forma direta seja de forma indireta, através de uma qualquer escala.

Diagrama de Barras ou Histograma – é um tipo de Polígono de Frequências – É um gráfico de Pictograma –. Os dados são representados Diagrama Circular ou
Distribuição de Frequências – é representação adequado para linha que se obtém unindo os pontos por símbolos ligados ao objeto em estudo. Sectograma – Um círculo
um tipo de representação variáveis contínuas. médios da base superior dos retângulos do Dá pouca informação. Pouca precisão. está dividido em setores.
adequado para variáveis histograma.
discretas.
Estatística Descritiva
Diagrama Extremos e Quartis e Caixa de Bigodes – O conjunto dos valores da amostra compreendidos entre o 1.º e 3.º QUARTIS, que vamos representar por Q1 e Q3 é representado por um
retângulo (caixa) com a MEDIANA indicada por uma barra. A largura do retângulo não dá qualquer informação, pelo que pode ser qualquer.

O que são valores adjacentes? Define-se valor adjacente inferior AI, como sendo o menor valor da amostra (eventualmente o mínimo), que é maior que:

Q1 - 1.5 * (Q3 - Q1)

Define-se valor adjacente superior AS, como sendo o maior valor da amostra (eventualmente o máximo), que é menor que:

Q3 + 1.5 * (Q3 - Q1)

O que é um outlier? É um valor que não esteja compreendido no intervalo [AI, AS]

Como é que se pode reconhecer a simetria ou o enviesamento dos dados, a partir do Diagrama de extremos e quartis? Existem fundamentalmente 3 características, que nos dão ideia da simetria
ou enviesamento e da sua maior ou menor concentração: - distância entre a linha indicadora da mediana e os lados do rectângulo - comprimento das linhas que saem dos lados dos rectângulos
- comprimento da caixa. Apresentamos seguidamente 3 exemplos de diagramas de extremos e quartis, correspondentes a tipos diferentes de distribuição de dados
Estatística Descritiva
DISTRIBUIÇÃO DE FREQUÊNCIAS

fi – frequência absoluta duma modalidade é o número de ocorrências dessa modalidade (Ʃfi=N).

Fi – Frequência absoluta acumulada duma modalidade é a soma das frequências absolutas dessa modalidade e de todas as que lhe forem inferiores.

fri – frequência relativa é o quociente entre o número de ocorrências e a dimensão da amostra. (fri = fi/N)

Fri – Frequência relativa acumulada duma modalidade é a soma das frequências relativas dessa modalidade e de todas as que lhe forem inferiores.

Construção de uma tabela de frequências para variáveis de natureza quantitativa contínua

a) Determinar a amplitude da amostra; ou seja, a diferença entre o valor máximo e o valor mínimo observados;

Amplitude de variação: A=Vmáx – Vmin

b) Determinar o número k de classes da amostra; existem várias possibilidades, das quais se salientam as seguintes:

c) Para saber a amplitude de cada classe, divide-se a amplitude da amostra pelo número de classes, tomando-se para amplitude da classe um valor aproximado.

d) Constroem-se classes de igual amplitude de tal forma que sejam disjuntas duas a duas e cuja reunião contenha todos os elementos da amostra.
e) Contar o número de elementos de cada classe; isto é, o número de observações pertencentes a cada intervalo. Esses valores são as frequências absolutas das classes.
Estatística Descritiva
MEDIDAS DE TENDÊNCIA NÃO CENTRAL
Quartis - dados não agrupados Quartis - Dados agrupados em Tabela (em classes)
Os quartis mais importantes são os obtidos pela divisão da amostra em quatro partes Se os dados estão agrupados em classes, então os valor encontrados para o 1º Quartil e 3º Quartil
iguais, sendo eles: podem ser encontrados da seguinte forma:
➢ 1º Quartil ou Q1 - valor que divide a amostra de tal modo que 25% das observações 1. Por uma tabela de frequências acumuladas identifica-se a classe que contém o 1º Quartil (25%) e
são inferiores ou iguais a Q1 a classe que contém o 3ºQuartil (75%).
➢ e 3 º Quartil ou Q3 - valor que divide a amostra de tal modo que 75% das OU
observações são inferiores ou iguais a Q3. 2. Calcula-se o valor do 1º Quartil e do 3º Quartil utilizando as seguintes fórmulas:

onde l é o limite inferior da classe Q1/Q3, Fa é a frequência acumulada até à classe Q1/Q3, f Md é a
frequência da classe Q1/Q3 e a a amplitude da classe Q1/Q3, respetivamente.

Diagrama de Extremos e Quartis


Uma vez calculados os quartis, e considerando os valores extremos, isto é, o valor máximo e o valor mínimo de uma variável estatística, pode-se construir o diagrama de extremos e quartis.
Na construção do diagrama começa-se por se marcar os valores extremos e os quartis. Seguidamente, constrói-se a "caixa" correspondente ao intervalo de extremos Q1 e Q3. A consideração
de dois ou mais diagramas de extremos e quartis, correspondentes a outras tantas distribuições estatísticas, constitui um meio cómodo para comparar tais distribuições.

Decis
Divide a distribuição em dez partes iguais num conjunto ordenado de valores. Pode-se ter, assim, D1, D2, D3, ..., D9.

Decis Exemplo para D3:


São os valores da variável que dividem a distribuição em décimas. Segue-se o mesmo raciocínio dos quartis para o seu cálculo:
Estatística Descritiva
Percentis

É a divisão de um conjunto ordenado em cem partes iguais. Pode-se ter, assim, P1, P2, P3, ..., P99.

Exemplo para P35: São os valores da variável que dividem a distribuição em centésimas. São ainda calculados pelo mesmo processo:

MEDIDAS DE DISPERSÃO (Amplitude - Amplitude Interquartil - Variância - Desvio Padrão)


Visam apresentar o grau de homogeneidade ou heterogeneidade que existe entre os valores que compõem o conjunto.

Amplitude (A) – medida mais simples para medir a dispersão. Amplitude Interquartil (Q) - corresponde aos 50% centrais da distribuição, ou seja, à diferença
É a diferença entre o valor máximo e o valor mínimo da distribuição; representa-se por entre o terceiro e o primeiro quartis:
A e exprime-se nas mesmas unidades dos valores da amostra. Q = Q3 - Q1
A = Vmáx-Vmin O principal inconveniente da amplitude de variação é ser dependente exclusivamente dos valores
Se os dados estão agrupados em classes é usual tomar-se para amplitude a diferença extremos. Não é influenciada nem pelas frequências nem pelo tipo de distribuição. A principal
entre o maior valor da última classe e o menor valor da primeira classe. vantagem é justamente atenuar estes inconvenientes. Note-se que no intervalo definidor de Q
estão 50% dos dados.

A expressão da variância para dados agrupados em tabela é: A expressão da variância para dados agrupados em classes é:

fi representa a frequência absoluta da classe, n o número de classes. Onde: Mi é a marca da classe, fi representa a frequência absoluta da classe, n o número de classes.
Estatística Descritiva
Desvio Padrão
É a média dos desvios em relação a média. É a raiz quadrada positiva da variância e representa-se por S. É uma medida que se exprime nas unidades da variável observada e só assume
valores não negativos.

A expressão do desvio padrão para dados não agrupados é:

A expressão do desvio padrão para dados agrupados em tabela e dados agrupados em classes é:

Ou seja, a raiz quadrada da Variância.


Determinar a média, a variância e o desvio padrão da seguinte amostra de pesos (em Kg) de 20 bebés registados durante um dia, numa maternidade.

Quanto MAIOR for o desvio padrão MAIOR será a dispersão dos valores relativamente à média.
Quando a distribuição é normal, isto é, a média, a mediana e a moda coincidem, temos:
Estatística Descritiva
MEDIDAS DE FORMA
O modelo de distribuição teórica mais conhecido é o da distribuição normal. A sua representação gráfica é uma curva simétrica chamada curva normal ou curva de Gauss. Os valores das
medidas de localização central da distribuição normal são todos iguais. Quando estudamos uma amostra ou uma população raramente encontramos esta configuração teórica. Em geral
encontramos curvas desviadas da curva normal quer no que respeita à simetria quer no que respeita à configuração em altura.
Estes desvios são chamados Assimetria e Achatamento e são classificados através de dois tipos de medidas: medidas de assimetria e medidas de achatamento.

Medidas de Assimetria Medidas de Achatamento


Existe Assimetria quando há deformação da curva representativa do gráfico de uma distribuição relativamente à distribuição Chama-se achatamento ou curtose à deformação duma curva
normal. A curva pode alongar-se quer para a direita quer para a esquerda. em altura relativamente à distribuição normal. A curva normal
diz-se Mesocúrtica.

O coeficiente de achatamento é calculado através da


A assimetria é medida através de coeficientes: expressão:
Seja qual for a fórmula utilizada, a distribuição é simétrica se o coeficiente de assimetria (AS) for nulo. Teremos portanto:
• AS > 0 - Distribuição assimétrica positiva
• AS = 0 - Distribuição Simétrica
• AS < 0 - Distribuição assimétrica negativa As curvas serão classificadas a partir do valor de K da seguinte
Podemos ainda dizer que a assimetria é forte ou fraca consoante o valor absoluto do coeficiente é maior ou menor que 0,5. forma:
Este é um valor usualmente aceite como separador entre assimetria forte e fraca, mas também se deve ter em conta o tipo • K < 0,263 - Curva Leptocúrtica (alongada)
de dados e os valores desses dados. Sempre que o valor do coeficiente anda próximo de 0,5 diz-se que a distribuição é • K = 0,263 - Curva Mesocúrtica (Normal)
moderadamente assimétrica. • K > 0,263 - Curva Platicúrtica (Achatada)
• |AS| > 0,5 – assimetria forte
• |AS| aproximadamente igual a 0,5 – moderadamente assimétrica
• |AS| < 0,5 – assimetria fraca

↔️ Através dos coeficientes ↔️


Estatística Descritiva
MEDIDAS DE ASSOCIAÇÃO CORRELAÇÃO - ASSOCIAÇÃO ENTRE VARIÁVEIS
As distribuições até agora estudadas envolviam observações de uma única variável e chamam-se unidimensionais. Quando se consideram observações de duas variáveis, a distribuição diz-se
bidimensional. No estudo de uma distribuição bidimensional procura-se saber se existe alguma relação entre as duas variáveis.
“Aquele rapaz pesa mais porque é mais alto”?!
O que está subjacente a esta expressão é a associação entre duas realidades ou conceitos, que poderão (ou não) explicar um determinado acontecimento. Isto não é mais do que um processo
de associação entre variáveis e, para o qual, a estatística pode dar um importante contributo. Uma das principais metas em investigação é exatamente estabelecer relações entre variáveis.
Caso existam relações têm de ser estudadas com vista a averiguar o tipo de relação envolvido. Por motivos de simplicidade, o caso mais obvio é verificar a relação entre duas variáveis –
correlação bivariada.

A associação entre variáveis pode ser: CORRELAÇÃO: Mede o grau de associação linear entre variáveis.
Positiva - se assumir valores positivos, as variáveis evoluem no mesmo sentido: ex. Vejamos algumas propriedades do coeficiente de correlação:
quanto mais calorias um indivíduo consumir, mais peso irá ganhar; 1. O valor de r está contido no intervalo [-1,1]
Negativa - se assumir valores negativos, as variáveis evoluem sentido inverso: ex. quanto 2. Permite correlacionar duas variáveis
mais exercício praticar mais peso irá perder; 3. Não existe distinção entre a VD e VI
Nula - nenhuma relação: ex. a distância percorrida até chegar ao ISMT e a nota obtida 4. Quanto maior for o módulo de r, maior será, o grau de associação linear existente entre os x'se
na disciplina de métodos estatísticos. os y’s
5. O facto de r > 0, significa que a relação entre os x's e os y's é do mesmo sentido, isto é, a valores
grandes de x correspondem, de um modo geral, valores grandes de y e vice-versa. Quando r < 0, a
relação entre os x e os y é de sentido contrário, o que significa que a valores grandes de x,
correspondem, de um modo geral, valores pequenos de y e vice-versa.

A medida que se utiliza com mais frequência para medir o grau desta associação linear, é o
coeficiente de correlação (linear), que se representa por r e se calcula a partir da expressão:

O coeficiente de correlação, r, é um número do intervalo [− 1,1].


Estatística Descritiva
COEFICIENTE DE CORRELAÇÃO
Vejamos algumas propriedades do coeficiente de correlação:
1. O valor de r está contido no intervalo [-1,1]
2. Quanto maior for o módulo de r, maior será, o grau de associação linear existente entre os
x’s e os y's
3. O facto de r > 0, significa que a relação entre os x's e os y's é do mesmo sentido, isto é, a
valores grandes de x correspondem, de um modo geral, valores grandes de y e vice-versa.
Quando r < 0, a relação entre os x e os y é de sentido contrário, o que significa que a valores
grandes de x, correspondem, de um modo geral, valores pequenos de y e vice-versa.

Interpretação do coeficiente de correlação Uma medida do grau e do sinal da correlação linear entre duas variáveis (X,Y) é dado pelo
A tabela abaixo apresenta o número de faltas e a classificação dos alunos à unidade curricular Coeficiente de Correlação Linear de Pearson, definido por:
de Métodos Estatísticos. Verifique se existe correlação entre as variáveis em causa.
Calcule o coeficiente de correlação de Pearson e interprete.

O valor de “r” estará sempre no intervalo de -1 a 1.

r < 0, a relação entre os x e os y é de sentido contrário, o que significa que a valores grandes
de x, correspondem, de um modo geral, valores pequenos de y e vice-versa.

r = - 0,94 que significa que a um aumento de faltas corresponde uma diminuição da


classificação. Face ao sinal negativo verifica-se que quando aumenta uma variável a outra
diminui.

Você também pode gostar