Você está na página 1de 140

104

104 Introdução ao e-learning

Introdução ao e-learning

Manual de Exercícios

ÍNDICE

1. INTRODUÇÃO

4

1.1 Definições Gerais

5

1.1.1. População

5

1.1.2. Variáveis ou atributos

5

1.1.3. Processo de amostragem

5

1.2 A Estatística Descritiva e a Estatística Indutiva

 

6

2. ESTATÍSTICA DESCRITIVA

8

2.1 Variáveis Qualitativas

8

2.2 Variáveis Quantitativas Discretas

9

2.3 Variáveis Quantitativas Contínuas

10

2.4 Medidas de Localização

11

2.4.1. Média

11

2.4.2. Mediana

12

2.4.3. Moda

13

2.5 Medidas de Ordem

13

2.6 Medidas de Assimetria

14

2.7 Medidas de Dispersão

15

2.7.1. Dispersão Absoluta

15

2.7.2. Dispersão Relativa

16

2.8 Análise de Concentração

17

2.8.1. Curva de Lorenz

17

2.8.2. Índice de Gini

18

2.9 Estatística Descritiva Bidimensional

19

Manual de Exercícios

3. ESTATÍSTICA INDUTIVA

45

3.1 Noções básicas de probabilidades

45

3.2 Probabilidade condicionada

48

3.3 Funções de Probabilidade

 

49

3.4 Estimação por Intervalos

76

3.5 Testes de hipóteses

89

3.6 Aplicações Estatísticas: Fiabilidade

 

105

3.6.1. Conceito de fiabilidade

105

3.6.2. Fiabilidade de um sistema

105

3.7 Aplicações Estatísticas: Controlo Estatístico de Qualidade

110

3.8 Aplicações Estatísticas: Tratamento Estatístico de Inquéritos .

114

3.8.1.

Teste de independência do qui-quadrado

114

Manual de Exercícios

"A estatística é a técnica de torturar os números até que eles confessem". Autor desconhecido

1. INTRODUÇÃO

Inicialmente, a actividade estatística surgiu como um ramo da Matemática. Limitava-se ao estudo de medições e técnicas de contagem de fenómenos naturais e ao cálculo de probabilidades de acontecimentos que se podiam repetir indefinidamente. Actualmente, os métodos estatísticos são utilizados em muitos sectores de actividade, tendo como algumas aplicações estudos de fiabilidade, pesquisas de mercado, testes de controle de qualidade, tratamento de inquéritos, sondagens, modelos econométricos, previsões, etc.

Exemplo de uma estatística: os valores da inflação entre 1980 e 1990 constituem uma estatística. Fazer estatística sobre estes dados poderia consistir, por exemplo, em traçar gráficos, calcular a inflação média trimestral ou prever a inflação para 1991.

A análise de um problema estatístico desenvolve-se ao longo de várias fases distintas:

(i)

Definição do Problema Saber exactamente aquilo que se pretende pesquisar; estabelecer o objectivo de análise e definição da população

(ii)

Amostragem e Recolha de Dados Fase operacional. É o processo de selecção e registo sistemático de dados, com um objectivo determinado. Os dados podem ser primários (publicados pela própria pessoa ou organização) ou secundários (quando são publicados por outra organização).

(iii)

Tratamento e Apresentação dos Dados Resumo dos dados através da sua contagem e agrupamento. É a classificação de dados, recorrendo a tabelas ou gráficos.

Manual de Exercícios

(iv)Análise e Interpretação dos Dados A última fase do trabalho estatístico é a mais importante e delicada. Está ligada essencialmente ao cálculo de medidas e coeficientes, cuja finalidade principal é descrever o comportamento do fenómeno em estudo (estatística descritiva). Na estatística indutiva a interpretação dos dados se fundamentam na teoria da probabilidade.

1.1. Definições Gerais

1.1.1. População

Fazer estatística pressupõe o estudo de um conjunto de objectos bem delimitado com alguma característica em comum sobre os quais observamos um certo número de atributos designados por variáveis. Exemplo: Empresas existentes em Portugal

1.1.2. Variáveis ou atributos

As propriedades de uma população são estudadas observando um certo número de variáveis ou atributos. As variáveis podem ser de natureza qualitativa ou quantitativa. As variáveis quantitativas podem ainda dividir-se entre discretas e contínuas. As variáveis discretas assumem apenas um número finito numerável de valores. As variáveis contínuas podem assumir um número finito não numerável ou um número infinito de valores. Exemplo: um conjunto de empresas pode ser analisado em termos de sector de actividade (atributo qualitativo), número de trabalhadores (atributo quantitativo discreto), rácio de autonomia financeira (atributo quantitativo contínuo), etc

1.1.3. Processo de amostragem

Para conhecer de forma completa a população, podem efectuar-se:

Manual de Exercícios

- recenseamentos (indagação completa de todos os elementos da população); este processo é, no entanto, tipicamente moroso e dispendioso, sendo esses os motivos porque os Censos são realizados apenas em cada 10 anos.

- estudos por amostragem (observação de apenas um subconjunto, tido como representativo do universo). As técnicas de recolha de amostras garantem a sua representatividade e aleatoriedade.

1.2. A Estatística Descritiva e a Estatística Indutiva

Para além do ramo de amostragem, a estatística compreende dois grandes ramos: a estatística descritiva e a estatística indutiva.

A estatística descritiva é o ramo da estatística que se encarrega do tratamento e análise de dados amostrais. Assim, depois de recolhida a amostra de acordo com técnicas que garantem a sua representatividade e aleatoriedade, fica disponível um conjunto de dados sobre o universo “em bruto” ou não classificados. Para que seja possível retirar qualquer tipo de conclusões, torna- se necessário classificar os dados, recorrendo a tabelas de frequências e a representações gráficas, isto é, é preciso tratar os dados. Depois de tratados, será possível proceder à análise dos dados através de várias medidas que descrevem o seu comportamento: localização, dispersão, simetria dos dados, concentração, etc. São disso exemplo indicadores numéricos bem conhecidos como a média ou a variância.

A estatística indutiva é o ramo da estatística que se ocupa em inferir das conclusões retiradas sobre a amostra para a população. De facto, a amostra não é mais do que um passo intermédio e exequível de obter informações sobre o verdadeiro objecto de estudo, que é o universo. A estatística indutiva (ou inferência estatística) garante a ligação entre amostra e universo: se algo se concluiu acerca da amostra, até que ponto é possível afirmar algo semelhante para o universo? É nesta fase que se procuram validar as hipóteses formuladas numa fase prévia exploratória. Claro que o processo de

Manual de Exercícios

indução implica um certo grau de incerteza associado à tentativa de

generalização de conclusões da “parte” (amostra) para o “todo” (universo). O

conceito de probabilidade vai ter aqui, então, um papel fundamental. Isto é, não

vai ser possível afirmar com toda a certeza que o comportamento da amostra

ilustra perfeitamente o comportamento do universo, mas apenas que o faz com

forte probabilidade. As inferências indutivas são assim elaboradas medindo, ao

mesmo tempo, o respectivo grau de incerteza. Daí que, na ficha das técnicas

das sondagens eleitorais, por exemplo, apareçam referências ao “nível de

confiança” associado aos resultados e ao “erro” cometido.

O esquema seguinte ilustra a “roda” da disciplina de estatística, relacionando

os seus diferentes ramos:

POPULAÇÃO OU UNIVERSO

Amostragem

os seus diferentes ramos: POPULAÇÃO OU UNIVERSO Amostragem Previsões Estimação Erros AMOSTRA INFERIR DA AMOSTRA PARA

Previsões

Estimação

Erros

AMOSTRA

INFERIR DA AMOSTRA PARA O UNIVERSO

Inferência

Estatística

TRATAMENTO E ANÁLISE DA AMOSTRA

Estatística

Estatística TRATAMENTO E ANÁLISE DA AMOSTRA Estatística Descritiva Gráficos; tabelas; medidas descritivas

Descritiva

Gráficos; tabelas; medidas descritivas

Manual de Exercícios

2.ESTATÍSTICA DESCRITIVA

Os resultados da observação de um atributo sobre os elementos do conjunto a analisar constituem os dados estatísticos. O ramo da estatística que se ocupa do tratamento, apresentação e análise de dados amostrais denomina-se de estatística descritiva.

2.1. Variáveis Qualitativas

Os dados qualitativos são organizados na forma de uma tabela de frequências, que representa o número n i de elementos de cada uma das categorias ou classes e que é chamado de frequência absoluta. A soma de todas as frequências é igual à dimensão da amostra (n).

Numa tabela de frequências, além das frequências absolutas, também se apresentam as frequências relativas (f i ), obtida dividindo a frequência absoluta pelo número total de observações.

Modalidades

Frequências absolutas

Frequências relativas

Mod. 1

n1

f1

Mod. j

nj

fj

Mod. n

nn

fn

Total

n: dimensão da amostra

1

fi =

ni

; n i : nºde vezes que cada modalidade da variável foi observada.

n

Manual de Exercícios

Estes dados podem também ser representados graficamente através de:

Diagrama de barras Para cada modalidade, desenha-se uma barra de altura igual à frequência absoluta ou relativa (as frequências relativas são de preferir, pois permitem a comparação de amostras de diferentes dimensões).

Diagrama sectorial ou circular Esta representação é constituída por um círculo, em que se apresentam tantas “fatias” quantas as modalidades em estudo. O ângulo correspondente a cada modalidade é proporcional às frequências das classes, fazendo corresponder o total da amostra (n) a 360º Geralmente, juntamente com a identificação da modalidade, indica-se a frequência relativa respectiva.

2.2. Variáveis Quantitativas Discretas

São variáveis que assumem um número finito ou infinito numerável de valores.

A apresentação destas amostras é semelhante às variáveis qualitativas,

fazendo-se uma tabela de frequências e uma representação gráfica recorrendo

ao diagrama de barras.

Valores da variável

Frequências absolutas

Frequências relativas

X1

n1

f1

Xj

nj

fj

Xn

nn

fn

Total

n: dimensão da amostra

1

Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi) acumuladas, como se pode ver no exemplo:

Nºdefeituosos (X)

Nºembalagens (ni)

% embalagens (fi)

Ni

Fi

0

80

40%

80

40%

1

60

30%

80+60

40%+30%

2

30

15%

170

85%

3

20

10%

190

95%

4

10

5%

200

100%

Total

200

1

   

Manual de Exercícios

2.3. Variáveis Quantitativas Contínuas

Como foi dito anteriormente, uma variável (ou atributo) é contínua quando

assume um número infinito não numerável de valores, isto é, podem assumir

qualquer valor dentro de um intervalo.

Neste caso, a construção da tabela compreende duas etapas:

(i) Definição de classes de valores disjuntas, correspondentes a intervalos de

números reais fechados à esquerda e abertos à direita, cuja constituição

obedece a certas regras

(ii) Contagem das observações pertencentes a cada classe

Regra de construção de classes (pressupõe a formação de classes de igual amplitude)

- Número de classes a constituir Depende de n = dimensão da amostra Se n25, o número de classes a constituir deve ser 5

Se n<25, o número de classes a constituir deve ser

n
n

- Amplitude comum a todas as classes Sendo a amplitude total dos dados dada pela diferença entre o valor máximo e o valor mínimo observados, então a amplitude de cada classe será:

Valor máximo da variável observado – Valor mínimo da variável observado Nºde classes a constituir

Classes de valores da variável

Frequências absolutas

Frequências relativas

[x 1 ; x 2 [ [x 2 ; x 3 [ [x 3 ; x 4 [

n1

f1

nj

fj

[x n-1 ; x n ]

n

fn

Total

n: dimensão da amostra

1

A distribuição de frequências representa-se através de um histograma.

Um histograma é uma sucessão de rectângulos adjacentes, em que a base é

uma classe e a altura a frequência (relativa ou absoluta) por unidade de

amplitude (n i /a i ou f i /a i ), sendo a amplitude de cada classe a i =e i -e i-1 . A área total

do histograma é a soma das frequências relativas, isto é, 1.

Manual de Exercícios

1. Esta distribuição permite visualizar o tipo de distribuição e deve salientar

alguns aspectos mais relevantes desta (moda, classe modal,

as classes podem ter amplitudes diferentes, para que todos os rectângulos (colunas) sejam comparáveis é necessário corrigir as frequências das classes (calculando as frequências que se teria se a amplitude de todas as classes fosse igual e igual a 1)

Como

).

2. É preferível representar o histograma com f i /h i do que com n i /h i uma vez que deste modo é possível comparar distribuições com diferente número de observações amostrais.

Também é possível calcular as frequências (absolutas – Ni - e relativas - Fi) acumuladas.

2.4. Medidas de localização

2.4.1. Média ( X )

É a medida de localização mais usada, sobretudo pela sua facilidade de cálculo. Dados não-classificados (não agrupados numa tabela de frequências)

x

=

1

n

n

i = 1

x

i

Média aritmética simples

Dados classificados (isto é, agrupados numa tabela de frequências) Variáveis discretas

x

=

1

n

n

i =

1

n

i

x

i

=

n

=

1

i

f x

i

i

Média ponderada dos valores de X

Dados classificados (isto é, agrupados numa tabela de frequências) Variáveis contínuas

x

=

1

n

n

i

n

i

c

i =

1

=

n

i

f c

i

i

=

1

Média ponderada dos pontos médios das classes

Manual de Exercícios

onde c i é o ponto médio de cada classe (

lim.inf . + lim.sup. )

2

A média é uma medida de localização que, geralmente, indica o valor central da distribuição, entendido como o valor em torno do qual se distribuem os valores observados. Desta forma, a média é muitas vezes utilizada como valor representativo da amostra. No entanto, a média tem o grande inconveniente de ser sensível a valores muito extremados ou aberrantes da distribuição (outliers). Em casos desses, a média deixa de ser um valor que aparece na parte central da distribuição para ser “empurrada” para os extremos. Nestes casos, é preferível recorrer à informação complementar fornecida por outras medidas de localização, como a moda e a mediana, que se definem a seguir.

2.4.2. Mediana (Me)

A mediana não se calcula a partir do valor de todas as observações, mas a partir da posição dessas observações.

Dados não-classificados Se tivermos n valores x 1 , x 2 , Se n fôr ímpar,

Me

=

x

n +1

2

Se n fôr par,

Me

=

x

n

2

+

x

n

2 +

1

2

x n

Dados classificados A mediana é o valor tal que F i = 0,5

Variáveis discretas Se existe um valor de x i para o qual F i = 0,5, então fala-se em intervalo mediano.

Manual de Exercícios

Se não existe nenhum valor de x i para o qual F i = 0,5, então a mediana é

o primeiro valor para o qual F i > 0,5.

Variáveis contínuas

Em geral, determina-se o valor para o qual F i = 0,5 através de uma regra

de três simples, atendendo a que as frequências acumuladas variam

uniformemente dentro de cada classe.

De uma forma geral:

Me

=

L

inf

+

2.4.3. Moda (Mo)

0.5

FL

inf

FL

sup

FL

inf

xamp classemediana

.

Variáveis discretas

A moda é valor de X para o qual fi é máximo, isto é, é o valor mais

frequente da distribuição.

Variáveis contínuas

A classe modal é a classe de valores de X para o qual fi/hi é máximo,

isto é, é a classe a que corresponde maior frequência por unidade de

amplitude.

2.5. Medidas de ordem

Tal como se definiu para a mediana, é possível definir outros valores de

posição ou valores separadores da distribuição em partes iguais.

Chama-se quantil de ordem p ao valor de x a que corresponde F i = p.

- Se p=0,01; 0,02;

- Se p=0,1; 0,2;

- Se p=0,25, 0,5, 0,75, chama-se ao quantil QUARTIL (Q1, Q2 e Q3). A

chama-se ao quantil decil

0,99,

chama-se ao quantil percentil

0,9,

mediana é uma caso particular dos quartis (coincide com Q2)

Variável discreta

O quantil de ordem p é o primeiro valor de x para o qual i >p.

Manual de Exercícios

Variável contínua

Calcula-se por uma regra de três simples, como a mediana.

De uma forma geral:

Q

1

Q

3

=

=

L

L

inf

inf

+

+

0.25

FL

inf

FL

sup

FL

inf

0.75

FL

inf

FL

sup

FL

inf

xamp classeQ

.

xamp classeQ

.

1

3

25%

maiores

A representação gráfica destas medidas designa-se de diagrama de

extremos e quartis e serve para realçar algumas características da amostra.

Os valores da amostra compreendidos entre os 1º e 3º quartis são

representados por um rectângulo (caixa) com a mediana indicada por uma

barra. Seguidamente, consideram-se duas linhas que unem os meios dos

lados do rectângulo com os extremos da amostra.

A partir deste diagrama, pode reconhecer-se a simetria ou enviesamento dos

dados e a sua maior ou menor concentração:

2.6. Medidas de assimetria

A assimetria é tanto maior quanto mais afastados estiverem os valores da

média, mediana e moda. Concretamente, se:

X = Me = Mo, a distribuição diz-se simétrica

X > Me > Mo, a distribuição diz-se assimétrica positiva (ou enviesada à

esquerda)

X < Me < Mo, a distribuição diz-se assimétrica negativa (ou enviesada à

direita)

Coeficiente de assimetria de Bowley (g’):

(

Q

3

Q

2)

(

Q

2

Q

1)

 

Q

3

Q

1

Se g’ = 0

a

distribuição é simétrica positiva ou equilibrada

Os quartis estão à mesma distância da mediana.

Se g’ > 0

a

distribuição é assimétrica positiva ou “puxada” para

Manual de Exercícios

a esquerda (se fôr = 1, assimetria é máxima)

A mediana desliza para o lado do Q1, logo Q3-Q2 > Q2-Q1

Se g’ < 0

a distribuição é assimétrica negativa ou “puxada” para

a direita (se fôr = -1, assimetria é máxima) A mediana desliza para o lado do Q3, logo Q2-Q1 > Q3-Q2

Q1 Q2

Q3
Q3
Q1 Q2 Q3
Q1
Q2 Q3

Assimétrica positiva

Assimétrica negativa

2.7. Medidas de dispersão

Duas distribuições podem distinguir-se na medida em que os valores da variável se dispersam relativamente ao ponto de localização (média, mediana, moda). Apresentam-se de seguida algumas das mais utilizadas, classificadas consoante a medida de localização usada para referenciar a dispersão das observações:

2.7.1 Medidas de dispersão absoluta

(i) Em relação à mediana Amplitude inter-quartis = Q = Q3 – Q1 Significa que 50% das observações se situam num intervalo de amplitude Q. Quanto maior (menor) a amplitude do intervalo, maior (menor) a dispersão em torno da mediana.

(ii) Em relação à média Variância amostral: mede os desvios quadráticos de cada valor observado em relação à média, havendo pouca dispersão se os desvios forem globalmente pequenos, e havendo muita dispersão se os desvios forem globalmente grandes.

Manual de Exercícios

Dados não-classificados

s

2

=

1

n

n

i = 1

(

xi

x

) 2

Dados classificados Variáveis discretas

s

2

=

1

n

n

i =

1

(

ni xi

x

)

2

=

n

i

= 1

(

fi xi

x

)

2

Dados classificados Variáveis contínuas

s

2

=

1

n

n

=

1

i

(

ni ci

x

)

2

=

n

i

= 1

(

fi ci

x

)

2

onde c i é o ponto médio de cada classe i. Desvio-padrão: Medida de dispersão com significado real, mas que só é possível calcular indirectamente, através da raiz quadrada da variância. Está expressa nas mesmas unidades da variável.

2.7.2 Medidas de dispersão relativa

Muitas vezes, avaliar a dispersão através de um indicador de dispersão absoluta não é conveniente, assim como comparara a dispersão de duas distribuições, uma vez que estas medidas vêm expressas na mesma unidade da variável – como é o caso, por exemplo, da variância. Assim, é de esperar que os valores da variância sejam mais elevados quando os valores da variável são maiores, o que não significa que a distribuição seja muito dispersa. Para comparar diferentes distribuições de frequência são precisas medidas de dispersão relativa:

Dispersão relativa =

Dispersão absoluta

Medida delocalizaçãoemrelação à qual está definida

Manual de Exercícios

Coeficiente de variação

CV =

s

Manual de Exercícios Coeficiente de variação CV = s x x100% Outras medidas Q 3 −

x

x100%

Outras medidas

Q

3

Q

1

Q

2

Estas medidas não estão expressas em nenhuma unidade, e permitem comparar dispersões entre duas amostras, pois não são sensíveis à escala (eventualmente diferente) em que as variáveis estejam expressas.

2.8. Análise da concentração

A noção de concentração apareceu associada ao estudo de desigualdades económicas, como a repartição do rendimento ou a distribuição de salários. O fenómeno de concentração está relacionado com a variabilidade ou dispersão dos valores observados, apesar de não poder ser analisado através das medidas de dispersão atrás descritas, que apenas medem a dispersão dos valores em relação a um ponto. O objectivo é determinar como o atributo (rendimento, salários, número de empresas) se distribui (se de forma mais ou menos uniforme) pelos diferentes indivíduos da amostra (que devem ser susceptíveis de serem adicionados, isto é, a análise de concentração não se aplica a idade, altura, peso, etc). Se o atributo estiver igualmente repartido pelos indivíduos, temos uma situação extrema de igual distribuição; e vice-versa de o atributo estiver concentrado num só indivíduo, temos uma situação extrema de máxima concentração. Em geral, interessa medir o grau de concentração em situações intermédias.

Para analisar a concentração, existem dois instrumentos: a Curva de Lorenz e o Índice de Gini.

2.8.1 Curva de Lorenz

Manual de Exercícios

O objectivo é comparar a evolução das frequências acumuladas (F i = p i ) com a evolução da soma dos valores da variável (q i )

Quadro de dados

Classes de valores da variável

ni

Quantidade

Freq.relativa

Proporção

atributo

acumuladas

atrib.acumul,

[x 1 ; x 2 [ [x 2 ; x 3 [ [x 3 ; x 4 [

n1

yi

p1

q1

nj

yj

pj

qj

[x n-1 ; x n [

nn

yn

pn=1

qn=1

Total

n

     

Os pontos (pi;qi) pertencem ao quadrado (0,1) por (0,1). A curva que os une é a curva de Lorenz. Se houver igual distribuição, a frequência das observações deve ter uma evolução igual à proporção do atributo correspondente, isto é, pi=qi. Nesse caso, a curva de Lorenz coincide com a diagonal do quadrado, que é designada de recta de igual repartição. Quanto mais a curva se afastar da recta, maior é a concentração. A zona entre a diagonal e acurva de Lorenz designa-se, por isso, de zona de concentração.

2.8.2 Índice de Gini

O índice de Gini é calculado pela seguinte expressão

G =

n 1

i = 1

(

pi

qi

)

n 1

i = 1

pi

Quando G = 0, a concentração é nula, havendo igual repartição. Caso o valor de G seja 1, a concentração será máxima. O valor de G varia entre 0 e 1, e quanto maior o seu valor, maior a concentração.

Manual de Exercícios

2.9. Estatística Descritiva Bidimensional

Numa situação em que se observam pares de valores (x i ; y j ), pode ter interesse estudar as relações porventura existentes entre os dois fenómenos, nomeadamente relações estatísticas. Não se trata de estudar relações funcionais (isto é, a medida em que o valor de uma variável é determinado exactamente pela outra), mas sim de estudar a forma como a variação de uma variável poderá afectar a variação da outra, em média. (por exemplo, o peso e a altura normalmente estão relacionados, mas a relação não é determinística). Duas variáveis ligadas por uma relação estatística dizem-se correlacionadas. Se as variações ocorrem, em média ou tendencialmente, no mesmo sentido, a correlação diz-se positiva. Se ocorrem em sentidos opostos, a correlação diz- se negativa.

Trata-se então de estudar se:

- Se existe alguma correlação entre os fenómenos ou variáveis observadas

- A existir, se é traduzível por alguma lei matemática, nem que tendencialmente

- A existir, se é possível medi-la

Por vezes, a representação gráfica do conjunto de dados bivariados sugere o ajustamento de uma recta a este conjunto de pontos, indicando a existência de uma tendencial correlação linear entre as duas variáveis, como é o caso do exemplo atrás descrito. A essa recta chama-se recta de regressão de y sobre x, que permite descrever como se reflectem em y (variável dependente ou explicada) as modificações processadas em x (variável independente ou explicativa). Essa recta torna possível, por exemplo, inferir (em média) a altura de um indivíduo, conhecendo o respectivo peso. Um dos métodos mais conhecidos de ajustar uma recta a um conjunto de dados é o Método dos Mínimos Quadrados, que consiste em determinar a recta que minimiza a soma dos quadrados dos desvios entre os verdadeiros valores de y e os obtidos a partir da recta que se pretende ajustar. Obtém-se assim a

Manual de Exercícios

recta de regressão ou recta dos mínimos quadrados. Assim, se a recta de regressão obedecer à seguinte fórmula geral:

y = a + bx

o método permite minimizar a soma dos desvios quadráticos y i - (a + bx i ). Assim sendo, obtém-se:

b =

x y

i

i

nxy

2

x

i

2

nx

e a = y bx

Matematicamente, b designa o declive da recta. Em termos estatísticos, b corresponde ao coeficiente de regressão de y sobre x, que indica a variação média de y que acompanha uma variação unitária de x.

O valor de a designa a ordenada na origem, isto é, o valor que y assume quando x=0.

Quando, quer através do diagrama de dispersão, quer através da recta de regressão, se verifica a existência de uma associação linear entre as variáveis, pode-se medir a maior ou menor força com que as variáveis se associam através do coeficiente de correlação linear r:

r =

s xy , s s xx yy
s xy
,
s
s
xx
yy

s

xy

=

n

i = 1

(

x

i

x

)(

y

i

y

)

Este indicador da correlação tem a vantagem de não depender das unidades ou da ordem de grandeza em que as variáveis estão expressas. O coeficiente de correlação linear está sempre compreendido entre –1 e 1. Se r > 0, então pode dizer-se que existe uma correlação positiva entre as variáveis, isto é, as variáveis variam no mesmo sentido: um aumento (diminuição de x) provoca um aumento (diminuição) de y, mas menos que proporcional.

Manual de Exercícios

Se r < 0, então pode dizer-se que existe uma correlação negativa entre as

variáveis, isto é, as variáveis variam em sentidos opostos: um aumento

(diminuição de x) provoca uma diminuição (aumento) de y, mas menos que

proporcional.

Se r = 0, então pode dizer-se que as variáveis não estão correlacionadas

linearmente.

Antes de se efectuar um estudo de correlação, deve-se procurar justificação

teórica para a existência ou inexistência de correlação. Caso contrário, poderá

acontecer que variáveis sem relação de causalidade entre si, variem num certo

sentido por razões exteriores. A esta correlação ilusória, chama-se correlação

espúria.

Nos extremos, se r = 1 ou se r = -1, então pode dizer-se que existe uma

correlação positiva ou negativa perfeita, respectivamente, entre as variáveis,

isto é, uma variação numa variável provoca na outra uma variação

exactamente proporcional no mesmo sentido ou em sentido contrário. Isto é, a

correlação é máxima.

Correlação ordinal

Por vezes, as variáveis vêm expressas numa escala ordinal, isto é, interessa

mais conhecer a ordenação dos valores do que os valores observados

propriamente ditos. Neste caso, em vez do coeficiente de correlação linear,

calcula-se o coeficiente de correlação ordinal:

r

s

=

1

6

n

i = 1

d

i

2

(

n n

2

1)

, d

i

=

x y R − R i i
x
y
R
R
i
i

Ordens (“ranks”) das observações de X e de Y, respectivamente

Manual de Exercícios

ESTATÍSTICA DESCRITIVA

Exercícios resolvidos

Exercício 1 Considere a distribuição de 1000 empresas de um sector de actividade segundo os resultados líquidos (em milhares de u.m.):

Resultado Líquido

Frequência. Relativa (%)

[0; 1[

10

[1; 3[

25

[3; 5[

35

[5; 15[

15

[15; 25[

10

[25; 50[

5

Total

100

a) Represente a distribuição graficamente.

b) Determine a média e a moda da distribuição. Qual o significado dos valores encontrados?

c) Calcule as frequências acumuladas e represente-as graficamente. Determine a mediana da distribuição.

d) Determine os quartis da distribuição. Faça a sua representação gráfica.

e) Analise a (as)simetria da distribuição em causa.

f) Analise a concentração através do Índice de Gini e da Curva de Lorenz.

Resolução

a) fi/hi

0,2 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 0 10 20 30
0,2
0,18
0,16
0,14
0,12
0,1
0,08
0,06
0,04
0,02
0
0
10
20
30
40
50
60

Manual de Exercícios

X

fi

hi

fi/hi

Fi

ci

[0; 1[

10%

1

0.1

10%

0.5

[1; 3[

25%

2

0.125

35%

2

[3; 5[

35%

2

0.175

70%

4

[5; 15[

15%

10

0.015

85%

10

[15; 25[

10%

10

0.01

95%

20

[25; 50]

5%

25

0.002

100%

37.5

Total

1

       

b)

x

=

1

n

Em

monetárias.

média,

n

i =

1

o

n

i

c

i

=

n

=

1

i

f c

i

resultado

i

=

(0,5 10%)

x

líquido

de

+

(2 25%)

x

+

+

uma

empresa

(37.5 5%)

x

é

de

=

7,325

7325

unidades

A classe modal é aquela a que corresponde maior frequência por unidade de amplitude. Neste caso, o maior valor de f i / h i é 0,175. correspondente à classe [3; 5[, isto é, os valores de resultado líquido mais prováveis para uma empresa situam-se entre 3000 u.m. e 5000 u.m.

c) A representação gráfica das frequências acumuladas (ver tabela) designa-se de polígono integral:

1

0,8

0,6

0,4

0,2

0

Fi

0 20 40 60 80 100 120
0
20
40
60
80
100
120

Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [3; 5[

3

: Fi=0,35

5

: Fi = 0,7

Manual de Exercícios

Cálculo da mediana:

0,7 - 0,35 ------------ 5 - 3 0,5 – 0,35 -------------- Me – 3 Me = 3 + ((2x0,15)/0,35) = 3,857 50% das empresas apresentam resultados líquidos inferiores a 3857 u.m.

d) Classe a que pertence Q1 (classe a que corresponde uma frequência acumulada 0,25): [1; 3[

1

: Fi=0,1

3

: Fi = 0,35

Cálculo do Q1:

0,35 - 0,1 ------------ 3 - 1 0,25 – 0,1 -------------- Q1 – 1 Q1 = 1 + ((2x0,15)/0,25) = 2,2 25% das empresas apresentam resultados líquidos inferiores a 2200 u.m.

Classe a que pertence Q3 (classe a que corresponde uma frequência acumulada 0,75): [5; 15[

5 : Fi=0,7

15 : Fi = 0,85

Cálculo do Q3:

0,85 - 0,7 ------------ 15 - 5 0,75 – 0,7 -------------- Q3 – 5 Q3 = 5 + ((10x0,05)/0,15) = 8,333(3) 75% das empresas apresentam resultados líquidos inferiores a 8333 u.m.

e)

g ' =

(

Q

3

Q

2)

(

Q

2

Q

1)

 

Q

3

Q

1

=

(8,333

3,857)

(3,857

2,2)

=

 

8,333

2,2

0,4596

>

0

A distribuição é assimétrica positiva ou enviesada à esquerda.

Manual de Exercícios

f)

X

 

fi

 

ni

 

ci

 

Atributo

pi (=Fi)

qi

[0; 1[

10%

1000x10%=100

 

0.5

 

100x0.5=50

0.1

0.007

[1; 3[

25%

250

 

2

250x2=500

0.35

0.075

[3; 5[

35%

350

4

1400

0.7

0.266

[5; 15[

15%

150

10

1500

0.85

0.471

[15; 25[

10%

100

20

2000

0.95

0.744

[25; 50[

5%

50

37.5

1875

1

1

Total

 

1

n=1000

   

7325

   
 
 
 

Res.Liq.Totais

G =

(0,1

0,007)

+

+

(0,95

0,744) =

0,47

 

0,1

+

0,35

+

0,7

+

0,85

+

0,95

 
50 + 500 +1400 7325
50 + 500 +1400
7325

A distribuição dos resultados líquidos apresenta concentração média (G=0,5 corresponde ao centro da escala possível, entre 0 e 1). Por exemplo, 70% das empresas apresentavam resultados até 5000 u.m., mas isso representava apenas 26,6% do total de resultados das empresas da amostra, o que sugere um tecido empresarial com muitas PMEs, mas em que cada uma tem baixo resultado líquido.

1

0,8

0,6

0,4

0,2

0

Curva de Lorenz

0 0,2 0,4 0,6 0,8 1
0
0,2
0,4
0,6
0,8
1

Exercício 2 Considere a seguinte amostra de dimensão 200, referente aos lucros obtidos por empresas de um dado sector industrial, expressas numa determinada unidade monetária.

Analise a concentração através do Índice de Gini e da Curva de Lorenz.

Manual de Exercícios

Resolução

Lucros

ni

Lucro total

pi (=Fi)

qi

[0; 50[

20

600

0.1

0.02

[50; 100[

60

4400

0.4

0.16(6)

[100; 200[

80

14000

0.8

0.63(3)

[200; 300[

30

7500

0.95

0.883(3)

[300; 500]

10

3500

1

1

Total

200

30000

   

Curva de Lorenz

1 0,8 0,6 0,4 0,2 0 0 0,2 0,4 0,6 0,8 1 n − 1
1
0,8
0,6
0,4
0,2
0
0
0,2
0,4
0,6
0,8
1
n − 1
(
pi
qi
)
0,546(6)
i
= 1
G =
=
= 0,243
n
− 1
2,25
pi

i = 1

Tanto pela análise da Curva de Lorenz, como pelo valor do Índice de Gini, conclui-se que esta amostra apresenta concentração moderada, encontrando- se os valores razoavelmente repartidos.

Exercício 3 Considere o exemplo abaixo referente ao peso e altura de 10 indivíduos.

a) Represente o diagrama de dispersão.

b) Analise a correlação existente entre peso e altura.

c) Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que exprima as peso em função da altura.

Manual de Exercícios

Altura (cm)

Indivíduo

Peso (kg)

Altura (cm)

A

72

175

B

65

170

C

80

185

D

57

154

E

60

165

F

77

175

G

83

182

H

79

178

I

67

175

J

68

173

Resolução

a) 190

180

170

160

150

Diagrama de Dispersão

Resolução a) 190 180 170 160 150 Diagrama de Dispersão 50 60 70 Peso (kg) 80

50

60

70

Peso (kg)

80

90

b) No exemplo, r = 0,90681871, isto é, existe uma correlação positiva forte entre as duas variáveis, quase perfeita.

Recta de Regressão

c)

190 y = 0,9016x + 109,36 180 170 160 150 50 60 70 80 90
190
y = 0,9016x + 109,36
180
170
160
150
50
60
70
80
90
Altura (cm)

Peso (kg)

Manual de Exercícios

A equação desta recta traduz-se em

Altura = 109,36 + 0,9016 x Peso Isto é, se um indivíduo pesar 70 kg, a altura esperada será de 109,36 + 0,9016 x 70 = 172,472. Por cada kg de peso adicional, espera-se que a altura do indivíduo aumente 0,9016 cm.

Exercício 4 O quadro abaixo apresenta as vendas e as despesas em publicidade (ambas em milhares de u.m.) de uma empresa no período de 7 anos:

Ano

Vendas

Desp. Publicidade

1 10

3

2 13

3

3 18

5

4 19

6

5 25

8

6 30

9

7 35

13

a) Compare as vendas e as despesas em publicidade quanto à dispersão.
b) Analise a correlação existente entre volume e custo de produção. Ajuste, pelo Método dos Mínimos Quadrados, uma função linear que exprima as vendas em função das despesas em publicidade.

c)

Resolução

a) Para comparar a dispersão das duas distribuições, é necessário calcular os coeficientes de variação (medidas de dispersão relativa):

Dados não-classificados

=

x

2 =

s

x

1

n

1

n

n

n

(

i

x

i = 1

)

= 21,429

2

y =

=

2

xi

x

= 69,9408

s

y

i = 1

1

n

1

n

n

i = 1

(

n

i

y

i = 1

yi

y

=

2

)

6,714

= 11,0651

CV

x

=

s 69,9408 x = x 21,429
s
69,9408
x
=
x 21,429

= 0,39

<

CV

y

=

s 11,0651 y = y 6,714
s
11,0651
y
=
y 6,714

=

0,495

A dispersão das despesas em publicidade é superior à dispersão das vendas.

Manual de Exercícios

b)

r =

s xy s s xx yy
s xy
s
s
xx
yy

=

1

7

[(

10

)(

21,429 3

6,714

)

+

+

(

35

)(

21,429 13

6,714

)]

21,429 3 − 6,714 ) + + ( 35 − )( 21,429 13 − 6,714 )

69,9408

x

6,714 ) + + ( 35 − )( 21,429 13 − 6,714 ) ] 69,9408 x

11,0651

= 0,98

Existe uma correlação positiva linear forte entre as duas variáveis. Em média, quando as despesas em publicidade aumentam (diminuem), as vendas aumentam (diminuem) de forma quase exactamente proporcional.

c)

Recta de Regressão

y = 2,4649x + 4,8782 30 20 10 0 3 8 13 Vendas
y = 2,4649x + 4,8782
30
20
10
0
3
8
13
Vendas

Desp. Public.

Exercício 5 Considere que 10 estudantes foram sujeitos a uma prova de avaliação no início e no final do curso. No quadro abaixo, encontram-se as ordenações desses 10 estudantes segundo as classificações obtidas em cada uma das provas:

Aluno

Prova inicial

Prova final

di

R

i

x

R

i y

R i x - R i y

A

1

1

0

B

3

2

1

C

2

3

-1

D

5

4

1

E

7

6

1

F

8

8

0

G

9

7

2

H

10

 

9

1

I

6

10

-4

J

4

5

-1

Manual de Exercícios

Resolução

Como não dispomos das classificações dos alunos, mas sim das ordenações

das classificações (do 1º ao 10º classificado), para avaliar a correlação

existente entre as 2 provas calcula-se o coeficiente de correlação ordinal:

r

s

=

1

6

n

i

= 1

d

i

2

n n

(

2

1)

=

1

6

x

(0

+

1

+

1

+

1

+

1

+

0

+

4

+

1

+

16

+

1)

10 (100

x

1)

= 0,8424

A correlação é positiva e elevada (r s varia entre –1 e 1), isto é, os alunos que

tiveram boa nota na prova inicial tiveram, em média, igualmente boa nota na

prova final.

Exercício 6

O quadro que se segue descreve a distribuição do rendimento anual (em

milhares de u.m.) de 2500 famílias da população de um país:

Rendimento anual

Nºde famílias

[0, 1[

250

[1, 2[

375

[2, 5[

625

[5, 15[

750

[15, 25[

375

[25, 50[

125

a) Represente as frequências acumuladas graficamente.

b) Determine o rendimento médio e mediano.

c) Determine os três primeiros quartis. Que indicações lhe dão sobre a

(as)simetria?

d) O que pode concluir quanto à dispersão?

e) Calcule o índice de Gini. O que conclui sobre a concentração do

rendimento?

Resolução

a)

Rendimento anual

Nºde famílias

% de famílias

Fi (%)

ci

[0, 1[

250

10

10

0.5

[1, 2[

375

15

25

1.5

[2, 5[

625

25

50

3.5

[5, 15[

750

30

80

10

[15, 25[

375

15

95

20

[25, 50[

125

5

1

37.5

Manual de Exercícios

1 0,8 0,6 0,4 0,2 0 0 10 20 30 40 50 60 70 80
1
0,8
0,6
0,4
0,2
0
0
10
20
30
40
50
60
70
80
90
100
n
n
1
b)
x
=
i
n
c
=
i
f c
=
(0,5 10%)
x
+
(1.5 15%)
x
+
+
(37.5 5%)
x
=
9,025
i
i
n
i =
1
i =
1
Em média, o rendimento anual de uma família é de 9025 unidades monetárias.

Classe mediana (classe a que corresponde uma frequência acumulada 0,5): [2; 5[

5 : Fi = 0,5. Logo, a mediana é 5 (50% das famílias têm rendimentos anuais até 5000 unidades monetárias).

c) Classe a que pertence Q1 (classe a que corresponde uma frequência acumulada 0,25): [1; 2[

3 : Fi = 0,25

25% das famílias apresentam rendimentos anuais inferiores a 2000 u.m.

Classe a que pertence Q3 (classe a que corresponde uma frequência acumulada 0,75): [5; 15[

5 : Fi=0,5

15 : Fi = 0,8

Cálculo do Q3:

0,8 - 0,5 ------------ 15 - 5 0,75 – 0,5 -------------- Q3 – 5 Q3 = 5 + ((10x0,25)/0,3) = 13,333(3) 75% das famílias apresentam rendimentos anuais inferiores a 13333 u.m.

Manual de Exercícios

g '

=

(

Q

3

Q

2)

(

Q

2

Q

1)

 

Q

3

Q

1

=

(13,333

5)

(5

2)

=

13,333

2

0,47

>

0

A distribuição é assimétrica positiva ou enviesada à esquerda.

d)

e)

s

x

s

x

2

=

2 n n *( ) = 2 fi ci − x = 2 fici −
2
n
n
*(
)
=
2
fi
ci
x
=
2
fici
x
i =
1
i = 1
2
s
=
82,286875
=
9,071
x

= 82,286875

Rendimento anual

ni

ci

Rend. total

pi (=Fi)

qi

[0, 1[

250

0.5

125

0,1

0.00554

[1, 2[

375

1.5

562,5

0,25

0.0305

[2, 5[

625

3.5

2187,5

0,5

0.1274

[5, 15[

750

10

7500

0,8

0.46

[15, 25[

375

20

7500

0,95

0.7922

[25, 50[

125

37.5

4687.5

1

1

Total

2500

 

22562,5

   

G =

n 1

(

i

= 1

=

1,18436

 

n

1

2,6

pi

pi

qi

)

i = 1

= 0,4555

Concentração moderada do rendimento

Exercício 7

Considere a seguinte tabela que representa a distribuição dos empregados de uma instituição bancária segundo a remuneração bruta mensal (em milhares de unidades monetárias):

Remuneração

Frequência. Relativa (%)

[60; 80[

7.8

[80; 100[

15.2

[100; 120[

31.2

[120; 140[

19.5

[140; 160[

7.2

[160; 200[

8.1

[200; 250[

5.4

[250, 300[

2.6

[300; 350]

3.0

Total

100

Manual de Exercícios

a) Calcule os quartis da distribuição.

b) Analise a dispersão da distribuição em causa.

c) Analise a assimetria da distribuição em causa.

Resolução

a)

Remuneração

Frequência. Relativa (%)

Fi

(%)

[60; 80[

7.8

7.8

[80; 100[

15.2

23

[100; 120[

31.2

54.2

[120; 140[

19.5

73.7

[140; 160[

7.2

80.9

[160; 200[

8.1

89

[200; 250[

5.4

94.4

[250, 300[

2.6

97

[300; 350]

3.0

100

Total

100

Classe a que pertence Q1 (classe a que corresponde uma frequência acumulada 0,25): [100; 120[

1

: Fi=0,23

3

: Fi = 0,542

Cálculo do Q1:

0,542 - 0,23 ------------ 120 - 100 0,25 - 0,23 -------------- Q1 - 100 Q1 = 100 + ((20x0,02)/0,312) = 101,28 25% dos empregados auferem remunerações inferiores a 101,28 milhares u.m.

Classe a que pertence Q2 (classe a que corresponde uma frequência acumulada 0,5): [100; 120[

100

: Fi=0,23

120

: Fi = 0,542

Cálculo do Q2:

0,542 - 0,23 ------------ 120 - 100 0,5 - 0,23 -------------- Q2 - 100 Q2 = 100 + ((20x0,27)/0,312) = 117,3 50% dos empregados auferem remunerações inferiores a 117,3 milhares u.m.

Manual de Exercícios

Classe a que pertence Q3 (classe a que corresponde uma frequência acumulada 0,75): [140; 160[

120

: Fi=0,737

140

: Fi = 0,809

Cálculo do Q3:

0,809 - 0,737 ------------ 160 - 140 0,75 – 0,737 -------------- Q3 - 140 Q3 = 140 + ((20x0,013)/0,072) = 143,61(1) 75% dos empregados auferem remunerações inferiores a 143,61(1) milhares u.m.

b) Amplitude do intervalo inter-quartis = Q3 - Q1 = 143,61(1) - 101,28 = 42,33 (dispersão reduzida em torno da mediana)

c)

g '

=

(

Q

3

Q

2)

(

Q

2

Q

1)

 

Q

3

Q

1

=

(143,61

117,3)

(117,3

101,28)

=

 

143,61

101,28

0,243

>

0

A distribuição é assimétrica positiva ou enviesada à esquerda.

Exercício 8

Os dados seguintes referem-se ao peso, expresso em gramas, do conteúdo de uma série de 100 garrafas que, no decurso de um teste, saíram de uma linha de enchimento automático:

Peso (em gramas)

Frequência. Relativa (%)

[297; 298[

8

[298; 299[

21

[299; 300[

28

[300; 301[

15

[301; 302[

11

[302; 303[

10

[303; 304[

5

[304; 305[

1

[305; 306]

1

Total

100

a) Represente graficamente os dados acima.

b) Calcule as frequências acumuladas e represente-as graficamente.

Manual de Exercícios

c) Determine o peso médio, mediano e modal. Qual o seu significado?

d) Determine os quartis da distribuição.

e) Analise a dispersão do peso das garrafas.

Resolução

a)

 
a)   Histograma
a)   Histograma
a)   Histograma
a)   Histograma
a)   Histograma
a)   Histograma
a)   Histograma
a)   Histograma
a)   Histograma
a)   Histograma
a)   Histograma
a)   Histograma
a)   Histograma