Escolar Documentos
Profissional Documentos
Cultura Documentos
1. ESTATÍSTICA DESCRITIVA procuraram leis quantitativas para traduzir fenómenos sociais e políticos.
O desenvolvimento do Cálculo das Probabilidades surge também no século XVII. A ligação
das probabilidades com os conhecimentos estatísticos veio dar uma nova dimensão à
1.1. EVOLUÇÃO HISTÓRICA DA ESTATÍSTICA Estatística. Considera-se assim uma nova fase, a terceira, em que se começa a fazer inferência
estatística. Três nomes importantes ligados a esta fase são: Fermat (1601-1665), Pascal (1623-
Para responder ao desenvolvimento social surgiram as primeiras técnicas estatísticas. 1662) e Huygens (1629-1695). Huygens inspira, mais tarde, Jakob I Bernoulli (1654-1705)
Quando as sociedades primitivas se organizaram sentiram necessidade de tomar decisões que estabelece a correspondência entre probabilidade e frequência, através do “Teorema de
que exigiam o conhecimento numérico dos recursos disponíveis. Bernoulli” segundo o qual ao aumentar o número de provas é de esperar, com crescente
A História confirma que as primeiras estatísticas foram realizadas para os governantes das probabilidade, que um acontecimento se verifique com uma frequência efectiva mais próxima
grandes civilizações tomarem conhecimento dos bens que o estado possuía e como estavam da que faria prever a sua probabilidade teórica.
distribuídos pela população. No princípio do século XVIII é apresentada a distribuição Normal e surge a primeira versão
Apesar de se saber hoje que três séculos antes do nascimento de Cristo já se faziam do célebre Teorema do Limite Central, enunciado por Abraham De Moivre (1667-1754). Este
estatísticas, a palavra estatística apareceu pela primeira vez no século XVIII e foi sugerida Teorema é generalizado mais tarde por Karl Gauss (1777-1855) e pelo Marquês Pierre
pelo alemão Gottfried Achemmel (1719-1772). A palavra estatística vem de statu (estado, Laplace (1749-1827).
No sentido de encontrar referências às primeiras estatísticas os investigadores não pouparam estatística. O conde Joseph Lagrange (1736-1813) e Siméon Poisson (1781-1840) são ainda
esforços. O primeiro dado disponível sobre um levantamento estatístico foi referido por dois homens que grandes avanços proporcionaram à Teoria das Probabilidades,
Heródoto o qual diz que em 3050 a.C. se efectuou um estudo das riquezas da população do nomeadamente, este último, na generalização do Teorema de Bernoulli.
Egipto, cuja finalidade era averiguar quais os recursos humanos e económicos disponíveis No século XIX inicia-se a última fase do desenvolvimento da Estatística, alargando e
para a construção das pirâmides. interligando os conhecimentos adquiridos nas três fases anteriores. Com esta fase dá-se início
No ano 2238 a.C. realizou-se uma estatística ordenada pelo imperador chinês Yao com fins a uma dependência dos diferentes ramos do saber relativamente à Estatística. Dois grandes
industriais e comerciais. nomes associados a este desenvolvimento são: Ronald Fischer (1890-1962) e Karl Pearson
No ano 1400 a.C. Ramsés II mandou realizar um levantamento das terras do Egipto. (1857-1936). Já nos finais do século XIX, princípios do século XX, Chebyshev (1821-1894),
Outras estatísticas referidas pelos investigadores foram feitas por Moisés (1490 a.C.), pelos responsável pela Desigualdade de Chebyshev, Andrey Markov (1856-1922), pioneiro dos
gregos e romanos. processos estocásticos e Alexander Liapounov (1857-1919), contribuem igualmente de forma
Desde a queda do império romano passou praticamente um milénio sem que se conheçam significativa para o desenvolvimento da Teoria das Probabilidades e em geral da Estatística.
estatísticas importantes, a não ser as realizadas por Pipino, em 758, e por Carlos Magno, em Actualmente, a Estatística não se limita apenas ao estudo da Demografia e da Economia. O
762, sobre as terras que eram propriedade da igreja. seu campo de aplicação alargou-se à análise de dados em Biologia, Medicina, Física,
Desde então, muitos Estados ordenaram estudos para melhor conhecerem determinadas Psicologia, Indústria, Comércio, Meteoro1ogia, Educação, Desporto, etc., e ainda a domínios
características da população, nomeadamente para determinarem leis sobre impostos e aparentemente desligados, como Estrutura de linguagem e estudo de Formas Literárias.
números de homens disponíveis para combater. Na sua origem, a Estatística estava ligada ao estado. Hoje, não só se mantém esta ligação,
Esta foi a primeira fase do que, hoje, se chama Estatística. como todos os Estados e a sociedade em geral dependem cada vez mais dela. Por isso, em
No século XVII, em Inglaterra, iniciou-se uma segunda fase em que já se analisavam grupos todos os estados existe um Departamento ou Instituto Nacional de Estatística. Actualmente, o
de observações numéricas respeitantes à saúde pública, nascimentos, mortes e comércio. INE tem dezenas de publicações a que todos têm acesso.
Nesta fase, distinguiram-se John Graunt (1620-1674) e William Petty (1623-1687), que
As populações podem ser finitas ou infinitas, consoante seja finito ou infinito o número de
elementos que as compõem e podem também ser reais (população das idades dos alunos que
frequentam determinado curso de desporto em 2002) ou hipotéticas (conjunto dos resultados
obtidos com o sucessivo lançamento de uma moeda).
Dá-se o nome de unidades estatísticas (ou indivíduos) aos elementos que compõem a
população.
As propriedades de uma população ou, atributos, são as características comuns aos seus O sucesso de um estudo estatístico, baseado no estudo de uma amostra, depende da escolha
elementos. Por exemplo, relativamente à população de famílias portuguesas, pode estar-se desta. Uma amostra mal escolhida conduz a conclusões erradas.
interessado nas seguintes propriedades: rendimento mensal, número de filhos, despesas
mensais com a habitação, etc.
Cada estudo estatístico é feito para atingir determinado objectivo. Dependendo do objectivo Métodos de Amostragem:
do estudo, vai observar-se cada unidade estatística em relação a um atributo ou atributos O processo de obtenção ou extracção de amostras designa-se por amostragem. De um modo
determinados. geral, deve ter-se os seguintes cuidados na formação de uma amostra:
t Imparcialidade – Todos os elementos devem ter a mesma oportunidade de fazer parte
Os atributos observados podem ser qualitativos ou quantitativos. Atributos qualitativos são da amostra;
aqueles que estão relacionados com uma qualidade e apresentam-se com várias modalidades. t Representatividade – Deve conter em proporção tudo o que a população possui,
qualitativa e quantitativamente;
t Tamanho – deve ser suficientemente grande de modo que as características da amostra
Chamamos modalidades às diversas situações possíveis em que se pode encontrar uma se aproximem, tanto quanto possível das características da população.
unidade estatística quanto a dado atributo. Por exemplo o sexo pode ser feminino ou
masculino, o estado civil pode ser casado ou solteiro, etc. Existem técnicas para a selecção correcta de amostras. De entre essas técnicas, as mais
conhecidas são a amostragem aleatória simples, a amostragem sistemática e a amostragem
estratificada.
Atributos quantitativos são aqueles a que é possível atribuir uma medida. Por exemplo o
número de golos, ou de faltas durante um jogo de futebol.
Na amostragem aleatória simples qualquer elemento da população tem a mesma
probabilidade de ser escolhido.
Amostra é um subconjunto finito da população que se supõe representativo desta. Se se pretender seleccionar uma amostra de 100 alunos de uma determinada Universidade,
atribui-se um número a cada um dos alunos da Universidade e, seguidamente, escolhem-se ao
Chamamos dado estatístico ao resultado da observação de um atributo qualitativo ou acaso 100 desses números.
quantitativo.
A amostragem estratificada utiliza-se quando a população está dividida em estratos ou comparativamente com os censos. A grande dificuldade em obter resultados de confiança, a
grupos diferenciados. partir de sondagens, reside na necessidade de utilizar amostras representativas da população, o
Na selecção de 100 alunos de uma determinada Universidade, considerando cada curso um que nem sempre é fácil de se conseguir.
estrato, escolher-se-ia em cada um desses cursos um determinado número de alunos por um
dos processos anteriores. O número de alunos a escolher em cada curso, ou seja, em cada
estrato, deve ser proporcional ao número de alunos nesse curso. 1.3.3. Estatística Descritiva e Estatística Indutiva
A amostragem por conglomerados é essencialmente utilizada para reduzir os custos de A Estatística Descritiva tem por finalidade descrever certas propriedades relativas a um
grandes pesquisas, nas quais os investigadores devem ser enviados a locais muito distantes. conjunto de dados.
Neste método são utilizados dois níveis de amostragem:
t Unidade primária de amostragem ou conglomerado, que corresponde a uma área bem Depois de efectuadas as observações fica-se na posse de um conjunto caótico de dados, o que
delineada onde se concentram características encontradas na população total; naturalmente dificulta a obtenção de conclusões. É perante esta desordem que a Estatística
t Sujeitos amostrados dentro de conglomerado. descritiva revela a importância e interesse das suas técnicas, ao permitir classificar esses
dados e deles fornecendo características sumárias. Este processo de reunir a informação
contida nos dados com base num pequeno número de valores característicos é conhecido por
1.3.2. Censo e Sondagem processo de redução de dados. Obviamente que no processo de redução dos dados há
informações que se perdem, o que destaca a escolha acertada dos valores característicos.
Num censo ou recenseamento são observados todos os indivíduos da população relativamente Naturalmente, os métodos descritivos, enquanto meios que permitem ordenar a "desordem" e
aos diferentes atributos que estão a ser objecto do estudo estatístico. sintetizar a diversidade das informações contidas nos dados, podem aplicar-se quer à
Em 2001, o Governo mandou realizar um censo. As vantagens da obtenção de resultados por população quer à amostra. Tal aplicabilidade pode ser explicada, apesar das diferentes
este processo são, acima de tudo, de segurança nas conclusões. O Governo para tomar dimensões da população e da amostra, pelo carácter semelhante dos seus elementos.
medidas acertadas necessita conhecer com rigor as necessidades dos cidadãos sobre
habitação, escolas, hospitais, energia, etc. Por isso, em Portugal se realizam censos de 10 em
10 anos. A alternativa ao censo é a sondagem. Já no caso da Estatística lndutiva a situação é diferente. Neste caso trata-se de generalizar os
resultados obtidos à custa de um conjunto de elementos a um outro conjunto mais numeroso.
Numa sondagem, o estudo estatístico baseia-se numa parte da população, isto é, numa
amostra que deve ser representativa dessa população. A Estatística Indutiva procura inferir propriedades da população a partir de propriedades na
A realização de sondagens é tão habitual nas sociedades actuais que podemos dizer que elas amostra.
se relacionam, em maior ou menor grau, com a vida da generalidade das pessoas. Recorrendo
a empresas especializadas, os partidos políticos encomendam sondagens para estimar o
número de votantes; as empresas promovem sondagens para prever o número de compradores Esta característica inferencial desta Estatística faz com que ela seja designada por Estatística
dos seus produtos e os investigadores efectuam sondagens para avaliar o impacto social das inferencial e aproxima-se do objectivo fundamental das ciências em geral ao generalizar
suas descobertas. A economia de meios, a comodidade, a rapidez e o pequeno número de resultados a universos cada vez mais vastos.
elementos que pode ser necessário destruir constituem vantagens das sondagens
1.3.4. Variável Discreta e Variável Contínua 1.4. ORGANIZAÇÃO E APRESENTAÇÃO DOS DADOS
Quando as variáveis estatísticas são quantitativas, podem dividir-se ainda em dois grupos: 1.4.1. Fases do Método Estatístico
t Variáveis estatísticas discretas (só podem tomar um número finito ou infinidade
numerável de valores). Por exemplo: número de golos numa jornada, na 1ª liga;
Num estudo estatístico, normalmente, segue-se um conjunto de passos que se designam por
t Variáveis estatísticas contínuas (podem tomar qualquer valor dentro de um intervalo).
fases do método estatístico:
Por exemplo: tempos numa corrida de fórmula 1.
t Definição do Problema – a primeira fase consiste na definição e formulação correcta do
Nota 1: Há variáveis, como a idade, que podem ser consideradas contínuas ou discretas. Se se
problema a ser estudado;
considerar a idade um número inteiro de anos, trata-se de uma variável discreta. Se se
t Planificação – definido o problema, é preciso determinar um processo para o resolver e,
considerar, simplesmente, a idade de uma pessoa, ela é uma variável contínua.
em especial, como obter informações sobre a variável em estudo. É nesta fase que se decide
pela observação de toda a população ou de uma amostra;
Nota 2: Embora as variáveis quantitativas se classifiquem em contínuas e discretas, na prática
t Recolha de Dados – os dados podem ser recolhidos através de:
funcionam como discretas, pois os instrumentos de medida utilizados não permitem obter
Questionários;
todos os valores de um intervalo.
Observação;
Experimentação;
Pesquisa Bibliográfica.
t Organização dos dados – há duas formas de apresentação que não se excluem
mutuamente:
Apresentação por Tabelas;
Apresentação por gráficos.
t Análise e Interpretação dos Dados – nesta fase calculam-se novos números com base
nos dados estatísticos. Estes novos números permitem fazer uma descrição do fenómeno
evidenciando algumas das suas características particulares.
Exemplo 1.4.1: Foram examinados 100 lotes de 50 peças produzidas por uma máquina, para Exemplo 1.4.2: Utilizando os mesmos dados apresentados no Exemplo 1, tem-se a
verificação do número de peças defeituosas por lote. Os resultados apresentam-se no seguinte distribuição de valores da variável agrupados:
quadro de frequências absolutas:
Número de Peças Número de Lotes Valor da Frequências Absolutas Frequências Relativas
Defeituosas por Lote (Frequências Absolutas) Variável Ordinárias ( Fi ) Acumuladas ( Fi ) Ordinárias ( f i ) Acumuladas ( f i )
0 3
1 11 0 3 3 0,03 0,03
2 21 1 11 14 0,11 0,14
3 30 2 21 35 0,21 0,35
4 23 3 30 65 0,30 0,65
5 7 4 23 88 0,23 0,88
6 5 5 7 95 0,07 0,95
Total 100 6 5 100 0,05 1,00
Total 100 1,00
Podemos então considerar, De acordo com o exposto, o quadro de frequências para uma distribuição unidimensional de
I1 = [l1 ; l2 [ , I 2 = [l2 ; l3 [ , … , I k = [lk ; lk +1 ] , valores agrupados apresenta o aspecto seguinte:
onde,
l1 ≤ mín { xi } lk +1 ≥ máx { xi } .
Fi
l1 < l2 < … < lk < lk +1 , e X Fi Fi fi = fi
N
F1
x1 F1 F1 = F1 f1 = f1 = f1
N
F2
Amplitude da classe a j = l j +1 − l j . x2 F2 F2 = F1 + F2 f2 = f 2 = f1 + f 2
N
Fp
xp Fp N fp = 1
N
l j +1 + l j Total N 1
Centro da classe I j é o ponto médio do intervalo, isto é, x j = .
2
O número k de classes: O quadro de frequências para uma distribuição de valores agrupados em intervalos de classe
t Deve depender do número N de observações efectuadas; apresenta o aspecto seguinte:
t Não deve ser tão elevado que sobressaiam irregularidades acidentais devido ao pequeno
número de indivíduos por classe; Ponto Médio Fi
X Fi Fi fi = fi
das Classes N
t Não deve ser tão pequeno que conduza a uma perda de informação;
F1
t Situa-se, regra geral, entre 5 e 15. [l1 ; l2 [ x1 F1 F1 = F1 f1 = f1 = f1
N
F2
[l2 ; l3 [ x2 F2 F2 = F1 + F2 f2 = f 2 = f1 + f 2
N
Sempre que possível, é vantajoso que os intervalos de classes possuam a mesma amplitude, a
fim de que seja mais sugestiva a comparação das frequências de cada classe.
No que se refere à determinação do número k de classes a tomar, não há regras fixas. Iremos
usar a seguinte regra:
1.4.3. Análise Gráfica de Atributos Quantitativos
⎧⎪k = 5 se N < 25
⎨ , Normalmente quando se pretendem evidenciar as diferentes modalidades de um atributo
⎪⎩k N se N ≥ 25
qualitativo usam-se gráficos circulares, pictogramas ou gráficos de barras.
para amostras de pequenas dimensões.
Para amostras grandes deve usar-se a fórmula de Sturges: int ⎡⎣1 + 3, 22 × log10 ( N ) ⎤⎦ , onde
1.4.4. Análise Gráfica das Distribuições de Frequência de Valores 1.4.5. Análise Gráfica das Distribuições de Frequência de Valores
Agrupados Agrupados em Intervalos de Classe
40%
35%
Frequência Relativa
Frequências
0%
14 15 16 17 18 19
25
Frequência Acumulada
20
Frequências
15
10
0
14 15 16 17 18 19
Classes
Notas positivas na disciplina de Estatística
As medidas de localização (ou de tendência central) indicam os pontos em torno dos quais se
encontram os valores da variável estatística, ou seja, localizam a distribuição. Por exemplo, as
distribuições representadas pelas duas curvas do Exemplo 1.5.1 apresentam medidas de
Classes
localização diferentes.
Classes
Média Aritmética: No primeiro caso, supondo as observações dos valores da variável estatística ordenados sob
A média aritmética ( X ) da variável estatística X define-se por: forma crescente x1 ≤ x2 ≤ x3 ≤ … ≤ xk , há a considerar duas hipóteses:
Agrupando os dados em intervalos de classe, vem, por exemplo: No segundo caso, a mediana é o valor tal que a ordenada levantada no ponto do eixo das
abcissas divide a área do histograma em duas partes iguais, isto é, a mediana será o valor da
Classes Xi Fi Fi X i
0–4 2 35 70 N ⎛1⎞
abcissa a que corresponde a frequência absoluta (relativa) acumulada , ⎜ ⎟.
5–9 7 120 840 2 ⎝2⎠
10 – 14 12 52 624
Total 207 1534
Exemplo 1.5.5: Os 150 operários de uma empresa foram classificados segundo a sua idade:
1534 Classes Fi Fi
Tendo-se então X = = 7, 41 .
207 20 – 25 9 9
25 – 30 27 36
30 – 35 36 72
35 – 40 45 117
Mediana: 40 – 45 18 135
45 – 50 9 144
Outra medida de localização muito empregada no estudo das distribuições de frequências é a 50 – 55 3 147
mediana ( Me ) . Em relação a esta medida descritiva, convém distinguir claramente os dois 55 – 60 3 150
Total 150
casos de dados agrupados e agrupados em intervalos de classe.
Vamos determinar a mediana desta distribuição, procurando a idade do 75° operário. Como se
pode observar, até à classe 30-35, inclusive, o total das frequências acumuladas é 72 e Para tal procede-se do seguinte modo:
adicionando a frequência da classe 35-40 obtém-se a frequência acumulada 117, já superior a t Determina-se a classe modal;
75. Pode pois garantir-se que a mediana é um dos valores da classe 35-40 (classe mediana). t Unem-se os vértices superiores do rectângulo da classe modal com os vértices das
Obtém-se o valor da mediana através da seguinte fórmula: classes contínuas;
N
− Fi −1 t A perpendicular, baixada do ponto de intersecção das linhas obtidas anteriormente para
Me = Li + 2
× ai ,
FMe o eixo das abcissas, determina, neste, a localização gráfica da moda.
onde:
t Li - limite inferior da classe mediana; Exemplo 1.5.6:
Frequência
40
75 − 72 30
Logo, Me = 35 + × 5 = 35,33 . 20
45
10
0
45 50 55 Mo 60 65 70 75 80 85
Consumo diário de leite em pó (em gr)
Moda:
Para um conjunto de dados agrupados, sendo x1 , x2 ,… , xk os k valores de uma variável
Para um conjunto de dados pode existir mais do que uma moda, ou até nem existir moda. Se o
estatística, chama-se moda ( Mo ) ao valor que ocorre com mais frequência. Para dados
conjunto de dados tiver duas modas, ele diz-se bimodal, no caso de ter mais do que duas
agrupados em intervalos de classe, dá-se o nome de classe modal a qualquer classe cuja
modas, diz-se multimodal. Se o conjunto de dados não tiver moda, ele diz-se amodal.
frequência não é inferior à das restantes classes (classe com maior frequência absoluta).
Obtém-se o valor da moda através da seguinte fórmula:
Δ1
Mo = Li + × ai , Comparação entre Média, Mediana e Moda:
Δ1 + Δ 2
As distribuições de frequência podem ser simétricas ou não em relação a um eixo. No último
onde:
caso, chamam-se assimétricas ou enviesadas. A posição relativa da média, mediana e moda dá
t Li - limite inferior da classe modal;
informação sobre a curva da distribuição.
t Δ1 - excesso de frequência absoluta da classe modal sobre a imediatamente inferior; Em distribuições simétricas unimodais, a média, a mediana e a moda têm o mesmo valor.
t Δ 2 - excesso de frequência absoluta da classe modal sobre a imediatamente superior;
Numa distribuição assimétrica positiva, a média é maior do que a mediana e esta, geralmente Exemplo 1.5.7: Consideremos o conjunto de valores observados: 1, 4, 5, 6, 8, 9, 11, 14, 15,
(salvo casos extremos), maior do que a moda. 18, 20 e determine os quartis.
Comecemos por determinar a mediana que á igual ao 2º quartil. O conjunto de valores tem um
número ímpar de termos logo Me = Q2 = 9 . A partir da mediana o conjunto fica dividido em
dois subconjuntos:
(a) 1, 4, 5, 6, 8;
(b) 11, 14, 15, 18, 20.
As medianas destes subconjuntos são respectivamente iguais a 5 e 15, pelo que Q1 = 5 e
Numa distribuição assimétrica negativa, a média é menor do que a mediana e esta, geralmente
Q3 = 15 .
(salvo em casos extremos), menor do que a moda.
1.5.1.2. Medidas de Posição Não Central (b) 12, 14, 15, 16, 20, 24.
4+6
As medianas destes subconjuntos são respectivamente iguais a Q1 = =5 e
2
Quartis:
15 + 18
Vimos que a Mediana divide o conjunto de valores observados em duas partes iguais. Q3 = = 16,5 . Temos assim:
2
O quartil é uma medida que divide o conjunto de valores observados em quatro partes iguais.
1, 2, 4 6, 7, 9 12, 14, 15 18, 20, 24
Existem três quartis: Q1 , Q2 e Q3 .
Q1 = 5 Q2 = 10,5 Q3 = 16,5
Q1 - obtém-se determinando a mediana do conjunto de valores observados que fica à esquerda
da mediana;
Para obter os quartis em dados agrupados procede-se de igual forma.
Q2 - corresponde à mediana;
t c - toma os valores 1, 2 ou 3 para o primeiro, segundo e terceiro quartil, Diagrama “box-and-whisker” (caixa de bigodes):
respectivamente;
t N - número de elementos da amostra;
t Fi −1 - frequência absoluta acumulada anterior à classe que contém o quartil c ;
6N Amplitude Total:
Para P6 , como = 18 , o intervalo correspondente a esta frequência acumulada é 30 – 50.
100 A amplitude total é a medida de dispersão mais simples. É a diferença entre os valores
18 − 4 extremos assumidos pela variável estatística:
Logo P6 = 30 + × 20 = 47,5 .
16
⎧ máx ( X ) − mín ( X ) se X é discreta
Conclusão: I =⎨ .
⎩lk +1 − l1 se X é contínua
Há 240 empregados (80%) com um ganho diário até 87,43 euros e 18 empregados (6%) com
O emprego desta medida de dispersão apresenta alguns inconvenientes. A principal
um ganho diário até 47,5 euros.
desvantagem resulta dela depender apenas dos valores extremos assumidos pela variável e
não dos valores intermédios. Duas distribuições podem ter a mesma amplitude total mas
dispersões muito diferentes.
1.5.2. Medidas de Dispersão ou de Variabilidade
; m3 =
∑Fd i i
3
; m4 =
∑Fd
i i
4
.
ainda muito maior do que na anterior. As medidas de dispersão ou medidas de variação, ∑F i ∑F i ∑F i ∑F i
As medidas de dispersão mais importantes são: relação à média é nula. Este facto leva à definição de desvio absoluto médio ou simplesmente
t a amplitude total; desvio médio dos valores X i em relação à média. O desvio médio em relação à média
t momentos centrais; aritmética ou, simplesmente, desvio médio é definido por:
t o desvio médio;
DM =
∑F X − X = ∑F d
i i i i
,
t o desvio padrão; ∑F ∑F i i
(se X é discreta) ou um ponto médio de classe (se X é contínua). Por outras palavras, o E, portanto,
desvio médio é a média aritmética dos desvios absolutos em relação à média. Quanto menos
t X=
∑FX
i i
=
239
= 2,39 ;
dispersas se encontrarem os valores X i relativamente à X menor será o desvio médio, e ∑F i 100
reciprocamente.
t s2 =
∑FX
i i
2
−X2 =
785
− ( 2,39 ) = 2,14 ;
2
∑F i 100
t s = 2,14 = 1, 46 .
Desvio Padrão:
Dá-se o nome de variância dos valores de uma variável X a:
∑F (X − X ) ∑Fd ∑FX
2
2 2
Exemplo 1.5.12: Calculemos o desvio padrão da distribuição de frequências apresentada.
= = = − X2
2 i i i i i i
s
∑F i ∑F i ∑F i Temos,
onde, Fi representa cada uma das frequências absolutas e X i representa um valor da variável Classes Xi Fi Fi X i X i2 Fi X i2
(se X é discreta) ou um ponto médio de classe (se X é contínua). 20 – 25 22,5 9 202,5 506,25 4556,25
25 – 30 27,5 27 742,5 756,25 20418,75
30 – 35 32,5 36 1170,0 1056,25 38025,00
35 – 40 37,5 45 1687,5 1406,25 63281,25
40 – 45 42,5 18 765,0 1806,25 32512,50
Nota: A variância corresponde ao momento central de 2ª ordem. 45 – 50 47,5 9 427,5 2256,25 20306,25
50 – 55 52,5 3 157,5 2756,25 8268,75
55 – 60 57,5 3 172,5 3306,25 9918,75
Total 150 5325 197287,50
O desvio padrão (ou desvio quadrado médio) é a raiz quadrada (positiva) da variância:
E, portanto,
s=
∑Fd i i
2
=
∑FX i i
2
−X2 .
∑F i ∑F i t X=
∑FX
i i
=
5325
= 35,5 ;
O desvio padrão indica a proximidade com que os valores estão agrupados à volta da média.
∑F i 150
Um valor pequeno do desvio padrão significa que as observações estão pouco “espalhadas” à t s2 =
∑FX
i i
2
− X2 =
197287,5
− ( 35,5 ) = 55 ;
2
t s = 55 = 7, 42 .
Exemplo 1.5.13: Um empresário pode investir em dois possíveis produtos A e B , cujos 1.6. MEDIDAS DE ASSIMETRIA
preços variam. Os dados observados permitiram calcular os seguintes desvios padrões:
t s A = 130 ; A assimetria é a falta de simetria do histograma, ou da curva de frequências, em relação à
t sB = 220 . vertical que passa pela abcissa correspondente à média aritmética.
Tomando os desvios padrões, o produto A parece preferível a B , porque possui menor As medidas de assimetria sintetizam até que ponto uma distribuição de frequência é
variação de preços. Supondo, no entanto, que os preços médios são 70 e 150, enviesada, deformada ou assimétrica. Estas medidas utilizam-se para classificar distribuições
respectivamente, e calculando os coeficientes de variação, vem: unimodais e elucidam-nos sobre a forma geral da distribuição, isto é, se é simétrica ou, em
130 caso contrário, se se afasta muito ou pouco da simetria. Quando a distribuição é simétrica, o
t = 1,86 ;
70 coeficiente de assimetria é nulo. Quando não é nulo, a distribuição é assimétrica, sendo o grau
220 de assimetria tanto maior quanto maior for o valor absoluto do coeficiente.
t = 1, 47 ;
150
Como medida de assimetria absoluta usamos o momento central de 3ª ordem, m3 . O momento
números que permitem tirar conclusão contrária.
de 3ª ordem tem como dimensões o cubo das unidades das observações. O seu valor depende,
portanto, das unidades de medida, o que não é desejável para se efectuar comparações. É
assim mais vantajoso usar-se o coeficiente de assimetria que é uma medida de assimetria
relativa:
Ca =
m3
, com m3 =
∑ Fi di .
3
s3 ∑ Fi
Se:
t Ca < 0 , a distribuição é assimétrica negativa;
t Ca = 0 , a distribuição é simétrica;
1.7. MEDIDAS DE ACHATAMENTO Como medida de achatamento absoluto usamos o momento central de 4ª ordem, m4 .
Contudo, o momento de 4ª ordem depende das unidades de medida das observações, o que
Para definirmos e visualizarmos o achatamento de uma distribuição de frequências, atrapalha quando se pretende efectuar comparações entre distribuições de frequência distintas.
necessitamos da denominada curva normal que apresenta as seguintes características Surge assim o coeficiente de curtose que é uma medida de achatamento relativa:
fundamentais:
Ccr =
m4
, com, m4 =
∑Fd
i i
4
.
t É simétrica em relação à recta x = X ; s4 ∑F i
t No intervalo ⎣⎡ X − s ; X + s ⎦⎤ encontram-se 68,26% das observações; t Ccr < 3 , a curva diz-se platicúrtica (a distribuição é mais achatada que a normal);
t No intervalo ⎡⎣ X − 2 s ; X + 2 s ⎤⎦ encontram-se 95,44% das observações; t Ccr > 3 , a curva diz-se leptocúrtica (a distribuição é menos achatada que a normal).
95,44
99,74
1.8. EXERCÍCIOS PROPOSTOS Exercício 1.8.3: Sendo dada a seguinte distribuição de frequência:
I . C. Fi
Exercício 1.8.1: Considere a seguinte distribuição de frequência: 2 − 4 4
5 − 7 7
Xi Fi 8 − 10 10
1 16 11 − 13 13
2 18 14 − 16 16
3 17
Pede-se:
4 11
5 5 (a) O histograma de frequência absoluta;
6 3
(b) A média, a mediana e a moda;
(c) O desvio padrão e o coeficiente de variação;
(a) Construa o gráfico de barras e o polígono de frequência absoluta e frequência absoluta
(d) Classifique a distribuição quanto à assimetria, justificando com os cálculos
acumulada;
necessários.
(b) Determine a média aritmética, a mediana e a moda;
(c) Determine os momentos centrais, o desvio médio, a variância, o desvio padrão e o
coeficiente de variação;
Exercício 1.8.4: Ao considerarmos uma série estatística extraída de uma pauta de exame,
(d) Classifique a distribuição quanto à assimetria justificando com os cálculos
agrupam-se as notas de 80 alunos da forma seguinte:
necessários;
I . C. Fi
(e) Classifique a distribuição quanto ao achatamento e justifique.
1 − 3 5
3 − 7 14
7− 9 8
Exercício 1.8.2: Pesaram-se 50 alunos do ISEL e obtiveram-se os seguintes pesos em quilos: 9 − 15 42
15 − 17 7
50,5 67,2 63,5 68,3 70,2 72,5 57,5 57,8 66,1 72,5 17 − 19 4
61,2 62,3 62,0 67,4 64,3 60,3 69,3 68,2 69,2 63,3
70,0 68,0 65,5 51,3 68,7 57,3 71,3 67,2 56,2 71,3 Construa o histograma e o polígono de frequência absoluta.
73,6 54,8 74,3 53,8 69,2 63,4 51,0 72,0 72,3 59,3
64,3 60,5 65,3 66,6 73,5 72,5 75,0 65,0 68,0 65,2
Exercício 1.8.5: Considere a seguinte distribuição de frequência: Exercício 1.8.7: Os dados seguintes referem-se à percentagem de algodão, no material usado
Xi Fi para confeccionar camisas de homem:
20 12 34,2 33,6 33,8 34,7 37,8 32,6
21 17
22 11 33,1 34,7 34,2 33,6 36,6 33,1
23 17 34,5 35,0 33,4 32,5 35,4 34,6
24 10
25 15 35,6 35,4 34,7 34,1 34,6 35,9
26 8 36,3 36,2 34,6 35,1 33,8 34,7
27 10
Exercício 1.8.9: Para estudar o parque habitacional de determinada cidade quanto ao Exercício 1.8.12: Ao considerar uma série estatística extraída de uma pauta de exame,
número de assoalhadas interrogaram-se 270 famílias. Destas 50 tinham uma casa com 1 agrupam-se as notas de 80 alunos da seguinte forma:
assoalhada, 60 com 2 assoalhadas, 80 com 3 assoalhadas, 50 com 4 assoalhadas, 20 com 5 I . C. Fi
assoalhadas e 10 com 6 assoalhadas. 1 − 3 5
(a) Represente a distribuição de frequência utilizando um polígono de frequência; 3 − 7 14
7 − 9 8
(b) Determine μ , Med e Mo;
9 − 15 42
(c) Determine o coeficiente de variação; 15 − 17 7
(d) Estude a assimetria da distribuição, justificando com os cálculos. 17 − 19 4
Exercício 1.8.14: Considere-se uma amostra constituída por 100 latas de pêssego em calda
de uma determinada marca cujo rótulo indica um peso médio líquido escorrido de 450
gramas. Na tabela seguinte incluem-se os pesos observados na amostra, agrupados por
classes:
Peso ( gramas ) Fi (nº de latas )
430 − 434 13
434 − 438 14
438 − 442 18
442 − 446 19
446 − 450 27
450 − 454 9
Exercício 1.8.15: Numa repartição com 300 empregados fez-se a sua separação em grupos
etários nos termos da tabela seguinte:
I . C. Fi
15 − 25 56
25 − 35 42
35 − 45 62
45 − 55 70
55 − 65 48
65 − 75 22