Aulas Teoricas-Estatistica 1

AULAS TEÓRICAS DE ESTATISTICA - I
Aula teórica 01
Introdução à Estatística
1. Introdução
1.1. Evolução do papel da Estatística
A palavra Estatística provém da palavra latina, Status, que significa Estado. Foi no Estado onde
teve a sua origem, onde era utilizado para denominar levantamentos de dados, cuja finalidade era
orientar-lo no processo de tomada de decisões.
Ao longo da Idade Média e até ao século XVIII a Estatística foi puramente descritiva, onde foi
usada pelos governos nos processos de censos, com o objectivo de conhecer seus habitantes, sua
condição socioeconómica, sua cultura, religião, etc. Foi também utilizado para determinar o valor
dos impostos a cobrar os cidadãos, para determinar a estratégia de uma nova batalha em guerras
que se caracterizavam por uma sucessão de batalhas, pois era fundamental aos comandantes, saber
de quantos homens, armas, cavalos, etc, dispunham após a última batalha.
Ao contrário do que muitos pensam, a estatística não se limita somente a compilar tabelas
de dados e os ilustrar graficamente, pois, a introdução sistemática dos métodos
estatísticos na investigação experimental fica-se a dever, fundamentalmente, aos
trabalhos de K. Pearson e R. A. Fisher, por volta de 1925. Desta forma, o trabalho do
estatístico passou a ser o de ajudar a planear a obtenção de dados, interpretar e analisar os
dados obtidos e apresentar os resultados de maneira a facilitar a tomada de decisões
razoáveis.
No entanto, para adquirir o estatuto de disciplina científica e não puramente descritiva,

teve que esperar pelo desenvolvimento do cálculo das probabilidades, que lhe viria a
fornecer a linguagem e o aparelho conceptual, permitindo a formulação de conclusões
com base em regras indutivas.
Importância da Estatística
A estatística, ou método estatístico, como é denominada algumas vezes, desempenha um papel

crescente e importante em quase todas as pesquisas humanas. Lidando anteriormente apenas com os
negócios de Estado, a influência da estatística estendeu-se agora à Agricultura, Biologia, Comércio,
1
Química, Comunicações, Economia, Educação, Electrónica, Medicina, Física, Ciências Políticas,
Psicologia, Sociologia e outros numerosos campos da ciência e engenharia onde é usada no auxílio
de tomada de decisões, com o mínimo de erro possível e maior eficiência.
A definição de estatística não é única, pelo que será apresentada uma, em forma de resumo de entre
as mais comuns na literatura:
Estatística é uma parte da Matemática que fornece um conjunto de técnicas ou métodos para a
colecta, a organização, a apresentação, a análise e a interpretação de dados quantitativos,
viabilizando a utilização dos mesmos dados na tomada de decisões, com mínimo grau de incerteza.
Por exemplo, o Estado através do Ministério da Agricultura, conduz um censo para apurar o número
de indivíduos que desenvolvem a actividade agrícola, quais os produtos cultivados, em que áreas o
são, qual o resultado da colheita, o que foi vendido, que pestes afectaram a produção, etc. Estas
estatísticas informam ao Ministério para além de várias outras coisas, como é que está a desenvolver
o sector da Agricultura, em quanto irá contribuir a Agricultura para o PIB Nacional e ajuda na
prevenção de possíveis pestes nas colheitas seguintes. A análise dos dados colhidos é muito
importante para se fazer um planeamento adequado.
Há uma grande diferença entre Estatística e Estatísticas

Estatísticas são uma colecção consistente de dados numéricos que têm o objectivo de fornecer
informações acerca de uma actividade qualquer
1.2. Estatística Descritiva e Inferencial
Estatística Descritiva é a parte da Estatística que se preocupa com a observação de fenômenos da

mesma natureza, a colecta de dados numéricos referentes a esses fenônemos, a sua organização,
classificação e a sua apresentação atravês de gráficos e tabelas, sem tirar quaisquer conclusões
sobre a sua população.
Estatística Inferencial ou indutiva consiste num processo de generalização sobre uma

determinada população, a partir de resultados observados a partir de uma parte representativa dessa
população.
Esse processo está associado a uma margem de incerteza. A existência dessa incerteza deve-se ao
fato de que a conclusão que se pretende obter para o conjunto de todos os indivíduos analisados
quanto a determinadas características comuns, baseia-se em uma parcela do total das observações.
1.3. Conceitos fundamentais em Estatística
2
Serão apresentadas as definições de alguns conceitos importantes para o processo de aprendizado
da Estatística
i. Fenómeno estatístico: é qualquer evento que se pretenda analisar, cujo estudo seja possível a
aplicação do método estatístico.
ii. População (N) é o conjunto, finito ou infinito, de todos os elementos, indivíduos ou objectos que
apresentam em comum pelo menos uma característica definida, cujo comportamento interessa
analisar.
A população é estudada em termos de observações de características nos indivíduos (animados ou

inanimados) que sejam relevantes para o estudo, e não em termos de pessoas ou objecto em si. Por
isso, em qualquer estudo estatístico é importante definir bem as características de interesses dos
elementos de uma população para que seja delimitado os elementos que pertencem à população e os
que não pertencem.
Exemplo de população: Estudar o nº de filhos tidos, o tipo de moradia, condições de trabalho, tempo
de trabalho, estado civil, etc., dos docentes da universidade São Tomás.
População: Todos docentes (de tempo inteiro ou parcial) da USTM.
A população (Universo) pode ser dividida em finita e infinita.

 População Finita: apresenta um número limitado de observações, que é passível de contagem.
Exemplo, Idade dos funcionários do banco XYZ, População: Todos funcionários do banco
XYZ.
 População Infinita: apresenta um número ilimitado de observações que é impossível de contar
e geralmente esta associada a processos. Exemplo, satisfação dos clientes do supermercado
ABC, população: Todos clientes do supermercado ABC.
iii. Censo: é uma colecta exaustiva de dados relativos a todos os elementos de uma população.
iv. Amostra (n): é um subconjunto da população e deve ser finita. A amostra deve ser seleccionada
seguindo certas regras e deve ser representativa, de modo que ela represente todas as características
da população como se fosse uma fotografia desta.
Exemplo: estudo da satisfação dos estudantes da USTM em relação a qualidade das
aulas.
População: todos estudantes da USTM
Amostra: estudantes do 2º ano do curso de Gestão
v. Dado estatístico: é qualquer característica que possa ser observada ou medida de alguma maneira,
aplicando os métodos estatísticos. As matérias-primas da estatística são os dados observáveis, isto é,
o que é recolhido e preparado para produzir algum resultado.
3
vi. Variável é uma propriedade dos elementos da população que se pretende conhecer. Pode assumir
qualquer modalidade1 de um conjunto de elementos, o qual denota-se por domínio da variável ou
categoria. Os símbolos utilizados para representar as variáveis são as letras maiúsculas do alfabeto,
tais como X, Y, Z,
As variáveis podem ser classificadas em quantitativas e qualitativas (atributo)
vii. Variáveis quantitativas são as que têm por modalidades quantidades numéricas com as quais
podemos fazer operações aritméticas, sendo classificadas em discretas e contínuas
Variáveis quantitativas discretas são as que podem assumir somente valores inteiros,
inclusive zero, num conjunto de valores, isto é, não admitem uma modalidade
intermediária entre duas quaisquer de suas modalidades.
Exemplo: o número de estudantes numa sala de aulas.
Variáveis quantitativas contínuas são aquelas que podem assumir um valor dentro de
um intervalo de valores. É gerada pelo processo de medição.
Exemplo: a temperatura numa cidade.
viii. Variáveis qualitativas ou atributos são as observações (dados estatísticos) que apresentam um
carácter qualitativo, não podendo ser medidas em termos numéricos
Os atributos podem ser Dicotómicos ou Múltiplos (Policotómicos)
 Atributos Dicotómicos são aqueles que admitem uma subdivisão em apenas duas
classes.
Exemplo: quando classificamos os estudantes da USTM quanto ao sexo, só podemos

ter duas respostas possíveis: masculino e feminino.
 Atributos Múltiplos são aqueles que admitem uma subdivisão em mais de duas
classes
Exemplo: quando classificamos os estudantes da USTM quanto ao estado civil,

podemos ter mais de duas respostas possíveis: solteiro; casado; divorciado e viúvo
1.4. Escalas de medidas de dados estatísticos
1
Modalidade é toda manifestação possível de uma variável, isto é, várias hipóteses de respostas, ou
diferentes variações ou valores que uma variável pode assumir.
4
i. Escalas Nominais – são aquelas que separam os atributos em categorias diferentes não forçando
uma ordenação em termo de hierarquia.
Exemplo: Profissão (1. Contabilista, 2. Informático, 3.Camponês, etc.)
ii. Escalas Ordinais – baseiam-se numa classificação hierárquica. Através desta escala os atributos
são colocados em determinada ordem conforme um critério escolhido.
Exemplo: Cargo numa empresa (1.Presidente, 2.Vice-presidente, 3.administrador,
etc.)
iii. Escalas de intervalo – É aquela em que se conhece a distância (o intervalo) entre as diferentes
categorias. Os números conferidos as diferentes categorias das variáveis quantitativas possuem
todas as características das variáveis nominais ou ordinais, com a característica adicional de
possuir uma unidade constante de medição entre as diferentes categorias que estão igualmente
espaçadas.
Exemplo: A idade e o número de partos [paridade] são variáveis com intervalos
constantes de mesmo modo que a duração do uso de anticoncepcionais e a data
de aceitação de um método anticoncepcional.
iv. Escalas de Razão - são um caso especial das escalas ordinais, as quais são também nominais
hierárquicas. Assim a escala de razão é também uma escala de intervalo dotada de zero absoluto.
Tem essa designação porque a razão dos números da escala é igual a razão que descreve o grau
em que duas pessoas ou objetos possuem um atributo
Exemplo: uma pessoa com peso de100 Kg e uma outra com 50 Kg a razão é 2 : 1
Aula teórica 02
Apresentação de dados e distribuição de frequências

Frequências absolutas, relativas e acumuladas
2. Introdução
Ao colectar os dados referentes ao fenómeno objecto de estudo, normalmente o Analista se

defronta com valores que se repetem algumas ou muitas vezes, sugerindo sua apresentação
através de tabelas, onde somente apareçam valores distintos uns aos outros. Essa providência
favorece evidentemente uma análise e interpretação mais rápida da natureza e comportamento
do fenómeno observado.
5
Um dos objectivos da Estatística Descritiva quando se trabalha com grandes quantidades de
dados é obter uma significativa redução dos mesmos dados, para facilitar a sua análise.
Neste caso, a Distribuição de Frequência é uma ferramenta estatística apropriada para a

apresentação de grandes massas de dados, numa forma que torna mais clara a tendência central
e a dispersão dos valores ao longo da escala de medição, bem como a frequência relativa de
ocorrência dos diferentes valores.
2.1.Alguns conceitos importantes

Para que se possa organizar os dados em frequência é necessário que eles estejam na sua forma
bruta.
Dados brutos – são os dados originais, que ainda não se encontram prontos para análise, por
não estarem numericamente organizados. (Também são conhecidos como Tabela Primitiva).
Exemplo 1: Considere o conjunto dos pesos (em kg) dos 20 estudantes, tirado de uma lista
alfabética da base de dados do Registo Acadêmico da USTM.
45, 41, 42, 41, 42 43, 44, 41, 50, 46, 50, 46, 60, 54, 52, 58, 57, 58, 60, 51
Depois de obter os dados brutos no campo, é importante organiza-los em rol.

O Rol é uma lista em que os valores númericos brutos estão dispostos em uma determinada
ordem, crecente ou decrescente.
Exemplo 2: Apresentando em ordem crescente o conjunto dos pesos dos 20 estudantes do
exemplo anterior temos:
41, 41, 41, 42, 42 43, 44, 45, 46, 46, 50, 50, 51, 52, 54, 57, 58, 58, 60, 60
Existem 4 tipos de frequências pela qual podemos apresentar os dados

i. Frequência simples ou absoluta ( fi ): é o valor que representa o número de observações
em uma determinada classe ou em um determinado atributo de uma variável qualitativa. A
soma das frequências simples é igual ao número total dos dados da distribuição.
ii. Frequência relativa ( fr ): é o valor da razão (proporção) entre a frequência absoluta em
uma determinada classe e a frequência total da distribuição. A soma das frequências
relativas é igual a 1 (100%).
6
iii. Frequência simples acumulada de uma classe ( F i ): é o total das frequências de todos os
valores inferiores ao limite superior do intervalo de uma determinada classe.
iv. Frequência relativa acumulada de uma classe ( F r ): é a frequência acumulada da classe,
dividida pela frequência total da distribuição.
2.2.Distribuição de frequências de dados não agrupados em classe

É a simples condensação dos dados conforme as repetições de seus valores. Este tipo de
apresentação é utilizado para representar uma variável discreta ou contínua. Para uma tabela de
tamanho razoável, esta distribuição de frequência é inconveniente, já que exige muito espaço.
Na primeira coluna, encabeçado pelo índice i, aparecem os números correspondentes à ordem
dos valores da variável. Na segunda coluna, encabeçada por xi, são anotados em ordem
crescente apenas os valores distintos da variável.
A terceira coluna é uma coluna auxiliar (opcional), utilizada para que se possa processar a
contagem dos valores repetidos, sem grande esforço.
A última coluna, encabeçada por fi, apresenta as frequências, que são os resultados numéricos
provenientes da contagem. A soma de frequências é sempre igual ao número total de valores
k
observados:  fi  n
i 1
k: é o extremo superior do intervalo de valores do índice i.

fi,:é o número de observações de um valor
n: é o número total de valores observados.
Exemplo 3: Considerando o exemplo anterior, sobre o peso dos 20 estudantes, a tabela de
distribuição de frequência será:
i xi Frequências
 fi 
1 41 3
2 42 2
3 43 1
4 44 1
5 45 1
6 46 2
7 50 2
7
8 51 1
9 52 1
10 54 1
11 57 1
12 58 2
13 60 2
Soma --------- 20
Tabela1. Exemplo da distribuição de frequência de uma variável não agrupada em classe
2.3.Distribuição de frequências de dados agrupados em classe
Quando a variável objecto do estudo é contínua, é sempre conveniente agrupar os valores

observados em classes. Se por outro lado, a variável é discreta e o número de valores
representativos dessa variável é muito grande, recomenda-se o agrupamento dos dados em
classes.
Neste último caso, o procedimento visa evitar certos inconvenientes, como:
 Grande extensão da tabela, dificultando, tanto quanto os dados brutos, a leitura e a
interpretação dos resultados apurados;
 Aparecimento de diversos valores da variável com frequência nula;
 Dificuldade de visualização do comportamento do fenómeno como um todo.
Usando os dados do exemplo 1, abaixo a distribuição dos mesmos em classes
i Classes Frequências  f i 
1 41 |------ 45 7
2 45 |------ 49 3
3 49 |------ 53 4
4 53 |------ 57 1
5 57 |------ 61 5
Total 20
2.3.1. Elementos de uma distribuição de frequência com classe
i. Classe: Intervalos nos quais os valores da variável analisada são agrupados. Cada classe é
simbolizada por (i) e o número total de classe é simbolizado por (k).
Ex: na tabela anterior k=5 e 49 |------- 53 é a 3ª classe, onde i=3.
8
ii. Limites da classe: são extremos de cada classe. O menor número é o limite inferior de
classe  L inf  e o maior número, o limite superior de classe  L sup  .
Deste modo, o intervalo de classe quanto a sua natureza pode ser aberto, fechado ou misto.
a. Intervalos abertos – os limites da classe (inferior e superior) não pertencem a ela.

Exemplo de notação: 49 --- 53
b. Intervalos fechados – os limites de classe (superior e inferior) pertencem à classe em
questão. Exemplo de notação: 49 |-----|53
c. Intervalos mistos – um dos limites pertence à classe, e o outro, não. Exemplo de
notação: 49 |-----53 ou 49 ----|53.
iii. Cálculo de número total de classes
Para montar uma distribuição de frequência é necessário que primeiro se determine o
número de classes (k) em que os dados serão agrupados.
Não existe regra fixa para se determinar o número de classes (k). Contudo, neste material
são apresentadas algumas:
Regra 1: Por questões de ordem prática e estética sugere-se utilizar de 5 a 20 classes;
Regra 2: o uso da fórmula de Sturges, que nos dá o número de classe em função do
número de valores da variável: k  1  3 . 3 * log n onde n é o número de itens que compõe
a amostra
 n  25  k  5
Regra 3: Se  onde n é o número total de observações
 n  25  k  n
Nota: De um modo geral, na resolução dos exercícios iremos usar a regra 2 e/ou regra 3,
para determinar o número de classe em função do número de observações (n).
Exemplo 4: considerando os dados do exemplo 1 podemos obter o número total de classe:
Temos que n=20 então, pela regra 2, K=1+3.3*log20= 1+3.3*1.3= 5.29  5
iv. Amplitude Total ou “Range” (At) é a diferença entre o maior e o menor número do rol. A
amplitude total pode ser denotada por:
At  X max
 X min
9
Exemplo 5: o maior peso dos 20 estudantes é de 60 kg e o menor peso é de 41 kg, a amplitude
total será de 19 kg porque ( 60 kg - 41 kg= 19 kg).
v. Amplitude do intervalo de classe (c): é o valor que representa a quantidade de números

que se encontram entre o limite inferior e limite superior de uma classe, e é constante em
todas as classes de uma mesma distribuição de frequências.
At
A fórmula para o cálculo da c é: c 
k 1
Onde: c – é a amplitude de classe; At – é a amplitude total de classe e k – é o nº total de

classes
19
Exemplo 6: o c para o exemplo em estudo é: c   4 . 75
5 1
vi. Ponto Médio de classe (PM): é o valor que se encontra no meio dos limites de cada classe
L sup  L inf
PM  , onde Lsup= Limite superior da classe; Linf= Limite inferior da classe;
2
Assim, o limite inferior da primeira classe será:

c
L inf  X min
 , onde Xmin é o menor valor de todas as observações da amostra.
1
2
E os demais limites são obtidos somando-se c ao limite anterior.

Exemplo 7: Elaboração de uma distribuição de frequências com classes.
Os dados da tabela abaixo foram obtidos em uma pesquisa de mercado e correspondem ao
tempo (T) em minutos que consumidores (C) de uma determinada operadora de telefonia
móvel utilizariam em um mês. Elabore uma distribuição de frequências com classe.
C T C T C T C T C T
1 104 9 122 17 129 25 144 33 183
2 108 10 142 18 138 26 151 34 138
3 138 11 106 19 122 27 146 35 115
4 101 12 201 20 161 28 82 36 179
5 163 13 169 21 167 29 137 37 142
6 141 14 120 22 189 30 132 38 111
7 90 15 210 23 132 31 172 39 140
8 154 16 98 24 127 32 87 40 136
10
Resolução: Passos para elaboração de uma distribuição de frequências com classes.
Primeiro passo: Organizar os dados brutos em um ROL crescente:

82 111 132 142 167
87 115 136 142 169
90 120 137 144 172
98 122 138 146 179
101 122 138 151 183
104 127 138 154 189
106 129 140 161 201
108 132 141 163 210
Segundo passo: Calcular a amplitude total At:

X min
 82 minutos ; X max
 210 então
At  X max
 X min
 210  82  128 min
Terceiro passo: calcular o número total de classe (k)

O número de observações da amostra (n) é 40, então
k  n  40  6 . 32  6 ou pelo Sturges
K  1  3 . 3 * log n  1  3 . 3 * log 40  1  3 . 3 * 1 . 6  6 . 28  6 classes
Quarto passo: conhecido o número de classe, calcular a amplitude de cada classe:

At 128
c    25 . 6 min
k 1 6 1
Quinto passo: calcular o limite inferior da primeira classe:

c 25 . 6
L inf  X min
  82   82  12 . 8  69 . 2
2 2
Sexto passo: Determinar os intervalos de classes:

69.2|---94.8
94.8|---120.4
120.4|---146.0
11
146.0|---171.6
171.6|---197.2
197.2|---222.8
Apresentar a tabela com as classes e respectivas frequências
i classe fi (consumidores) Fi fr (proporção) Fr
1 69.2|---94.8 3 3 0.075 0.075

2 94.8|---120.4 8 11 0.200 0.275
3 120.4|---146.0 16 27 0.400 0.675
4 146.0|---171.6 7 34 0.175 0.850
5 171.6|---197.2 4 38 0.100 0.950
6 197.2|---222.8 2 40 0.050 1.000
Total ------- 40 1.000
Aula Teórica 03
Representação tabular e gráfica
2.3. Introdução
A representação gráfica é um complemento da representação tabular (em tabelas).
Normalmente, contém menos informação que as tabelas, mas são de mais fácil leitura. A
principal vantagem da representação gráfica em relação a representação em tabelas é o facto de
ela permitir que se consiga ter uma visualização imediata da distribuição dos valores
observados.
Os gráficos propiciam uma idéia mais satisfatória da concentração e dispersão dos valores, uma
vez que os dados estatísticos se apresentam em termos de grandezas visualmente interpretáveis.
12
Por outro lado, os factos essenciais que poderiam ser difíceis de reconhecer em massas de dados
estatísticos (dados brutos) podem ser observados mas claramente através dos gráficos.
2.3.1 Tipos de gráficos
Existem vários tipos de gráficos tais como: o gráfico de barras, gráficos circulares
(Pie charts), Histogramas e gráficos circulares e mais.
O tipo de gráfico a usar depende da variável em questão. Contudo, os elementos

simplicidade, clareza e veracidade devem ser considerados, aquando da elaboração
de um gráfico.
 Simplicidade – o gráfico deve ser destituído de detalhes de importância
secundária, assim como de traços desnecessários que possam levar o
observador a uma análise morosa ou sujeita a erros.
 Clareza – o gráfico deve possibilitar uma correcta interpretação dos
valores representativos do fenómeno em estudo.
 Veracidade – o gráfico deve expressar a verdade sobre o fenómeno em
estudo.
2.3.1.1 Gráficos de barras
Estes gráficos têm por objectivo comparar grandezas (variáveis) por meio de
rectângulos de igual largura e alturas proporcionais às respectivas grandezas. Este
gráfico é utlizado para representar a distribuição de frequências de variáveis
nominais e ordinais.
Características
 Todas as barras devem ter a mesma largura diferindo somente no
comprimento;
 Devem existir espaços iguais entre as barras, o qual esse espaço deve ser
suficente para que as inscrições que identificam as diferentes barras não
tragam confusão ao leitor.
Regras a ter em conta ao construir um gráfico de barras

 Podemos considerar o espaço entre as barras como aproximadamente a
metade ou dois terços da largura das barras.
13
 As barras devem ser desenhadas observando a sua ordem de grandeza, para
facilitar a leitura e análise comparativa dos valores.
Normalmente a ordem é decrescente, onde a barra superior representa o maior

valor da variável. Categorias gerais que costumam vir como ´´outros´´, aparecem
representados na barra inferior, mesmo que o seu cumprimento exceda o de
alguma outra categoria, pois, ela representa o agrupamento de classes
relativamente pouco importantes.
Exemplo 1: Consideremos a tabela abaixo que se refere a produção de milho nas

três regiões do país.
Região do país Produção de milho (Toneladas)
Norte 17350
Centro 12530
Sul 14550
Total 44430
14
Exemplo de Interpretação: a região Norte apresenta a maior produção de milho
com 17350 toneladas, sendo que a região Centro do país é a que produz menos
milho apresentado uma produção de 12530 toneladas.
Nota: para interpretação foi feita uma combinação dos dados que a tabela nos
apresenta (para a leitura dos valores) e o histograma.
2.3.1.2 Gráficos de barras Múltiplas

São gráficos que fazem a análise conjunta de duas ou mais variáveis por
população
Exemplo 2: Importação de frango e peixe provenientes de vários países-2007
País Importação (em 1000 toneladas)

Frango Peixe
Angola 1570 2800
Portugal 1040 950
Brasil 3500 1540
China 450 850
15
Exemplo de Interpretação: a China é o país que menos importa Frango e Peixe,
sendo que Portugal encontra-se em 2º lugar na lista dos países que menos
importam esses produtos. O Brasil é o maior importador de frango e 2º maior
importador de Peixe, enquanto que, Angola que se encontra no 1º lugar dos países
que mais importam peixe encontra-se em 2º lugar na lista dos países que mais
importam frango.
2.3.1.3 Gráficos circulares ou de sectores (Pie Charts)

Estes gráficos são também usados para representar a distribuição de frequências
de variáveis nominais e ordinais, como o gráfico de barras. No entanto, é mais
usado quando as categorias da variável em estudo são menores ou guais a 6, para
permitir uma melhor leitura, sem correr risco de distorcer a informação que o
gráfico nos apresenta, como também, quando se pretende dar ênfase à
comparação das percentagens de cada categoria.
A construção do gráfico de sectores segue uma regra de 3 simples, onde as

frequências de cada classe correspondem ao ângulo que se deseja representar,em
relação a frequência total que representa o total de 100% que corresponde a 360°
da área total do gráfico circular.
Total___________100%
Parte ___________ Xº
Características:
 A área do gráfico equivale á totalidade de casos (360° = 100%)
 Cada “fatia” representa a percentagem de cada categoria
Exemplo 3: Considerando o exemplo da produção de milho nas três regiões do

país podemos representar a informação da tabela num gráfico circular.
Norte Centro Sul
44430______100% 44430______100% 44430______100%
17350______ X° 12530______ X° 14550______ X°
16
X=39% X=28% X=33%
Exemplo de Interpretação: o que foi verificado na interpretação do histograma

no ponto 2.3.1.1, pode ser confirmado também através do gráfico circular acima
representado. A região do país que mais produziu milho foi a região Norte
ocupando 39% da produção, seguido da região Sul com 33%, sendo que a região
centro apresentou a menor produção de milho com 28% da produção total que o
país teve.
2.3.1.4 Histogramas:
É formado por um conjunto de rectângulos justapostos, cujas bases se localizam
sobre o eixo horizontal, de tal modo que seus pontos médios coincidam com os
pontos médios dos intervalos de classe. A área de um histograma é proporcional à
soma das frequências simples ou absolutas. Na linha horizontal (eixo das
abscissas) colocamos os valores da variável e na linha vertical (eixo das
ordenadas), as frequências. Este gráfico é utlizado para representar a distribuição
de frequências de varíaveis contínuas.
17
Características:
 Cada barra representa a frequência do intervalo respectivo;
 Os intervalos devem ter a mesma amplitude;
 As barras devem estar todas juntas.
2.3.1.5 Polígono de Frequência
Polígono de frequência é um gráfico no qual as frequências das classes são

localizadas sobre perpendiculares levantadas nos pontos médios das classes.
E pode ser obtido pela simples união dos pontos médios dos topos dos rectângulos
de um histograma.
Exemplo 4: Consideremos o exemplo da aula anterior sobre o tempo (T) em

minutos que consumidores (C) de uma determinada operadora de telefonia móvel
utilizariam em um mês.
i Classe Ponto Médio fi (consumidores) Fi F i (acima de)
(abaixo de)
1 69.2|---94.8 82 3 3 40
2 94.8|---120.4 107.6 8 11 37
3 120.4|---146.0 133.2 16 27 29
4 146.0|---171.6 158.8 7 34 13
5 171.6|---197.2 184.4 4 38 6
6 197.2|---222.8 210 2 40 2
Total ------- 40
18
Histograma
Exemplo de Interpretação: dos clientes entrevistados cerca de 16 gastam em

média 133.2 minutos (valor observado a partir do histograma) por mês ou gastam
entre 120.4 a 146.0 minutos (valor retirado a partir da tabela de frequências) por
mês numa determinada operadora de telefonia móvel, sendo que somente 2
clientes gastam em média 210 minutos por mês.
Polígono de Frequência correspondente ao histograma do exemplo anterior
19
2.3.1.6 Ogivas ou polígonos de frequências acumuladas
Os gráficos chamados de ogivas correspondem a um polígono de frequências
acumuladas, nas quais, estas frequências são localizadas sobre perpendiculares
levantadas nos limites inferiores ou superiores das classes, dependendo se a ogiva
representar as frequências acumuladas “abaixo de” ou “acima de”
respectivamente.
Exemplo 5: Consideremos o exemplo anterior. As duas últimas colunas
representam frequências acumuladas “abaixo de” e “acima de” respectivamente.
A partir delas podemos representar duas ogivas.
20
2.3.1.7 Gráficos de Linhas2
São usados para representar séries temporais, principalmente quando a série
cobrir um grande número de períodos de tempo.
Exemplo 6: Considere a série temporal da tabela abaixo, referente ao número de
toneladas de trigo e de milho produzidos no distrito PQR, durante os anos de 1970
a 1980.
Anos Toneladas de trigo Toneladas de milho

1970 200 75
1971 185 90
1972 225 100
1973 250 85
1974 240 80
1975 195 100
1976 210 110
1977 225 105
2
Este tipo de gráfico não será aplicado nas nossas aulas, por não estar contemplado no programa de
Estatística I. Aparece aqui por mera informação
21
1978 250 95
1979 230 110
1980 235 100
Gráfico de linhas
2.3.1.8 Gráficos de Linhas comparativas (múltiplas)

São utilizadas para estabelecer comparações entre duas ou mais séries temporais.
Exemplo 7: Considerando as duas séries, de trigo e milho, do exercício anterior
podem ser apresentadas graficamente no mesmo sistema de coordenadas
cartesianas.
Gráfico de linhas comparativas
22
Aula Teórica 04
Medidas de Posição
Medidas de Tendência Central
3. Introdução
Nas aulas anteriores vimos que atravês de uma distribuição de frequências se estabelece um
sistema que descreve o padrão de variação de um determinado fenômeno estatístico.
No entanto, há diversas medidas que complementam a descrição do conjunto de dados, dando
maior percepção das diferenças e semelhaças que os mesmos possuem, e permitindo
condensação da informação na fase analística da estatística descritiva.
As medidas de que falamos são as medidas de posição, medidas de dispersão e medidas de
assimetria e curtose.
As medidas de posição, mais concretamente as de Tendência Central ou promédias são as

medidas que serão abordadas ao longo da ficha. Os promédios, são assim denominados pelo
facto de haver uma tendência de os dados observados se agruparem em torno dos valores
centrais.
Dentro do grupo das medidas de tendência central temos a média, a moda, a mediana , que são
as 3 medidas de tendência central mais usadas para resumir o conjunto de valores
representativos do fenômeno que se deseja estudar e serão as abordadas ao longo da ficha.
3.1.Média
É a medida de tendência central mais usada para descrever resumidamente uma
distribuição de frequências. Esta medida dá-nos a informação de qual é o valor que
representa o ponto de equilíbrio de determinado conjunto de dados.
Apesar da existência de vários tipos de média como a aritmética, harmônica,
geométrica, quadrática e outros, nesta ficha iremos abordar somente como se calcula
e interpreta o valor da média aritmética.
3.1.1. Média Aritmética

Simbolo: x (lê-se x barra)
A média aritmética de um conjunto de dados somente pode ser calculada para
variáveis quantitativas (tanto discretas quanto contínuas) e pode ser simples ou
ponderada.
a. Média aritmética simples
23
A média aritmética simples é aquela em que todos valores do conjunto de dados
apresentam igual peso.
O seu cálculo é igual ao quociente entre a soma dos valores do conjunto e o
número total de valores, isto é, é igual a soma de cada um dos valores pertencentes
ao conjunto de números, pelo número total de observações. Genericamente,
podemos escrever:
 xi
i 1
x  (1)
n
Onde xi : valor genérico da observação;

n número total de observações;
Exemplo 1: Num escritório de advogacia há cinco advogados estagiários auferindo
um salário de USD 820, 810, 790, 800 e 780 cada um deles.
O salário médio mensal dos advogados estagiários, de acordo com a definição, será
n
 xi
820  810  790  800  780 4000
i 1
de: x     800
n 5 5
Inerpretação: o salário médio dos advogados estágiários do escritório de

advogados é de USD 800, ou, em média o salário mensal dos advogados estágiáros
é de USD 800.
Nota: A média aritmética simples será calculada sempre que os dados aparecerem
na forma de dados brutos.
b. Média aritmética ponderada

A média aritmética é considerada ponderada quando os valores do conjunto de
dados apresentarem pesos diferentes. Para o seu cálculo faz-se o quociente entre o
produto de cada valor do conjunto de dados pelo seu peso e a soma dos pesos.
 xi * wi
i 1
x  n
onde wi representa o peso (2)
 wi
i 1
24
Exemplo 2: Nos cursos lecionados na Universidade XYZ a direcção académica
decretou que por semestre deviam ser realizados dois testes e dois mini-testes, cada
um deles com o seguinte peso, 0.40 para cada teste e 0.10 para cada mini-teste. Um
estudante que durante o semestre em determinada cadeira tiver tido 15 e 13 nos
testes e 17 e 15 nos mini-testes, a sua média de frequência para o exame será:
 xi * wi
 0 . 40 * 15    0 . 40 * 13    0 . 10 * 17    0 . 10 * 15  14 . 4
i 1
x     14
0 . 40  0 . 40  0 . 10  0 . 10
n
1
 wi
i 1
Interpretação: a média de frequência para o exame do estudante em causa será de

14 valores.
c. Média aritmética para dados agrupados em uma distribuição de frequência de

valores simples
Quando os dados estiverem agrupados numa distribuição de frequência de valores
simples, a média aritmética será o quociente entre o produto de cada valor do
conjunto de dados pela sua frequência e o número total de observações.
 xi * fi
n

i 1
x  onde n  fi (3)
n i 1
Exemplo 3: usando o enunciado do exercício 3 da aula prática 2, sobre o número de

irmãs de alguns estudantes do curso de Contabilidade e Auditoria da USTM,
podemos calcular a média do número de irmãs por estudantes com a fórmula 3,
visto que os dados estão apresentados por distribuição de frequências de valores
simples
i Nº Nº de xi * fi
de estudantes
irmãs fi
xi
1 0 3 0
2 1 9 9
3 2 9 18
4 3 3 9
Total 24 36
25
n
 xi * fi
0  9  18  9 36
i 1
x     1 .5  2
n 24 24
Interpretação: os estudantes entrevistados do curso de Contabilidade e Auditoria
da USTM têm em média duas irmãs OU o número médio de irmãs dos estudantes
entrevistados do curso de Contabilidade e Auditoria da USTM é de duas irmãs.
d. Média aritmética para dados agrupados em uma distribuição de frequência por

classes
Quando os dados estiverem agrupados numa distribuição de frequência por classe,
a média aritmética será o quociente entre o produto do ponto médio de cada classe
pela sua frequência e o número total de observações.
n
 xi * fi
i 1
A fórmula será igual a fórmula 3 apresentada: x 
n
Exemplo 4: considere o enunciado do exemplo 7 da ficha teórica 2, sobre o tempo
(T) em minutos que os consumidores (C) de determinada operadora utilizaraiam em
um mês.
n
 xi * fi
5507 . 2
i 1
x    137 . 68
n 40
Interpretação: O tempo médio que os consumidores (os entrevistados) de uma

determinada operadora de telefonia móvel usariam em um mês é de 137.68
minutos.
I Classe PM de xi fi (C) xi * fi
1 69.2|---94.8 82 3 246
2 94.8|---120.4 107.6 8 860.8
3 120.4|---146.0 133.2 16 2131.2
4 146.0|---171.6 158.8 7 1111.6
5 171.6|---197.2 184.4 4 737.6
6 197.2|---222.8 210 2 420
Total ------- 40 5507.2
26
Propriedades da Média Aritmética
1. A soma algébrica dos desvios de um conjunto de números tomados em
n n
relação à média aritmética é zero:  di   x i

 x 0
i 1 i 1
2. Somando-se (ou subtraindo-se) um valor constante e arbitrário (k) a cada um

dos elementos de um conjunto de números, a média aritmética fica somada
(ou subtraída) por essa constante. x   x  k x
3. Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de

números por um valor constante e arbitrário (k), a média aritmética fica
x
multiplicada (ou dividida) por essa constante: x   kx ou x 
k
Características da Média Aritmética

1. É muito influenciada pelos valores extremos da distribuição
2. Localiza-se em geral na classe de maior frequência
3. É única para um conjunto de dados
3.2.Moda
Símbolo: Mo ou Xˆ
A Moda é uma medida de tendência central que nos dá a informação acerca do

valor que ocorre com maior frequência em um conjunto de dados. Quanto a
classificação da moda, um conjunto de dados pode apresentar uma distribuição:
Unimodal ou modal – quando possui um único valor de maior frequência
Exemplo 5: no seguinte conjunto de dados 3, 7, 8, 8, 11 possuimos somente um
valor que com maior frquência, que é o valor 8. Estamos perante uma distribuição
modal com Mo=8
Bimodal – quando possui dois valores com o maior e igual número de frequência
Exemplo 6: no seguinte conjunto de dados 3, 3, 7, 8, 8, 11 possuimos 2 valores com
igual valor de frequência que são o 3 e 8. Estamos perante uma distribuição bimodal
com Mo= 3 e 8
Amodal – quando não ocorre um valor de maior frequência
27
Exemplo 7: no seguinte conjunto de dados 3, 7, 8, 10, 11 não possuimos nenhum
valor de maior frequência que os outros, por isso, estamos perante uma distribuição
amodal.
A moda pode ser verificada em variáveis quantitativas (contínuas e discretas) e

variáveis qualitativas ordinais.
e. Cálculo da moda de valores não agrupados

Para os dados não agrupados em classe a determinação da moda é feita observando
qual é o valor que aparece mais vezes.
Vide os exemplos 5, 6 e 7
f. Cálculo da moda de dados agrupados em distribuição de frequências por valores

simples
Para este tipo de distribuição, a identificação da moda e feita pela observação do

elemento que apresenta maior frequência.
Exemplo 8: tomando os dados do exemplo 3, verificamos que estamos perante um
conjunto de dados que possue dois valores com igual e o maior número de
frequências, isto é, fi=9 então Mo=1 e 2. Estamos perante uma distribuição bimodal.
Interpretação: verifica-se que há maior frequência de estudantes com 1 e 2 irmãs.
g. Cálculo da moda de dados agrupados em distribuição de frequências por classes
f post
M 0
 l mo  *c
f ant  f post
Onde:
lmo – limite inferior da classe modal (é a classe que apresenta a maior frequência)
fpost – frequência absoluta simples posterior à classe modal
fant - frequência absoluta simples anterior à classe modal
c – amplitude do intervalo de classe
exemplo 9: usando os dados do exemplo 4, calcule a moda.

a maior frequência é igual a 16 e encontra-se na 3ª classe,logo, a classe modal é
120.4|---146.0. assim:
lmo= 120.4
fpost= 7
28
fant=8
c=25.6
f post 7
M 0
 l mo  * c  120 . 4  * 25 . 6  132 , 35
f ant  f post
8 7
Interpretação: o tempo em minutos mais observado no conjunto de dados é de

132,35minutos
3.3.Mediana
~
Símbolo: Md ou X
A Mediana é o valor real que separa os dados em ROL em duas partes , deixando à
sua esquerda o mesmo número de elementos que à sua direita, isto é, é o valor que
divide a distribuição de dados de tal modo que 50% dos dados sejam superiores à
mediana e 50% sejam inferiores. Por isso é também chamada de separatriz.
A moda pode ser verificada em variáveis quantitativas (contínuas e discretas) e

variáveis qualitativas ordinais.
h. Cálculo da Mediana de valores não agrupados

Para o cálculo da Mediana de valores não agrupados, é essencial que os mesmos
estejam organizados em ROL.
O Nº de observações é impar
Quando o número total de observaçoes é ímpar, o valor mediano é o que se
 n 1
encontra na posição encontrada por  
 2 
Exemplo 10: considerando os dados em Rol, do exemplo 1, sobre o salário dos
advogados estagiários ndo escritório de advogados: 780, 790, 800, 810 e 820
 n 1 5 1
verificamos que o valor mediano é o que se encontra na       3
 2   2 
posição, Md=800
Interpretação: 50% dos advogados estagiários do escritório de advogados auferem
um salário até 800 usd e os outros 50% auferem um salário acima de 800usd
i.
O Nº de observações é par
29
Para este caso são encontradas duas posições no rol de dados, atravês das
 n  n 
expressões:   e   1 . Após encontrada essas posições, a Mediana é
 2   2 
convencionada como sendo a média aritmética dos valores que ocupam essas
posições centrais.
Exemplo 11: Suponha que foi contratado mais um advogado estagiário para o
escritório de advogados, aumentando para 6 os advogados estagiários e que este
último aufere um salário de 700usd. Determine a mediana do conjunto de salários
dos estágiários.
700, 780, 790, 800, 810 e 820

n 6 n  6 
      3 e   1    1  4
2 2 2  2 
Na 3ª e 4ª posição temos os valores 790 e 800. sendo assim
3a  4 a 790  800
Md    795
n 2
Interpretação: 50% dos advogados estagiários do referido escritório auferem um
salário igual ou inferior a 795usd.
j. Cálculo da Mediana de dados agrupados em uma distribuição de frequências por

valores simples
Para dados distribuidos em frequência por valores simples, primeiro deve-se

verificar se o valor da frequência total (nº total de valores observados) é impar ou
par, e dependendo do caso, aplicamos as fórmulas apresentadas para o cálculo de
Md de número ímpar e par
Exemplo 11: usando os dados do exemplo 3, verificamos que o número total de
 n   24 
observações é o 24, que é um número par. Entao temos:       12 e
 2  2 
n   24 
  1    1   13
2   2 
Para localizar os valores correspondetes a essas posições, construímos a tabela de

frequências acumuladas e facilmente conseguimos verificar que na 12ª posição
temos o valor 1 e na 13ª posição temos o valor 3, então
12 a  13 a 1 2
Md    1 .5  2
n 2
30
Interpretação: 50% do estudantes de Contabilidade e Auditoria possuem mais que
duas irmãs e outros 50% possuem duas ou menos irmãs.
i Nº de Nº de Fi
irmãs estudantes
xi fi
1 0 3 3
2 1 9 12
3 2 9 21
4 3 3 24
Total 24 36
k. Cálculo da Mediana de dados agrupados em uma distribuição de frequências por

classes
Procedimentos para o cálculo da Md

n
1. Calcular a posição do valor da Mediana: E Md

2
2. Identificar a classe que contém o valor da mediana atravês da coluna
de frequência acumulada
n
 F ant
2
3. Aplicar a fórmula M d
 l Md  *c
f Md
Onde:
l Md – limite inferior da classe mediana
n – número total de observações

F ant – frequência acumulada da classe anterior à classe mediana
f Md – frequência absoluta simples da classe mediana

c – amplitude de itnervalo de classe
Usando os dados do exemplo 4, calcular o valor da Mediana
I Classe fi (C) Fi
1 69.2|---94.8 3 3
2 94.8|---120.4 8 11
3 120.4|---146.0 16 27
4 146.0|---171.6 7 34
31
5 171.6|---197.2 4 38
6 197.2|---222.8 2 40
Total ------- 40
n 40
E Md    20
2 2
O vigésimo elemento está situado na 3ª classe (a 3ª classe engloba do 12º elemento
ao 27º elemento), por isso, a 3ª classe será a classe mediana. Então:
Dados:
l Md =120.4
n=40
F ant =11
f Md =16
c=25.6
n
 F ant
2 20  11
M d
 l Md  * c  120 . 4  * 25 . 6  120 . 4  14 . 4  134 . 8
f Md 16
Interpretação: 50% dos inqueridos falariam acima de 134.8 minutos por mês e os
restantes 50% falariam até 134.8 minutos
Md=Q2=P50
Q1=P25
Q3=P75
Relação empírica entre Média, Moda e Mediana

Distribuição Relação
Simétrica x  Md  Mo
Assimétrica positiva (à direita) x  Md  Mo
Assimétrica negativa (à esquerda) x  Md  Mo
Aula Teórica 05
Medidas de Posição
Medidas de Tendência Central
3.4.Quartis, Decis e Percentis (Centis)
32
Para além das medidas de tendência central já apresentadas, há outras que
individualmente não são medidas de tendência central, mas estão ligadas à
mediana, relativamente a sua característica como separatriz de determinado
conjunto de dados organizado em rol. Estamos a falar dos Quartis, Decis e
Percentis.
3.4.1. Quartis ( Q i )
Os quartis dividem a distribuição de um conjunto de dados em 4 partes iguais,
sendo que existem 3 quartis:
O Q1 divide os dados em duas partes, sendo que 25% dos valores encontram-se
abaixo dele e 75% acima dele.
O Q 2 divide os dados em duas partes iguais, pois coincide com a Mediana. Neste
caso, 50% dos valores encontram-se abaixo dele e 50% acima dele.
O Q 3 divide os dados em duas partes, sendo que 75% dos valores encontram-se
abaixo dele e 25% acima dele.
Procedimentos para o cálculo dos Quartis

i*n
1. Calcular a posição do quartil: EQ  , onde i=1, 2 e 3
4
2. Identificar a classe que contém o valor do quartil calculado no ponto anterior,
através da coluna de frequência acumulada – classe Q i
3. Calcular o valor do quartil com a fórmula:
i*n
 F ant
4
Q i  lQ  *c (1)
i
fQ
i
Onde:
l Q – Limite inferior da classe quartílica
i
n – Número total de observações

F ant – Frequência acumulada da classe anterior à classe quartílica
fQ
i
– Frequência absoluta simples da classe quartílica
c – amplitude de intervalo de classe quartílica
Exemplo 1: com os dados da tabela abaixo, sobre o tempo em minutos que

consumidores entrevistados de determinada operadora de telefonia móvel iriam
falar durante um mês, calcule 1º quartil ( Q 1 )
33
i Classe fi (C) Fi
1 69.2|---94.8 3 3
2 94.8|---120.4 8 11
3 120.4|---146.0 16 27
4 146.0|---171.6 7 34
5 171.6|---197.2 4 38
6 197.2|---222.8 2 40
Total ------- 40
i*n 1 * 40
1. EQ    10
4 4
2. A Classe Q1=10 é 69.2|---94.8
i*n
 F ant
4 10  0
3. Q1  lQ  * c  69 . 2  * 25 . 6  69 . 2  85 . 33  154 . 53
1
fQ 3
1
Interpretação: 25% dos entrevistados iriam falar menos que 154.53 minutos
durante um mês, ou, 75% dos entrevistados iriam falar mais que 154.53 minutos
durante um mês.
3.4.2. Decis ( D i )
Os decis dividem a distribuição de um conjunto de dados em 10 partes iguais,
sendo que existem 9 decis.
Procedimentos para o cálculo dos Decis
i*n
1. Calcular a posição do decil: ED  , onde i=1, 2, 3, …, 9
10
2. Identificar a classe que contém o valor do decil calculado no ponto anterior,
através da coluna de frequência acumulada – classe D i
3. Calcular o valor do decil com a fórmula:
i*n
 F ant
10
D i  lD  *c (2)
i
fD
i
34
Onde:
l D – Limite inferior da classe do decil
i

F ant – Frequência acumulada da classe anterior à classe do decil
fQ
i
– Frequência absoluta simples da classe do decil
c – amplitude de intervalo da classe do decil
Exemplo 2: usando os dados do exemplo 1, calcule o decil 7 ( D 7 )

i*n 7 * 40
1. ED    28
10 10
2. A Classe D7=28 é 120.4|---146.0
i*n
 F ant
10 28  11
3. D 7  lD  * c  120 . 4  * 25 . 6  120 . 4  27 . 2  147 . 6
7
fD 16
7
durante um mês.
3.4.3. Percentis ( Pi )
Os percentis dividem a distribuição de um conjunto de dados em 100 partes
iguais, sendo que existem 99 centis:
Procedimentos para o cálculo dos Percentis
i*n
1. Calcular a posição do percentil: EP  , onde i=1, 2, 3, …, 98,99
100
2. Identificar a classe que contém o valor do percentil calculado no ponto
anterior, através da coluna de frequência acumulada – classe Pi
3. Calcular o valor do percentill com a fórmula:
i*n
 F ant
100
Pi  l P  *c (3)
i
fP
i
Onde:
l P – Limite inferior da classe do percentil
i
35
F ant – Frequência acumulada da classe anterior à classe do percentil
fP
i
– Frequência absoluta simples da classe do percentil
c – amplitude de intervalo da classe percentil
Exemplo 3: usando os dados do exemplo 1, calcule o percentil 30 ( P30 )

i*n 30 * 40
1. EP    12
30
100 100
2. A Classe P30=12 é 94.8|---120.4
i*n
 F ant
100 12  3
3. P 30  l P  * c  94 . 8  * 25 . 6  94 . 8  28 . 8  123 . 6
30
fP 8
30
durante um mês.
Após o cálculo dos quartis, decis e percentis, podemos verificar que:
Md=Q2=P50
Q1=P25
Q3=P75
Aula Teórica 06
Medidas de Dispersão ou variabilidade
4. Introdução
Como foi visto anteriormente, podemos sintetizar um conjunto de observações em

alguns valores representativos como média, mediana, moda e quartis. No entanto, é
importante realçar que a análise completa dos dados não requer apenas sua
apresentação através de gráficos e tabelas ou o cálculo de medidas de posição. Por
exemplo, caracterizar um conjunto de valores apenas através da média é descreve-lo
inadequadamente, pois os dados diferem entre si em maior ou menor grau.
36
Suponhamos que aplicado o mesmo teste de estatística 1 a duas turmas do 2º ano de
gestão que tiveram as aulas com o mesmo docente, ambas tivessem tido média 14.
Baseando-nos nesse dado, diríamos que as duas turmas possuem o mesmo nível de
conhecimento, mas analisando atentamente as notas das duas turmas, poderia dar-se
o caso de os estudantes da turma 1 terem tido todos eles 14 revelando
homogeneidade de conhecimento, enquanto que, na turma 2 as notas variaram de 7 a
18, mostrando maior heterogeneidade de conhecimento onde os valores extremos
contribuíram muito para que a média da turma fosse boa.
Por causa de situações como as descritas acima, torna-se necessário visualizar como
os dados estão dispersos. Para tal, iremos fazer uso das chamadas medidas de
dispersão.
As medidas de dispersão são utilizadas para medir o grau de variabilidade, ou
dispersão dos valores em torno da média aritmética. Servem para medir a
representatividade da média e proporcionam conhecer o nível de homogeneidade ou
heterogeneidade dentro de cada grupo analisado, permitindo estabelecer
comparações entre fenómenos da mesma natureza e mostrando até que ponto os
valores se distribuem acima ou abaixo da média
As medidas de dispersão podem ser absolutas e relativas. A presente ficha irá

debruçar-se sobre o modo de cálculo e interpretação da Variância e Desvio padrão
(medidas de dispersão absolutas) e Coeficiente de variação (medida de dispersão
relativa) que são as mais comuns.
4.1. Variância
Símbolo: Variância populacional:  2  ; Variância amostral:  s 2 

A variância é a média aritmética dos quadrados dos desvios tomados em relação a
média aritmética de um conjunto de números.
4.1.1. Variância de dados não agrupados (Dados brutos)
Seja o seguinte conjunto de números: X   x 1 , x 2 , ... , x n  . A variância deste conjunto

será definida por:
N 2 n 2
 x i
    x i
 x
i 1 i 1
  
2 2
(1) s (2)
N n 1
Variância populacional Variância amostral
4.1.2. Variância de dados agrupados (Dados tabulados)
Quando os dados estiverem agrupados numa distribuição de frequência simples,

usaremos a variância dos valores x 1 , x 2 , ..., x n ponderados pelas respectivas
37
frequências absolutas f 1 , f 2 , ..., f n ou então, quando os dados estiverem agrupados
numa distribuição de frequência por classes usaremos a variância dos pontos médios
x 1 , x 2 , ..., x n de cada classe, ponderadas pelas frequências absolutas f 1 , f 2 , ..., f n
N 2 n 2
 xi    * fi  xi  x  * fi
i 1 i 1
  
2 2
(3) s (4)
N n 1
Variância populacional Variância amostral
4.2. Desvio padrão
Símbolo: Desvio padrão populacional   ; Desvio padrão amostral  s 

Como a variância é calculada a partir dos quadrados dos desvios, ela é um número que
apresenta a unidade elevada ao quadrado em relação à variável que não está elevada ao
quadrado; isto se torna um inconveniente em termos de interpretação do resultado. Por
isso, definiu-se uma nova medida com mais utilidade e interpretação prática, o desvio-
padrão.
O desvio padrão dá-nos a idéia de o quão os valores estão próximos ou dispersos do

valor da média, facilitando assim, a percepção da homogeniedade ou heterogeniedade
dos dados.
É definido como sendo a raiz quadrada da média aritmética dos quadrados dos
desvios em relação a média aritmética de um conjunto de números, isto é, é somar
cada diferença do valor do conjunto de dados pela média, elevada ao quadrado, e
dividi-la pelo número total de observações, isto é, o desvio padrão é a raiz quadrada da
variância.
N
 x 
2
i
 
i 1
  (3)
N
Da mesma maneira quando os dados estiverem agrupados numa distribuição de
frequência usaremos a fórmula:
N
 x 
2
i
  * fi
i 1
  (4)
N
Observação:
Quando se trabalha com uma amostra e não com uma população, como acontece na
grande maioria das situações relacionadas com a inferência estatística, ou então
quando o número de observações não é grande  n  30  , o denominador das
expressões (5) e (6) será igual a (n-1), desvio padrão, e não (n) para obter uma melhor
38
estimativa do parâmetro da população e o símbolo do desvio padrão será representado
por s e não  .
n n
 x  x  x  x  * fi
2 2
i i
i 1 i 1
s  (5) s  (6)
n 1 n 1
Para valores grandes de n não há grande diferença entre o resultado proporcionado
pela utilização de qualquer dos divisores, n ou n 1.
Exemplo 1: considerando o exemplo 1 da aula teórica 4, sobre os salários que 5

advogados estagiários auferem, após termos calculado o salário médio, vamos
analisar, qual a variância e o desvio médio que os salários apresentam.
A  820 , 810 , 790 , 800 , 780 
Resolução:
Primeiro: cálculo da média do conjunto de dados que é igual a 8003
Segundo: cálculo dos desvios quadráticos dos valores em relação a média

xi xi  x  xi  x 
2
780 -20 400

790 -10 100
800 0 0
810 10 100
820 20 400
Total 1000
Pela fórmula calculemos a variância: De referir que o tamanho da amostra é 5,

portanto n  30
n 2
 x i
 x
1000 1000
i 1
    250
2
s
n 1 5 1 4
Para calcular o desvio padrão basta tirar a raiz quadrada da variância:

s   250  15 . 81
2
s
Interpretação: o salário médio dos advogados estagiários apresenta um desvio médio de

15.81 usd, o que significa que os salários dos advogados estagiários podem ter uma
3
Resultado obtido no cálculo da média para dados brutos, na aula teórica 4
39
variação de até 15.81 usd acima ou abaixo da média, isto é, os salários podem rondar em
média entre 784.19 usd e 815.81 usd.
Exemplo 2: Calcular o desvio padrão da distribuição de frequências do consumo de

energia eléctrica (kwh)
Consumo Nº de usuários xi  x xi  x xi  x  * fi

2 2
xi xi * fi
fi
5|---25 4 15 60 -64.5 4160.25 16641
25|---45 6 35 210 -44.5 1980.25 11881.5
45|---65 14 55 770 -24.5 600.25 8403.5
65|---85 26 75 1950 -4.5 20.25 526.5
85|---105 14 95 1330 15.5 240.25 3363.5
105|---125 8 115 920 35.5 1260.25 10082
125|---145 6 135 810 55.5 3080.25 18481.5
145|---165 2 155 310 75.5 5700.25 11400.5
80 6360 80780
 xi * fi
6360
i 1
x    79 . 5
n 80
Como n >30, então:

n 2
 x i
 x  * fi
80780
i 1
   1009 . 75 kwh
2 2
s
n 1 80
Para calcular o desvio padrão basta tirar a raiz quadrada da variância:

s   1009 . 75  31 . 7765 kwh
2
s
Interpretação: O desvio médio em relação a média de consumo da energia eléctrica é

de 31.7765 kwh, isto é, o consumo médio de energia eléctrica pode ter uma variação
de até 31.7765 Kw/h acima ou aaixo da média.
Condições para se usar o desvio-padrão ou variância para comparar variabilidade

entre grupos:
 Mesmo número de observações;
 Mesma unidade de medida; e
 Mesma média.
4.3. Coeficiente de variação
40
Como foi dito, a variância e o desvio padrão são medidas de dispersão absolutas, deste
modo só podem ser utilizadas para comparar a variabilidade de dois ou mais conjuntos
de dados quando estes apresentarem a mesma média, mesmo número de observações e
estiverem expressos nas mesmas unidades.
Para comparar dois ou mais conjuntos de valores, relativamente à sua dispersão ou

variabilidade, quando estão expressas em unidades de medida diferentes, podemos
usar a medida de dispersão relativa denominada coeficiente de variação, que é igual
ao quociente entre o desvio padrão e a média aritmética.
s
CV  (7)
x
Muitas vezes a fórmula é expressa em percentagem:
s
CV  * 100 (8)
x
Exemplo de uma aplicação do coeficiente de variação:

Considere uma distribuição com média/valor médio igual a 40 e um desvio padrão
igual a 4. Considere agora uma outra distribuição com média/valor médio igual a 5 e
um desvio padrão igual a 4.
Repare-se que o desvio padrão na segunda distribuição tem um peso muito mais
significativo do que na primeira, isto é, a dispersão na 2ª distribuição tem maior efeito
que na 1ª, e no entanto, este é igual em ambas. Ao se determinar o coeficiente de
variação é possível saber de que forma o desvio padrão está para a/o média/valor
médio.
4 4
Nos exemplos dados, o coeficiente de variação é respectivamente  0 ,1 e  0 ,8
40 5
= 0,8 . Ao se interpretar estes valores pode-se afirmar que, na primeira distribuição,
em média, os desvios relativamente à média atingem 10% do valor desta. Na segunda
distribuição, porém, os desvios relativamente à média atingem, em média, 80% do
valor desta. As percentagens mostram o peso do desvio padrão sobre a distribuição.
Classificação da distribuição quanto à dispersão:
Dispersão baixa: CV  15 %
Dispersão média: 15 %  CV  30 %
Dispersão alta: CV  30 %
Exemplo3: Numa empresa o salário médio dos funcionários de sexo masculino é de

4000 Mt com um desvio padrão de 1500 Mt, e o dos funcionários do sexo feminino é
em média de 3000 Mt, com um desvio padrão de 1200. Então:
41
s 1500
Sexo masculino: CV  * 100  * 100  37 . 5 %
x 4000
s 1200
Sexo feminino: CV  * 100  * 100  40 %
x 3000
Interpretação: Podemos concluir que o salário médio das mulheres apresenta maior
dispersão relativa (maior variabilidade) em relação a média dos salários, em relação ao
salário médio dos homens, podendo atingir uma dispersão de até 40%.
Quanto a dispersão podemos afirmar que ambos os sexos possuem uma dispersão alta
em relação aos seus valores médios, pois, os seus CV´s estão acima de 30%.
Exemplo 4: Um teste de estatística aplicado a dois grupos de estudantes sendo a

classificação de 0 a 10 valores, apresentou os seguintes resultados:
Grupo Médias das notas (de 0-10) Desvio padrão das notas
A 6 2
B 6.2 1.5
Observando estes dados, podemos constatar que as notas são expressas na mesma
unidade de medida, e suas médias são quase iguais ou muito próximas. Neste caso é
válido comparar os valores de s, não se obtendo informação adicional significativa
com o uso do CV. Por isso, não há necessidade de muito esforço de raciocínio para
concluir que o grupo B apresentou menos dispersão em relação ao grupo A, tanto em
termos absolutos como relativos.
Aula Teórica 07
Medidas de Assimetria e Curtose
As distribuições de freqüências não diferem apenas quanto ao valor médio e a

variabilidade, como também quanto a sua forma. Por esse motivo é que as
medidas de assimetria e curtose são as que restam para completarmos o quadro
das estatísticas descritivas, que proporcionam, juntamente com as medidas de
posição e dispersão, a descrição e compreensão completas da distribuição de
frequências estudadas.
4.4.Medidas de assimetria
As medidas de assimetria referem-se à forma da curva de uma distribuição de

frequências, mais especificamente do polígono de frequência ou do histograma.
Quanto ao grau de deformação, as curvas de frequência podem ser:
a) Simétrica
42
b) Assimétrica Positiva
c) Assimétrica Negativa
4.4.1. Simetria
Uma distribuição de frequência é simétrica quando a média, mediana e moda são
iguais, ou seja, apresentam um mesmo valor, ou ainda, coincidem num mesmo
ponto.
a) Curva ou Distribuição de Frequências Simétrica

Neste caso, conforme citado anteriormente, a média aritmética será igual à
mediana, e esta, por sua vez, igual à moda. Assim:
x  Mo  Md
4.4.2. Assimetria
Significa desvio ou afastamento da Simetria. Assimetria é o grau de deformação

de uma curva de frequências.
Uma distribuição de frequências é chamada assimétrica, quando a média, mediana
e a moda recaem em pontos diferentes da distribuição, isto é, apresentam valores
diferentes, sendo que o deslocamento desses pontos podem ser para a direita ou
para a esquerda.
b) Curva ou Distribuição de Frequências Assimétrica Positiva
Uma distribuição com deformação positiva apresenta-se com uma cauda mais
alongada à direita da ordenada máxima (ordenada correspondente a moda) do que
à esquerda. Neste tipo de distribuições, há uma predominância de valores
superiores ao valor da moda. Os valores da moda concentram-se na extremidade
inferior da escala.
Sendo assim, a moda apresentará um valor menor que a mediana, e esta por sua
vez apresentará um valor menor que a média aritmética. Assim:
Mo  Md  x
43
c) Curva ou Distribuição de Frequências Assimétrica Negativa
Uma distribuição com deformação negativa apresenta-se com uma cauda

alongada à esquerda do que a direita da ordenada máxima. Neste tipo de
distribuições, há uma predominância de valores inferiores ao valor da moda.
Sendo assim a média aritmética será menor do que a mediana, e esta, por sua vez,
é menor do que a moda. Assim:
x  Md  Mo
I. Como avaliar o grau de assimetria ou deformação de uma variável
Existem vários critérios que nos podem auxiliar na avaliação do grau de

assimetria de uma variável, como por exemplo, o critério de Bowlley, critério de
Kelley, coeficiente de Pearson e mais. No entanto, iremos aprender a avaliar o
grau de deformação das variáveis a partir do Método de comparação entre
medidas de Tendência Cetral e o 1º coeficiente de Pearson.
i. Método de Comparação entre Medidas de Tendência Central
Trata-se do método mais rudimentar, o qual não permite estabelecer até que ponto
a curva analisada se desvia da simetria. A comparação é bem simples.
 x  Mo  Assimetria Positiva
 x  Mo  Simetria
 x  Mo  Assimetria Negativa
Exemplo 1:
44
Verificar o tipo de assimetria da distribuição de frequências do tempo médio que
40 consumidores de uma empresa de telefonia móvel iriam falar por minuto em um
mês (exemplo 4 da AT4):
i Classe PM xi  x i  x  * fi xi  x  * fi

2 2 4
fi xi * fi  x
de xi (C)
1 69.2|---94.8 82 3 246 3131,6 9394,92 28834880,8
4 5
2 94.8|---120.4 107.6 8 860.8 904,81 7238,48 6549396,97
3 120.4|---146.0 133.2 16 2131.2 20,07 321,12 6445,14
4 146.0|---171.6 158.8 7 1111.6 446,05 3122,35 1392751,69
5 171.6|---197.2 184.4 4 737.6 2182,7 8731,04 19057736,9
6 3
6 197.2|---222.8 210 2 420 5230,1 10460,36 54709615,8
8 7
Total ------- 40 5507.2 39268,27 110550827,
4
 xi * fi
5507 . 2
i 1
x    137 . 68
n 40
A maior frequência é igual a 16 e encontra-se na 3ª classe,logo, a classe modal é

120.4|---146.0. assim:
f post 7
M 0
 l mo  * c  120 . 4  * 25 . 6  132 , 35
f ant  f post
8 7
Os dados da tabela 1 possuem uma distribuição assimétrica positiva, pois:

x  137 . 68 ; Mo  132 . 35  x  Mo
ii. Critério de Pearson
Quando uma distribuição deixa de ser simétrica, a Mo, a Md e a média aritmética

vão se afastando, aumentando cada vez mais a diferença entre a x e a Mo (
45
x  Mo ). Podemos usá-la para medir assimetria, porém é melhor usarmos em
termos relativos.
a) Primeiro Coeficiente de Assimetria de Pearson
onde:
e – Coeficiente de Assimetria;
x – média aritmética;
Mo – Moda;
 - desvio-padrão
Classificação da assimetria
e<0 - distribuição assimétrica negativa
e>0 - distribuição assimétrica positiva
e=0 - distribuição simétrica
Nota: é difícil encontrar curvas com grau superior a (-1;+1)
Exemplo 2:
Usando o 1º coeficiente de assimetria, verifique a assimetria dos dados da tabela do
exemplo 1.
Dados
x  137 . 68 ; Mo  132 . 35
40 2
 xi  x  * fi
39268 , 27
i 1
    981 , 71  31 , 33
n 40
x  Mo 137 , 68  132 , 35
e    0 . 17
 31 . 33
e=0.17>0 então estamos perante uma distribuição assimétrica positiva.
4.5. Curtose (k)
A Curtose ou excesso indica até que ponto a curva de frequências de uma

distribuição se apresenta mais afilada ou mais achatada do que uma curva padrão,
denominada curva normal, isto é, a curtose só é verificada em curvas de
frequências com um padrão normal (com uma distribuição simétrica).
O que significa analisar um conjunto quanto à Curtose? Significa apenas verificar

o “grau de achatamento da curva”. Ou seja, saber se a Curva de Frequência que
representa o conjunto é mais “afilada” ou mais “achatada” em relação a uma
Curva Padrão, chamada de Curva Normal!
46
De acordo com o grau de curtose, podemos ter três tipos de curvas de freqüência.
a) Curva ou Distribuição de Frequências Mesocúrtica

Quando a curva de frequências apresenta um grau de achatamento equivalente ao
da curva normal.
b) Curva ou Distribuição de Frequências Platicúrtica

Quando uma curva de freqüências apresenta um alto grau de achatamento, inferior
ao da normal.
c) Curva ou Distribuição de Frequências Leptocúrtica

Quando uma curva de freqüências apresenta um alto grau de afilamento, superior
ao da normal.
Curva Leptocúrtica
Curva Mesocúrtica
Curva Platicúrtica
Observações:
1. Quando se trata de Curtose, não há como extrairmos uma conclusão sobre
qual será a situação da distribuição – se mesocúrtica, platicúrtica ou
leptocúrtica – apenas conhecendo os valores da Média, Moda e Mediana.
2. Não existe uma relação entre as situações de Assimetria e as situações de

Curtose de um mesmo conjunto, isto é, Assimetria e Curtose são medidas
independentes e que não se influenciam mutuamente.
Como avaliar o grau de assimetria ou deformação de uma variável

Há vários métodos para avaliar a curtose de uma distribuição de frequências.
Nesta ficha será abordado somente o Coeficiente Momento de Curtose.
i. Coeficiente Momento de Curtose
O coeficiente momento de curtose usa o coeficiente entre o momento centrado de

quarta ordem e o quadrado do momento centrado de segunda ordem.
47
m4 m4
b2  2
 4
m2 s
- m4 é o Momento de 4a Ordem Centrado na Média Aritmética; e

 
2
m2  s  s
2 2 4
- é o Desvio-Padrão do conjunto, elevado à quarta potência.
Se b2=3 distribuição ou curva mesocúrtica

b2<3 distribuição ou curva platicúrtica
b2>3 distribuição ou curva leptocúrtica
i.i. Momento centrado na média  m r 

Chama-se momento de ordem r, centrado na média de um conjunto de números, o
valor dado pela fórmula:
n r n r
 x i
 x  x i
 x  * fi
i 1 i 1
mr  mr 
n n
Dados brutos Dados tabulados
Para r=2 o momento centrado na média corresponde a variância.
n 2 n 2
 x i
 x  x i
 x  * fi
i 1 i 1
m2   s m2   s
2 2
Isto é: ou
n n
Para r=4
n 4 n 4
 xi  x  xi  x  * fi
i 1 i 1
m4  ou m4 
n n
Então:
n n
 xi  x  x  x  * fi
4 4
i
i 1 i 1
m4 m4 n m4 m4 n
b2  2
 4
 2
b2  2
 4
 2
m2 s   m2 s  
n n
  xi  x    xi  x  * fi 
2 2

 i 1   i 1 
 n   n 
   
   
Dados brutos Dados tabulados
48
Usando os dados do exemplo 1, famos classificar distribuição do tempo em
minutos que cosumidores de telefonia móvel iriam falar em um mês quanto a
curtose.
 x  x  * fi
4
i
i 1 110550827 ,4
m4 m4 n 40 2763770 , 69
b2  2
 4
 2
 2
  2 , 96
m2 s 
n
  39268 , 27  933748 ,14
  xi  x  * f i 
2
 
 40 
 i 1 
 n 
 
 
Quanto a curtose a dstribuição de frequência do tempo em minutos que
cosumidores de telefonia móvel iriam falar em um mês é uma curva mais
achatada que a curva normal, isto é, é uma curva platicúrtica
Nota importante: o exemplo acima, foi apresentado somente para mostrar

como se aplica e se interpreta a forma que classifica a curtose, sem ter-se
respeitado a exigência de que a curva deve ser normal, pois a média e a moda,
apesar de serem valores próximos (revela que a assimetria não é muito
acentuada), não são iguais. Em condições práticas, não podiamos classificar,
por nao estarmos diante de uma curva simétrica, mas sim assimétrica positiva.
Teoria das probabilidades

A Teoria das probabilidades é o estudo matemático das probabilidades. Pierre Simon
Laplace é considerado o fundador da teoria das probabilidades.
Definição da probabilidade pelo enfoque clássico

Se um experimento aleatório resultatar em n diferentes e igualmente prováveis resultados, e n EI destes resultados referem-
n Ei casosfavor aveis
se ao evento Ei, então a pobabilidade do evento Ei ocorrerá: P(Ei)= 
n casospossi veis
O problema reside em calcular o número total de resultados possíveis e o número total

de resultados favoráveis ao evento de interesse.
Os teoremas de base das probabilidades podem ser demonstrados a partir dos axiomas
das probabilidades e da teoria de conjuntos.
Um experimento aleatório é um processo de obtenção de um resultado ou medida que

apresenta as seguintes características:
- Não se pode afirmar, antes de realizar o experimento, qual será o resultado de
uma realização, mas é possível determinar o conjunto de resultados possíveis.
- Quando é realizado um grande número de vezes (replicado) apresentará uma
49
regularidade que permitirá construir um modelo probabilístico para analisar o
experimento
Espaço amostral de um experimento consiste em todos os eventos simples possíveis;

ou seja o espaço amostral consiste em todos os resultados que não comportam mais
qualquer decomposição.
Exemplos:
-O lançamento de uma moeda, (cara, coroa);
-O lançamento de um dado (1, 2, 3, 4, 5, 6);
-O lançamento de um par de dados [(1,1), (1,2) ... (1,6), ... (6,1) (6,2)...(6,6)];
Um evento ou acontecimento simples é qualquer sub-conjunto do espaço amostral.
Seja um “A” um experimento e S um espaço amostral associado a “A”. A cada evento

“A” associaremos um numero real representado por P(A) e denominado probabilidade
de “A”, que satisfaça as seguintes propriedades:
a) 0≤P(A)≤1;
b) P(S)=1 <=> P(S)= P(A1)+ P(A2)+ P(A3)+...+ P(Ak)=1. A probabilidade do espaço
amostral ocorrer é um evento certo.
c) Se A e B forem eventos mutuamente exclusivos ou disjuntos, P(AỤB)= P(A)+ P(B)

São eventos mutuamente exclusivos aqueles cuja ocorrência de um elimina a
possibilidade de ocorrência do outro.
d) Se Ø for o conjunto vazio, então P(Ø)=0. Evento impossivel.
e) Se Ā for evento complementar de A, então P(A)=1-P(Ā)
f) Se A e B forem dois eventos quaisquer P(AỤB)= P(A)+ P(B)- P(A∩B) ;

Para eventos que podem ocorrer em simultâneo (não mutuamente exclusivos)
Probabilidade condicionada.
Muitas vezes há necessidade de calcular a probabilidade de ocorrência de um evento B
qualquer, sabendo (ou supondo) que um certo evento A ocorreu previamente. Em
outras palavras queremos calcular a probabilidade de ocorrência de B condicionada à
ocorrência prévia de A.
Sejam “A” e “B” dois eventos associados ao experimento “E”, denota-se por (B/A) a
probabilidade condicionado evento “B” quando “A” tiver ocorrido.
P(B/A)=P(A∩B)/P(A)
P(A/B)=P(A∩B)/P(B)
Nota: Normalmente P(B/A) é diferente de P(A/B)
Exemplo 1
Um lote de 100 artigos tem a seguinte composição: 80 são perfeitos e 20 são
50
defeituosos escolhem-se, sucessivamente, dois artigos ao acaso desse lote sem
reposição.
Calcule a probabilidades do evento : ambos artigos serem defeituosos
Evento A : Primeiro artigo defeituoso ... P(A)=20/100
Evento B : Segundo artigo defeituoso ... P(B/A) = 19/99
Pois quando for se a tirar o segundo artigo a composição do lote é 99 artigos dos quais
19 são defeituosos.
Neste exemplo pretende-se calcular P(A∩B)= P(A)*P(B/A)= (20/100)*(19/99) =

3.8ª%
Se a retirada for com reposição P(A∩B)= P(A)*P(B/A)= P(A)*P(B)

=(20/100)*(20/100)= 4%. Porque são eventos independentes
Um escritório possui 100 máquinas de calcular. Algumas dessas máquinas são

eléctricas (E), enquanto que outras são manuais (M): Algumas são novas (N) outras são
usadas (U), veja a tabela a seguir. Uma pessoa entra no escritório, pega uma máquina
ao acaso, e descobre que é nova. Qual será a probabilidade de que seja eléctrica? Ou
seja P(E/N).
Eléctricas Manuais Total

Novas 40 30 70
Usadas 20 10 30
Total 60 40 100
Seja E={ A máquina é eléctrica}; N={A máquina é nova}; M= { A máquina é

manual}; U= { A máquina é usada};
Neste exemplo pretende-se calcular P(E/N)=P(E∩N)/P(N)=(40/100)/(70/100),

alternativamente poderiamos facilmente verificar que existem 70 maquinas novas e
destas apenas 40 é são electricas, nestas condições P(E/N)=40/70.
Eventos independentes
Dois ou mais eventos são independentes quando a ocorrência de um dos eventos não
influencia a probabilidade de ocorrência dos outros. Se dois eventos A e B são
independentes então a probabilidade de A ocorrer dado que B ocorreu é igual à própria
probabilidade de ocorrência de A.
A e B são eventos independentes se, e somente se, P(A∩B)= P(A)*P(B)
Técnicas de Contagem
51
Análise Combinatória é um ramo de Matemática que se ocupa pelo estudo das técnicas
de contagem.
Com base nas técnicas da análise combinatória é possível formar grupos diferentes,
compostos por um número finito de elementos de um conjunto, sob certas
circunstâncias.
Arranjos, Permutações ou Combinações, são os três tipos principais de agrupamentos.
1. Noção de FACTORIAL de um número natural

O símbolo n! ( lê-se factorial de n ou n factorial ), representa o produto dos
primeiros n números naturais, se n  1. Se n = 1, n! = 1! = 1.
Por definição n! (n factorial) = n(n-1)!

n! = n(n-1)(n-2)(n-3)(n-4)!
Por convenção 1! = 1 e 0! = 1
Exemplos:
a) 0!=1
b) 1!=1
c) 2! = 1.2 = 2
d) 3! = 1.2.3= 6
e) 4!= 1.2.3.4 = 24
f) 5! = 1.2.3.4.5 = 120
g) 6!= 6.5.4.3.2.1=720
h) 7!= 7.6.5.4.3.2.1 = 5040
i) 8! = 8.7!=8.7.6!=8.7.6.5!= 40320
j) 10! = 1.2.3.4.5.6.7.8.9.10 ou 10! = 10.9.8.7.6.5.4.3.2.1 ou 10! = 10.9.8!
k) 100! = 100.99.98!
200 ! 200 . 199 . 198 !
l)   200 . 199  39800
198 ! 198 !
12 ! 12 . 11 . 10 . 9 ! 12 . 11 . 10
m)   =220
9 !. 3! 9 !. 3! 6
n) 3!.3! = (3!) 2 = 36
Simplificação
( n  5 )!  3 ( n  3 ) ( n  5 )( n  4 )( n  3 )!  3 ( n  3 )! ( n  3 )!  n  5 ( n  4 )  3 
 
( n  4 )!  ( n  5 )! ( n  4 )( n  3 )!  ( n  5 )( n  4 )( n  3 )! ( n  3 )!  n  4   ( n  5 )( n  4 ) 
 9 n  20  3  9 n  17
2 2
n n
= 
n  4 n  9 n  20  10 n  24
2 2
n
Resolução de equações
52
( n  2 )!  ( n  1 )!
 24
2
n +4n-21= 0
n!
( n  2 )( n  1 ) n ! ( n  1 ) n !
 24 n1 = -7
n!
n !  n  2 ( n  1 )  ( n  1 ) 
 24 n2 = 3 Solução 3
n!
2
n +3n+2+n+1=24
Exercícios sobre factorial
Simplifique
9! 7! 2 n ! 3 ( n  1 )! P ! ( P  1 )!
a) b) c) d) (P  N)
7! 4 !. 3! ( n  2 ! ( n  2 ! ( P  2!
2. Determine n nas equações
( n  1 )!  22 ( n  1 )!
a) n!= 20(n-2)! b)  10 c) (n+2)!= 72.n!
n!
2 ARRANJOS (sem repetição)
Chamam-se arranjos (sem repetição) de n elementos p a p, a todos os agrupamentos

formados com n elementos (p<n) de forma que os p elementos sejam distintos
entre sí pela ordem ou pela natureza.
n!
A np 
( n  p )!
Exemplos
7! 7! 7 . 6 . 5 . 4!
A3     210
7
a)
( 7  3 )! 4! 4!
b) Calcule o número natural que verifica a seguinte equação
A 2  56
n
n!
A2 
n
= 56
( n  2 )!
n ( n  1 )( n  2 )!
 56
( n  2 )!
2
n -n-56= 0 Solução 8
c) Num concurso de beleza há 5 (cinco) finalistas. De quantas maneiras o júri pode

escolher o 1º, 2º e 3º lugares.
5! 5! . 5 . 4 . 3 . 2!
A3     60
5
( 5  3 )! 2! 2!
53
d) Numa certa rede telefónica a cada telefone corresponde um número de 4
(quatro) algarismos diferentes, o qual pode começar mesmo por 0 (zero). Sabendo
que cada um desses números de 4 (quatro) algarismos diferentes, corresponde a um
e um só telefone , quantos telefones têm a rede.
0 ;1; 2; 3; 4; 5; 6; 7; 8; 9 (são 10 dígitos).
10 ! 10 . 9 . 8 . 7 . 6 !
   5040
10
A4 telefones
(10  4 )! 6!
Exercícios Arranjos
1. Determine:
5
A4  A2
7 5 10 8
A3 A2 .A5
 A2
5
a) Exame 1999 b) Exame 1994 c) 7
3! 5! A4
2 Determine n sabendo
A 2  240
n
a)
n2 n3
b) A3  10 A 2
n 1 n2 n3
c) A5  9( A4  A3 )
A 7  30 . A 5
n n
d)
n 1 n2
e) 3. A5  48 A 4
n 1
A3 1
f) n

A3 2
A 2  110
n
g)
3. Permutações
Chama-se permutações (sem repetição) de n elementos, os arranjos (sem repetição )
desses elementos tomados n a n. Nas permutações os agrupamentos diferem pela
ordem
Pn = n!
n! n! n!
An     n !  Pn
n
( n  n )! 0! 1
Exemplos
a) P7 = 7! = 7.6.5.4.3.2.1 = 210.240 = 5040

b) Determinar o valor de n na equação
54
Pn = 20P(n-2)
n!= 20(n-2)!
n(n-1)(n-2)! = 20(n-2)!
n 2 -n – 20 = 0
n1 =-4 e n2 = 5 Solução 5 
c) Quantas palavras (com ou sem significado na língua portuguesa) podem de se

formar com as letras da palavra ALUNO.
P5 = 5! = 5.4.3.2.1 = 20.6 = 120
Exercícios
1. De quantos modos diferentes se podem sentar dez (10) pessoas
a) Se ficarem todas na mesma fila
b) Se ficarem todas em fila, supondo que dois são namorados e exigem
ficar um ao lado do outro
2. Calcular o valor de n e p que verificam o sistema
P(n+2) = 720
A p  12
n
3. De quantos modos diferentes se podem dispor numa fila 5 rapazes e 6

raparigas se:
a) Se ficarem em qualquer lugar sem distinção
b) Se um determinado rapaz ficar em último lugar
c) Se ficarem alternadamente rapazes e raparigas, mas nunca dois rapazes
seguidos ou duas raparigas seguidas.
4. Combinações
Chamam-se combinações (sem repetição) de n elementos p a p, a todos os conjuntos
que é possível formar de tal modo que os agrupamentos assim obtidos difiram, entre
sí, pelo menos um elemento. Nas combinações os agrupamentos diferem entre sí
pela natureza.
 
n! n!

n n
C p
ou p
( n  p )! p ! ( n  p )! p !
55
Exemplos
1. Calcular o número de amostras diferentes de 8 (oito) lâmpadas que se pode tirar
de um lote de 12 lâmpadas.
12 ! 12 ! 12 . 11 . 10 . 9 . 8!
  
12
C8 = 495
(12  8 )! 8! 4 !. 8! 24 . 8!
2. Se no exemplo anterior 2 (duas) lâmpadas forem brancas e 10 (dez) azuis,

quantas são as amostras que contém só lâmpadas azuis.
10 ! 12 ! 10 . 9 . 8!
  
10
C8 = 45
(10  8 )! 8! 2 !. 8! 2 . 8!
Calcule
5 8 12 !
a) C3 b) C2 c)
8!
3. Numa festa familiar cada participante aperta a mão do outro. Alguém teve a
paciência de contar os apertos de mão e descobriu que foram exactamente 45
apertos de mão. Quantas pessoas estavam na festa?
4. Numa festa familiar onde participam 20 raparigas e 30 rapazes, de quantas
maneiras se pode “abrir” a sala. (Nota: assuma que só podem abrir a sala duas
pessoas de sexos diferentes).
5. Determinar o valor de n
n 1
 36 .C 2
n
A) A4
n2
b) C2  6
n 1
 4 .C 3
n
c) C3
6. Pretende-se constituir um grupo de trabalho com 3 professores de Matemática e

2 de Física. Sabendo que a escola tem 7 professores de Matemática e 5 de
Física. Determinar de quantas maneiras pode se formar o grupo.
a) Se qualquer professor de Matemática e qualquer de Física poder ser
incluído
b) Se um determinado professor de Matemática entrar obrigatoriamente no
grupo
c) Se dois determinados de Física não poderem participar no grupo de
trabalho
Exemplo do Cálculo de Probabilidades
NB: Confirme os resultados dos exemplos 2 a 9 com calculos apropriados
1- Uma caixa contém 10 bolas, sendo 3 brancas e 7 vermelhas. Retira-se uma bola ao
acaso, qual é a probabilidade desta ser:
56
a) branca
casos possíveis 10
casos favoráveis 3
p(b) = casos favoráveis/casos possíveis = 3/10= 0.3*100% = 30%

b) vermelha
casos possíveis 10
casos favoráveis 7
p(b) = casos favoráveis/casos possíveis = 7/10= 0.7*100% = 70%

c) ser amarela
casos possíveis 10
casos favoráveis 0
p(b) = casos favoráveis/casos possíveis = 0/10= 0% . A probabilidade de tirar uma

bola amarela um evento impossível (não temos bolas amarelas)
d) branca ou vermelha
casos possíveis 10
casos favoráveis: P(branca) ou P (vermelha) = Probabilidade (branca) + Probabilidade
de vermelha = 3/10 + 7/10
P (branca ou vermelha) = 10/10 = 100%. A probabilidade de retirar uma bola
branca ou uma bola vermelha é um evento certo porque coincide com o espaço
amostral (só temos bolas brancas e vermelhas)
2- Qual a probabilidade de sair o “ás” de ouros quando retiramos uma carta de um
baralho de 52 cartas? R: 1/52
3- Qual a probabilidade de sair um “rei” quando retiramos uma carta de um baralho de
52 cartas? R: 1/13
4- Em um lote de 12 peças, 4 são defeituosas. Sendo retirada uma peça, calcule:
a) A probabilidade de essa peça ser defeituosa. R: 1/3
b) A probabilidade de essa peça não ser defeituosa R: 2/3
5- De dois baralhos de 52 cartas retiram-se, simultaneamente, uma carta do primeiro e
uma carta do segundo. Qual a probabilidade de sair um “rei” no primeiro e no segundo
ser o 5 de “ouros”? R: 1/676
6- No lançamento de dois dados, calcule a probabilidade de se obter a soma igual a 5?
57
R: 1/9
7- Qual a probabilidade de sair uma carta de “copas” ou de “ouros” quando retiramos
uma carta de um baralho de 52 cartas? R: 1/2
8- No lançamento de um dado, qual a probabilidade de se obter um número não
inferior a cinco? R: 1/3
9- Em um lote de 12 peças, 4 são defeituosas. Sendo retiradas aleatoriamente 2 peças,
calcule:
a) A probabilidade de ambas serem defeituosas; R: 1/11
b) A probabilidade de ao menos uma ser defeituosa. R: 19/33
10- A direcção de uma companhia aérea decidiu contratar duas agências de publicidade
para publicitar os seus serviços; um total de oito agências foram pré-selecionados para
seguidamente se escolherem as duas pretendidas. De quantas maneiras diferentes se
poderão escolher as duas agências.
Combinações de oito agências tomadas duas a duas
8! 8 . 7 . 6! 8 .7
C2     4 . 7  28
8
( 8  2 )!. 2 ! 6 !. 2 ! 2
11- Um júri de 12 membros deve ser formado com base num painel composto por 8
homens e 8 mulheres.
a) Quantos júris diferentes é possível formar?
Combinações de dezasseis membros tomados doze a doze
2 5
16 ! 16 . 15 . 14 . 13 . 12 ! 16 . 15 . 14 . 13
C 12     2 . 5 . 14 . 13  140 . 13  1820
16
(16  12 )!12 ! 4 !. 12 ! 4 .3 .2 .1
b) Qual e a probabilidade de escolher um júri formado por 8 mulheres e 4 homens
Casos Possíveis
Dezasseis pessoas tomadas duas a duas
2 5
16 ! 16 . 15 . 14 . 13 . 12 ! 16 . 15 . 14 . 13
C 12     2 . 5 . 14 . 13  140 . 13  1820
16
(16  12 )!12 ! 4 !. 12 ! 4 .3 .2 .1
Casos Favoráveis
Combinações de oito mulheres tomadas oito a oito multiplicada pela combinação
de oito homens tomados quatro a quatro
58
8! 8! 8! 8 . 7 . 6 . 5 . 4! 4 .2 .7 .3 .2 .5
C 8 .C 4     7 . 2 . 5  70
8 8
. .
( 8  8 ). 8! ( 8  4 )!. 4 ! 0 !. 8! 4 !. 4 ! 4 .3 .2
Probabilidade de um júri formado por 8 mulheres e 4 homens =

8 8
Casosfavor áveos C 8 .C 4 70
 16
  0 . 0385 . 100 %  3 . 85 %
Casospossi veis C 12 1820
12- A direcção da Associação de Estudantes é composta por duas mulheres e três

homens. Dois delegados da Direcção devem ser indicados ao acaso para negociar com
o Reitor o aumento das bolsas estudos. Qual é a probabilidade de sair uma delegação
composta por duas mulheres?
Duas Mulheres
Três Homens
5! 5 . 4 . 3! 5 .2 .2
C2     10
5
Casos Possíveis =
( 5  2 )! 2 ! 3!. 2 ! 2
2! 2!
C2   1
2
Casos Favoráveis =
( 2  2 )! 2 ! 0 !2 !
Probabilidade de sair uma comissão composta por duas mulheres
2
Casosfavor aveis C2 1
 5
  0 . 1 . 100 %  10 %
CasosPossi veis C2 10
13- Quatro casais estão numa festa. Escolhem-se duas pessoas ao acaso. Qual é a
probabilidade de termos:
Quatro casais totalizam 8 pessoas

Oito pessoas tomadas duas a duas
4
8! 8 . 7 . 6! 8 .7
C2     28
8
Casos Possíveis =
( 8  2 )! 2 ! 6 !. 2 ! 2
a) Um homem e uma mulher;

quatro homens e quatro mulheres
Quatro homens tomados um a um e quatro mulheres tomadas uma a uma
4! 4! 4 . 3! 4 . 3!
C 1 .C 1    16
4 4
Casos Favoráveis = . .
( 4  1 )!1! ( 4  1 )!1! 3! 3!
Probabilidade de seleccionar um homem e uma mulher é igual a casos favoráveis
divididos pelos casos possíveis
59
4! 4!
4 4
.
C 1 .C 1 ( 4  1 )!1! ( 4  1 )!1! 16
P(H  M )= 8
   57.14%
C2 8! 28
( 8  2 )! 2 !
b) Marido e mulher.
São quatro casais tomados um a um

4! 4 . 3!
C1    4
4
( 4  1 )!1! 3!
Probabilidade de seleccionar um casal (marido e mulher) é igual ao número de
casos favoráveis divididos pelos casos possíveis
4!
4
C1 ( 4  1 )!1! 4 2
P(marido e mulher) =    =14.29%
8
C2 8! 28 7
( 8  2 )! 2 !
14- O quadro abaixo apresenta os graus académicos dos professores de uma
Universidade, por sexo. Sorteado um docente ao acaso, qual a probabilidade de que ele
possua as seguintes características:
Mestrado Doutorado Total

Mulheres 22 18 40
Homens 45 15 60
Total 67 33 100
a) Ser mestre
Casos Possíveis 100
Casos favoráveis 67
P(mestre) = 67/100 = 67%
b) Ser homem sabendo que foi sorteado um mestre
Casos possíveis 67 mestres
Casos Favoráveis (Homens Mestres) 45
P(homem e mestre) = 45/67 = 67.2%
c) Ser mestre sabendo que foi sorteado um homem
Casos possíveis 60 homens
Casos favoráveis (mestre e homem) 45
P(mestre e homem) = 45/60 = 75%
d) Ser mestre e homem
Casos Possíveis 100
P (mestre e homem) =45/100 = 45%
e) Não mestre e homem
60
Casos possíveis 100
P(~mestre e homem) =15/100 =15%
f) Ser mestre ou homem
P(mestre ou homem) = P(mestre) + P(homem)-P(mestre e homem)
67/100 + 60/100 – 45/100 = 82%
g) Não mestre ou mulher
P(~mestre ou homem) = P(~mestre) + P(homem)-P(~mestre e homem)
33/100 + 60/100 – 15/100 =78%
15- Consultadas 500 pessoas sobre as emissoras de TV a que habitualmente assistem,

obteve-se o seguinte resultado: 280 pessoas assistem ao canal '"A" , 250 assistem ao
canal B e 70 assistem a outros canais, distintos de "A" e "B". Escolhe-se ao acaso uma
pessoa.
São 500 telespectadores inquiridos
Temos 280 (A) +250 (B) +70 (outros)=600 respostas
Se temos mais respostas que os inquiridos é porque os eventos não são

mutuamente exclusivos, ou seja, temos telespectadores que assistem
simultaneamente a A e B
600 – 500 = 100 telespectadores que assistem simultaneamente a A e B
70
180 100
150
Resumindo
280 assistem ao canal A
180 assistem exclusivamente ao canal A
150 assistem exclusivamente a B
250 assistem a B
100 assistem simultaneamente a A e B
a) Qual é a probabilidade deste assistir o canal "A "e não ao canal "B"
R: casos possíveis 500
61
P (A e não B) = 180/500 =36%
b) Qual é a probabilidade deste assistir simultaneamente A e B
P( A e B) = 100/500 = 20%
c) Qual é a probabilidade de assistir o canal B
P( B) = 250/500 = 50%
d) Qual é a probabilidade de assistir o canal A ou B
P(A ou B) = P(A) + P(B) – P(AeB) porque são eventos não mutuamente

exclusivos
P(A ou B) = 280/500 +250/500 – 100/500 = 86%
Valor esperado de uma variável aleatória
Valor esperado de uma variável aleatória denotado “E(X)” é dado por


E(X)=∑xiP(xi) se x for uma variável aleatória discreta e E (x)   f ( x ) dx se x for


uma variável aleatória continua, nesta ultima expressão f(x) é a função densidade de
probabilidade.
Propriedades do valor esperado
Se c= constante; X e Y são variáveis aleatórias quaisquer
a) E(c)= c
b) E(cX)= cE(X)
c) E(X+Y)=E(X)+E(Y)
d) E(X1+ X2+ X3+...+ Xn)= E(X1)+ E(X2)+ E(X3)+...+ E(Xn)
e) Se X e Y são independentes E(X*Y)=E(X)*E(Y)
62
Variância de uma variável aleatória
O valor esperado (simbolizado E(x)) é a média vista na análise exploratória de dados,
utilizando probabilidades ao invés de frequências no cálculo. Analogamente, a
variância (simbolicamente por V(x)) é análoga à variância vista na análise exploratória
de dados, utilizando probabilidades
Seja x uma variável aleatória, denota-se V(X) ou δ2x é dado por
V(X)=E[X-E(X)]2 <=> V(X)=E(X2)-[E(X)]2
Propriedades da variância
Se c= constante; X e Y são variáveis aleatórias quaisquer
a) V(X+c)= V(X)
b) V(cX)= c2*V(X)
c) V(X+Y)=V(X)+V(Y), Se X e Y são independentes
d) V(X1+ X2+ X3+...+ Xn)= V(X1)+ V(X2)+ V(X3)+...+ V(Xn) se X1, X2 X3...Xn forem
independentes
A distribuição Binomial
Suponha que n experimentos independentes, ou ensaios, são executados, onde n é um

número fixo, e que cada experimento resulta num ``sucesso'' com probabilidade p e
numa ``falha'' com probabilidade q = 1- p. O número total de sucessos, x, é uma
variável aleatória com parâmetros n e p.
A probabilidade que x=k, denotada por P(x=k), pode ser calculada como se segue:
P(k)=Cnk pk(1-p)n-k ; x = 0, 1, 2, ...
O valor esperado E(x) de um variável aleatória Binomial é n.p e a variância é n.p(1-p).
Distribuição geométrica
A distribuição geométrica é constituída por duas funções de probabilidade discretas a

saber:
a) A distribuição de probabilidade do número X de tentativas de Bernoulli

necessárias para alcançar um sucesso, suportadas pelo conjunto { 1, 2, 3, ... },
ou .
b) A distribuição de probabilidade do número Y = X − 1 de insucessos antes do
primeiro sucesso, suportadas pelo conjunto { 0, 1, 2, 3, ... }.
Se a probabilidade de sucesso de cada tentativa é p, então a probabilidade de n

tentativas serem necessárias para ocorrer um sucesso é
P(X=n)=(1-p)n-1.p
para n = 1, 2, 3, .... de forma equivalente, a probabilidade de serem necessários n

insucessos antes do primeiro sucesso é
P(X=n)=(1-p)n.p
para n = 0, 1, 2, 3, ....
63
Por exemplo, suponha um dado que é atirado repetidamente até à primeira vez que
aparece um "1". A probabilidade de distribuição do número de vezes que o dado é
atirado é suportado pelo conjunto infinito { 1, 2, 3, ... } e é uma distribuição geométrica
com p = 1/6.
O valor esperado de uma variável aleatória geometricamente distribuída X é 1/p e a
variância é (1 − p)/p2; E(X)= 1/p e V(X)= (1 − p)/p2
De forma equivalente, o valor esperado de uma variável aleatória geometricamente

distribuída Y é (1 − p)/p, e a sua variância é (1 − p)/p2.
A distribuição Poisson
Seja X uma variável aleatória discreta, tomando valores 0, 1, 2, 3, ...., se

_

k
e
P(x  k)  diremos que X tem distribuição de Poisson com parâmetro  >0.
k!
A distribuição Poisson, é frequentemente usada para modelar dados de contagem e
fazer a aproximação da distribuição binomial quando n é muito grande e p muito
pequeno. O valor esperado e a variância de uma variável aleatória com distribuída X
com distribuição de Poisson é igual ao parâmetro 
A distribuição Normal
A distribuição Normal é a mais familiar das distribuições de probabilidade e também

uma das mais importantes em estatística. Esta distribuição tem uma forma de sino.
A figura a seguir mostra como a curva normal é afectada pelos valores numéricos de μ
e δ.
64
A equação da curva Normal é especificada usando dois parâmetros: a média
populacional μ, e o desvio padrão populacional δ, ou equivalentemente a variância
populacional δ2. Denotamos N(μ, δ2) à curva Normal com média μ e variância δ2. A
média refere-se ao centro da distribuição e o desvio padrão ao espalhamento de curva.
A distribuição normal é simétrica em torno da média o que implica que a média, a

mediana e a moda são todas coincidentes. Para referência, a equação da curva é
2
1 x 
1 _  
2  
f (x)  e com    x  
2 
A área sob a curva normal (abaixo de qualquer função de densidade de probabilidade)

é 1. Então, para quaisquer dois valores específicos podemos determinar a proporção de
área sob a curva entre esses dois valores. Para a distribuição Normal, a proporção de
valores caindo dentro de um, dois, ou três desvios padrão da média são:
μ±1δ área: 68.3%; μ±2δ área: 95.5%; μ±3δ área: 99.7%;
Este resultado é usado da seguinte maneira. Suponha que as alturas de uma aldeia
particular podem ser descritas por uma distribuição normal, com média 1.70m e desvio
padrão 0.3. Podemos calcular a proporção da população da aldeia com altura entre
“1.70-2*0.3 = 1.1 e 1.70+2*0.3 =2.3”, por exemplo, como a proporção da área sob a
curva entre
μ±2δ é 95.5%, então em nosso exemplo, cerca de 95.5% do habitantes da aldeia tem
entre 1.1 e 2.3 metros de altura.
Para calcular probabilidades para diferentes valores de μ e δ, a variável X cuja
distribuição é N(μ, δ) é transformada numa forma padronizada Z com distribuição
N(0, 1) (distribuição normal padrão ou reduzida) pois tal distribuição é tabelada. A
quantidade Z é dada por Z=(X- μ)/δ
Exemplo
O resultado de um exame nacional para estudantes recém formados apresentaram uma
média =500 com um desvio padrão δ = 100. Os resultados têm uma distribuição
65
aproximadamente normal. Qual é a probabilidade de que o grau de um indivíduo
aleatoriamente escolhido seja superior a 600?
Trata-se de calcular P(X>600), é necessário primeiro fazer a conversão da
distribuição N(600, 100) em N(0, 1) com ajuda da formula de conversão. Z=(600-
500)/100=1
Consultamos na tabela da distribuição normal reduzida P(Z>1)=1-0.8413=0.1587
Portanto, espera-se que 15.87% dos estudantes tenham o grau superior a 600.
Aula Teórica 8
Estatística Descritiva e Bidimensional
Teoria de Correlação
Coeficiente de Correlação Simples
5. Introdução
Na vida quotidiana costumamos nos deparar com vários casos pelo qual
afirmarmos haver relação entre si.
Por exemplo costumamos afirmar que estão relacionados: o peso de um indivíduo
e a sua idade; a demanda por um produto e o preço do mesmo; as notas de um
indivíduo em determinada cadeira e a boa ou má prestação nos testes, etc.
Essas relações podem ser lineares, quadráticas, logarítmas, e mais.
A verificação da existência e do grau de associação ou relação entre duas

variáveis é o objecto de estudo da correlação.
5.1.Correlação Linear Simples
A correlação linear procura medir a relação linear entre as variáveis aleatórias.

Essa correlação pode ser analisada graficamente através da disposição dos pontos
(X,Y) em torno de uma recta. O chamado diagrama de dispersão.
O diagrama de Dispersão é uma forma de gráfico onde simplesmente representa-

se graficamente cada par ordenado de variáveis (X,Y), de uma série de dados em
um sistema de eixos, permitindo assim, especular sobre a relação entre duas
variáveis.
Se X e Y representam as duas variáveis consideradas e, se todos os pontos de seu

respectivo diagrama de dispersão parecem cair nas extremidades de uma recta, a
correlação é denominada linear.
66
A correlação pode ser linear positiva ou directa, quando o Y tende a aumentar a
medida que X aumenta (figura a), linear negativa ou inversa, quando o Y tende a
diminuir a mediada que X aumenta (figura b) ou não existência de relação linear
quando os pontos apresentam-se dispersos e não parecem estar em torno de uma
recta (figura c).
(c)
(a)
(b)
5.1.1. Coeficiente de Correlação de Pearson (r)
O coeficiente de correlação de Pearson (r) é uma medida de associação linear

entre duas variáveis, isto é, mede o quão duas variáveis estão linearmente
associadas.
O cálculo do coeficiente de correlação é dado pela fórmula abaixo apresentada
r xy 
n*  xi yi   xi  yi
(1)
n *  x 2
i
  xi 
2
* n *  2
yi   yi 
2

O valor de r xy situa-se entre -1 e +1.
Valor de r Tipo de correlação

r  1 correlação negativa perfeita
 1  r   0 .5 correlação é negativa forte
 0 .5  r  0 correlação negativa fraca
r  0 correlação nula
0  r  0 .5 correlação positiva fraca
0 .5  r  1 correlação positiva forte
r 1 correlação positiva perfeita
67
Observação:
 O coeficiente de correlação linear, apesar de se expressar em percentagem, ela
não é uma percentagem. Assim uma correlação de 0.3 não corresponde 30% da
correlação perfeita.
 Os coeficientes de correlação não constituem uma escala de intervalo, i.é, 0.4 não
é o dobro de 0.2. Da mesma forma que as diferenças entre 0.3 e 0.4 e entre 0.8 e
0.9 não são estatisticamente iguais.
 As variáveis x e y devem possuir escalas de intervalo ou de razão, caso contrário,
deve-se aplicar outras estatísticas para medir o grau de associação.
Exemplo: Calcula o coeficiente de correlação entre as variáveis número de filhos

de uma família (y) e a renda mensal da familia (x)
2 2
i xi yi xi yi xi * yi
1 10 2 100 4 20
2 8 4 64 16 32
3 6 6 36 36 36
4 10 8 100 64 80
5 12 10 144 100 120
Total 46 30 444 220 288
r xy 
n*  xi yi   xi  yi

5 * 288  46 * 30
 0 . 416
n *  x 2
i
  xi 
2
* n *  yi 
2
 yi 
2
 5 * 444  46
2
 * 5 * 220  30
2

Interpretação: existe uma correlação positiva fraca entre o número de filhos de

uma família e a renda mensal da mesma, pois o coeficiente de correlação de Pearson é
de 0.416. O que significa que quanto maior for a renda de uma familia, maior é o
número de filhos que a mesma terá.
5.1.2. Algumas propriedades do Coeficiente de Correlação
1. Sua natureza é simétrica, isto é, o coeficiente de correlacção entre x e y

r xy  é o mesmo que aquele entre y e x r yx  .
2. É independente da origem e da escala, isto é, tendo dados de 2 variáveis
onde já foi calculado o r, se reduzirmos a escala de medida das duas
68
variáveis o coeficiente de correlação entre elas será o mesmo que o
calculado sem a redução da escala.
3. X e Y são estatisticamente independentes se o coeficiente de correlação
linear entre eles é zero, mas isso não significa independência entre as
variáveis.
4. É apenas uma medida de associação linear ou de dependência linear. Não
tem sentido para descrever relações não lineares. Por exemplo Y=X2, é
uma relação exacta e contudo o r=0.
5. Embora seja uma medida de associação linear entre duas variáveis, ela não
implica necessariamente uma relação de causa e efeito.
Aula Teórica 9
Estatística Descritiva e Bidimensional
Modelo de Regressão Linear Simples
Método dos Mínimos Quadrados
Estimação dos Coeficientes
5.2. Introdução
O termos regressão foi criado por Francis Galton, quando em um artigo famoso
verificou que embora existisse uma tendência para pais altos terem filhos de altura
alta, e pais baixos filhos de estatura baixa, a estatura média das crianças nascidas de
pais com dada altura tendiam a mover-se ou “regredir” para altura média da
população como um todo, isto é, a altura de crianças filhas de pais mais altos ou mais
baixos que o comum, tende a mover-se no sentido da altura média da população.
Esta lei, conhecida como Lei da regressão universal de Galton, foi confirmada por
Karl Pearson que fez uma colecta de mais de 1000 registos de alturas de membros de
grupos familiares. Ele verificou que a altura média do grupo de filhos de pais baixos
era maior que a de seus pais, e a altura média de grupo de filhos de pais altos, era
menor que a de seus pais, constatando desse modo que a altura de filhos de pais altos
e baixos “regrediam” igualmente à altura média de todos os homens.
5.2.1. Interpretação moderna do termo Regressão
A interpretação moderna que se dá ao termo regressão é muito diferente daquela

dada por Galton e Pearson.
Regressão é o cálculo do valor esperado de uma variável Y, dado o conjunto de

informações fornecidas por um conjunto de características X´s.
69
Análise de regressão tem por objectivo estimar o valor médio de uma variável
dependente atravês de uma ou várias variáveis independentes, a partir de n
observações dessas variáveis.
O problema consiste em estabelecer a função matemática que melhor exprime a

relação existente entre as duas variáveis ( uma dependente, Y e outra independente,
X). Simbolicamente a relação é expressa por uma equação de regressão e
graficamente por uma curva de regressão.
A equação de regressão tem por finalidade ESTIMAR (prever) valores de uma

variável Y com base em valores conhecidos da outra X.
5.2.2. Modelo de Regressão Linear
Modelo de Regressão Linear Simples é o modelo constituído pelas variáveis

dependente (Y) e variável independente (X), no qual, a variável independente
concorre para explicar o comportamento médio da variável dependente com base nos
valores conhecidos de X.
A variável a ser explicada pode ser chamada variável dependente, explicada,

resposta, prevista ou regressando e tem o símbolo Y.
A variável que a explicar é chamada variável independente, explicativa, de controle,
previsora ou regressor e é representada por X.
O modelo geral da equação de regressão linear entre duas variáveis tem a seguinte
forma:
Y i     * X i   i ou Y i   1   2 X i  u i (1)
Modelo para população, com parâmetros ( ,  ) ou   1 ,  2 

ou
yˆ i  aˆ  bˆ * x i   i ou Yˆ  ˆ 1  ˆ 2 X i
 uˆ i , (2)
Modelo para amostra, com estimativas (a, b) ou ˆ 1
, ˆ 2 
onde:
Y i ou yˆ i variável dependente;
X i ou xˆ i variável independente;
 ou a : intercepto do modelo. Caracteriza a variação média de y quando a variável
x é igual a zero.
70
 ou b : coeficiente angular da recta de regressão. Caracteriza a variação média de y
provocada pela variação da variável x em uma unidade.
4
uˆ i ou  i : resíduo. Representa o conjunto de todas as variáveis que explicam o y mas
que não foram incluídas no modelo.
5.2.2.1. Significado do termo linear
A linearidade possui dois significados:

Linearidade nas variáveis, onde a esperança condicional de Y é uma função linear de
Xi  E Y / X i
 f X i
 .
Exemplo 1:
Regressão Linear nas variáveis Regressão não Linear nas variáveis
Y  1   2 X i Y  1   2 X
2
Y  e
1   2 X i
i
Linearidade nos parâmetros, onde a esperança condicional de Y é uma função linear

dos parâmetros, podendo ou não ser linear nas variáveis.
Exemplo 2:
Regressão Linear nos parâmetros Regressão não Linear nos parâmetros
Y  1  
2 2
Y  1   2 X i
Y  1   2 X i 2
X i
Nota: Das duas interpretações de linearidade, a linearidade nos parâmetros é a

relevante. Portanto a expressão regressão Linear significará sempre uma regressão
linear nos parâmetros.
5.2.3. Método para estimação dos parâmetros  e 
4
Essas variáveis podem não ser incluídas no modelo por várias razões. para
mais detalhes ver Livro de Econometria de Gujarati. Tecnicamente é conhecido
como termo de erro estocástico.
71
Na maioria das situações práticas, o que temos na verdade é uma amostra de valores
de Y correpondentes a valores fixados de X. Portanto o obejctivo é estimar a função
de regressão populacional a partir de dados amostrais.
As estimativas dos parâmetros  e  dadas por “a” e “b” podem ser obtidas usando
vários métodos. O método mais usado para ajustar uma linha recta para um conjunto
de pontos ( x 1 , y 1 ), ( x 2 , y 2 ),..., ( x n , y n ) é o método de mínimos quadrados.
O método dos mínimos quadrados consiste em adoptar como estimativa dos

parâmetros os valores que minimizam a soma dos quadrados dos desvios5.
Características
1a) A soma dos desvios verticais dos pontos em relação a recta é zero;
2a) A soma dos quadrados desses desvios é mínima.
Para que o ajuste do modelo seja “bom” é necessário que o valor de d seja mínimo
possível.
Os valores de “a” e “b” de recta de regressão yˆ i  a  b * xˆ i serão:
b 
n*  xi * yi   x * i
yi
(3)
  x 
2

2
n* xi i
  xi   x i * x i * y i
2
yi *
a  (4)
 x1 
2
 xi 
2
n*
ou
a  y  b* x (5)
Exemplo 3:
i Vendas ( x i ) Lucro ( yi )
2
xi yi
2
xi * yi
1 201 17 40401 289 3417

2 225 20 50625 400 4500
3 305 21 93025 441 6405
4 380 23 144400 529 8740
5 560 25 313600 625 14000
6 600 24 360000 576 14400
7 685 27 469225 729 18495
8 735 27 540225 729 19845
5
A diferença di  y i  yˆ i  u i , chama-se desvio em relação a recta de regressão ou resíduo.
72
Total 3691 184 2011501 4318 89802
Nota: Para facilitar os cálculos das estimativas da recta, acrescentamos três novas
colunas na tabela dada.
b 
n*  x* y   x* y

8 * 89802  3691 * 184
 0 . 0159
  x   3691
2 2

2
n* x 8 * 2011501
  xi   x i * x i * y i
2
yi * 184 * 2011501  3691 * 89802
a    0 . 0159
 x1   3691
2 2
 xi 
2
n* 8 * 2011501
Ou
a  y  b * x  23  0 . 0159 * 461 . 38  15 . 66
A recta é: yˆ  15 . 66  0 . 0159 * xˆ
Interpretação:
a  15 . 66, significa que quando a venda do produto for nula, a variação média de
lucro será de 15,66 u.m. Esta interpretação não tem sentido prático, pois não pode
existir lucro sem vendas.
b  0 . 0159
, espera-se que o lucro tenha uma variação média de 0.0159 u.m quando a
venda variar em uma unidade.
5.2.4. Coeficiente de Determinação (Poder explicativo do modelo)

2
Símbolo: R
O poder explicativo da regressão tem por objectivo avaliar a “qualidade” do ajuste.

Esse valor fornece a proporção da variação total do y explicada pela variação do x
através da função ajustada.
Este coeficiente é empregue como um indicador inicial da precisão das regressões
para a selecção dos modelos mais ajustados
2
Podemos expressar R por:
 Yˆ 
2
i
Y

2
R
 Y 
2
i
Y
Ou podemos usar a seguinte relação
73
 r xy
2 2
R . a formula de r xy foi anteriormente apresentada na ficha da aula teórica 8.
Quando:
 R 2  0 , variação explicada de Y é zero, a recta ajustada é paralela ao eixo de
variável X.
 R 2  1 , a recta ajustada explicará toda a variação de Y.
Assim sendo, quanto mais próximo da unidade estiver o valor de R 2 , melhor “a

qualidade” do ajuste da função aos pontos do diagrama de dispersão e quanto mais
próximo de zero, pior será “ a qualidade” do ajuste.
Por exemplo, se o poder explicativo for de 98%, isto significa que 98% da variação
de Y é explicada pela variação de X através da função escolhida e apenas 2% é
atribuída a causas aleatórias ou outras variáveis não incluídas no modelo.
74

Aulas Teoricas-Estatistica 1

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aulas Teoricas-Estatistica 1

Enviado por

Direitos autorais:

Formatos disponíveis

AULAS TEÓRICAS DE ESTATISTICA - I

No entanto, para adquirir o estatuto de disciplina científica e não puramente descritiva,

A estatística, ou método estatístico, como é denominada algumas vezes, desempenha um papel

Há uma grande diferença entre Estatística e Estatísticas

1.2. Estatística Descritiva e Inferencial

Estatística Descritiva é a parte da Estatística que se preocupa com a observação de fenômenos da

Estatística Inferencial ou indutiva consiste num processo de generalização sobre uma

1.3. Conceitos fundamentais em Estatística

A população é estudada em termos de observações de características nos indivíduos (animados ou

A população (Universo) pode ser dividida em finita e infinita.

As variáveis podem ser classificadas em quantitativas e qualitativas (atributo)

Exemplo: o número de estudantes numa sala de aulas.

Exemplo: a temperatura numa cidade.

Os atributos podem ser Dicotómicos ou Múltiplos (Policotómicos)

Exemplo: quando classificamos os estudantes da USTM quanto ao sexo, só podemos

Exemplo: quando classificamos os estudantes da USTM quanto ao estado civil,

1.4. Escalas de medidas de dados estatísticos

Apresentação de dados e distribuição de frequências

Ao colectar os dados referentes ao fenómeno objecto de estudo, normalmente o Analista se

Neste caso, a Distribuição de Frequência é uma ferramenta estatística apropriada para a

2.1.Alguns conceitos importantes

Depois de obter os dados brutos no campo, é importante organiza-los em rol.

Existem 4 tipos de frequências pela qual podemos apresentar os dados

2.2.Distribuição de frequências de dados não agrupados em classe

k: é o extremo superior do intervalo de valores do índice i.

Tabela1. Exemplo da distribuição de frequência de uma variável não agrupada em classe

2.3.Distribuição de frequências de dados agrupados em classe

Quando a variável objecto do estudo é contínua, é sempre conveniente agrupar os valores

Usando os dados do exemplo 1, abaixo a distribuição dos mesmos em classes

2.3.1. Elementos de uma distribuição de frequência com classe

a. Intervalos abertos – os limites da classe (inferior e superior) não pertencem a ela.

v. Amplitude do intervalo de classe (c): é o valor que representa a quantidade de números

Onde: c – é a amplitude de classe; At – é a amplitude total de classe e k – é o nº total de

Assim, o limite inferior da primeira classe será:

E os demais limites são obtidos somando-se c ao limite anterior.

Primeiro passo: Organizar os dados brutos em um ROL crescente:

Segundo passo: Calcular a amplitude total At:

Terceiro passo: calcular o número total de classe (k)

Quarto passo: conhecido o número de classe, calcular a amplitude de cada classe:

Quinto passo: calcular o limite inferior da primeira classe:

Sexto passo: Determinar os intervalos de classes:

1 69.2|---94.8 3 3 0.075 0.075

3 120.4|---146.0 16 27 0.400 0.675

4 146.0|---171.6 7 34 0.175 0.850

5 171.6|---197.2 4 38 0.100 0.950

6 197.2|---222.8 2 40 0.050 1.000

Total ------- 40 1.000

O tipo de gráfico a usar depende da variável em questão. Contudo, os elementos

Regras a ter em conta ao construir um gráfico de barras

Normalmente a ordem é decrescente, onde a barra superior representa o maior

Exemplo 1: Consideremos a tabela abaixo que se refere a produção de milho nas

2.3.1.2 Gráficos de barras Múltiplas

País Importação (em 1000 toneladas)

2.3.1.3 Gráficos circulares ou de sectores (Pie Charts)

A construção do gráfico de sectores segue uma regra de 3 simples, onde as

Exemplo 3: Considerando o exemplo da produção de milho nas três regiões do

Exemplo de Interpretação: o que foi verificado na interpretação do histograma

2.3.1.5 Polígono de Frequência

Polígono de frequência é um gráfico no qual as frequências das classes são

Exemplo 4: Consideremos o exemplo da aula anterior sobre o tempo (T) em

i Classe Ponto Médio fi (consumidores) Fi F i (acima de)

Exemplo de Interpretação: dos clientes entrevistados cerca de 16 gastam em

Polígono de Frequência correspondente ao histograma do exemplo anterior