ACFrOgC9S3NzVmcuIIfdzk7JqvGAw4cRu19Q3gsie qlQkaFw7ces9Vo3q3sj kHkHARkvnXp8LOCAi24KJtIi-cTFN-hiDczizeFNMKL7YbXTNowaowpQOj8W9pjQ

Apostila1
Introdução à Estatística
e
Análise Descritiva
de
Dados
Prof. Dr. Gilberto S. Matos

(http://sites.google.com/site/gilbertosmatos1)
Campina Grande - PB
1 Esta apostila foi iniciada em 2002 através de notas de aula desenvolvidas pelos professores Alex-
sandro B. Cavalcanti e Gilberto S. Matos sob a assessoria do professor Francisco M. de Souza. Desde
então, vários professores da Unidade Acadêmica de Estatística - UAEst/CCT/UFCG vêm gentilmente
contribuindo para o seu desenvolvimento.
2
Sumário
1 Introdução à Estatística 5
1.1 Conceitos Fundamentais . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 População e Amostra . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Parâmetro e Estatística . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 A Ciência Estatística . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.4 Estatística: Uma Visão Sistêmica . . . . . . . . . . . . . . . . . 7
1.2 Variável e Tipos de Variáveis(dados) . . . . . . . . . . . . . . . . . . . 7
1.2.1 Variável . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Tipos de Variáveis(dados) . . . . . . . . . . . . . . . . . . . . . 8
1.3 Fases do Método Estatístico . . . . . . . . . . . . . . . . . . . . . . . . 9
2 Organização de Dados através de Tabelas e Grácos 11

2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2 Organização de dados: Tabelas e Grácos . . . . . . . . . . . . . . . . 11
2.2.1 Distribuição de Frequências: representação tabular . . . . . . . 11
2.2.2 Distribuição de Frequências: representação gráca . . . . . . . . 13
2.2.3 Agrupamento de dados em classes: distribuição de frequências e
representação gráca . . . . . . . . . . . . . . . . . . . . . . . . 16
3 Estatísticas Descritivas 21
3.1 Medidas Resumo para Variáveis Quantitativas . . . . . . . . . . . . . . 21
3.1.1 Medidas de Tendência Central . . . . . . . . . . . . . . . . . . . 21
3.1.2 Medidas de Dispersão ou de Variabilidade . . . . . . . . . . . . 26
3.1.3 Medidas Resumo para Dados Agrupados . . . . . . . . . . . . . 29
3.2 Medidas de Posição: Quartis, Decis e Percentis . . . . . . . . . . . . . . 30
3.3 Outra Estratégia de Análise de Dados . . . . . . . . . . . . . . . . . . . 31
3
4 SUMÁRIO
3.3.1 Desenho Esquemático - Diagrama em Caixa ("Box-Plot") . . . . 32

3.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4 Análise Bivariada 37
4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Distribuições de Frequências Conjuntas e Condicionais de duas Variáveis
Qualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.1 Associação entre Duas Variáveis Qualitativas Nominais . . . . . 41
4.2.2 Medidas de Associação entre Variáveis Qualitativas . . . . . . . 42
4.3 Associação entre Variáveis Quantitativas . . . . . . . . . . . . . . . . . 43
4.3.1 Diagrama de Dispersão . . . . . . . . . . . . . . . . . . . . . . . 43
4.3.2 Coeciente de Correlação (Linear) . . . . . . . . . . . . . . . . . 44
4.4 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5 Provas de Introdução à Estatística e Análise Descritiva de Dados (Uni

e ou Bivariada) 47
5.1 1 ◦ Estágio de 2010.2 - PE6 - DME/UFCG - Manhã / Análise Univariada
de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.2 1 ◦ Estágio de 2010.2 - PE6 - DME/UFCG - Tarde / Análise Univariada
de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3 1 ◦ Estágio de 2010.2 - PE6 - DME/UFCG - Manhã / Análise Bivariada
de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.4 1 ◦ Estágio de 2010.2 - PE6 - DME/UFCG - Tarde / Análise Bivariada
de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6 Exercícios Sugeridos do livro de Bussab e Morettin 53
7 Sobre Alguns Softwares Estatísticos 55

Capítulo 1
Introdução à Estatística
1.1 Conceitos Fundamentais

Alguns dos principais conceitos utilizados na estatística é o de população e o de
amostra.
1.1.1 População e Amostra

Denição 1.1.1 (População). A população é um conjunto de todos os elementos
(pessoas, objetos, etc) que possuem pelo menos uma característica em comum, a(s)
qual(is) os relacionam ao problema que está sendo estudado.
Exemplo 1.1.1. Se o problema a ser pesquisado está relacionado com a qualidade de
um certo produto produzido numa indústria, a população pode ser composta por todas as
peças produzidas numa determinada hora, turno, dia ou mês, dependendo dos objetivos;
Exemplo 1.1.2. Se o objetivo de um estudo é pesquisar o nível de renda familiar
de uma certa cidade, a população seria todas as famílias desta população. Mas, se o
objetivo fosse pesquisar apenas a renda mensal do chefe da família, a população a ser
pesquisada seria composta por todos os chefes de família desta cidade.
A População pode ser:
1. Finita - quando o número de unidades de observação pode ser contado e é limi-

tado;
2. Innita - quando a quantidade de unidades de observação é ilimitada;
Podemos citar como exemplo de população nita o conjunto formado pelos alu-
nos que cursam a disciplina de estatística num determinado semestre da UFCG. Um
exemplo de população innita seria o conjunto formado por todos os alunos de esta-
tística do Brasil, pois este conjunto é composto por um número incontável de elementos.
5
6 CAPÍTULO 1. INTRODUÇÃO À ESTATÍSTICA
Denição 1.1.2 (Amostra). A amostra é apenas uma parte da população, ou seja,

é um subconjunto da população.
Vários motivos levam a necessidade de se observar apenas uma parte da população,

como, por exemplo: a falta de tempo, recursos nanceiros e/ou humanos. A amostra
deve ser obtida através de técnicas de amostragem, as quais tem como objetivo
principal garantir a representatividade da população, ou seja, fazer com que a amostra
seja um retrato el da população.
Exemplos de amostra podem ser conjuntos formados por apenas uma parte dos
elementos populacionais descritos nos Exemplos 1.1.1 e 1.1.2.
1.1.2 Parâmetro e Estatística

Dois novos conceitos estreitamente relacionados com os de população e amostra
são os de Parâmetro e Estatística, tendo em vista que:
Denição 1.1.3 (Parâmetro). é uma medida numérica que descreve uma caracte-
rística da população, ou ainda, que é obtida a partir de todos os dados populacionais
(através de um censo).
Denição 1.1.4 (Estatística). é uma medida numérica que descreve uma caracte-
rística da amostra, ou ainda, que é obtida a partir de dados amostrais (de uma parte
da população).
Exemplos de algumas medidas numéricas são: proporção, média, moda, índices,

etc.
1.1.3 A Ciência Estatística

O conceito de Estatística pode ser considerado de duas maneiras. O primeiro
conceito, logo relaciona a Estatística com tabelas e grácos nos quais os dados obtidos
são representados, ou melhor, relaciona à números especícos. Ouvimos, assim, falar em
estatísticas do IBGE, estatísticas relacionadas à saúde e educação, índices econômicos,
pesquisas de opinião, etc. Um segundo conceito refere-se ao conjunto de processos ou
técnicas empregadas na investigação e análise de fenômenos. Neste caso, a Estatística
é a ciência ou método cientíco que estuda os fenômenos aleatórios e, procura inferir
as leis que os mesmos obedecem. Assim, um conceito mais abrangente e absoluto deve
englobar tanto o primeiro conceito, o qual é o mais popular, quanto o segundo, o qual
normalmente escapa à noção corrente.
Denição 1.1.5 (Estatística). A Estatística é uma ciência que se preocupa com
a coleta, organização, descrição, análise e interpretação dos dados, a m de extrair
informações a respeito de uma população.
1.2. VARIÁVEL E TIPOS DE VARIÁVEIS(DADOS) 7
Dentro dessa idéia, podemos considerar a Ciência Estatística como dividida basi-
camente em duas partes:
1. Estatística Descritiva - que se preocupa com a organização e descrição dos

dados experimentais;
2. Estatística Inferencial - que, a partir da observação de alguns dados experi-

mentais, realiza a análise e interpretação de dados com o objetivo de generalizar
e prever resultados, utilizando-se para isto da Teoria das Probabilidades.
Nesta disciplina, serão abordados tópicos referentes à estatística descritiva, alguns

modelos probabilísticos mais importantes para o estudo da inferência estatística além
da própria inferência estatística.
1.1.4 Estatística: Uma Visão Sistêmica
Figura 1.1: Estatística: Uma Visão Sistêmica
1.2 Variável e Tipos de Variáveis(dados)

1.2.1 Variável
Denição 1.2.1 (Variável). Uma Variável nada mais é que uma característica (ou
dado) associada a cada elemento da população ou da amostra. A variável apresenta
diferentes valores, quando sujeita a mensurações sucessivas, e, em geral, é denotada
pelas letras maiúsculas: X , Y ou Z .
Antes de realizar qualquer tratamento estatístico de um conjunto de dados, é

importante identicar qual é o tipo de dado (ou variável) que será analisado, pois, é
mediante a este conhecimento que o pesquisador poderá ou não adotar determinadas
técnicas estatísticas para a resolução de problemas. Por exemplo, será que é possível
calcular o peso médio de lutadores de boxe, quando os dados são coletados segundo a
categoria de peso: Leve, Médio ou Pesado?
1.2.2 Tipos de Variáveis(dados)

Basicamente, as variáveis podem ser classicadas como sendo Qualitativas ou Quan-
titativas.
1. Variáveis Qualitativas - quando os valores que elas podem receber são referen-
tes à qualidade, atributo ou categoria. Exemplos são:
• Raça: podendo assumir os valores Branco ou Negro;
• Sexo: Masculino ou Feminino;
• Escolaridade: 1 ◦ grau completo, 2 ◦ grau completo, superior, pós-graduado;
• Conceito de qualidade: péssima qualidade, regular ou boa qualidade.
As variáveis qualitativas podem, ainda, ser classicadas como: Nominais ou

Ordinais.
(a) As variáveis qualitativas nominais - são caracterizadas por dados que se
apresentam apenas sob o aspecto qualitativo. Por exemplo: raça e sexo.
(b) As variáveis qualitativas ordinais - são caracterizadas por categorias que
aprentam uma ordenação natural. Por exemplo: escolaridade e conceito de
qualidade.
2. Variáveis Quantitativas - quando os valores que ela pode assumir são numé-
ricos, os quais podem ser obtidos através de uma contagem ou mensuração.
As variáveis quantitativas podem ser classicadas de acordo com o processo de
obtenção; podendo ser: Discreta ou Contínua.
(a) Variáveis quantitativas discretas - são variáveis numéricas obtidas a

partir de procedimento de contagem. Por exemplo: Quantidade de pessoas
numa família, quantidade de acidentes numa indústria, etc.
(b) Variáveis quantitativas contínuas - são variáveis numéricas cujos valores
são obtidos por um procedimento de mensuração, podendo assumir quais-
quer valores num intervalo dos números reais. Por exemplo: temperatura,
altura, salário, etc..
Observação 1. O fato de uma variável poder ser expressa por números não signica
que ela seja necessariamente quantitativa, por que a classicação da variável depende
1.3. FASES DO MÉTODO ESTATÍSTICO 9
de como foi medida. Por exemplo, para a variável peso de um lutador de boxe, se
for anotado o peso marcado na balança, a variável é quantitativa contínua; por outro
lado, se esse peso for classicado segundo as categorias do boxe, a variável é qualitativa
ordinal.
1.3 Fases do Método Estatístico

Assim como qualquer ciência, a estatística utiliza o método cientíco, que consiste
das cinco etapas básicas seguintes:
1. Denir cuidadosamente o problema.

Nesta etapa o pesquisador deve certicar-se de que é clara a nalidade de um
estudo ou análise. Ao denir o que se quer estudar, ou seja, o problema, é
necessário que se faça um levantamento sobre quais estudos já realizados no
campo de pesquisa abordado. Deve-se também especicar quem ou o quê será
observado no estudo, ou seja, a população a ser pesquisada.
2. Formular um plano para a coleta dos dados adequados.
Nesta fase, o pesquisador deverá listar as variáveis (características ou dados)
que sejam relevantes para se atingir os objetivos propostos pela pesquisa. Além
disso, deve-se decidir se a coleta dos dados será realizada através de um censo ou
amostragem, ou seja, se todos os elementos da população serão observados ou se
apenas uma parte da população é que será observada e neste último caso deve-se
decidir por alguma técnica de amostragem que gere uma amostra mais el
possível à(s) característica(s) da população, podendo ser probabilística ou não.
Os dados podem ser classicados quanto à forma de coleta, como:
a. Dados primários - quando o próprio pesquisador é quem elabora e aplica
os instrumentos necessários para a coleta dos dados, ou seja, quando a Coleta é
Direta;
b. Dados secundários - quando o pesquisador utiliza informações já colhidas
por outrem, retirando-as de livros, revistas, mapas anuários, etc.
3. Coligir ou apurar os dados.
Esta fase consiste em resumir os dados, através de sua contagem e agrupamento.
É possível que nesta fase seja identicado a presença de dados absurdos fazendo-se
necessário a eliminação ou correção destes tipos de dados.
4. Analisar e interpretar os dados.
5. Relatar as conclusões de maneira que sejam facilmente entendidas por quem as
for usar na tomada de decisões.
Capítulo 2
Organização de Dados através de
Tabelas e Grácos
2.1 Introdução
A estatística pode ser considerada como um instrumento ou um conjunto de mé-
todos matemáticos que devem ser utilizados quando se pretende transformar dados em
informação. Para ilustrar este processo, veja a Figura 1:
12 15 18 Média
15 12 18 Moda
18 15 18 ⇒ Mediana
17 19 20 Proporção
Quantis
Conjunto de dados
Conjunto de informações
Figura 1:
No primeiro retângulo, tem-se um conjunto de observações da variável idade de um
grupo de 12 pessoas e, no segundo retângulo, as estatísticas (informações) que podem
representar esses números.
2.2 Organização de dados: Tabelas e Grácos

2.2.1 Distribuição de Frequências: representação tabular
O primeiro passo para se resumir um conjunto de dados é ordená-los em ordem
crescente ou decrescente e proceder a contagem do número de ocorrência (freqüência)
de cada dado. À ordenação dos dados denominamos de Rol. Assim, o rol para o
conjunto de dados da Figura 1 ca:
Rol de dados: (Organize!)
11
12CAPÍTULO 2. ORGANIZAÇÃO DE DADOS ATRAVÉS DE TABELAS E GRÁFICOS
Desta maneira, ca fácil vericar a freqüência com que cada um dos dados foi
observado, por exemplo: o valor 12 ocorreu 2 vezes; o valor 15 ocorreu 3 vezes, e assim
por diante.
Uma maneira adequada de apresentar os dados e suas respectivas freqüências é
através de uma Tabela de Freqüências, a qual é constituída por uma coluna refe-
rente aos dados e outra referente às freqüências associadas a cada valor observado
(ni ). Veja como ca para o conjunto de dados da Figua 1:
Tabela 2.1: Distribuição de freqüências da variável idade.

Idade Frequência (ni )
12 2
15 3
17 1
18 4
19 1
20 1
Total de observações (n) 12
Fonte: ctícia.
Uma medida bastante útil na interpretação de tabelas de freqüências é a freqüên-

cia relativa (fi ), a qual é dada pela razão entre a freqüência do i-ésimo valor observado,
ni e o total de dados observados, n. Pode-se, ainda, representar a freqüência relativa
em termos de porcentagem, bastando para isso multiplicar a freqüência relativa fi por
100.
Para alguns tipos de variáveis, tais como a qualitativa ordinal e as quantitativas
(discreta ou contínua), pode ser útil também, a informação de quantas observações
apresentam valores menores ou iguais a um certo valor xado. Este tipo de informação
é denominado de freqüência acumulada, Fi , a qual também pode ser expressa em
termos relativos ou por porcentagens.
Vejamos, agora, como ca a tabela de freqüências anterior com estas informações
adicionadas:
Tabela 2.2: Distribuição de freqüências da variável idade com frequências relativas e

acumuladas.
Idade ni fi fi × 100 (%) Fi (%)
12 2 0,1667 16,67 16,67
15 3 41,67
17 1 0,0833 8,33 50,00
18 4 33,33
19 1 8,33 91,67
20 1 0,0833 8,33 100,00
Total (n) 12 1,0000 100,00
Fonte: ctícia.
2.2. ORGANIZAÇÃO DE DADOS: TABELAS E GRÁFICOS 13
Observação: Ao conjunto de todos os pares de valores, referentes a cada dado

observado e sua respectiva freqüência, denominamos de Distribuição de Freqüên-
cias. Desta forma, os pares (12, 2), (15, 3), (17, 1), (18, 4), (19, 1) e (20, 1) representam
a distribuição de freqüências da variável idade para esse grupo de pessoas.
2.2.2 Distribuição de Frequências: representação gráca

Uma representação gráca da distribuição de freqüências tem a vantagem de, maneira
rápida e concisa, informar tanto sobre as frequências quanto sobre a variabilidade dos
dados.
Gráco de Colunas
O gráco de colunas é mais adequado para representar a distribuição de frequências
de variáveis discretas mas também pode ser utilizado para variáveis qualitativas nomi-
nais cujos nomes das categorias são pequenos ou variáveis qualitativas ordinais. Neste
gráco, cada valor observado é representado por retângulos de mesma base e alturas
proporcionais às freqüências. Para ilustrar, veja como ca este gráco para a distri-
buição de freqüências da variável idade, utilizando a freqüência absoluta e relativa em
termos de porcentagem:
Figura 2.1:
Distribuição de freqüências da variável idade

4.5
4
4
3.5
Freqüência (n_i)
3
3
2.5
2
2
1.5
1 1 1
1
0.5
0
12 15 17 18 19 20
Idade (anos)
Figura 2.2:
Distribuição de freqüências da variável idade

50.0%
45.0%
40.0%
Freqüência (%)
35.0% 33.3%
30.0%
25.0%
25.0%
20.0% 16.7%
15.0%
10.0% 8.3% 8.3% 8.3%
5.0%
0.0%
12 15 17 18 19 20
Idade (anos)
Observação: existe um gráco denominado Gráco de Pareto que é bastante

conhecido na área de Controle de Qualidade. Este gráco nada mais é que um gráco
de colunas ordenadas de acordo com as frequências da maior para a menor, usado; por
exemplo; para identicar defeitos que ocorrem com maior frequência e, provavelmente;
dependendo dos custos; o de maior prioridade para se tomar providências.
Gráco de Pizza ou de Setores

O Gráco de Pizza ou de Setores também é adequado para representar variáveis dis-
cretas desde que não assumam uma quantidade muito grande de valores. É adequado
também para variáveis qualitativas nominais. Este gráco é caracterizado por um
círculo de raio arbitrário representando a frequência absoluta ou percentual total de
dados. O círculo por sua vez é dividido em setores(fatias) que correspondem, propor-
cionalmente, às frequências com que as categorias da variável em estudo ocorrem.
Para calcular o ângulo, θ0 , correspondente a uma fatia do gráco de pizza, é
possível, a partir de uma simples regra de três chegar à seguinte fórmula:
θ0 = fi × 3600
A Figura 2.2.2 ilustra um gráco de setor.
Figura 2.3: Exemplo de um gráco de setor.

Exercícios de Fixação
1 - Construa uma Tabela de Frequências para a variável TOLERÂNCIA AO CI-

GARRO, referente à vocês, alunos matriculados na disciplina. Represente, tam-
bém, esta distribuição de frequências através de um ou mais gráco(s) que con-
sidere adequado(s).
2 - O seguinte conjunto de dados é referente ao número de acidentes por dia em certo

trecho de rodovia no mês de setembro de certo ano:
2 0 1 2 3 1 6 1 0 0
1 2 2 1 2 0 1 4 2 3
0 1 0 2 1 2 4 1 1 1
Responda as seguintes questões:
a) Qual o número mínimo de acidentes, num certo dia? E o número máximo?
b) Freqüêntemente, ocorreram quantos acidentes por dia? E o que isso repre-

senta em termos de percentuais?
c) Represente gracamente a distribuição de frequência da variável número de

acidentes por dia, no mês de setembro.
d) Faça um gráco de colunas para o percentual acumulado.

2.2.3 Agrupamento de dados em classes: distribuição de frequên-

cias e representação gráca
Distribuição de frequências em classes

Em algumas situações, é necessário o agrupamento de dados em categorias ou
classes para se proceder a construção de uma tabela de freqüências. Por exemplo, em
um conjunto de dados contínuos, um mesmo valor não ocorrerá com grande freqüência,
ou até mesmo, não se repetirá por mais de uma vez. Uma vantagem em agrupar os
dados em classes consiste na organização de grandes conjuntos de dados de forma mais
clara e objetiva. Por outro lado, uma desvantagem, consiste na perda de informações
por não se saber exatamente quais os valores ocorridos dentro de cada classe.
Para ilustrar como proceder a construção de uma tabela de freqüências em classes,
considere o seguinte conjunto de dados:
Tabela 2.3: Notas do 1o estágio de 20 estudantes de estatística.

Código do aluno 1 2 3 4 5 6 7 8 9 10
Nota 7,5 8,0 9,0 7,3 6,0 5,8 10,0 3,5 4,0 6,0
Código do aluno 11 12 13 14 15 16 17 18 19 20
Nota 7,5 7,0 8,5 6,8 9,5 9,8 10,0 4,8 5,5 7,0
Fonte: ctícia.
Note que, não haverá vantagem alguma se organizarmos estes dados numa tabela
de freqüências, uma vez que os dados pouco se repetem. Assim, torna-se útil o agru-
pamento dos dados, que, de um modo geral, pode ser feito de acordo com os seguintes
passos:
1. Organizar os dados num Rol.

2. Estabelecer o Número de Intervalos (categorias ou classes) para se dividir o
conjunto de dados.
A escolha do número de classes é arbitrária, a qual pode ser estabelecida de acordo
com o bom senso do pesquisador ou obtido por alguma fórmula matemática
construída para este m. Uma sugestão prática é a escolha entre 5 e 15 classes
com a mesma amplitude e duas fórmulas matemáticas que podem orientar na
escolha do número de classes, são:
√
(a) k = n
(b) k = 1 + 3, 3 × log(n)
Onde k é o número de classes e n é o número total de observações.
3. Calcular a Amplitude Total:
AT ot = xmáx − xmín
Onde xmáx e xmín é o valor máximo e mínimo observado no conjunto de dados.
4. Determinar a Amplitude de Classe:

AT ot
h=
k
5. A partir do menor valor observado no conjunto de dados, ou de algum valor

imediatamente inferior e adequadamente escolhido, delimitar as classes, ou seja,
determinar os limites inferiores e superiores de cada classe.
Neste momento, os seguintes símbolos são úteis:
(a) li −−−−| Li - para indicar que o valor extremo inferior (li ) não pertence
à i-ésima classe, enquanto que o valor extremo superior (Li ) pertence.
(b) li |−−−− Li - para indicar que o valor extremo inferior (li ) pertence à
i-ésima classe, enquanto que o valor extremo superior (Li ) não pertence.
6. Após todos estes passos, só resta proceder a contagem do número de observações

pertencentes à cada uma das classes e organizar estas informações numa tabela
de freqüências para dados agrupados.
De acordo com estes passos, o conjunto de dados anterior pode ser organizado
como:
(Construir a Tabela de freqüências para os dados agrupados em classes)
Representação gráca: Histograma

Para a representação gráca de variáveis quantitativas contínuas é necessário alguma
adaptação do gráco de colunas, uma vez que, em geral, é necessário agrupar os dados
em classes e, consequentemente, há perda de informações.
Histograma - é um gráco indicado para representar dados agrupados em classes.
Este gráco é uma adaptação do gráco de colunas, onde as bases correspondem aos
intervalos de classe e as alturas são proporcionais às freqüências de classe.
Agora, veja como ca o histograma para a distribuição das Notas:
(Construir o histograma para a distribuição de freqüências em classes)
Para concluir, ilustramos na Figura 2.2.3 abaixo, histogramas correspondentes a

três tipos de distribuição de dados: (a) dados assimetricamente distribuídos à esquerda,
(b) dados simetricamente distribuídos e (c) dados assimetricamente distribuídos à di-
reita. Todos estes apresentam uma curva de suavização para representar a distribuição
dos dados.
Figura 2.4: Três histogramas segundo a assimetria da distribuição dos dados: (a) dados
assimetricamente distribuídos à esquerda, (b) dados simetricamente distribuídos e (c)
dados assimetricamente distribuídos à direita.
1 - Segue abaixo os dados da variável taxa de mortalidade infantil de 34 municípios:
32,3 62,2 10,3 22,0 13,1 9,9 11,9 20,0 36,4 23,5
18,0 22,6 20,3 38,3 19,6 27,2 28,9 18,4 27,3 21,7
23,7 13,9 36,3 32,9 29,7 25,4 23,8 15,7 17,0 39,2
22,7 29,9 18,3 33,0
Obtenha uma distribuição de frequências com 7 classes, começando do valor 0

(incluso) e com amplitudes de classe iguais a 10. Apresente alguns comentários
sobre a taxa de mortalidade infantil dos 34 municípios.
2 - Em uma pesquisa foram anotados os tempos decorridos entre a incidência de

uma certa doença e sua cura, em 50 pacientes. Estes tempos são os seguintes,
em horas:
21 44 27 323 99 90 20 66 39 16
47 96 127 74 82 92 69 43 33 12
41 84 02 61 35 74 02 83 03 13
41 10 24 24 80 87 40 14 82 58
16 35 114 120 67 37 126 31 56 04
Construa um histograma e comente sobre alguns aspectos relevantes desta dis-

tribuição.
Resoluções:
Distribuição de frequências com amplitude de classes desiguais

Em algum momento o prezado leitor poderá ter a necessidade de construir uma dis-
tribuição de frequências em classe com amplitudes desiguais. Em tal situação é re-
comendável substituir as frequências absolutas ou relativas pelo que chamamos de
densidades de frequências di calculadas da seguinte forma:
ni
di = ,
hi
para toda classe i.

Exemplo 2.2.1. Dada a seguinte distribuição de freqüências:
Tabela 2.4: Distribuição de frequências de uma certa variável.

Variável ni
10 ` 20 13
20 ` 30 17
30 ` 50 20
50 ` 100 25
Total
Fonte: ctícia.
Construa um histograma para representar tal distribuição.

Capítulo 3
Estatísticas Descritivas
3.1 Medidas Resumo para Variáveis Quantitativas

Nesta seção veremos algumas medidas que tem como objetivo resumir um conjunto
de dados em um único valor o qual possa fornecer informações sobre o comportamento
dos dados, ou seja, sobre a distribuição de freqüências da variável.
3.1.1 Medidas de Tendência Central

As medidas de tendência central são bastante utilizadas e representam o centro ou
o meio de um conjunto de dados. As principais são: a mediana, a moda, e a média
aritmética.
A seguir estas medidas são denidas e obtidas para os dois seguintes conjuntos
de dados que representam o número de gols registrados em cada partida de futebol,
durante 5 e 6 jogos, respectivamente:
Conjunto de dados 1: Número de gols por partida de futebol, em 5 jogos.
3 2 1 2 5
Conjunto de dados 2: Número de gols por partida de futebol, em 6 jogos.
5 3 2 1 2 5
Mediana
A Mediana é o valor que divide o conjunto de dados ordenados em duas partes
iguais, ou seja, 50% das unidades observadas possuem valores menores ou iguais ao
valor mediano e as demais 50% possuem valores acima da mediana.
Notação: M d ou M d(X).
21
22 CAPÍTULO 3. ESTATÍSTICAS DESCRITIVAS
Para se obter o valor da mediana é necessário seguir os seguintes passos:

1 ◦ ) Ordenar o conjunto de dados em ordem crescente (ou descrescente);
posição central do conjunto de dados, ou seja, a posição onde
2 ◦ ) Identicar a
se encontra o valor da mediana. Esta(s) posição(ões) pode(m) ser vericada(s)
utilizando-se as seguintes fórmulas:
1. PM d = n+1
2
, se o total de observações, n, é ímpar. Assim, a mediana, M d,
será o valor observado na posição PM d ;
2. P 1M d = n2 e P 2M d = n2 + 1, se o total de observações, n, é par. Pois, neste
caso, existem duas posições centrais e a mediana, M d, será a média aritmética
dos valores observados nestas duas posições.
Exemplo 3.1.1. A partir do conjunto de dados 1, pode-se obter o seguinte rol de
dados:
1 2 2
|{z} 3 5
mediana
Note que, o número de observações, n = 5, é ímpar, logo o valor da mediana (valor

central) está na posição PM d = n+1
2
= 5+1
2
= 3, que é igual a M d = 2.
Exemplo 3.1.2. Ordenando em ordem crescente o conjunto de dados 2, teremos o
seguinte rol de dados:
1 2 2|{z}3 5 5
dois valores centrais
Agora, neste caso, o número de observações, n = 6, é par, e, portanto, existem dois

valores centrais localizados nas posições P 1M d = n2 = 62 = 3 e P 2M d = n2 +1 = 3+1 = 4.
Assim, a mediana será a média aritmética dos valores que se encontram nestas duas
posições, dada por:
xP1M d + xP2M d 2+3

Md = = = 2, 5.
2 2
Observação:
Uma forma alternativa de se obter a posição da mediana é dada por:
1 ◦ ) Obter o valor que representa a metade do total de observações: PM d = n2 ;
2 ◦ ) Utilizar a seguinte regra:
1. Se PM d for um número não inteiro, então, arredonda-se o valor de PM d para

o maior inteiro mais próximo, e, assim, o valor da mediana estará nesta nova
posição obtida.
2. Se PM d for um número inteiro, então o valor da mediana será a média aritmética
dos valores que estão nas posições PM d e PM d + 1.
3.1. MEDIDAS RESUMO PARA VARIÁVEIS QUANTITATIVAS 23
Exemplo 3.1.3. Utilizando-se os procedimentos descritos na observação acima, temos

que, para o conjunto de dados 1, PM d = n2 = 52 = 2, 5 (não inteiro), logo o valor da
mediana estará na posição PM d = 3 (maior inteiro mais próximo), que é dado por
M d = 2.
Exemplo 3.1.4. No conjunto de dados 2, temos PM d = n

2
= 6
2
= 3 (inteiro), assim,
de acordo com o procedimento descrito na observação acima, temos que a mediana é
dada pela média aritmética dos valores observados nas posições PM d = 3 e PM d + 1 =
3 + 1 = 4:
xP 1M d + xP 2M d 2+3
Md = = = 2, 5.
2 2
Moda
A Moda é o valor (ou os valores) no conjunto de dados que ocorre(m) com maior
freqüência.
Notação: Mo ou Mo (X).
Exemplo 3.1.5. O primeiro conjunto de dados, 1 2 2 3 5, é dito ser unimodal,

tendo em vista que um único valor ocorre com maior frequência. Assim, a moda é
Mo = 2.
Exemplo 3.1.6. O segundo conjunto de dados, 1 2 2 3 5 5, é dito ser bimo-

dal, tendo em vista que, neste caso, dois valores ocorrem com maior frequência, assim,
os valores modais são: Mo = 2 e Mo = 5.
Exemplo 3.1.7. Classique os conjuntos de dados a seguir de acordo com a quantidade
de valor(es) modal(is):
a) 2 4 7 9 11 17
b) 2 4 4 7 7 7 9 11 17 17
c) 2 2 2 4 4 4 7 7 7
d) 2 2 2 4 4 4 7 7 7 9
e) -1 0 0 1 1 2 3 3 4 4 5 6 6
Média Aritmética (Média)

A Média Aritmética (Média) é obtida a partir da razão entre a soma dos valores
observados e o total de observações:
soma dos valores

Média =
total de observações (n)
Notação: M e, M e(X) ou x.
Exemplo 3.1.8. A partir do conjunto de dados 1, a média é obtida por:
soma dos valores 1+2+2+3+5

M e(X) = x = = = 2, 6.
total de observações (n) 5
Observação:
1) A média aritmética pode ser expressa através do uso do símbolo de somatório
P
(sigma). Por exemplo, se x1 , x2 , . . . , xk são k valores distintos da variável X , podemos
escrever:
k
x1 + x2 + . . . + xk 1X
M e(X) = x = = xi
k k i=1
Agora, se, de um total de n valores observados (ou observações), x1 ocorreu n1

vezes, x2 ocorreu n2 vezes, etc., xk ocorreu nk vezes, então a média de X pode ser
reescrita como:
k
x1 .n1 + x2 .n2 + . . . + xk .nk 1X
M e(X) = x = = xi .ni (3.1)
n n i=1
k
ni
(3.2)
X
= xi .
i=1
n
k
(3.3)
X
= xi .fi .
i=1
Onde:
• ni é freqüência absoluta do valor observado xi ,
ni é o total de observações, e,
Pk
• n= i=1
• fi é freqüência relativa do valor observado xi .

Exemplo 3.1.9. A partir do segundo conjunto de dados,

1 2 2 3 5 5,
temos:
k
1X 1 18
M e(X) = x = xi .ni = (1 × 1 + 2 × 2 + 3 × 1 + 5 × 2) = = 3.
n i=1 6 6
1 - Dado o seguinte conjunto de dados:
12 12 15 15 15 17 18 18 18 18 19 20
Determine a média, moda e mediana.

Solução:
3.1.2 Medidas de Dispersão ou de Variabilidade

Na sumarização de um conjunto de dados, uma única medida representativa da
posição central, esconde toda a informação sobre a variabilidade dos dados. Veja, por
exemplo, os seguintes dados:
Variável X : 3 4 5 6 7
Variável Y : 4 5 5 6
Variável Z : 5 5 5 5
Note que a média M e(X) = M e(Y ) = M e(Z) = 5, a qual nada informa sobre a
variação dos valores nos dois grupos. Assim, torna-se importante o conhecimento de
uma medida que forneça este tipo de informação.
Na prática, existem várias medidas que expessam a variabilidade de um conjunto
de dados, sendo que as mais utilizadas baseam-se na idéia que consiste em vericar a
distância de cada valor observado em relação à média. Estas distâncias são denomina-
das de desvios em relação à média.
Denição 3.1.1 (Variância). - é uma medida que representa a variabilidade de um

conjunto de dados e, é obtida pelo cálculo da média dos quadrados dos desvios em
relação à média:
V ar(X) = s2
k
1X
= (xi − x)2 × ni
n i=1
k
X ni
= (xi − x)2 ×
i=1
n
k
X
= (xi − x)2 × fi
i=1
Exercício
Mostre que:
1-
k
X
(xi − x) × ni = 0
i=1
2-
k
X k
X
2
(xi − x) × ni = x2i ni − nx2
i=1 i=1
E, por isso, a variância também pode ser obtida pela seguinte fórmula:
k
1X 2 2
V ar(X) = s = xi n i − x2
n i=1
3- !2
n
X n
X X
xi = x2i + 2 × xi × xj .
i=1 i=1 i<j
4 - Vejamos, agora, como ca a variância para as variáveis X , Y e Z :
Assim, de acordo com a variância, podemos dizer que a variável X , Y e Z apre-

sentam, respectivamente, variabilidade ...
Denição 3.1.2 (Desvio Padrão). - é a raiz quadrada da variância.

v
u k
√ uX
D.P.(X) = s = s = t (xi − x)2 × fi
2
i=1
O uso do desvio padrão como medida de variabilidade é preferível pelo fato de ser
expresso na mesma unidade de medida dos valores observados. Pois, a variância pode
causar problemas de interpretação por ser expressa em termos quadráticos.
Denição 3.1.3 (Coeciente de Variação). - O coeciente de variação (CV) é

uma medida relativa de variabilidade. O seu valor é determinado por intermédio do
quociente entre o desvio padrão e a média aritmética dos dados.
s
CV (X) = × 100 (expresso em porcentagem (%))
x
A utilidade imediata do coeciente de variação é a possibilidade de avaliar o quanto

a média representa bem o conjunto de dados (representatividade da média). Esta
medida também é bastante útil na comparação entre conjunto de dados, em relação à
variabilidade; ainda que as unidades de medida nos conjuntos de dados sejam distintas.
Por exemplo, comparar a variabilidade das distribuições da variável peso expressa em
quilogramas (Kg ) e altura expressa em metros (m).
Um critério de decisão sobre a representatividade ou não da média, pode ser dada
pela seguinte linha de corte:
Se CV ≥ 50%, a média não é representativa.
Se CV < 50%, a média é representativa.
Exemplos:
a) Obtenha o desvio padrão das variáveis X , Y e Z além dos coecientes de variação

CV (X), CV (Y ) e CV (Z).
b) Considere os quilômetros rodados por 3 carros: 30 Km, 40 Km e 50 Km. Calcule

a média, a variância, o desvio padrão e o CV. Interprete essas medidas.
Exercício de Fixação
12 12 15 15 15 17 18 18 18 18 19 20
Determine o desvio padrão e o CV.

Solução:
3.1.3 Medidas Resumo para Dados Agrupados

Sabemos que ao agrupar um conjunto de dados em classes, perdemos a informação
sobre o valor exato que ocorreu no conjunto de dados e, no caso em que seja impossível
recuperar esta informação, podemos supor que todos os dados dentro de uma classe
tenham seus valores ocorridos próximos ao ponto médio da classe que denotaremos
por si . Assim, podemos, por exemplo, utilizar os pontos médios das classes si e suas
respectivas freqüências ni para calcular a média aritmética de maneira análoga ao
exposto anteriormente. Da mesma forma, podemos adotar como valor modal, o ponto
médio da classe modal e como mediana, o ponto médio da classe mediana.
Exemplo 3.1.10. Dada a seguinte distribuição de freqüências da variável S =salário

(dados agrupados em classes):
Tabela 3.1: Distribuição de frequências da variável Salário.

Salário ni
4,00 ` 8,00 10
8,00 ` 12,00 12
12,00 ` 16,00 8
16,00 ` 20,00 8
20,00 ` 24,00 2
Fonte: ctícia.
Determine o valor (aproximado) da média, moda e mediana. Determine também

o desvio padrão e o CV.
Solução:
3.2 Medidas de Posição: Quartis, Decis e Percentis

Assim como a mediana divide os dados em duas partes iguais, os três quartis,
denotados por Q1 , Q2 e Q3 , dividem as observações ordenadas (em ordem crescente)
em quatro partes iguais. A grosso modo:
- Q1 separa os 25% inferiores dos 75% superiores dos valores ordenados;
- Q2 separa os 50% inferiores dos 50% superiores, ou seja, é a mediana; e
- Q3 separa os 75% inferiores dos 25% superiores dos dados;
Analogamente, há nove decis, denotados por D1 , D2 , . . . , D9 , que dividem os dados
em 10 grupos com cerca de 10% deles em cada grupo. Finalmente, há 99 percentis
que dividem os dados em 100 grupos com cerca de 1% de dados em cada grupo.
Basicamente, dois passos são necessários para se encontrar as medidas em questão.
Primeiro deve-se identicar a sua posição, e, em seguida, determinar o seu valor.
Veja a seguir, como obter os valores referentes aos percentis, quando se está traba-
lhando com dados brutos ou em distribuição de freqüências para dados não agrupados:
1 ◦ ) Identicar a posição do percentil que se deseja encontrar, através da seguinte
expressão:

k
L= ×n
100
Onde:
- L é o valor que indica a posição do percentil de interesse;
- k é o k − ésimo percentil; e
- n é o total de dados observados.
2 ◦ ) Utilizar a seguinte regra:
1. Se L for um número não inteiro, então, arredonda-se o valor de L para o maior

inteiro mais próximo, e, assim, o valor do k − ésimo percentil, Pk , é dado pelo
valor que ocupa esta nova posição obtida.
2. Se L for um número inteiro, então o valor do k − ésimo percentil, Pk , será a

média aritmética dos valores que estão nas posições L e L + 1.
Uma vez dominados os cálculos para os percentis, pode-se seguir o mesmo processo
para calcular os quartis e decis, tendo-se o cuidado de calcular o valor de L, pelas
fórmulas L = k4 × n, k = 1, 2, 3 e L = 10 k
× n, k = 1, 2, . . . , 9, respectivamente.
Pode-se, ainda, obter os quartis e decis pelas seguintes relações existentes entre estas
medidas e os percentis:
3.3. OUTRA ESTRATÉGIA DE ANÁLISE DE DADOS 31
Quartis Decis
Q1 = P25 D1 = P10
Q2 = P50 D2 = P20
..
Q3 = P75 .
D9 = P90
Exercício de Fixação
12 12 15 15 15 17 18 18 18 18 19 20
Determine os Quartis.
Solução:
3.3 Outra Estratégia de Análise de Dados

Em algumas situações a média e o desvio padrão podem não ser adequados para
representar um conjunto de dados, pois:
i - São afetadas, de forma exagerada, por valores extremos;

ii - Apenas com estes dois valores não temos a idéia da assimetria dos valores, ou seja,
sobre o quanto os dados se distribuem em torno dos valores inferiores, medianos
e superiores.
Para contornar estes problemas, 5 medidas foram sugeridas por Tukey (1977):
1 ◦ ) A mediana (M d);
2 ◦ ) Os extremos: o menor e o maior valor observado no conjunto de
dados (xmín e xmáx , respectivamente);
3 ◦ ) O primeiro e o terceiro quartil (ou junta).
3.3.1 Desenho Esquemático - Diagrama em Caixa ("Box-Plot")

As informações obtidas pelas 5 medidas podem ser representadas por um gráco
conhecido por "Box-Plot" ou diagrama em caixa. Para construir este diagrama, con-
sideremos um retângulo onde estão representados a mediana e os quartis. A partir
do retângulo, para cima, segue uma linha até o ponto mais remoto que não exceda
LS = Q3 + (1, 5)dq , chamado limite superior, onde dq representa a distância entre o
primeiro e o terceiro quartil (dq = Q3 − Q1 ). De modo similar, da parte inferior do
retângulo, para baixo, segue uma linha até o ponto mais remoto que não seja menor
do que LI = Q1 − (1, 5)dq , chamado limite inferior. Os valores compreendidos entre
esses dois limites são chamados valores adjacentes. As observações que estiverem
acima do limite superior ou abaixo do limite inferior estabelecidos serão chamadas
pontos exteriores e representadas por asteriscos. Essas são observações destoantes
das demais e podem ou não ser o que chamamos de outliers ou valores atípicos.
O box plot dá uma idéia da posição, dispersão, assimetria, caudas e dados dis-
crepantes. A posição central é dada pela mediana e a dispersão por dq . As posições
relativas de Q1 , Q2 , Q3 dão uma noção da assimetria da distribuição.
Na Figura 3.3.1 encontram-se ilustrados os box-plots correspondentes a três con-
juntos de dados com diferentes assimetrias: (a) dados assimetricamente distribuídos à
esquerda, (b) dados simetricamente distribuídos e (c) dados assimetricamente distri-
buídos à direita.
Figura 3.1: Box-plots segundo três tipos de distribuição dos dados: (a) dados assime-
tricamente distribuídos à esquerda, (b) dados simetricamente distribuídos e (c) dados
assimetricamente distribuídos à direita.
3.3. OUTRA ESTRATÉGIA DE ANÁLISE DE DADOS 33
Grácos tipo box-plot também são úteis para detectar, descritivamente, diferenças
nos comportamentos de grupos de variáveis. Por exemplo, podemos considerar grácos
da variável Peso para cada Gênero. O resultado é apresentado na Figura 3.3.1, em
que podemos notar que os homens apresentam peso mediano superior ao das mulheres,
além de uma maior variabilidade.
Figura 3.2: Box-plot da variável Peso segundo o Genêro.

3.4 Exercícios
1 - Considere os dados da Tabela 2.3 (Página 16), referente à variável X : Notas do
1o estágio de 20 estudantes de estatística:
a) Usando os dados brutos(originais), calcule a média, a moda, a mediana, o

desvio padrão e os quartis.
b) Usando a Tabela de distribuição de frequências em classes construída na
página 17, calcule: a média, a moda, a mediana, o desvio padrão e os
quartis.
c) Compare os resultados obtidos em a) e b).
2 - Construa o box-plot para representar os dados referentes à variável Taxa de Mor-
talidade Infantil cujos dados se encontram no Exercício 1 da página 19.
3 - Obtenha a média e a mediana para o seguinte conjunto de dados:
20 30 40
a) Se substituímos o valor 40 por 70, os valores da média e da mediana serão

os mesmos? Nesta situação a média seria uma boa medida de tendência
central? Por que?
b) Analisando os resultados acima, ressalte uma característica vantajosa da
mediana em relação à média.
4 - Na turma A do curso normal da Escola X, estão matriculados 50 alunos no cor-

rente ano. O levantamento das chas biométricas revelou as seguintes estaturas
em centímetros:
165 164 151 160 155 169 153 156 165 160
170 157 162 162 155 154 151 155 162 150
168 160 154 151 168 155 156 158 166 155
154 152 163 156 170 158 171 159 175 154
159 158 153 158 156 162 165 156 161 157
a) Elabore uma distribuição de freqüências, fazendo o limite inferior da primeira

classe igual a 150 (inclusive) e amplitudes dos intervalos de classe igual a 5 cm.
b) Baseado na distribuição de freqüência calcule: a média, a mediana e a moda.
c) Construa um histograma e um box-plot para representar este conjunto de
dados.
3.4. EXERCÍCIOS 35
5 - As taxas de juros recebidas por 10 ações durante certo período foram (medidas
em porcentagem): 2.59; 2.64; 2.60; 2.62; 2.57; 2.55; 2.61; 2.50; 2.63; 2.64. Calcule
a média e a mediana.
6 - Dados os conjuntos de números:

A = {1000; 1001; 1002; 1003; 1004; 1005} e
B = {0, 1, 2, 3, 4, 5},
podemos armar que:
a) o desvio-padrão de A é igual a 100 vezes o desvio-padrão de B.
b) o desvio-padrão de A é igual ao desvio-padrão de B.
c) o desvio-padrão de A é igual ao desvio-padrão de B multiplicado pelo quadrado
de 1000.
d) o desvio-padrão de A é igual ao desvio-padrão de B dividido por 1000.
e) o desvio-padrão de A é igual ao quadrado do desvio-padrão de B.
Capítulo 4
Análise Bivariada
4.1 Introdução
Em algumas análises de dados pode surgir a necessidade de se fazer um estudo
sobre o comportamento conjunto de duas ou mais variáveis e para isso a distribuição
conjunta de freqüências é de grande utilidade.
Na presente nota de aula estudaremos apenas o caso de duas variáveis e, sendo
assim, é possível observar a ocorrência de três situações distintas que requerem técnicas
estatísticas também distintas. As três situações distintas que podem ocorrer são:
• As duas variáveis são Qualitativas;
• As duas variáveis são Quantitativas;
• Uma variável é Qualitativa e a outra Quantitativa.
Na presente nota de aula, estudaremos apenas os dois primeiros casos.
4.2 Distribuições de Frequências Conjuntas e Condi-

cionais de duas Variáveis Qualitativas
Para ilustrar como podemos realizar uma análise exploratória inicial sobre duas va-
riáveis qualitativas, veremos, por exemplo, como se comportam as variáveis: região
de procedência (X ) e grau de instrução (Y ) em que alguns valores hipotéticos foram
registradados numa tabela da seguinte forma:
37
38 CAPÍTULO 4. ANÁLISE BIVARIADA
Tabela 4.1: Parte de uma base de dados com 36 observações de duas variáveis qualita-
tivas.
ID X Y
1 Capital 10 Grau
2 Interior Superior
3 Capital 10 Grau
4 Capital 20 Grau
5 Capital 10 Grau
6 Outra 10 Grau
... ... ...
36 Capital 1 Grau
0
Esta base de dados pode ser resumida numa tabela que chamamos Distribuição
de Frequências Conjunta das variáveis X e Y , dada por:
Tabela 4.2: Distribuição de frequências conjunta das variáveis X e Y .

X Y freq. conj. (nij )
Capital 1 Grau
0
Capital 20 Grau
Capital Superior
Interior 10 Grau
Interior 20 Grau
Interior Superior
Outra 10 Grau
Outra 20 Grau
Outra Superior
Tal distribuição de frequências é melhor representada por uma Tabela de Dupla

Entrada onde, além das frequências conjunta, também podem ser apresentadas as
frequências ditas marginais ou unidimensionais de X e Y . Para o nosso exemplo, esta
tabela é dada por:
Tabela 4.3: Distribuição de freqüências conjunta das variáveis X e Y .

Y 1 ◦ Grau 2 ◦ Grau Superior Total marginal de X
X
Capital n11 = 4 n12 = 5 n13 = 2 n1. =
Interior n21 = 3 n22 = 7 n23 = 2 n2. =
Outra n31 = 5 n32 = 6 n33 = 2 n3. =
Total marginal de Y n.1 = n.2 = n.3 = n.. =
Observações:
1. Cada célula do corpo da tabela apresenta o número de ocorrência simultânea
(nij ∀i, j ) dos valores (x, y) de X e Y , constituindo a distribuição conjunta;
4.2. DISTRIBUIÇÕES DE FREQUÊNCIAS CONJUNTAS E CONDICIONAIS DE DUAS VARIÁVEIS
2. A coluna dos totais, freqüências marginais de X , ni. , i = 1, 2, 3, constitui a dis-

tribuição marginal de X ;
3. A linha dos totais, freqüências marginais de Y , n.j , j = 1, 2, 3, constitui a distri-

buição marginal de Y ;
4. Assim como no caso de uma única variável, as freqüências absolutas podem ser
expressas em termos de freqüências relativas e/ou porcentagens, sendo que, estas
medidas podem ser obtidas em relação ao total geral, em relação ao total de
cada linha ou em relação ao total de cada coluna, de acordo com os objetivos
da pesquisa;
A partir dos dados apresentados na Tabela 4.3, determine:
a) O percentual de pessoas que possuem o 2 ◦ grau e que são do interior. R: 19,4%
b) Dentre os que possuem o 2 ◦ grau, qual é o percentual de pessoas provenientes do

interior? R: 38,9%
c) Sabendo-se que uma pessoa veio do interior, qual é a probabilidade, em termos

percentuais, de ter o 2 ◦ grau? R: 58,3%
Para responder estas e outras questões, torna-se útil a construção de tabelas de

dupla entrada contendo as freqüências relativas em termos de porcentagem, tendo como
referência o total geral, os totais de cada linha ou coluna, de acordo com a questão a
ser respondida. Vejamos como cam estas tabelas:
Tabela 4.4: Freqüências percentuais da distribuição conjunta das variáveis X e Y , em

relação ao total de dados observados.
X
Capital
Interior
Outra
Total marginal de Y 100%

relação ao total de linha (freqüência marginal de X ).
X
Capital 100%
Interior 100%
Outra 100%
Total marginal de Y 100%

relação ao total de coluna (freqüência marginal de Y ).
X
Capital
Interior
Outra
Total marginal de Y 100% 100% 100% 100%
Para nalizar esta etapa do nosso estudo, é importante ressaltar que a comparação
entre duas variáveis qualitativas também pode ser feita utilizando-se representações
grácas (Pesquise!).
4.2. DISTRIBUIÇÕES DE FREQUÊNCIAS CONJUNTAS E CONDICIONAIS DE DUAS VARIÁVEIS
4.2.1 Associação entre Duas Variáveis Qualitativas Nominais

Ocorre com bastante freqüência em análises de distribuição conjunta o questio-
namento sobre a existência de dependência/associação ou não entre as va-
riáveis, além da necessidade de se saber o grau de dependência entre elas, caso
exista.
De modo geral, o grau de dependência entre duas variáveis é quanticado pelos
coecientes de associação ou correlação. Usualmente, esses coecientes variam de zero
até um, sendo que, às vezes, variam de -1 a 1. Desta maneira, valores próximos de
zero dão indícios de independência entre as variáveis e, valores próximos de 1 (ou -1)
indicam um alto grau de dependência positiva (ou negativa).
Uma maneira pouco rigorosa mas bastante prática para se ter uma idéia sobre a
existência ou não de associação/dependência entre duas variáveis qualitativas é obtida
quando observamos se a proporção em cada categoria de uma variável (xada o total
em linha ou coluna) é igual ou próxima à proporção marginal (de X ou de Y ). Pois caso
estas proporções sejam razoavelmente próximas, temos um indício de não dependência
entre as variáveis; caso contrário; a evidência é de que as variáveis sejam dependentes.
Exemplo 4.2.1. Para cada uma das tabelas abaixo (Tabelas 4.7 e 4.8), verique se há
alguma indicação de dependência entre as variáveis.
Tabela 4.7: Distribuição conjunta das freqüências e proporções de alunos, segundo sexo
(X) e curso escolhido (Y).
X Masculino Feminino Total marginal de Y
Y
Economia 85 (61%) 35 (58%) 120 (60%)
Administração 55 (39%) 25 (42%) 80 (40%)
Total marginal de X 140 (100%) 60 (100%) 200 (100%)
Comentário:
Tabela 4.8: Distribuição conjunta das freqüências e proporções de alunos, segundo sexo
(X) e curso escolhido (Y).
X Masculino Feminino Total marginal de Y
Y
Física 100 (71%) 20 (33%) 120 (60%)
Ciências Sociais 40 (29%) 40 (67%) 80 (40%)
Total marginal de X 140 (100%) 60 (100%) 200 (100%)
Comentário:
4.2.2 Medidas de Associação entre Variáveis Qualitativas

Uma medida de dependência bastante utilizada para variáveis qualitativas é o coe-
ciente de contingência, o qual é dado por
s
χ2
C= ,
χ2 + n
onde n é o número de observações e χ2 é uma medida conhecida por qui-quadrado de

Pearson, a qual é obtida a partir da seguinte soma
r X s
X (nij − eij )2
χ2 = ,
i=1 j=1
eij
onde o somatório é estendido a todas as caselas de frequências conjunta em uma tabela

r × s de dupla entrada (r categorias de X e s de Y ), e
• nij é a freqüência observada na ij-ésima casela;

• eij é a freqüência esperada na ij-ésima casela, caso houvesse independência entre
as variáveis, ou seja, quando a proporção em cada categoria de uma variável
(xada o total em linha ou coluna) é igual ou próxima à proporção marginal.
Deste modo, a frequência esperada é dada, por exemplo, por:
ni. ni. × n.j
eij = fi. × n.j = × n.j =
n.. n..
Observações:
• Se a hipótese de não-associação for verdadeira, o valor do qui-quadrado, χ2 , deve
estar próximo de zero; caso contrário; o valor deve ser grande.
• Um inconveniente do coeciente de contigência C é que seu valor máximo depende
de r e s e, para evitar esse inconveniente, costuma-se denir um outro coeciente,
que também apresenta uma vantagem adicional de variar entre 0 e 1. Este novo
coeciente de contigência é dado por
s
χ2 /n
T = .
(r − 1)(s − 1)
Neste caso, quanto mais próximo de 1 o valor de T for, maior é o grau de associ-
ação/dependência entre as duas variáveis qualitativas e, por outro lado, quanto
mais próximo de 0, menor é o grau de associação/dependência.
Exemplo 4.2.2. Para cada uma das Tabelas 4.7 e 4.8, calcule e interprete o valor do
coeciente de contigência T .
4.3. ASSOCIAÇÃO ENTRE VARIÁVEIS QUANTITATIVAS 43
4.3 Associação entre Variáveis Quantitativas

No caso em que as variáveis são ambas do tipo quantitativa, pode-se aplicar um proce-
dimento análogo ao realizado para a análise de variáveis qualitativas. E, por se tratar de
variáveis quantitativas, antes de construir uma tabela de dupla entrada, os dados mar-
ginais podem ser agrupados em intervalos de classe, assim como no caso de uma única
variável. Apesar de ser possível analisar as variáveis quantitativas de modo análogo ao
caso de variáveis qualitativas, nas análises de associação entre variáveis quantitativas
são possíveis realizar procedimentos analíticos e grácos mais renados, como veremos
a seguir.
4.3.1 Diagrama de Dispersão

O diagrama (ou gráco) de dispersão nada mais é que a representação de pares dos
valores observados (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) num sistema cartesiano. Vejamos a
ilustração de alguns grácos que podem surgir na prática:
4.3.2 Coeciente de Correlação (Linear)

Ao ser observada uma associação entre variáveis quantitativas, seria muito útil saber-
mos sobre a intensidade desta associação. Aqui, veremos apenas uma medida referente
ao tipo de associação linear, ou seja, ao tipo de relação em que os pontos do gráco de
dispersão aproximam-se de uma reta.
Denição 4.3.1 (Coeciente de Correlação Linear). Dados n pares de valores

(x1 , y1 ), (x2 , y2 ), ..., (xn , yn ), chama-se coeciente de correlação entre as variáveis X e
Y o valor obtido por
n
1 X (xi − x)(yi − y)
corr(X, Y ) =
n i=1 dp(X)dp(Y )
ou seja, a média dos produtos dos valores reduzidos (ou padronizados) das variáveis.
Enquanto o coeciente de contigência T para variáveis qualitativas só assume va-

lores ente 0 e 1, o coeciente de correlação pode assumir qualquer valor entre -1 e 1.
Uma fórmula alternativa (Prove!) e mais operacional para o coeciente de correlação
é dada por
SXY
corr(X, Y ) = √ √ , (4.1)
SXX SY Y
onde:
n n
xi yi − n x̄ ȳ ,
X X
• SXY = (xi − x̄)(yi − ȳ) =
i=1 i=1
n n
x2i − nx̄2 , e
X X
2
• SXX = (xi − x̄) =
i=1 i=1
n n
yi2 − nȳ 2 .
X X
2
• SY Y = (yi − ȳ) =
i=1 i=1
O numerador da expressão acima, que mede o total de concentração dos pontos

pelos quatro quadrantes, dá origem à covariância que é uma medida bastante usada.
Denição 4.3.2 (Covariância). Dados n pares de valores (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ),
chamamos de covariância entre as variáveis X e Y à medida dada por
n
X (xi − x)(yi − y)
cov(X, Y ) = .
i=1
n
Ou seja, a média dos produtos dos valores centrados das variáveis.

4.3. ASSOCIAÇÃO ENTRE VARIÁVEIS QUANTITATIVAS 45
Alternativamente o coeciente de correlação também pode ser escrito como
cov(X, Y )
corr(X, Y ) = .
dp(X)dp(Y )
Exercício de Aplicação
Numa amostra de cinco operários de uma dada empresa foram observadas duas
variáveis:
X: anos de experiência num dado cargo, e
Y: tempo, em minutos, gasto na execução de uma tarefa relacionada com esse
cargo.
As observações são apresentadas na tabela abaixo:
X 1 2 4 4 5
Y 7 8 3 2 2
Obs.: x = 16, x2 = 62, y = 22, y 2 = 130, xy = 53.

P P P P P
Usando um gráco de dispersão e calculando o coeciente de correlação linear,

você diria que a variável X pode ser usada para explicar a variação de Y? Justique.
4.4 Exercícios
1 - Realizou-se um estudo com 456 pessoas machucadas em acidentes de motocicleta,
e os resultados amostrais, selecionados aleatoriamente, estão resumidos na tabela
a seguir.
Com capacete Sem capacete

Com ferimentos faciais 30 182
Todos os ferimentos não faciais 8 236
Com base nestes resultados, o capacete parece ser ecaz para evitar ferimentos
faciais em um acidente? Justique.
2 - Uma teoria plausível é a de que as pessoas que fumam são menos preocupadas
com sua saúde e segurança e são, portanto, menos inclinadas a usar o cinto de
segurança. Um estudo de usuários e não usuários de cintos de segurança forneceu
os seguintes dados amostrais, selecionados aleatoriamente, resumidos na tabela a
seguir. Verique se a quantidade de fumo (dada em número de cigarros fumados
por dia) é independente do uso do cinto de segurança. Essa teoria é apoiada
pelos dados amostrais? Justique.
Uso do cinto \ No de cigarros 0 1 - 14 15 - 34 35 ou mais

Usa cinto de segurança 175 20 42 6
Não usa cinto de segurança 149 17 41 9
3 - Um pesquisador coleta os dados dispostos na tabela e suspeita que há uma relação

signicante entre o tempo de propaganda na TV (em minutos por mês) e as vendas
mensais de um produto (em centenas de dólares). Os dados amostrais conrmam
a suspeita do pesquisador? Justique sua resposta com base em uma medida de
associação linear.
Tempo de propaganda 15 20 20 30 40 45 50 60
Vendas 104 128 152 224 216 312 320 352
4 - Um levantamento obtido, junto aos funcionários de um pequeno escritório, busca

relacionar as variáveis: anos de estudo (X ) e número de diferentes empregos nos
últimos cinco anos (Y ).
X 8 9 10 11 12
Y 4 2 1 2 1
a) Construa o diagrama de dispersão.

b) Calcule o coeciente de correlação e interprete o resultado encontrado.
Capítulo 5
Provas de Introdução à Estatística e
Análise Descritiva de Dados (Uni e ou
Bivariada)
5.1 1 ◦ Estágio de 2010.2 - PE6 - DME/UFCG - Ma-

nhã / Análise Univariada de dados
1 - Um questionário foi aplicado a dez (10) funcionários de uma empresa, seleciona-
dos aleatoriamente, fornecendo o seguinte conjunto de dados:
Funcionário Escolaridade Anos de empresa Estado civil Salário

1 Superior 5 Solteiro 1100,50
2 Superior 8 Casado 1450,00
3 Médio 6 Solteiro 960,00
4 Médio 8 Divorciado 960,00
7 Médio 5 Casado 600,00
8 Médio 2 Casado 450,00
9 Fundamental 3 Divorciado 450,00
10 Fundamental 3 Solteiro 450,00
a) Os funcionários que responderam o questionário constituem uma população

ou uma amostra? Justique.
b) Classique as variáveis observadas nesta pesquisa.
c) Verique qual é o percentual de funcionários que têm o ensino médio.
47
48CAPÍTULO 5. PROVAS DE INTRODUÇÃO À ESTATÍSTICA E ANÁLISE DESCRITIVA DE DAD
2 - Uma amostra de 30 estudantes apontou a seguinte distribuição de frequências

das notas de Estatística (avaliação de 0 a 100 pontos):
Nota ni
40 3
50 5
65 7
70 8
80 2
95 4
100 1
a) Construa um gráco adequado para representar os dados.

b) Calcule a nota média, mediana e a modal.
c) Calcule o 85 ◦ percentil e interprete o resultado encontrado.
d) Calcule o desvio padrão.
e) Obtenha o valor do coeciente de variação. A média é uma medida repre-
sentativa para esta variável? Justique.
3 - O conjunto de dados amostrais a seguir fornece uma lista do tempo (em minutos)
que 30 assinantes da Internet gastaram durante sua conexão mais recente.
15 17 19 20 22 23 29 29 30 30
33 34 36 37 39 40 41 46 50 53
54 59 62 67 69 73 77 78 80 88
a) Construa uma distribuição de freqüências agrupando os dados em classes de

amplitude 15, a partir do menor valor (Use a notação `).
b) Represente os dados através de um histograma.
c) Calcule o valor (aproximado) da média e da moda.
4 - O número de gols marcados no último campeonato da Federação Paulista de

Futebol pelos 20 clubes participantes, nos seus 38 jogos variou entre 25 e 79.
Sabendo que 50% dos clubes marcaram abaixo de 47 gols, 25% marcaram abaixo
de 35 gols, 25% marcaram acima de 68 gols, represente a variável número de gols
através de um box-plot.
Formulário
M e(X) = x = n1 ki=1 xi .ni
P
dq = Q3 − Q1
2 1
Pk 2 2
V ar(X) = s = n i=1 xi ni − x LI = Q1 − (1, 5)dq
CV (X) = xs × 100 LS = Q3 + (1, 5)dq
5.2. 1◦ ESTÁGIO DE 2010.2 - PE6 - DME/UFCG - TARDE / ANÁLISE UNIVARIADA DE DADOS49
5.2 1 ◦ Estágio de 2010.2 - PE6 - DME/UFCG - Tarde

/ Análise Univariada de dados
1 - Um questionário foi aplicado a dez (10) alunos da UFCG, selecionados aleatori-
amente, fornecendo o seguinte conjunto de dados:
Aluno Idade (em anos) Estado civil Escolaridade do Pai Renda do Pai
1 20 Casado Superior 1100,50
2 18 Solteiro Superior 1450,00
3 21 Solteiro Médio 960,00
4 23 Casado Médio 960,00
7 25 Casado Médio 600,00
9 23 Casado Fundamental 450,00
10 23 Solteiro Fundamental 450,00
a) Os alunos que responderam o questionário constituem uma população ou

uma amostra? Justique.
b) Classique as variáveis observadas nesta pesquisa.
c) Verique qual é o percentual de pais que têm o ensino médio.
2 - O setor pessoal da empresa Mercantil: Preço Bom é Aqui, Ltda. registrou o

seguinte número de faltas de funcionários no último trimestre:
Faltas ni
2 6
3 8
4 12
5 10
6 4
a) Construa um gráco adequado para representar os dados.

b) Calcule o número médio de faltas, mediano e o valor modal.
c) Calcule o 27 ◦ percentil e interprete o resultado encontrado.
d) Calcule o desvio padrão.
e) Obtenha o valor do coeciente de variação. A média é uma medida repre-
sentativa para esta variável? Justique.
3 - Um exame vestibular para uma faculdade tem, em sua prova de Matemática, 40

questões. Para os 20 melhores classicados, apresentamos o número de acertos.
13 20 20 20 21 21 23 23 25 25
26 27 28 28 28 29 30 30 31 32
a) Construa uma distribuição de freqüências agrupando os dados em classes de

amplitude 4, a partir do menor valor (Use a notação `).
b) Represente os dados através de um histograma.
c) Calcule o valor (aproximado) da média e da moda.
4 - Com o objetivo de vericar a altura das crianças com dois anos de idade em certo
bairro da periferia de Campina Grande, foram medidas as alturas de 30 delas, e as
medidas variaram entre 80 cm e 94 cm. Sabendo que 50% das crianças possuíam
abaixo de 83 cm de altura, 25% possuíam abaixo de 80,5 cm de altura, 25%
possuíam acima de 86 cm de altura, represente os dados através de um box-plot.
Formulário
M e(X) = x = n1 ki=1 xi .ni
P
dq = Q3 − Q1
2 1
Pk 2 2
V ar(X) = s = n i=1 xi ni − x LI = Q1 − (1, 5)dq
CV (X) = xs × 100 LS = Q3 + (1, 5)dq
5.3. 1◦ ESTÁGIO DE 2010.2 - PE6 - DME/UFCG - MANHÃ / ANÁLISE BIVARIADA DE DADOS51
5.3 1 ◦ Estágio de 2010.2 - PE6 - DME/UFCG - Ma-

nhã / Análise Bivariada de dados
1 - A tabela a seguir contem dados sobre o número de anos de serviço (X ) e o número
de clientes (Y ) de agentes de uma companhia de seguros.
Agente A B C D E F G H I J
Anos de Serviço (X ) 2 3 4 5 4 6 7 8 8 10
Número de Clientes (Y ) 48 50 56 52 43 60 62 58 64 72
Tomando como base este conjunto de dados construa o gráco de dispersão,

calcule o coeciente de correlação e apresente uma descrição sobre os resultados
obtidos.
Obs.: x = 57, x2 = 383, y = 565, y2 = 32581 e xy = 3392.
P P P P P
5.4 1 ◦ Estágio de 2010.2 - PE6 - DME/UFCG - Tarde

/ Análise Bivariada de dados
1 - Queremos vericar se a criação de determinado tipo de cooperativa está associada
com algum fator regional. Coletados os dados relevantes, obtemos a tabela a
seguir.
Tipo de Cooperativa
Estado Consumidor Produtor Total
São Paulo 210 230 440
Paraná 60 100 160
Total 270 330 600
Com base nestes dados você armaria que o tipo de cooperativa independe do
Estado? Justique sua resposta utilizando um coeciente de associação.
Formulário
(o −e )2
χ2 = ri=1 sj=1 ij eij ij
P P
q
χ2 /n
T = (r−1)(s−1)
P
Corr(X, Y ) = √ P 2 xi yi2−nx y
yi −ny 2 )
P 2
( xi −nx )(
Capítulo 6
Exercícios Sugeridos do livro de
Bussab e Morettin
Livro: "Estatística Básica". Wilton O. Bussab e Pedro A. Morettin. 6a. Edição

Capítulo 2 (Resumo de Dados)
Problema Página
1 14
2 15
4e5 22
9 26
10 27
11 e 12 28
15 30
16 e 17 31
18 33
Capítulo 3 (Medidas Resumo)

Problema Página
Do 1 ao 3 40
4, 5 e 6 41
7e9 47
11 e 12 50
16 56
19, 20 e 21 60
22, 23 e 24 61
26, 27 e 28 62
29, 30, 31 e 32 63
37, 38, 39 e 40 65
53
54CAPÍTULO 6. EXERCÍCIOS SUGERIDOS DO LIVRO DE BUSSAB E MORETTIN
Capítulo 4 (Análise Bivariada)

Problema Página
1, 2, 3 72
4, 5 e 6 75
7, 8 e 9 79
11 e 12 89
14 e 15 90
18 a 21 95
22, 24, 25 e 26 95
28 e 29 96
Capítulo 7
Sobre Alguns Softwares Estatísticos
Para usar o Software R
• Introdução ao Ambiente Estatístico R (Prof. Paulo Justiniano)

http://www.leg.ufpr.br/ paulojus/embrapa/Rembrapa/
• Quick-R - accessing the power of R (Gratuito e de código aberto)

http://www.statmethods.net/index.html
• Minicurso de Estatística Básica: Introdução ao software R (pdf: 00_Minicurso

de Estatística Básica - Introdução ao software R - PET_Eng Elétrica da Univ
Federal de Santa Maria)
https://sites.google.com/site/gilbertosmatos1/disciplinas/disciplinas/mtodos-estatsticos
• Ferramentas Estatísticas Básicas da Qualidade - guia prático do R

http://www.estatisticanor.xpg.com.br/3.html
• RStudio - interface funcional e amigável para o R (Verônica Santana - FEA-USP)

https://edisciplinas.usp.br/pluginle.php/2996937/mod_resource/content/1/Tutorial.pdf
Para usar o Software PSPP - "Genérico do SPSS"
• GNU PSPP
https://www.gnu.org/software/pspp/
55
56 CAPÍTULO 7. SOBRE ALGUNS SOFTWARES ESTATÍSTICOS
Para usar o Software SPSS (Statistical Package for Social Science)
• SPSS Statistics
https://www.ibm.com/br-pt/marketplace/spss-statistics
Para usar o Software Minitab
• Minitab 17 para a educação

http://www.minitab.com/pt-br/products/minitab/education/

ACFrOgC9S3NzVmcuIIfdzk7JqvGAw4cRu19Q3gsie qlQkaFw7ces9Vo3q3sj kHkHARkvnXp8LOCAi24KJtIi-cTFN-hiDczizeFNMKL7YbXTNowaowpQOj8W9pjQ

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

ACFrOgC9S3NzVmcuIIfdzk7JqvGAw4cRu19Q3gsie qlQkaFw7ces9Vo3q3sj kHkHARkvnXp8LOCAi24KJtIi-cTFN-hiDczizeFNMKL7YbXTNowaowpQOj8W9pjQ

Enviado por

Direitos autorais:

Formatos disponíveis

Apostila1

Prof. Dr. Gilberto S. Matos

2 Organização de Dados através de Tabelas e Grácos 11

3.3.1 Desenho Esquemático - Diagrama em Caixa ("Box-Plot") . . . . 32

5 Provas de Introdução à Estatística e Análise Descritiva de Dados (Uni

6 Exercícios Sugeridos do livro de Bussab e Morettin 53

7 Sobre Alguns Softwares Estatísticos 55

1.1 Conceitos Fundamentais

1.1.1 População e Amostra

A População pode ser:

1. Finita - quando o número de unidades de observação pode ser contado e é limi-

Denição 1.1.2 (Amostra). A amostra é apenas uma parte da população, ou seja,

Vários motivos levam a necessidade de se observar apenas uma parte da população,

1.1.2 Parâmetro e Estatística

Exemplos de algumas medidas numéricas são: proporção, média, moda, índices,

1.1.3 A Ciência Estatística

1. Estatística Descritiva - que se preocupa com a organização e descrição dos

2. Estatística Inferencial - que, a partir da observação de alguns dados experi-

Nesta disciplina, serão abordados tópicos referentes à estatística descritiva, alguns

1.1.4 Estatística: Uma Visão Sistêmica

Figura 1.1: Estatística: Uma Visão Sistêmica

1.2 Variável e Tipos de Variáveis(dados)

Antes de realizar qualquer tratamento estatístico de um conjunto de dados, é

1.2.2 Tipos de Variáveis(dados)

As variáveis qualitativas podem, ainda, ser classicadas como: Nominais ou

(a) Variáveis quantitativas discretas - são variáveis numéricas obtidas a

1.3 Fases do Método Estatístico

1. Denir cuidadosamente o problema.

2.2 Organização de dados: Tabelas e Grácos

Tabela 2.1: Distribuição de freqüências da variável idade.

Uma medida bastante útil na interpretação de tabelas de freqüências é a freqüên-

Tabela 2.2: Distribuição de freqüências da variável idade com frequências relativas e

Observação: Ao conjunto de todos os pares de valores, referentes a cada dado

2.2.2 Distribuição de Frequências: representação gráca

Distribuição de freqüências da variável idade

Distribuição de freqüências da variável idade

Observação: existe um gráco denominado Gráco de Pareto que é bastante

Gráco de Pizza ou de Setores

A Figura 2.2.2 ilustra um gráco de setor.

Figura 2.3: Exemplo de um gráco de setor.

1 - Construa uma Tabela de Frequências para a variável TOLERÂNCIA AO CI-

2 - O seguinte conjunto de dados é referente ao número de acidentes por dia em certo

Responda as seguintes questões:

a) Qual o número mínimo de acidentes, num certo dia? E o número máximo?

b) Freqüêntemente, ocorreram quantos acidentes por dia? E o que isso repre-

c) Represente gracamente a distribuição de frequência da variável número de

d) Faça um gráco de colunas para o percentual acumulado.

2.2.3 Agrupamento de dados em classes: distribuição de frequên-

Distribuição de frequências em classes

Tabela 2.3: Notas do 1o estágio de 20 estudantes de estatística.

1. Organizar os dados num Rol.

4. Determinar a Amplitude de Classe:

5. A partir do menor valor observado no conjunto de dados, ou de algum valor

6. Após todos estes passos, só resta proceder a contagem do número de observações

Representação gráca: Histograma

(Construir o histograma para a distribuição de freqüências em classes)

Para concluir, ilustramos na Figura 2.2.3 abaixo, histogramas correspondentes a

1 - Segue abaixo os dados da variável taxa de mortalidade infantil de 34 municípios:

Obtenha uma distribuição de frequências com 7 classes, começando do valor 0

2 - Em uma pesquisa foram anotados os tempos decorridos entre a incidência de

Construa um histograma e comente sobre alguns aspectos relevantes desta dis-

Distribuição de frequências com amplitude de classes desiguais

para toda classe i.

2 Organização de Dados através de Tabelas e Grácos 11

Denição 1.1.2 (Amostra). A amostra é apenas uma parte da população, ou seja,

As variáveis qualitativas podem, ainda, ser classicadas como: Nominais ou

1. Denir cuidadosamente o problema.

2.2 Organização de dados: Tabelas e Grácos

2.2.2 Distribuição de Frequências: representação gráca

Observação: existe um gráco denominado Gráco de Pareto que é bastante

Gráco de Pizza ou de Setores

A Figura 2.2.2 ilustra um gráco de setor.

Figura 2.3: Exemplo de um gráco de setor.

c) Represente gracamente a distribuição de frequência da variável número de

d) Faça um gráco de colunas para o percentual acumulado.

Representação gráca: Histograma

Denição 3.1.1 (Variância). - é uma medida que representa a variabilidade de um

4 - Vejamos, agora, como ca a variância para as variáveis X , Y e Z :

Denição 3.1.2 (Desvio Padrão). - é a raiz quadrada da variância.

Denição 3.1.3 (Coeciente de Variação). - O coeciente de variação (CV) é

A utilidade imediata do coeciente de variação é a possibilidade de avaliar o quanto

a) Obtenha o desvio padrão das variáveis X , Y e Z além dos coecientes de variação