Você está na página 1de 69

Introdução

O que é Estatística

Definição Formal:

Coleção de métodos para planejar experimentos,


obter e organizar dados, resumi-los, analisá-los
interpretá-los e deles extrair conclusões.

2
Exemplos de Aplicação
•Quanto será produzido de soja no Brasil em 2010?
•Qual a idade média das mulheres ao engravidarem
pela primeira vez?
•Qual o tempo médio de espera para consultas na
rede pública de saúde?
•Quem vencerá as eleições para prefeito de João
Pessoa em 2012?
•Qual o nível de escolaridade mais frequente dentre os
paraibanos?
•Quais são as variáveis que mais impactam o preço
dos imóveis em João Pessoa?

3
Os dois ramos da estatística
Estatística descritiva
Trata da organização, resumo e apresentação
dos dados.

Estatística Inferencial
A partir de uma amostra, tirar conclusões sobre
a população

4
Objetivo da estatística descritiva
Na estatística descritiva o objetivo é resumir os

dados coletados de forma a extrair destes,


conhecimento útil acerca do problema que
gerou os dados.

Nessa fase da pesquisa, estamos preocupados


em apresentar os dados em forma de tabelas e


gráficos e em obter medidas que quantifiquem
os resultados do estudo.

5
CONCEITOS BÁSICOS
População
O conjunto de todas as respostas, medidas ou
contagens que sejam de interesse.

Amostra
Uma parte ou subconjunto da população.

Exemplo: Uma indústria processadora de suco de


laranjas ao receber um carregamento faz inspeção de
qualidade nas frutas (ótimo, bom, regular, ruim),
selecionando algumas frutas aleatoriamente.

População: Amostra: 6
CONCEITOS BÁSICOS
Parâmetro
Descrição numérica de uma característica da
população.
Ex: Média, Mediana, Desvio-Padrão.

Estimador
Característica numérica estabelecida para uma
amostra.
Ex: Média amostral, Mediana amostral, Desvio
Padrão amostral.

7
CONCEITOS BÁSICOS
Estimativa
Valor numérico assumido por um estimador numa
determinada amostra.

Variável Estatística:
Característica de interesse a ser investigada na
população ou na amostra. As informações observadas
na variável podem ser de natureza quantitativa ou
qualitativa.

8
Classificação das
variáveis
Classificação dos Dados
1. Qualitativos: Consistem em atributos, classificações ou
registros não numéricos.
Ex.: Casse Social, Grau de Instrução, Tipo Sangüíneo,
Porto de Embarque, Tipo de Navio, Exportador.

2. Quantitativos: Constituem em medidas ou contagens


numéricas.
Ex.: Peso, Taxa de Câmbio, Volume Exportado, Valor
Exportado, Preço.

10
Dados Qualitativos
Nominais: não existe ordem entre os possíveis
valores.
Ex: gênero, bairro, curso, etc.

Ordinais: os valores podem ser expresso em alguma


ordem.
Ex: Nível de escolaridade, escalas de qualidade,

11
Dados Quantitativos
Discretos:Assumem apenas valores pertencentes a
um conjunto finito ou enumerável, em geral números
resultantes de contagens.
Ex: Número de filhos, quantidade de dias da semana em
que pratica atividade física, número de livros lidos, etc.
Contínuos: Assumem qualquer valor num intervalo de
variação.
Ex: peso (massa), altura, taxa de câmbio, Teor alcoólico
de bebidas etc.

12
Censo X Estudos por amostragem

Censo: quando todos os indivíduos de uma
população são pesquisados.

Estudo por amostragem: quando utilizamos uma
amostra de indivíduos de uma determinada
população.

Um estudo por amostragem é preferível a um


censo por diversos motivos, dentre os quais:
v
Menor custo
v
Rapidez
v
Resultados muito próximos aos do censo
Fases do Método Estatístico
Etapas da Estatística Descritiva

1.Definição do problema
2.Planejamento

3.Coleta dos dados

4.Apuração dos dados

5.Apresentação e resumo dos dados

6.Análise e interpretação
1. Definição do problema

Formulação completa do problema a ser
estudado.

Definir a meta a ser alcançada diante do
problema em questão.

Levantamento de outros trabalhos realizados
no mesmo campo e trabalhos análogos, pois
parte da informação que o pesquisador
necessita poderá ser encontrada em trabalhos
anteriores e trabalhos em áreas correlatas.
2. Planejamento

Consiste em se determinar o procedimento
necessário para resolver o problema e, em
especial, como levantar informações sobre o
objeto de estudo. Nesta fase, deve-se levar em
consideração:
a)A correta formulação das perguntas que serão

feitas;

b) O tipo de levantamento que será realizado:


i. Censo ii. Amostragem
2. Planejamento
(c) O cronograma de atividades;

(d) Os custos envolvidos;

(e) O exame das informações disponíveis;

(f) O delineamento da amostra.


3. Coleta dos dados

Fase de caráter operacional, compreende à
coleta das informações propriamente ditas. Se
refere à obtenção de dados, com um objetivo
determinado.

Os dados podem ser classificados em:
(a) Dados primários: quando são publicados pela
própria pessoa ou instituição que os obteve.
(b) Dados secundários: quando são publicados
por outras pessoas ou instituições..
4. Apuração dos dados

Após ser feita uma crítica aos questionários
utilizados buscando observações incompletas
e/ou incorretas, deve-se então realizar a
condensação, processamento ou tabulação dos
dados.
5. Apresentação e resumo dos dados

A apresentação, consiste da mostrar os dados
através de tabelas e gráficos, tornando mais
fácil o exame do fenômeno sob estudo.


No resumo, calculam-se medidas cuja
finalidade principal é descrever o fenômeno que
se está investigando.
6. Análise e interpretação

O interesse maior reside em se tirar
conclusões que auxiliem o pesquisador a
resolver seu problema.


As conclusões são baseadas na observação
das tabelas, gráficos e medidas resumo.
Apresentação de dados
Apresentação tabular

Uma tabela é o meio mais simples de se resumir um
conjunto de observações.

Útil para a compreensão das informações coletadas,


pois permite a análise ou a identificação de padrões nos


dados.
Exemplo:
Apresentação tabular

Tabela 2: Vendas por Linha de Produto da empresa A


Apresentação gráfica

Presta-se ao mesmo fim que as tabelas:
apresentar e resumir dados.

Devem ser concebidos de modo a
transmitirem os padrões gerais de um conjunto
de observações em uma simples visualização.

Mais fáceis de se ler do que as tabelas,
contudo, fornecem menor grau de detalhe,
contudo essa perda pode ser compensada por
um ganho no entendimento dos dados.

Os gráficos mais informativos são
relativamente simples e autoexplicativos
Alguns tipos de gráficos


Barras (horizontais ou verticais)


Setores (pizza)


Linhas


Dispersão

Gráfico de barras (verticais ou horizontais): tipicamente
utilizado na representação de variáveis qualitativas,
onde as grandezas relativas às categorias da variável
são representadas por retângulos de mesma base e
alturas proporcionais às grandezas. Exemplo:

Gráfico de setores (de pizza ou torta): utilizados para
representar valores absolutos ou porcentagens
complementares e são úteis quando se quer comparar
as categorias de uma variável qualitativa quanto as
suas grandezas. Exemplo:
Vendas por Linha de Produto da
empresa A

20%
Linha A
50% Linha B
Linha C
30%
Gráficos de linhas: bastante utilizados na representação
de séries de tempo. Úteis na verificação de flutuações
dos valores da variável ao longo do tempo.

Sua construção se dá através da marcação dos pontos
correspondentes às grandezas e posterior união através
de segmentos de reta. Exemplo:
Gráficos de dispersão bidimensional: utilizados na
análise do relacionamento entre duas variáveis.

Sua construção se dá através da marcação no plano
dos pontos correspondentes às duas variáveis em
análise. Exemplo:
Dispersão: Renda X Consumo
1400,00
1200,00
1000,00
800,00
600,00
mo
su
n
C

400,00
200,00
0,00
0 500 1000 1500 2000 2500 3000 3500

Renda
Distribuição de Frequência
Definição: é uma tabela que mostra categorias
ou classes (intervalos de dados), juntamente
com as frequências correspondentes.

Objetivo: organizar os dados em uma


apresentação tabular (tabela ou quadro).

Dados Brutos: são aqueles que ainda não


foram numericamente organizados
Distribuições de freqüência
Dados Brutos: Preços do Produto A

20,5 19,5 15,6 24,1 9,9


15,4 12,7 5,417,0 28,6
16,9 7,823,3 11,8 18,4
13,4 14,3 19,2 9,216,8
8,822,1 20,8 12,6 15,9

Etapas: Construção de uma Distribuição de Freqüência

Definir o número de intervalos.


Definir quais são os intervalos.
Contar a frequência dos seus dados em cada intervalo.
Exemplo: distribuição de freqüência
i Preço (R$) Freq. Abs
(Fi)
1 5,40 |– 10,04 5
2 10,04 |– 14,68 5
3 14,68 |– 19,32 8
4 19,32 |– 23,96 5
5 23,96 |– 28,60 2
Total 25

OBS: O número de intervalos e suas amplitudes podem


também ser definidos pelo pesquisador.
Outras informações
Freqüência relativa (fi): é a proporção de
observações pertencentes a uma determinada
categoria ou classe. fi = Fi / n
Freqüência acumulada crescente (Fac): trata-se da
frequência de observações acumuladas até uma
determinada categoria (no caso de variáveis ordinais)
ou classe. Pode também ser representada em termos
relativos.
Ponto médio: (limite inferior + limite superior)/2
Observações

Os intervalos de valores não precisam ter a mesma
amplitude.


A escolha do número de intervalos e da amplitude
dos intervalos deve levar em consideração o
conhecimento do pesquisador sobre o problema.


Frequências acumuladas não fazem sentido para
variáveis qualitativas nominais.
Exemplo

Distribuição de Freqüência dos Preços do Produto A


i Preço (R$) Freq. Abs Freq. Abs. Freq. Rel. Freq. Rel. Ponto
(Fi) Acum. Cres. (fi) Acum. Cres. Médio (pmi)
(Fac) (fac)
1 5,40 |– 10,04 5 5 5/25 = 0,20 5/25 = 0,20 7,72
2 10,04 |– 14,68 5 10 5/25 = 0,20 10/25 = 0,40 12,36
3 14,68 |– 19,32 8 18 8/25 = 0,32 18/25 = 0,72 17,00
4 19,32 |– 23,96 5 23 5/25 = 0,20 23/25 = 0,92 21,64
5 23,96 |– 28,60 2 25 2/25 = 0,08 25/25 = 1,00 26,28
Total 25 1,00 - -
Histograma de frequência

Histogramas: gráfico utilizado para representar distribuições
de frequências de variáveis quantitativas, discretas ou
contínuas, agrupadas em intervalos.


O eixo horizontal exibe os limites dos intervalos, enquanto
que o eixo vertical mostra a frequência, absoluta ou relativa,
das observações pertencentes a cada intervalo.


A escala do eixo vertical deve se iniciar em zero.


As frequências, absolutas ou relativas, serão representadas
por retângulos justapostos cujas bases são iguais às
amplitudes dos intervalos e cujas alturas são proporcionais às
frequências das observações em cada intervalo.
Exemplo
i Preço (R$) Freq. Abs
(Fi)
1 5,40 |– 10,04 5
2 10,04 |– 14,68 5
3 14,68 |– 19,32 8
4 19,32 |– 23,96 5 Distribuição dos Preços do Produto A
5 23,96 |– 28,60 2
9
Total 25 8

7
6
5
Freq. Abs 4

3
2
1
0
7,72 12,36 17,00 21,64 26,28

Preço (R$)
Polígono de Frequências

Polígono de Frequências: presta-se ao mesmo fim que o
histograma.

Como nos histogramas, o eixo horizontal exibe os limites dos
intervalos, enquanto que o eixo vertical mostra a frequência,
absoluta ou relativa, das observações pertencentes a cada
intervalo.

Para sua construção, marcamos os pontos correspondentes aos
pontos médios dos intervalos e suas respectivas frequências. Em
seguida, fazemos a união dos pontos através de segmentos de
retas.

Também marcamos no eixo horizontal os pontos médios dos
intervalos precedentes e imediatamente seguintes aos intervalos
que contém os dados.
Exemplo
Medidas –resumo
Medidas –resumo
Medidas de posição: média, mediana, moda.

Medidas de dispersão: variância e desvio


padrão, coeficiente de variação.

Separatrizes: quartis, percentis.


Média
Média Amostral: soma dos valores de todas as observações
de uma variável, dividida pelo número total de observações.

n
1 x1 x 2⋯x n
x = ∑ xi =

n i=1 n

Exemplo: as quantidades mensais de lixo produzidas em


João Pessoa no 1º semestre de 2009 foram x1=3.7, x2=3.9,
x3=3.1, x4=2.9, x5=2.7 e x6=2.8 toneladas. Qual a média da
quantidade de lixo produzida?
Neste caso, temos
n
1 x1 x2 x3 x4 x5 x6
x xi
ni 1 6

3.7 3.9 3.1 2.9 2.7 2.8


x 3.18
6

Ou seja, no primeiro semestre de 2009, João Pessoa produziu


aproximadamente 3.2 toneladas de lixo por mês.

Observação 1: a média é sensível a observações extremas

Exemplo: x = 1, 2, -2, 3, 1, média = 1


y = 1, 2, -2, 3, 10, média = 2.8


Observação 2: a média só pode ser calculada para variáveis
quantitativas.
Mediana
Mediana (Md): Valor que divide um conjunto de dados
ordenados em duas partes iguais.

Exemplo: considere os dados sobre a produção mensal de lixo


em João Pessoa. Temos x1=3.7, x2=3.9, x3=3.1, x4=2.9,
x5=2.7 e x6=2.8

A série ordenada é 2.7, 2.8, 2.9, 3.1, 3.7, 3.9 e o valor central
está entre 2.9 e 3.1
Neste caso,

2.9 3.1
Md 3
2
De maneira geral temos:

Se o número de observações for ímpar, a mediana será o
valor central da série ordenada.

Se o número de observações for par, teremos dois valores
centrais e a mediana será a média entre esses dois valores
centrais.
Observação 1: ao contrário da média, a mediana não é
sensível à presença de observações extremas.
Observação 2: a mediana pode ser calculada para variáveis
quantitativas e, se o número de observações for ímpar,
também pode ser calculada para variáveis qualitativas
ordinais.
Moda

Moda (Mo): é(são) o(s) valor(es) mais frequente(s) do conjunto


de observações.
Exemplo: os números de peças defeituosas encontradas
em uma amostra de 7 lotes produzidos por certa máquina
foram 3, 6, 3, 5, 3, e 4.
Neste caso, Mo=3, que é o valor mais frequente da série
Obs 1: a moda pode não ser única. Exemplo: 2, 3, 2, 3, 1, 5.
Temos Mo=2 e Mo=3.
Classificação: 1 moda = modal, 2 modas = bimodal, 3 modas =
trimodal, 4 ou mais modas = multimodal.
Obs 2: a moda pode não existir. Exemplo: 2, 3, 2, 3, 1, 1. Neste
caso, não temos um valor mais frequente
Obs 3: pode ser obtida para variáveis quantitativas e
qualitativas.
Exemplo
Um instrutor registra a média de faltas de seus alunos em
determinado semestre. Em uma amostra aleatória, os dados
são:
2 4 2 0 40 2 4 3 6

Calcule a média, a mediana e a moda.


Média:

Mediana: Ordene os dados.


0 2 2 2 3 4 4 6 40

O valor que fica no meio é 3, logo a mediana é 3.


Moda: A moda é 2, pois esse é o valor que ocorre mais
vezes.
Exemplo
Suponha que o aluno com 40 faltas abandone o curso. Agora
temos:
2 4 2 0 2 4 3 6

Calcule a média, a mediana e a moda.


Média: 2,875

Mediana: Coloque os dados em ordem.


0 2 2 2 3 4 4 6

Os valores que ficaram no meio são 2 e 3, logo a mediana é 2,5.


Moda: A moda é 2, pois esse é o valor que ocorre mais
vezes.
Percentis: são valores que dividem a série ordenada de
observações em cem partes iguais

Por exemplo, dizer que o percentil 95 dos pesos de uma


determinada máquina é igual e 20 kg significa que 95% das
observações são menores que 20 kg e que 5% são maiores.

Para calcular o percentil de ordem k, ordene os
dados e obtenha a posição do valor que representa o
percentil através de
k ×n
EC =
k
100

Basta então, identificar na série ordenada, o
elemento que ocupa a posição E C k .


Se E C não for inteiro, use a aproximação adequada
k
Observação 1: os percentis mais utilizados são 25,
50 e 75, também conhecidos como 1º, 2º e 3º quartil
respectivamente.

Observação 2: a mediana equivale ao percentil 50.


Medidas
de
Variação
Dois conjuntos de dados
O preço de fechamento atingido por dois pacotes de ações
foi registrado em dez sextas-feiras consecutivas. Calcule a
média, a mediana e a moda de cada pacote.
56 33
Ações A 56 42 Ações B
57 48
58 52
61 57
63 67
63 Iguais ?? 67
67 77
Média = 61,5 67 82 Média = 61,5
Mediana = 62 67 90 Mediana = 62
Moda = 67 Moda = 67
Medidas de variação
Definição: Servem de auxílio para caracterizar o quanto
os dados estão espalhados em torno de uma medida de
posição como, por exemplo, a média aritmética .

As medidas de variação mais utilizadas são:



Variância Amostral (S2)

Desvio Padrão (S)

Coeficiente de Variação (CV)
Variância Amostral
Variância amostral: soma dos quadrados dos
desvios com relação à media, dividida pelo
número de observações menos um, ou seja

2
∑i=1  xi − x  2

S =
n−1
Exemplo
A variância do preço do pacote de ações A

2
xi x i −x  x i− x  n

56 – 5,5 30,25 2 ∑i =1  x i −x  2

S =
56 – 5,5 30,25 n−1
57 – 4,5 20,25
58 – 3,5 12,25 2 188,5
S = =20,94
61 – 0,5 0,25 9
63 1,5 2,25
63 1,5 2,25
67 5,5 30,25
67 5,5 30,25 Soma dos quadrados
dos desvios com
67 5,5 30,25 relação a média
188,50
Exercício
Calcular a variância para pacote de ações B.
Desvio padrão
Desvio padrão: raiz quadrada da variância

S =S 2


Prefere-se usar o desvio padrão porque este é expresso na
mesma unidade dos dados, enquanto que a variância é
expressa na unidade dos dados elevada ao quadrado e isso
nem sempre faz sentido
Coeficiente de Variação
Coeficiente de Variação: medida de dispersão relativa dada
por:
S
CV =
x

Perceba que ao dividir o desvio padrão pela média obtém-se
um valor adimensional.

O CV mede o grau de concentração dos dados em torno de
sua média.

Através do CV, podemos comparar duas ou mais variáveis
ou dois ou mais conjuntos de dados com relação à
variabilidade.

Quanto maior o coeficiente de variação, maior a dispersão
em torno da média.
Coeficiente de Variação
Exemplo: considere uma amostra de 10 máquina, da
qual são conhecidos os pesos (em gramas) e os
comprimentos (em centímetros).
Recém-nascido
Maquina 1 2 3 4 5 6 7 8 9 10
Comprimento (X) 52 48 45 49 51 54 47 50 46 51
Peso (Y) 3300 3200 2950 3150 3350 3450 2900 3300 3150 3250
Nesse caso,

Logo, os das máquinas variam mais quanto ao comprimento do


que quanto ao peso.
Outras características da
amostra
Medidas de Assimetria e Curtose
Assimetria: é o grau de deformação de uma distribuição
de frequências
Assimetria
Coeficiente de assimetria de pearson
Curtose: mede o grau de achatamento de uma
distribuição de frequências.
Coeficiente percentílico de curtose:

C 75 C 25
K
2 C 90 C 10

Você também pode gostar