Você está na página 1de 30

13/11/2013

Por que estudar Estatística?


 Para saber como apresentar e descrever
informações de forma apropriada;

 Para saber como tirar conclusões a partir de


grandes populações, com base somente na
informação obtida a partir de amostras;

 Para saber como melhorar os processos;

 Para saber como obter previsões confiáveis;


Universidade Federal da Bahia
Instituto de Matemática  Métodos estatísticos são essenciais no estudo de
Departamento de Estatística situações em que os fatores de interesse
Disciplina: MAT021 – Estatística I-B apresentam grande variabilidade.
Professor: Jonatas SES
2012.2 2

Estatística População
É uma ciência baseada na Teoria das Probabilidades, cujo Em estatística utilizaremos extensivamente os termos população
objetivo principal é nos auxiliar a tomar decisões ou obter e amostra. Assim, definiremos esses termos no contexto da
conclusões em situação de incerteza, a partir de informações estatística:
numéricas.
 População: conjunto de todos os indivíduos, objetos ou
Grandes áreas da Estatística informações que apresentam pelo menos uma característica
(observável) comum cujo comportamento interessa-nos
 Estatística Descritiva = coleta de dados, organização,
analisar.
apresentação e sintetização dos dados.
Quanto ao número de elementos, a população pode ser:
 Estatística Inferencial = consiste em inferir (deduzir ou tirar
conclusões a respeito das) propriedades de um universo a  Finita;
partir de uma amostra.
 Infinita.
3 4

População Censo e Amostra


Exemplo: Deseja-se estudar os salários mensais pagos no setor
industrial baiano no ano de 2012.  Censo é uma coleção de dados relativos a todos os
elementos de uma população.
População: conjunto de todos os trabalhadores alocados nas
indústrias localizadas no Estado da Bahia em 2012.

Característica de interesse: salários pagos a esses trabalhadores.


População Censo
 Amostra: qualquer subconjunto finito de elementos
extraídos da população, em geral com dimensão
sensivelmente menor, sobre o qual se faz as observações.

5
População Amostra 6

1
13/11/2013

Amostragem Censo vs Amostra


Com a finalidade de estudar a população retiramos desta
população uma parte representativa que chamamos de Pode não ser interessante a realização de uma amostragem quando:

amostra e coletamos dados apenas desta amostra.  a população é pequena;

POPULAÇÃO  a característica de interesse é fácil de ser mensurada;

 há necessidade de alta precisão nos resultados;


? AMOSTRA
 a coleta das informações tem um pequeno custo.

INDUÇÃO

Censo vs Amostra Censo vs Amostra

Há situações em que a amostragem se impõe. Na maioria das pesquisas científicas é praticamente impossível
 O caso em que a população de estudo é muito grande, se avaliar todos elementos que compõem uma população de
sendo impraticável o levantamento total. interesse de estudo (censo).

 Casos em que o processo de investigação das características


O levantamento por amostragem, quando comparado ao
de cada elemento é destrutivo, por exemplo, testes de
censo, apresenta certas vantagens:
resistências de materiais.
 menor custo;
 Os problemas de ordem ética: novas drogas, vacinas,  resultado em menor tempo;
técnicas cirúrgicas.  dados mais confiáveis.

Amostragem Amostragem
No cotidiano é comum o uso de amostragem:
 Como um cozinheiro verifica o tempero de um
prato que está preparando?

 Como alguém testa a temperatura de um prato


de sopa?

 Como um médico detecta as condições de um


paciente através de exames de sangue?
Qualquer amostra fornece informações, porém não é qualquer
uma que permite estender os resultados para a população da O uso inadequado de um procedimento amostral pode
qual ela foi retirada. levar a um viés de interpretação do resultado.
11

2
13/11/2013

Amostragem Cálculo da amostra


Amostras que produzam resultados confiáveis e livres de viéses
Como você vai analisar a renda?
é o ideal e o desejado. Assim, a maneira de se obter uma Quero pesquisar Qual sua população alvo?
amostra é tão importante que constitui uma especialidade sobre a renda Qual a variabilidade da renda na
familiar. Qual o população?
dentro da Estatística, conhecida como Amostragem. tamanho da Qual a precisão desejada?
amostra? Etc? Etc? Etc?

É o processo de escolha da amostra; é a parte


inicial de qualquer estudo estatístico; consiste na
escolha criteriosa dos elementos a serem
submetidos ao estudo.
Adaptado do slide Cáldulo da Amostra de Lauris, J. R. P.

Cálculo da amostra Cálculo da amostra

Onde você vai?


Perguntar o tamanho da amostra O que vai fazer?
Eu só tinha uma
é o mesmo que perguntar:

?
dúvida. Agora eu Qual o protocolo da ocasião?
Qual roupa devo vestir? Está frio ou calor?
tenho 10.
Etc? Etc? Etc?

?
? ?? ?
? ??
? ? ? ?

Adaptado do slide Cáldulo da Amostra de Lauris, J. R. P. Adaptado do slide Cáldulo da Amostra de Lauris, J. R. P.

Amostra Qualidade da Amostra


Se refere a como e onde selecionar os elementos da amostra.

 Garantida pelo pesquisador:


QUALIDADE
 Delimitar o universo capaz de ser representado.

 Representar todos os estratos.


Para representar bem uma
 Utilizar método aleatório (sorteio) para selecionar os
população a amostra deve ter: elementos da amostra.
 Amostragem aleatória simples
 Amostragem aleatória estratificada
QUANTIDADE
 Amostragem aleatória por conglomerado
 Etc.

3
13/11/2013

Quantidade da Amostra
A quantidade adequada de elementos da amostra pode ser
calculada.

 O cálculo depende:
Relação
 das características da população. Quantidade e Qualidade
 das características da pesquisa. da Amostra
 do grau de precisão desejado pelo pesquisador.

 do tamanho da população.

 de como a amostra é selecionada (tipo de amostragem).

 das possíveis perdas de elementos da amostra.

Boa quantidade sem qualidade Boa qualidade sem quantidade

POPULAÇÃO POPULAÇÃO
AMOSTRA

AMOSTRA

Figura reproduzida do slide Cáldulo da Amostra de Lauris, J. R. P. Figura reproduzida do slide Cáldulo da Amostra de Lauris, J. R. P.

Boa qualidade boa quantidade Quantidade da Amostra


POPULAÇÃO
A quantidade adequada de elementos da amostra pode ser
calculada.
AMOSTRA
 O cálculo depende:
 das características da população.

 das características da pesquisa.

 do grau de precisão desejado pelo pesquisador.

 do tamanho da população.

 de como a amostra é selecionada (tipo de amostragem).

 das possíveis perdas de elementos da amostra.


Figura reproduzida do slide Cáldulo da Amostra de Lauris, J. R. P.

4
13/11/2013

População homogênea População heterogênea

POPULAÇÃO POPULAÇÃO

AMOSTRA

AMOSTRA

Figura reproduzida do slide Cáldulo da Amostra de Lauris, J. R. P. Figura reproduzida do slide Cáldulo da Amostra de Lauris, J. R. P.

Quantidade Quantidade da Amostra


É dependente da variabilidade da variável na população. A quantidade adequada de elementos da amostra pode ser
calculada.
 Como determinar a variabilidade da população antes de  O cálculo depende:
estudar a população?  das características da população.

 Estudo Piloto.  das características da pesquisa.

 Literatura.  do grau de precisão desejado pelo pesquisador.

 do tamanho da população.
 Utilizar a maior variabilidade possível.
 de como a amostra é selecionada (tipo de amostragem).

 das possíveis perdas de elementos da amostra.

Tipo da Pesquisa (mais comum) Tipo da Pesquisa (mais comum)


 Finalidade descritiva
 Finalidade de investigação ou analítica

Estimar certos parâmetros populacionais, ou seja, limita-se a Testar hipóteses estatísticas acerca da população

estimar frequências de elementos com determinada


Exemplo: Verificar a hipótese de que pelo menos 80% dos
propriedade ou estimar médias e variâncias de características
domicílios na cidade têm TV.
quantitativas.

Exemplo: PNAD, em que são levantadas informações básicas


para o estudo sócio-econômico do país.

5
13/11/2013

Quantidade da Amostra Tipos de Amostragem


A quantidade adequada de elementos da amostra pode ser
 Amostragem Não-probabilística
calculada.

 O cálculo depende:  Amostragem Probabilística (Aleatória)


 das características da população.

 das características da pesquisa. Algumas formas de amostragem não-probabilística:


 por voluntários;
 do grau de precisão desejado pelo pesquisador.
 intencional;
 do tamanho da população.
 por acesso mais fácil.
 de como a amostra é selecionada (tipo de amostragem).

 das possíveis perdas de elementos da amostra.

Amostragem Aleatória Simples (AAS) Amostragem Sistemática (AS)


 É aquela na qual cada elemento da amostra tem a mesma
 Quando os elementos da população já estão ordenados, não
chance (probabilidade) de ser selecionado.
sendo necessário construir um sistema de referência.
 É necessário a construção de um sistema de referência (lista
ou descrição de todos os elementos amostrais da população). Exemplo: Suponha uma rua que tenha 480 prédios e desejamos
obter uma amostra de 40 prédios. Como os prédios já estão
 Utilizando-se um procedimento aleatório, sorteia-se um ordenados na rua, podemos usar o seguinte procedimento:
elemento da população. Repete-se o procedimento até que
1. Como 480/40 = 12, então a cada 12 prédios devemos
sejam sorteadas n unidades da amostra.
selecionar um prédio para a amostra.
 Podemos ter uma AAS com reposição e sem reposição. 2. Sorteamos um número entre 1 e 12, digamos que seja 5.
3. Vamos amostrando os prédios iniciando pelo 50 e
Exemplo: Entre os proprietários de automóveis de uma “pulando” de 12 em 12.
determina indústria adquiridos no último ano, verificar o grau
de satisfação desses proprietários em relação aos seus carros. 4. Ao final teremos amostrados os 40 prédios.

Amostragem Estratificada (AE) Amostragem por Conglomerados (AC)


Quando a população se subdivide em, pelo menos, dois Quando a área da população é dividida em seções (ou conglomerados)
subgrupos diferentes (ou estratos), e em cada grupo os
elementos possuem as mesmas características.
 Cada conglomerado é uma mini população.
 Extrai-se uma amostra de cada estrato (subgrupo).
 escolhe aleatoriamente alguns desses conglomerados.
 Todos os estratos precisam ser representados na amostra.
 todos os membros desses conglomerados escolhidos são estudados.
 População heterogênea.

Exemplo: Considere a população constituída por todas as Exemplo: Em pesquisa eleitoral, pode-se escolher aleatoriamente
indústrias localizadas no estado da Bahia. Estas indústrias uma quantidade de zonas eleitorais, por exemplo 30, e pesquisar
podem ser divididas em pequenas, médias e grandes segundo o todos os eleitores das zonas selecionadas.
número de funcionários.

6
13/11/2013

Tipos de Erros Tipos de Erros


Os resultados divulgados por um levantamento censitário ou
amostral estão sujeitos a erros. Existem dois tipos de erros.
 Erro não-amostral
 Erro amostral

Figura reproduzida da Nota de Aula da disciplina Amostragem do prof. Cristiano Ferraz.


Figura reproduzida da Nota de Aula da disciplina Amostragem do prof. Cristiano Ferraz.

Fases do trabalho estatístico Fases do trabalho estatístico

1. Definição do Problema: formulação completa do problema a  os custos envolvidos;


ser estudado. Levantamento de outros trabalhos realizados no
 exame das informações disponíveis;
mesmo campo e análogos, pois parte da informação de que se
necessita pode ser encontrada.  o delineamento da amostra (se necessária);
 a forma como serão escolhidos os dados;
2. Planejamento: determinação do procedimento necessário para  elaboração do questionário.
resolver o problema e, em especial, como levantar informações
sobre o assunto objeto de estudo.
 formulação correta das perguntas 3. Coleta de dados: refere-se à obtenção, reunião e registro
 escolher o tipo de levantamento a ser utilizado (censitário sistemático de dados, com um objetivo determinado. Além dos
ou amostragem). registros feitos pelo próprio pesquisador, pode-se recorrer a
 tipo do estudo; fontes externas de dados.
 cronograma das atividades;
39 40

Fases do trabalho estatístico Fases do trabalho estatístico

4. Crítica dos questionários: leitura dos questionários, observação 7. Análise e interpretação dos dados: O interesse maior consiste em
de respostas incompletas, erradas. Supressão de valores tirar conclusões que auxiliem o pesquisador a resolver seu
estranhos ao levantamento. problema. A análise dos dados estatísticos está ligada
essencialmente ao cálculo de medidas, cuja finalidade principal
é descrever o fenômeno. Assim, o conjunto de dados a ser
4. Apuração dos dados: consiste em resumir os dados, através de analisado pode ser expresso por números-resumos, as
sua contagem e agrupamento. Nos dias atuais esta apuração estatísticas, que evidenciam características particulares desse
tornou-se sinônimo de organização de base de dados, que é conjunto.
realizada em computadores.

6. Apresentação dos dados: há duas formas de apresentação,


tabular e gráfica.

41 42

7
13/11/2013

Variáveis Classificação de Variáveis

As características associadas a cada elemento da população são Quanto à sua natureza, as variáveis são classificadas como
comumente chamadas de variáveis.

Exemplo:
 Salário dos profissionais da indústria;
 Concentração de álcool em determinada solução;
 Tipo de erros encontrados na superfície de uma peça;
 Setor de trabalho dos funcionários de uma fábrica;
 Porte das indústrias do Estado da Bahia.

43 44

Classificação de Variáveis Variáveis qualitativas


 Variáveis qualitativas  Nominal
Caracteriza-se por dados que consistem apenas em nomes,
Se os resultados das observações serão expressos através de
rótulos ou categorias. Os dados não podem ser dispostos
categorias, que se distinguem por alguma característica não-
segundo uma ordem.
numérica.
Exemplo: Sexo, cor da pele, (sim ou não), estado civil, …
Exemplo: Sexo, nível de escolaridade, cor da pele, estado civil, …

 Ordinal
 Variáveis quantitativas
Envolve dados que podem ser dispostos em alguma ordem, mas as
Se os resultados das observações serão expressos sempre através diferenças entre os valores dos dados não podem ser determinadas
de números, que representam contagens ou medidas. ou não tem sentido.
Exemplo: Idade, altura, peso, número de filhos, salário, … Exemplo: Nível de escolaridade, grau de satisfação, classe social, …
45 46

Variáveis quantitativas Escala de mensuração


 Discreta
Quando os resultados possíveis da observação formam um Outra maneira de classificar dados é usando as escalas de
conjunto finito ou infinito enumerável de números e que mensuração.
resultam, frequentemente de uma contagem.  Escala Nominal
Exemplo: Número de filhos, número de alunos, idade (em anos  Escala Ordinal
completos), …
 Escala Intervalar

 Contínua  Escala de Razão


Pode assumir qualquer valor pertencente a um determinado
intervalo do conjunto dos números reais e que resultam,
normalmente, de uma mensuração (medição).

Exemplo: Salário mensal, altura, peso, comprimento, …


47 48

8
13/11/2013

Escala Nominal Escala Ordinal


 São aquelas em que os possíveis resultados são nominais, sem
 É caracterizado por dados que consistem apenas em nomes, valores métricos, mas que existe uma ordenação entre as
rótulos ou categorias; categorias
 O seu âmbito de variação é definido de tal modo tal que é  Permite verificar semelhança entre os grupos
apenas possível estabelecer relações de igualdade ou diferença
entre os informantes quanto à posse de uma característica Exemplo: Você diria que está muito feliz, feliz, mais ou menos feliz,
infeliz ou muito infeliz com seu emprego?
Exemplo: Sexo (1 Masculino 2 Feminino)
Valor numérico associado é um mero código e não mede  Sabemos que “muito feliz” > “feliz” > “Mais ou menos feliz” (e
variação em quantidade na posse da característica assim por diante...)

 Entretanto, não podemos medir, desse modo, quão maior é a


satisfação de alguém que se diz “muito feliz” face a alguém
que se diz apenas “feliz
49 50

Escala Intervalar Escala de Razão


 É análogo ao nível ordinal, com a propriedade adicional de que  É o nível intervalar com a propriedade adicional de que há
podemos determinar diferenças significativas entre os dados.
um ponto inicial, zero natural (onde o zero significa
 Todavia, não existe um ponto de partida zero inerente, ou natural nenhuma quantidade quantidade presente).
(onde não haja qualquer quantidade presente).
 É possível estabelecer também diferenciações na ordem de  Para valores nessa escala, as diferenças e razões, são ambas,
grandeza em que uma característica se expressa entre as significativas.
unidades observadas no estudo
Exemplo 1: Pesos de artigos de material plástico descartado
Exemplo 1: Os anos 1000, 2000, 1796 e 1945. ( O tempo não começou
pelas residências ( o indica que nenhum plástico foi descartado
no ano zero e, assim o zero é arbitrário, e não um ponto de partida
e ao kg representa duas vezes 5 kg.
zero natural).
Exemplo 2: Duração (em minutos) de filmes.
Exemplo 2: As temperaturas anuais médias (em graus Celsius) das
capitais dos estado brasileiros. Exemplo 3: Distâncias (em quilômetros) percorridas por carros
Exemplo 3: A distância entre duas cidades diferentes. em um teste de consumo de combustível.
51 52

Coleta e Armazenamento de dados


Estudo sobre o desenvolvimento dos ursos marrons selvagens que vivem
 Os dados estatísticos podem ser obtidos de duas maneiras. em uma certa floresta do Canadá - Instituto Amigos do Urso. O objetivo
do projeto é estudar algumas características dos ursos, tais como seu peso
Dados Primários ou Secundários. e altura, ao longo da vida desses animais.

 As coletas de dados, geralmente, são feitas através do


preenchimento de fichas pelo pesquisador e/ou através de
resposta a questionários.

 Alguns dados são coletados através de medições e


avaliações.

 Depois de coletados, os dados devem ser armazenados e


sistematizados numa planilha de dados.

53 54

9
13/11/2013

Apresentação dos dados

 Quando realizamos um levantamento de dados sobre um


fenômeno ou variável, o que obtemos como resultado é
chamado de “Série Estatística”.

 O modo de condensação ou apresentação das informações


pode ser na forma de tabelas ou de gráficos que facilitam a
visualização do fenômeno, permitem a comparação com
outros elementos ou, ainda, fazer previsões.

55 56

Classificação das séries Classificação das séries


 Série Geográfica – Apresenta como elemento variável
As Séries Estatísticas são classificadas de acordo com a variação somente o local.
de três elementos: tempo, local e o fato. São elas:

 Série Histórica (temporal, cronológica) – O elemento que


serve como base de classificação é a fração do tempo, como
o dia, o mês, o ano, o século, etc.
 Série Específica – Apresenta como elemento ou caráter
variável o fato (ou espécie).

57 58

Classificação das séries Apresentação Tabular das Séries Estatísticas


Dispõe os dados de uma forma ordenada e resumida,
Série Mista (tabela de dupla entrada) – Combinações dos tipos
facilitando a compreensão das conclusões da análise
de séries citados anteriormente.
apresentadas ao leitor.

Uma tabela é constituída dos seguintes elementos:


 Título (O quê? Quando? Onde?)
 Corpo da tabela

 Cabeçalho
 Coluna indicadora
 Fonte

59 60

10
13/11/2013

Apresentação Tabular das Séries Estatísticas Apresentação Tabular das Séries Estatísticas

Elementos complementares:

 Nota
Informações gerais para esclarecer o conteúdo das tabelas.

 Chamadas
Esclarecer minúncias em relação às células, colunas ou linhas da
tabela.

As tabelas podem ser simples e de dupla entrada (série mista).

61 62

Apresentação Tabular das Séries Estatísticas Distribuições de Frequências


ALERTA!!!!
 Nenhuma célula deve ficar em branco, utilizar os sinais Neste tipo de série o tempo, o local e o fenômeno permanecem fixos.
convencionais – representação gráfica que substitui o dado
numérico. O fenômeno considerado é uma variável qualitativa ou
quantitativa e seus valores observados são descritos
 A tabela não deve ser delineada à direita e à esquerda, por
traços verticais.
considerando o número de vezes que ocorreram na série
(frequência).
 Numerar as tabelas quando em quantidade.

 Totais e subtotais destacados.

 Uniformidade com o número de casas decimais.

63 64

Tipos de Frequências Tipos de Frequências


 Frequência simples absoluta

É o número de ocorrências ou repetições de um valor individual ou


um intervalo de valores.

 Frequência simples relativa


É a razão entre a frequência simples absoluta e o número total de
dados.
 Frequência acumulada
abaixo de - É a soma da frequência da classe e de todas as classes
que a antecedem.
acima de - É a soma da frequência da classe e de todas as classes
que a sucedem. 65 66

11
13/11/2013

Distribuições de Frequências Distribuições de Frequências


(de acordo com o tipo de variável) (de acordo com o tipo de variável)

 Variável Qualitativa Ordinal


 Variável Qualitativa Nominal

67 68

Distribuições de Frequências Distribuições de Frequências


(de acordo com o tipo de variável) (de acordo com o tipo de variável)
 Variável Quantitativa Discreta  Variável Quantitativa Contínua

69 70

Construção de tabela de Frequências


(variável qualitativa)

Exemplo: A seguir, é apresentado um conjunto de dados que


indica as causas da morte para 100 crianças entre as idades de
cinco e nove anos vítimas fatais de lesões nos Estados Unidos no
período de 1980 a 1985. Os dados são nominais: 1 representa
acidente por veículo motorizado, 2 afogamento, 3 incêndio no
lar, 4 homicídio e 5 designa outras causas, inclusive
sufocamento, quedas e envenenamento.

Depois de fornecidos esses dados, que podemos concluir com


relação às mortes infantis por lesão?
71 72

12
13/11/2013

Construção de tabela de Frequências Construção de tabela de Frequências


(variável quantitativa) (variável quantitativa)

 Número de classes ( 𝑘 ) – Representa o total de classes da


 Dados brutos – É o conjunto dos dados numéricos obtidos
variável.
após a coleta dos dados.
 Limite Superior (𝑙(𝑠𝑢𝑝) ) – Cota superior para os valores da classe
 Rol – É o arranjo dos dados brutos em uma determinada
ordem crescente ou decrescente.  Limite Inferior (𝑙(𝑖𝑛𝑓)) – Cota inferior para os valores da classe
 Amplitude Total (AT) – É a diferença entre o maior valor e o
 Amplitude da classe (ℎ) – É o comprimento da classe, definida
menor valor observado. como a diferença entre o limite superior e inferior

𝑨𝑻 = 𝒙𝒎𝒂𝒙 − 𝒙𝒎𝒊𝒏  Ponto médio da classe (𝑚) – Corresponde ao valor que se


encontra no centro do intervalo de classe, nesse caso
 𝒙𝒎𝒂𝒙 – Maior valor do conjunto de dados.
𝑙 𝑖𝑛𝑓 𝑖 +𝑙 𝑠𝑢𝑝 𝑖
𝒎𝒊 = , 𝒊 = 𝟏, … , 𝒌
 𝒙𝒎𝒊𝒏 – Menor valor do conjunto de dados 73
2 74

Construção de tabela de Frequências


(variável quantitativa) Exemplo: Teor de gordura (g/24 horas) em 43 crianças do
Hospital Pediátrico da UFMG (já ordenado).
Determinação do número de classes 0,8 1,0 1,0 1,1 1,3 1,3 1,4 1,5 1,5
Não existe uma fórmula exata para o cálculo. Seja n o tamanho da 1,6 1,6 1,8 1,8 1,9 1,9 1,9 2,0 2,0
amostra selecionada. Existem alternativas:
2,0 2,1 2,1 2,1 2,3 2,3 2,4 2,4 2,5
2,7 2,7 2,7 2,8 2,9 2,9 3,0 3,0 3,1
 Para n ≤ 25, 𝒌 = 𝟓 e para n > 25, 𝒌 = 𝒏 ;
3,2 3,2 3,3 3,7 3,8 3,9 4,6
 Fórmula de Sturges ou regra do logaritmo: 𝐤 = 𝟏 + 𝟑, 𝟑 log 𝟏𝟎 𝒏
Passos
1. Fazer o rol dos dados, identificando o menor e o maior valor
Determinação da amplitude da classe do conjunto. Verificar o tamanho da amostra e calcular a
amplitude total;
𝑨𝑻 2. Obtenção do número de classes;
𝒉=
𝒌 3. Calcular a amplitude das classes;
75 4. Montar a tabela de distribuição de frequências. 76

Apresentação Gráfica Algumas características indispensáveis


nos Gráficos
É uma forma de apresentação dos dados com o objetivo de
 Deve ter título e escala, para ser interpretados sem necessidade
produzir uma impressão mais rápida e viva do fenômeno em
de esclarecimentos adicionais no texto;
estudo.
 O título do gráfico pode ser escrito em cima ou abaixo do
Os gráficos devem obedecer a certos requisitos fundamentais:
gráfico, em trabalhos científicos é comum estar abaixo da
 Simplicidade; figura;
 Clareza;  No eixo das abscissas, a escala cresce da esquerda para direita
 Veracidade. e é escrita embaixo do eixo;

 No eixo das ordenadas, a escala cresce de baixo para cima e é


escrita à esquerda do eixo;

 A escala deve ser iniciada em zero, caso a escala seja muito


77
elevada pode ser feita uma interrupção no eixo; 78

13
13/11/2013

Algumas características indispensáveis Tipos de Gráficos


nos Gráficos Existem vários tipos de gráficos, dependendo do tipo de variável a
ser representada e da série estatística.
 Escolher adequadamente as escalas dos eixos para não distorcer
a informação que se pretende transmitir. Se o objetivo for
Fator
comparar as informações de dois os mais gráficos, use a mesma Tipo de Série
Variante
Gráfico mais indicado
escala;
Histórica Tempo Linhas, colunas
 As variáveis representadas em cada eixo devem ser Específica Fenômeno Barras, colunas ou setores
identificadas (incluir unidade de medida);
Geográfica Local Cartogramas, colunas, barras ou setores
 O sistema de eixos e linhas auxiliares devem ser grafados com Histograma (contínua); colunas
Distribuição Intensidade
traço mais claro; (discreta); ogiva; barras, colunas ou
de frequências do fenômeno
setores (qualitativas)
 Exibir no rodapé a fonte que forneceu os dados.

79 80

Gráfico de Setores Gráfico de Setores

- Não serve para fazer comparações ou evoluções temporais.

 Adequado quando o objetivo for a análise da participação


de cada categoria em relação ao total.
 As frequências devem somar 100%.
81 82

Gráfico de Barras (Colunas) Gráfico de Barras (Colunas)

 Compara a distribuição de frequências de uma mesma


variável em vários grupos de maneira rápida.
 A ordem dos grupos pode ser qualquer, ou a mais
adequada.
 Economia de espaço na apresentação. 83 84

14
13/11/2013

Gráfico em Linhas Cartogramas

Geralmente utilizado quando:


 Uma das variáveis é o tempo;
 As frequências das categorias de uma variável são projetadas
 Várias séries em um mesmo gráfico nas áreas específicas do mapa, utilizando-se cores ou traçados.
 Existem flutuações intensas na série;
85 86
 Série cobre um grande período de tempo.

Histograma Histograma

É um gráfico de barras verticais, porém construído com as barras


unidas devido ao caráter contínuo dos valores da variável.

Representa a distribuição da frequência de um conjunto de


dados, em que cada barra tem uma área proporcional à
frequência correspondente.

Dispõe as informações de modo que seja possível a visualização


da forma da distribuição de um conjunto de dados e também a
percepção da localização do valor central e da dispersão dos
dados em torno deste valor central.

87 88

Histograma Histograma
(Classes desiguais)

89 90

15
13/11/2013

Alguns tipos de Histogramas Cuidados na Representação Gráfica

Assimétrico à Assimétrico à
Simétrico esquerda direita

Ilhas Isoladas Bimodal (com dois picos)


91 92

Cuidados na Representação Gráfica

93 94

“Tufte batizou isto de “Lie Factor” (fator de


“O gráfico de evolução, na parte
mentira) do gráfico, onde a forma não
superior esquerda, ficaria mais claro
representa o valor e podemos ser induzidos a
com o uso de gráfico de tendência.”
concluir algo que os dados não dizem.”

“...uso das ondas sonoras da buzina


para mostrar quais os locais são os
grandes responsáveis pelos
chamados de barulho.”

“O problema é que há uma distorção


da parte gráfica para o que
realmente são os dados.”

Estado de São Paulo, 20/06/2010, Caderno C-3. 95 96


Estado de São Paulo, 20/06/2010, Caderno C-3.

16
13/11/2013

Gráfico interessante
“...curvas de magnitudes bem distantes
sob a mesma escala, a visualização da
variação fica bastante prejudicada.”

Folha de São Paulo, 06/11/2010.

“A dica neste caso é fazer as duas curvas em


“Variando apenas uma dimensão (altura), gráfico bonito, claro e gráficos separados tomando um cuidado
principalmente rápido para comunicar a informação, mostra o limite especial com a escolha das escalas.”
de dano à saúde e que a vuvuzela realmente tem um som infernal.”
Revista Veja, 23/06/2010.
97 98

“Manchete e o Gráfico, um fala uma


coisa, o outro desmente e vice-versa.”

“um erro de classificação de


duas das barras”

“não dispor as barras numa


ordem decrescente”

“...não se encontra no gráfico o aumento


“Mesmo que fique “chata” ou “sem graça” a no faturamento de 43% de 2008 para
barra comprida e sem o efeito 3D, num 2010, e sim 33% (de 0,9 para 1,2).”
gráfico de barras não há necessidade da
terceira dimensão e nunca devemos começar “...declarar que o cinema chinês conquista
escalas pela metade, sem exceções.” “o mercado” sendo que o gráfico
posiciona a China lá embaixo, em
penúltimo lugar, com destaque enorme
para Japão, Reino Unido e França.”
99 100
“O Brasil a preço de ouro”, Revista Veja, 27/10/2010. Folha de São Paulo, 22/05/2010.

Medidas estatísticas de Medidas de posição (ou localização)


sumarização ou resumo  Média

 Mediana
Valores que resumem um conjunto de dados podem ser
classificados em:  Moda

 Separatrizes
 Medidas de posição ou localização;
Se as medidas forem calculadas para os dados de uma
 Medidas de dispersão ou variabilidade;
amostra, elas são chamadas de estatísticas da amostra.
 Medidas de assimetria e curtose.
Se as medidas forem calculadas para os dados de uma
população, elas são chamadas de parâmetros populacionais.
101 102

17
13/11/2013

Média Aritmética Simples Média Aritmética Simples


É um valor que representa um ponto de equilíbrio do conjunto de
dados 𝑥1 , … , 𝑥𝑛 .
É definida como a somatória de valores dividido pelo número de Exemplo: Os dados abaixo referem-se ao peso em kg de 10
valores.
recém-nascidos.

3,2 3,2 2,8 2,9 3,1 3,2 3,0 3,5 4,0 2,1
 in1 xi
Média Amostral x
n Calcule o peso médio dos recém-nascidos.

 iN1 xi
Média Populacional 
N
103 104

Média Aritmética Ponderada Média Aritmética para dados agrupados


É a soma dos produtos de cada valor observado pelo seu  Quando os dados estão em uma tabela de frequências os
respectivo peso, dividida pela soma dos pesos. ponderadores serão as frequências.

 in1 xi . f i
x
 in1 f i
 in1 xi . pi
x
 in1 pi  Para dados agrupados em intervalos de classes.

 in1 mi . f i
Exemplo: Um estudante obteve na 1ª unidade a nota 7,0, na 2ª x
nota 9,0 e na 3ª nota 8,0. A nota final do semestre é uma  in1 f i
média ponderada, em que as três unidades têm pesos 2, 3 e 5,
respectivamente. Logo, qual será a nota final deste aluno? sendo 𝒎𝒊 o ponto médio da i-ésima classe.
105 106

Média Aritmética para dados agrupados


Média Aritmética para dados agrupados
em intervalos de classe
Exemplo: Calcule a duração média da terapia de transfusão
em paciente com doença falciforme. Exemplo: Calcule o nível médio de colesterol em homens
entre 25 e 34 anos.
Duração da terapia de transfusão para dez
Frequências absolutas de níveis séricos de colesterol para homens
pacientes com doença falciforme.
dos Estados Unidos, com idade entre 25 e 34 anos, 1976-1980.
Duração (anos) Número de
Nível de Colesterol Número de
(xi) crianças (fi)
(mg/100 ml) homens
5 3
80 |– 120 13
6 1
120 |– 160 150
8 1
160 |– 200 442
11 3
200 |– 240 299
12 2
240 |– 280 115
Total 10
280 |– 320 34
Fonte: Periódico Journal of Pediatrics 320 |– 360 9
360 |– 400 5
Total 1.067
Fonte: Periódico Vital and Health Statistics
107 108

18
13/11/2013

Propriedades da Média Aritmética Comentários sobre a Média Aritmética


(Vantagens x Desvantagens)

Vantagem
 Somando-se (ou subtraindo-se) um valor constante e  A média é um valor “típico” (característico) do conjunto de dados.
arbitrário a cada um dos elementos de um conjunto de
 É a principal medida de tendência central.
números, a média fica somada (ou subtraída) por essa
constante.  Leva em consideração todas as observações efetuadas.
 Calcula-se com facilidade.
 Multiplicando-se (ou dividindo-se) cada elemento de um
conjunto de números por um valor constante e arbitrário, a
Desvantagem
média fica multiplicada (ou dividida) por essa constante.
 Muito sensível a valores extremos, isto é, a valores
Exemplo: Salário médio mensal de cinco empregados de uma certa empresa. excessivamente pequenos ou grandes, em relação às demais
observações do conjunto de dados.
Dados em reais: 123 145 210 225 2.500
109 110

Mediana Mediana
É o valor central em uma distribuição, quando o conjunto de
Exemplo: Calcule a mediana dos conjuntos a seguir.
dados está ordenado.
Conjunto 1 = {10, 29, 26, 28, 15}
 Divide a distribuição em duas partes iguais, de modo que 50%
Conjunto 2 = {500, 600, 800, 50.000, 1.000, 500}
dos valores observados são iguais ou inferiores ao valor mediano
e 50% iguais ou superiores a esse valor.

 Se o total de observações for ÍMPAR, a mediana, é o valor que


está localizado exatamente ao meio dos dados ordenados.

 Se o total de observações for PAR, a mediana é a média dos


dois valores centrais.

111 112

Média x Mediana Moda


A moda é o valor que ocorre com maior frequência na distribuição.
A mediana é uma medida de posição resistente, pois é pouco
afetada por mudanças de pequena porção dos dados, ao Exemplo:
contrário da média que é sensível a valores atípicos (discrepantes). X = {2, 3, 3, 5, 5, 5, 6, 7}
Y = {10, 12, 17, 21, 32}
Exemplo: Calcule a média e a mediana. Z = {2, 2, 5, 5, 7, 7}
W = {10, 12, 12, 12, 13, 13, 15, 18, 18, 18, 21}
Conjunto 1 = {200, 250, 250, 300, 450, 460, 510}
Conjunto 2 = {200, 250, 250, 300, 450, 460, 2.300} A moda é a menos empregada. No entanto, é adequada para
caracterizar situações onde estejam em causa os casos ou
valores mais usuais. Por exemplo:
O cálculo da mediana torna-se trabalhoso quando o número de
Em estudos de mercado, o empresário pode estar interessado
observações é grande, devido a necessidade de ordenar os dados.
nos produtos que mais se vendem.
113 114

19
13/11/2013

Moda Separatrizes
Exemplo: Estudo sobre os principais defeitos de fabricação de Permitem calcular valores da variável que dividem a
capas de livro de uma determinada editora. distribuição em partes iguais. Existem quatro tipos de
separatrizes, também chamada de quantis.
Tipo de erro Frequência (%)
 Mediana
Impressão 40
Comprimento da caixa 30  Quartis
Largura da caixa 20  Decis
Altura da caixa 10
Total 100  Centis ou Percentis

Qual a moda?

115 116

Separatrizes Separatrizes
Enquanto a mediana separa a distribuição em duas partes Cálculo do percentil de ordem 𝑗:
iguais, a característica principal das outras separatrizes é:
1. Ordenar os dados de forma crescente;
 Quartis (Qi): dividem a distribuição em quatro partes iguais;
2. Calcular a posição (𝑃𝑜𝑠𝑗 ) do percentil j
 Decis (Di): dividem em dez partes iguais;
 Centis ou Percentis (Pi): dividem em cem partes iguais.
𝑗
𝑃𝑜𝑠𝑗 = ×𝑛
100
Relação entre as separatrizes:
3. 𝑃𝑜𝑠𝑗 é um número inteiro?
 Os quartis Q1, Q2 e Q3 são os percentis P25, P50 e P75.
 Os decis D1, D2, … e D9 são os percentis P10, P20, … e P90. SIM - O percentil 𝑗 será calculado como a média aritmética dos
elementos que ocupam a posição 𝑃𝑜𝑠𝑗 e a posição 𝑃𝑜𝑠𝑗 + 1.
 Md = Q2 = D5 = P50.
NÃO - O percentil 𝑗 é o elemento que ocupa a posição 𝑃𝑜𝑠𝑗 , sendo
117
que 𝑃𝑜𝑠𝑗 será arredondado para o maior inteiro mais próximo. 118

Separatrizes Medidas de dispersão (ou variabilidade)

Exemplo: Teor de gordura (g/24 horas) em 43 crianças do Absolutas


Hospital Pediátrico da UFMG (já ordenado).
Expressas na mesma unidade de medida da variável em estudo.
0,8 1,0 1,0 1,1 1,3 1,3 1,4 1,5 1,5
1,6 1,6 1,8 1,8 1,9 1,9 1,9 2,0 2,0  Amplitude total
2,0 2,1 2,1 2,1 2,3 2,3 2,4 2,4 2,5
2,7 2,7 2,7 2,8 2,9 2,9 3,0 3,0 3,1  Amplitude semi-interquartílica ou desvio quartil
3,2 3,2 3,3 3,7 3,8 3,9 4,6
 Desvio médio
Calcule a média, mediana, moda e os percentis 20, 50 e 82.
Interprete os resultados.  Variância

 Desvio padrão

119 120

20
13/11/2013

Medidas de dispersão (ou variabilidade) Motivação


Relativas
Produção diária da peça Z de três empregados de uma
Independem da unidade de medida da variável observada. Servem para indústria no período de 15 à 19 de abril de 2012.
estudar comparativamente a variabilidade de duas ou mais distribuições.
Dia Média
Empregado
1º 2º 3º 4º 5º Diária
 Desvio quartil reduzido Carlos 82 70 65 60 73 70
Daniel 60 78 68 62 82 70
 Coeficiente de variação de Pearson Eduardo 53 72 75 75 75 70

 Variável padronizada Supondo-se que interessa ao administrador da empresa que os


empregados apresentem produção elevada e a mais homogênea
possível. Qual dos três empregados apresentou melhor
desempenho no trabalho no período observado?

121 122

Motivação Amplitude Total


A amplitude de um conjunto de dados é a diferença entre os
Considerando agora apenas dois empregados com produção valores extremos do conjunto.
média diária diferente. 𝑨𝑻 = 𝒙𝒎𝒂𝒙 − 𝒙𝒎𝒊𝒏
Observações
Produção diária da peça Z de dois empregados de uma
indústria no período de 15 à 19 de abril de 2012.  É a medida mais simples de dispersão.
Dia Média
Empregado  Possui desvantagem, pois leva em conta apenas os valores
1º 2º 3º 4º 5º Diária
Antônio 70 71 69 70 70 70 extremos do conjunto, não indicando qualquer variação no
Benedito 60 80 70 62 83 71 interior do conjunto de dados.

 Também sofre influência de um valor “atípico” na distribuição.


Quem apresentou melhor desempenho no trabalho no período
observado, Antônio ou Benedito?
123 124

Amplitude Total Variância


É uma medida de variabilidade que utiliza todos os dados, e é
Exemplo: Calcule a amplitude total da produção da peça Z baseada na diferença entre o valor de cada observação (xi) e a
para cada empregado da indústria e identifique qual média ( x para amostra e  para população).
empregado apresentou a menor dispersão e qual apresentou a
maior dispersão na produção diária.
 
N
( xi   ) 2
n
( xi  x ) 2
i 1
Seriam idênticas as produções diárias observadas de Daniel e  2
 s2  i 1

Eduardo? N n 1

Variância Populacional Variância Amostral

A variância apresenta a unidade de medida elevada ao quadrado.

Exemplo: Calcule o variância da produção da peça Z para cada


empregado da indústria.
125 126

21
13/11/2013

Desvio Padrão Desvio Padrão


É a medida de dispersão mais usada e mais importante. Assim Interpretação do desvio padrão (análoga à da variância)
como a variância, mede a concentração dos dados em torno da
média. Porém, tem a unidade de medida igual a unidade de O devio padrão mede a variação entre valores. Assim:
medida original da variável.
• Se os valores estiverem próximos uns dos outros, então o
desvio padrão será pequeno, e consequentemente os dados
serão mais homogêneos.
 
N n
( xi   ) 2 ( xi  x ) 2
i 1 i 1
  2  s  s2 
N n 1 • Se os valores estiverem distantes uns dos outros, então o
desvio padrão será grande, e consequentemente os dados
Desvio padrão Populacional Desvio padrão Amostral serão heterogêneos.

Exemplo: Calcule o desvio padrão da produção da peça Z para


cada empregado da indústria.
127 128

Propriedades da Variância e do Amplitude semi-interquartílica


Desvio Padrão (desvio quartil)
O intervalo interquartílico é igual a (Q1; Q3). Neste intervalo
 Somando-se (ou subtraindo-se) um valor constante e
encontram-se 50% das observações centrais do conjunto de dados.
arbitrário a cada um dos elementos de um conjunto de
números, o devio padrão e a variância não se alteram.
A amplitude interquartílica corresponde à diferença entre os
quartis de ordem 3 e de ordem 1.
 Multiplicando-se (ou dividindo-se) cada elemento de um
d  Q3  Q1.
conjunto de números por um valor constante e arbitrário, o
desvio padrão fica multiplicado (ou dividido) por essa
constante e a variância fica multiplicado (ou dividido) pelo O desvio quartil é a metade da amplitude interquartílica.
quadrado dessa constante. amplitude interquart ílica Q3  Q1
DQ  
129
2 2 130

Amplitude semi-interquartílica Coeficiente de Variação de Pearson


(desvio quartil)
Trata-se de uma medida relativa de dispersão, útil para
 É facilmente calculado e interpretado. comparar a variabilidade de duas ou mais distribuições, mesmo
quando essas se referem a diferentes fenômenos e sejam
 Não é afetado por valores extremos. expressas em unidades de medida distintas.

 Quando a medida de tendência central utilizada for a S


mediana deve-se trabalhar com o desvio quartil como CV 
X
medida de dispersão.
Como o CV é uma medida que exprime a variabilidade
 Possui desvantagem, pois duas distribuições diferentes relativa à média, é usualmente expresso em porcentagem.
podem apresentar o mesmo valor para o desvio quartil e, no
entanto, as dispersões para os conjuntos observados serem
muito desiguais.

131 132

22
13/11/2013

Coeficiente de Variação de Pearson Assimetria


Regras empíricas para interpretações do CV:
As medidas de assimetria são utilizadas para avaliar o grau de
• Se CV < 15% -> tem-se baixa dispersão assimetria da distribuição de frequências, sendo que assimetria
pode ser definida como o grau de deformação de uma curva
• Se 15% ≤ CV < 30% -> tem-se média dispersão de frequências.
• Se CV ≥ 30% -> tem-se elevada dispersão

Exemplo: Ache o coeficiente de variação para alturas (m) e


pesos (kg) de 40 homens.

Altura: X  1,74 S  0,08


Peso: X  78,2 S  11,9

133 134

Relação média, mediana e moda


b) X  Md  Mo, distribuição é assimétrica positiva ou à direita

Uma primeira verificação da assimetria pode ser feita através


da comparação entre os valores observados para a média,
mediana e moda.

a) X  Md  Mo, distribuição é simétrica


c) X  Md  Mo, distribuição é assimétrica negativa ou à
esquerda

135 136

Curtose Curva ou Distribuição Mesocúrtica


As medidas de curtose indicam até que ponto a curva de
frequências de uma distribuição se apresenta mais afilada ou
mais achatada em relação a uma curva tomada como padrão,
denominada curva normal.

A curva normal é simétrica em relação à media aritmética e


tem a forma semelhante a de um sino.

137 138

23
13/11/2013

Curva ou Distribuição Platicúrtica Curva ou Distribuição Leptocúrtica

139 140

Diagramas em Caixas (Box-plot) Diagramas em Caixas (Box-plot)


 É um método alternativo ao histograma para representar os
dados.

 São convenientes para revelar tendências centrais, dispersão,


distribuição dos dados e a presença de outliers (valores extremos).

 Utiliza: valor mínimo, Q1, Md, Q3 e o valor máximo do conjunto de


dados.

 Útil para comparar dois ou mais conjuntos de dados.

 O box-plot pode ser desenhado na posição vertical (mais comum)


ou horizontal.

141 142

Diagramas em Caixas (Box-plot) Diagramas em Caixas (Box-plot)


Exemplo: O teor de nicotina, em miligramas, em 40 cigarros de
certa marca foi registrado como segue ROL
0,72 1,40 1,64 1,69 1,79 1,88 2,03 2,28
1,09 1,92 2,31 1,79 2,28 1,74 1,47 1,97 0,85 1,47 1,64 1,70 1,79 1,90 2,08 2,31
0,85 1,24 1,58 2,03 1,70 2,17 2,60 2,11
1,09 1,51 1,67 1,74 1,82 1,92 2,09 2,37
1,86 1,90 1,68 1,51 1,64 0,72 1,69 1,85
1,82 1,79 2,46 1,88 2,08 1,67 1,37 1,93 1,24 1,58 1,68 1,75 1,85 1,93 2,11 2,46
1,40 1,64 2,09 1,75 1,63 2,37 1,75 1,69 1,37 1,63 1,69 1,75 1,86 1,97 2,17 2,60

Construa um boxplot para a variável teor de nicotina. Q1 = 1,635 Q2 = 1,77 Q3 = 2,00 d = 0,365

LI = 1,635 - (1,5*0,365) ≈ 1,09 LS = 2,00 + (1,5*0,365) ≈ 2,55

143 144

24
13/11/2013

Diagramas em Caixas (Box-plot) Diagramas em Caixas (Box-plot)


 A mediana é o traço no centro do retângulo.
 A dispersão é representada pela altura do retângulo (Q3 - Q1),
amplitude interquartil.
 Assimetria: a proximidade da linha da mediana em relação a
Q1 e Q3 informa sobre a assimetria.
 - Se a mediana está no centro do retângulo → Simetria
 - Se a mediana é próxima de Q1 → Assimetria positiva
 - Se a mediana é próxima de Q3 → Assimetria negativa
 Os pontos que estão fora do intervalo dado pela amplitude
interquartílica são considerados valores atípicos ou discrepantes
(outliers), ou seja, valores muito grandes ou muito pequenos em
relação aos demais. Geralmente são representados pelos
145 símbolos * ou . 146

Box-Plot e Assimetria
O que fazer se são detectados
outliers em um conjunto de dados?

 Abandonar a observação quando houver uma justificativa


convincente: observação incorreta ou erro na execução do
experimento. A análise deve ser refeita sem o outlier.

 Conservar quando nenhuma explicação pode ser dada à


observação atípica. Neste caso é preciso um tratamento especial
na análise desses dados.

147 148

Box-plot da variável pulsação em repouso segundo o sexo.

149 150

25
13/11/2013

Análise Bivariada
 Até o momento todas as análises foram discutidas para
cada variável individualmente. A técnica a ser estudada a
seguir refere-se a problemas que envolvam conjuntos de
dados que possuem duas ou mais variáveis qualitativas ou
quantitativas.
 Muitas vezes queremos realizar uma análise descritiva de
duas variáveis simultâneamente, ou seja, verificar se há
uma relação entre duas variáveis.
Universidade Federal da Bahia
Instituto de Matemática  Queremos conhecer o grau de dependência entre as variáveis
Departamento de Estatística para prever melhor o resultado de uma delas quando
Disciplina: MAT021 – Estatística I-B
conhecermos a realização da outra.
Professor: Jonatas SES
2012.2

 O tempo de serviço na Empresa tem


relação com o salário do empregado? Para análise deste comportamento conjunto, medidas de
associação são utilizadas dependendo do tipo das variáveis
envolvidas no estudo.

 Bom desempenho em inglês implica em


um bom desempenho em português? Possibilidades

 Qualitativa x Qualitativa

 Quantitativa x Quantitativa

 Qualitativa x Quantitativa
 A opinião sobre o aborto
independe da renda familiar?

Variáveis Qualitativas
Exemplo 1: Há indícios de associação entre o sexo e o hábito
 Deseja-se verificar independência entre as variáveis em de fumar?
estudo, ou seja, ausência de associação entre elas.

 Podemos construir tabelas de frequência com dupla entrada. Hábito de Fumar


Essas tabelas de dados cruzados são conhecidas por tabelas de Sexo Total
contingência, e são utilizadas para estudar a relação entre duas Fuma Não-Fuma
variáveis categóricas. Masculino 20 37 57
Feminino 8 27 35
 Tabelas Bidimensionais (2x2) Total 28 64 92
Variável 2
Variável 1 Total
Categoria 1 Categoria 2
Categoria 1 a b a+b
Categoria 2 c d c+d
Total a+c b+d N

26
13/11/2013

Exemplo 2: Há indícios de associação entre o hábito de Exemplo 3: Existe ou não associação entre o sexo e a carreira
fumar e câncer de pulmão ? escolhida por 200 alunos de Engenharia e Contábeis?

Sexo
Curso Total
Masculino Feminino
Engenharia 100 20 120
Contábeis 40 40 80
Total 140 60 200

Coeficiente de YULE
 Existindo associação entre as variáveis, torna-se
interessante quantificar essa associação. Permite verificar a existência de associação entre duas
variáveis qualitativas. Cada variável com apenas duas
 De modo geral, a quantificação do grau de associação categorias.
entre duas variáveis é feita pelos chamados coeficientes Variável 2
de associação ou correlação. Variável 1 Categoria Categoria 2 Total
1
 Usualmente variam entre 0 e 1, ou entre -1 e +1, Categoria 1 a b a+b
indicando falta de associação a proximidade do zero. Categoria 2 c d c+d
Total a+c b+d N
 Existem muitas dessas medidas, veremos a seguir o
Coeficiente de Yule.
ad  bc
Y
ad  bc

Exemplo 4: Considere que para receber a carteira profissional de


contador, os bacharéis em Ciências Contábeis precisa ser aprovado no
exame do Conselho Federal de Contabilidade (CFC).
Na interpretação do coeficiente de YULE, é preciso saber:
O dono de uma empresa de educação, resolveu abrir um curso
1) O valor de Y está compreendido no intervalo de -1 até 1. preparatório para a prova do CFC e realizou uma pesquisa sobre a
eficiência desse tipo de curso com os bacharéis em Ciências Contábeis
2) Y = 0 corresponde a independência que realizaram o exame CFC.

3) Y ≠ 0 corresponde a associação entre as variáveis. É lícito concluir (ou pelo menos suspeitar) à luz destes dados que o
curso está associado com a aprovação do bacharel no exame do CFC?

Fez algum curso preparatório Resultado do exame


Total
para o exame CFC? Aprovado Reprovado
Em termos descritivos, o coeficiente de YULE apresenta a
informação que permite a verificação de associação Sim 130 70 200
entre duas variáveis qualitativas
Não 80 160 240
Total 210 230 440

27
13/11/2013

Variáveis Quantitativas

𝑎𝑑 − 𝑏𝑐 130 𝑋 160 − (70 𝑋 80) 15200  A investigação da relação de duas variáveis deste
𝑌= = = = 0,58 tipo usualmente começa com uma análise gráfica
𝑎𝑑 + 𝑏𝑐 130 𝑋 160 + (70 𝑋 80) 26400
dos dados, através do gráfico de dispersão.

 Logo, os dados sugerem a existência de uma associação


o fato de participar de algum curso preparatório e a  Com este gráfico, é possível verificar se existe
aprovação no exame do CFC. alguma relação entre as variáveis e se essa relação
pode ser tratada como aproximadamente linear.

 A desvantagem do uso do coeficiente de YULE é que


esta medida restringe-se na análise de tabelas 2×2.

Exemplo 5 Exemplo 6

Numa pesquisa feita com 10 famílias com renda familiar


Número de anos de serviço por número entre 10 e 60 salários mínimos , mediram-se:
de clientes de agentes de uma
companhia de seguros.
Anos de Número de
Agente
Serviço (X) clientes (Y)
A 2 48
B 3 50
C 4 56
D 5 52
E 4 43
F 6 60
G 7 62 Parece haver uma associação entre
H 8 58 as variáveis, porque no conjunto, à
I 8 64 medida que aumenta o tempo de
J 10 72 serviço, aumenta o número de
clientes.

Exemplo 6 Exemplo 7

Oito candidatos foram submetidos a um teste sobre conhecimento de língua estrangeira


E, em seguida mediu-se o tempo gasto por cada um para aprender a operar uma certa
maquina

Pelo diagrama de dispersão é possível observar que quanto maior


a renda bruta, menor é a renda gasta com assistência médica.

Portanto existe uma relação inversa entre essas variáveis

28
13/11/2013

Exemplo 7

 O diagrama de dispersão permite verificar se existe relação


entre duas variavéis quantitativas, mas não a quantifica.

 Essas variáveis podem estar relacionadas de diversas


formas expressas por modelos matemáticos, a saber:
associação linear, associação exponencial, associação
quadrática, etc.

 Aqui, será visto apenas, a associação linear entre duas


variáveis e será construída uma medida que tem por
objetivo avaliar quanto uma nuvem de pontos de
dispersão estão proximos de uma linha reta.
Pela disposição dos pontos dos gráficos, parece não haver dependência, entre as
variável.

Coeficiente de Correlação de Pearson Interpretação do Coeficiente de Correlação de Pearson

Para medir o grau em que as variáveis estão relacionadas.


Usaremos uma medida chamada de coeficiente de correlação 0  r 1 r 1
de Pearson, que é definido pela seguinte fórmula:
Y Y

x y
i 1
i i  nx y
r 0
r X X Y
. Correlação linear Correlação linear
 n  n  positiva perfeita positiva



 i 1
xi 2  nx 2  



 i 1
yi 2  ny 2 


Y
1  r  0 Y r  1
X
Correlação nula
O coeficiente de correlação, mede a força da associação linear entre
as duas variáveis avaliadas, sendo uma medida válida se as duas
variáveis estão relacionadas linearmente, ou seja, se a relação X
X
visualizada no gráfico de dispersão lembrar o desenho de uma reta. Correlação linear Correlação linear
negativa perfeita negativa

Coeficiente de Correlação de Pearson Cuidados que devemos ter quando a correlação

Calcule o coeficiente de correlação linear entre as variáveis X  Um dos cuidados que devemos ter quando a correlação é
e Y. interpretada é saber que correlação não é o mesmo que
i X Y X.Y X2 Y2 n causalidade (relação de causa e efeito).
1
2
2
4
10
8
20
32
4
16
100
64
 x y  nx y
i 1
i i
r .  Quando duas variáveis são altamente correlacionadas, não
3 6 6 36 36 36 n 2  n 2  significa, necessariamente, que uma causa a outra.
4 8 10 80 64 100 
 i 1
2

 xi  nx   yi  ny 
  i 1
2


5 10 12 120 100 144
 Um outro cuidado que deve ser tomado ao se interpretar
Σ 30 46 288 220 444
correlação é associar um diagrama de dispersão ao
conjunto de dados.
288 −5 𝑥 6 𝑥 9,2
𝑟= =0,41
(220 −5 𝑥 62 )(444 −5 𝑥 9,22 )

Existe uma fraca relação entre X e Y.

29
13/11/2013

Cuidados que devemos ter quando a correlação Cuidados que devemos ter quando a correlação

Conjunto 1 Conjunto 2 Conjunto 3 Conjunto 4


X Y X Y X Y X Y
10 8,04 10 9,14 10 7,46 8 6,58
8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,1 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,1 4 5,39 19 12,5
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89

Variáveis Quantitativas e Qualitativas Variáveis Quantitativas e Qualitativas


 Descrevendo a pulsação em repouso segundo o sexo
 Essa situação é a mais fácil de analisar haja visto que se trata de
uma análise comparativa, ou seja, utiliza-se as medidas de (1-Masculino e 2- Feminino)
sumarização estudadas até agora e realiza-se uma análise
comparativa dessas medidas em cada categoria da variável
qualitativa.

 Graficamente: Através da construção de um box-plot


comparativo representando o comportamento quantitativo nas
diferentes categorias da variável qualitativa.

 Numericamente: Através do cálculo das medidas sumárias


como média, desvio padrão e percentis da variável quantitativa
nas diferentes categorias da variável qualitativa.

Variáveis Quantitativas e Qualitativas Variáveis Quantitativas e Qualitativas


Indicador de Execução de despesa de ações orçamentárias na gestão Faturamento de empresas insolventes (empresas que não tem saúde financeira
municipal de Vitória para pagar as dívidas) e Solventes em determinado estado em determinado ano.

Fonte: Dissertação de mestrado de Venina de Almeida Lopes

Fonte: Dados Fictícios

30

Você também pode gostar