Você está na página 1de 204

UNIVERSIDADE FEDERAL DE PELOTAS INSTITUTO DE FÍSICA E MATEMÁTICA DEPARTAMENTO DE MATEMÁTICA E ESTATÍSTICA

EEEssstttaaatttíííssstttiiicccaaa BBBááásssiiicccaaa

Versão 2011

Clause Fátima de Brum Piana Amauri de Almeida Machado Lisiane Priscila Roldão Selau

Pelotas, 2011.

Sumário

Unidade I. Introdução

1.1. Considerações gerais

5

1.2. População e amostra

5

1.3. Conceito e divisão

5

1.4. Informações históricas

6

1.5. Conceitos fundamentais

7

1.5.1. Característica e variável

7

1.5.2. Escalas de medida

7

1.5.3. Classificação de variáveis

10

1.5.4. Observação e conjunto de dados

10

1.6. Bibliografia

12

Unidade II. Estatística Descritiva

2.1. Apresentação de dados

14

2.1.1. Séries estatísticas

14

2.1.2. Tabelas

18

2.1.3. Gráficos

21

2.2. Distribuições de freqüências e gráficos

24

2.2.1. Tabelas de classificação simples

24

2.2.2. Tabelas de classificação cruzada

33

2.3. Medidas descritivas

36

2.3.1. Medidas de localização ou tendência central

37

2.3.2. Medidas separatrizes

42

2.3.3. Medidas de variação ou dispersão

44

2.3.4. Medidas de formato

48

2.3.5. Medidas descritivas para dados agrupados em classe

51

2.4. Análise exploratória de dados

56

Unidade III. Elementos de Probabilidade

3.1. Introdução à teoria das probabilidades

65

3.1.1. Introdução

65

3.1.2. Conceitos fundamentais

67

3.1.3. Conceitos de probabilidade

68

3.1.4. Teoremas para o cálculo de probabilidades

68

3.1.5. Probabilidade condicional e independência

72

3.2. Variáveis aleatórias

76

3.2.1. Introdução e conceito

76

3.2.2. Variáveis aleatórias discretas

78

3.2.3. Variáveis aleatórias contínuas

85

3.3. Distribuições de probabilidade

91

3.3.1. Distribuições de probabilidade de variáveis discretas

91

3.3.2. Distribuições de probabilidade de variáveis contínuas

103

3.4. Bibliografia

116

Unidade IV. Inferência Estatística

4.1. Introdução e histórico

118

4.2. Conceitos fundamentais

120

4.3. Distribuições amostrais

123

4.3.1.

Distribuições amostrais de algumas estatísticas importantes

129

4.4. Estimação de parâmetros

136

4.4.1. Conceitos fundamentais

136

4.4.2. Propriedades dos estimadores

133

4.4.3. Processos de estimação

134

4.5. Testes de hipóteses

154

4.5.1. Testes para a média populacional

154

4.5.2. Testes para a variância populacional

165

4.5.3. Testes para a proporção populacional

170

4.6. Quebras nas pressuposições adotadas no processo de inferência

173

4.6.1. Heterogeneidade de variâncias

173

4.6.2. Dependência entre as amostras

174

4.7.

Testes de qui-quadrado

178

 

4.7.1. Considerações gerais

178

4.7.2. Estatística do teste

178

4.7.3. Classificação simples

179

4.7.4. Classificação dupla

179

4.7.5. Critério de decisão

180

4.8.

Bibliografia

185

Apêndice

1. Notação somatório

187

2. Noções sobre conjuntos

188

3. Notação fatorial

191

4. Análise combinatória

191

5. Noções sobre derivação e integração

193

6. Tabelas estatísticas

195

7. Lista de respostas dos exercícios propostos

201

Unidade I Introdução

1.1. Considerações gerais

5

1.2. População e amostra

5

1.3. Conceito e divisão

5

1.4. Informações históricas

6

1.5. Conceitos fundamentais

7

1.5.1. Característica e variável

7

1.5.2. Escalas de medida

7

1.5.3. Classificação de variáveis

10

1.5.4. Observação e conjunto de dados

10

1.6. Bibliografia

12

Piana, Machado e Selau

Introdução

1.1. Considerações gerais

A coleta, o processamento, a interpretação e a apresentação de dados numéricos

pertencem todos aos domínios da estatística. Essas atribuições compreendem desde o cálculo de pontos em esportes, a coleta de dados sobre nascimentos e mortes, a avaliação da eficiência de produtos comerciais, até a previsão do tempo. A informação estatística é apresentada constantemente em todos os meios de comunicação de massa: jornais, televisão, rádio e internet. Observamos uma abordagem crescentemente quantitativa utilizada em todas as ciências, na administração e em muitas atividades que afetam diretamente nossas vidas. Isto

inclui o uso de técnicas matemáticas nas decisões econômicas, públicas ou privadas; na avaliação de controles de poluição; na análise de problemas de tráfego; no estudo dos efeitos de vários medicamentos; na adoção de novas técnicas agrícolas e novas cultivares; em estudos demográficos como crescimento populacional e migração.

A partir destes poucos exemplos, podemos notar a importância da Estatística como

ferramenta necessária para a compreensão dos fenômenos que ocorrem nas mais diferentes

áreas.

1.2. População e amostra

É difícil encontrar duas coisas exatamente iguais. Há um pouco de variabilidade em quase tudo. De modo bem geral, podemos dizer que o objetivo da Estatística é fornecer métodos para se conviver, de modo racional, com a variabilidade. Isto é feito através da descoberta de regularidade nos dados relativos às situações em estudo. Para isso, duas ideias são de fundamental importância. Primeiramente, embora as observações sejam variáveis é sempre possível associar a elas a ideia de regularidade e expressar essa regularidade matematicamente. Por outro lado, devido à variabilidade inerente aos indivíduos, os pontos de interesse da Estatística são referentes aos grupos de indivíduos, ou seja, estudamos os indivíduos através dos grupos. Quando estudamos uma determinada característica, geralmente, queremos obter conclusões para o conjunto de todos os indivíduos que apresentam tal característica. Chamamos de população o conjunto de todos os indivíduos ou objetos que apresentam uma característica em comum. Na maioria dos casos, ao estudarmos uma população, não temos acesso a todos os seus elementos. O estudo é feito, então, a partir de uma parte desta população, denominada amostra, que tem por objetivo representá-la.

1.3. Conceito e divisão

A Estatística, durante muitos séculos, esteve relacionada apenas com as informações

a respeito do Estado. Hoje em dia, o conjunto de teorias, conceitos e métodos denominado Estatística está associado ao processo de descrição e inferência, debruçando-se, de modo particular, sobre questões relativas à sumarização eficiente de dados, planejamento e análise de experimentos e levantamentos e natureza de erros de medida e de outras causas de variação em um conjunto de dados. A estatística pode ser dividida em duas partes principais: a Estatística Descritiva e a Inferência Estatística ou Estatística Analítica. Enquanto a Estatística Descritiva cuida do resumo e da apresentação de dados de observação por meio de tabelas, gráficos e medidas, sem se preocupar com as populações de onde esses dados foram retirados, a Inferência Estatística tem como objetivo fornecer métodos que possibilitem a realização de inferência sobre populações a partir de amostras delas provenientes. A Inferência Estatística tem por base o cálculo de probabilidades e compreende dois grandes tópicos: a estimação de parâmetros e os testes de hipóteses. Embora a Estatística Descritiva seja um ramo fundamental da Estatística, em muitos casos ela se torna insuficiente. Isto ocorre porque quase sempre as informações são obtidas de amostras e, consequentemente, sua análise exige generalizações que ultrapassam os

Piana, Machado e Selau

Introdução

dados disponíveis. Essa necessidade, aliada ao desenvolvimento dos métodos probabilísticos, promoveu o crescimento da Estatística pela ênfase aos métodos generalizadores (Inferência Estatística), em acréscimo aos métodos puramente descritivos. Alguns exemplos ilustram a necessidade dos métodos generalizadores:

prever a duração média da vida útil de uma calculadora, com base no desempenho de muitas dessas calculadoras;

comparar a eficiência de duas dietas para reduzir peso, com base nas perdas de peso de pessoas que se submeteram às dietas;

determinar a dosagem ideal de um novo medicamento, com base em testes feitos

em pacientes voluntários de hospitais selecionados aleatoriamente;

prever o fluxo de tráfego de uma rodovia ainda em construção, com base no tráfego

observado em rodovias alternativas. Em todas essas situações existe incerteza porque dispomos apenas de informações parciais, incompletas ou indiretas. A Inferência Estatística trata de problemas onde a incerteza é inerente, utilizando métodos que se fundamentam na teoria das probabilidades. Os métodos de inferência tornam-se necessários para avaliar a confiabilidade dos resultados observados.

1.4. Informações históricas

Embora a palavra estatística ainda não existisse, existem indícios de que há 3000 anos a.C. já se faziam censos na Babilônia, China e Egito.

A própria Bíblia leva-nos a esse resgate histórico:

o livro quarto do Velho Testamento, intitulado “Números”, começa com a seguinte

instrução a Moisés: ”Fazer um levantamento dos homens de Israel que estivessem aptos para

guerrear”;

na época do Imperador César Augusto, saiu um edito para que se fizesse o censo em todo o Império Romano. Por isso Maria e José teriam viajado para Belém.

A Estatística teve origem na necessidade do Estado Político em conhecer os seus domínios. Sob a palavra estatística, provavelmente derivada da palavra “status” (estado, em latim), acumularam-se descrições e dados relativos ao Estado. Nas mãos dos governantes, a Estatística passou a constituir-se verdadeira ferramenta administrativa.

Em 1085, Guilherme, o Conquistador, ordenou que se fizesse um levantamento estatístico da Inglaterra, que deveria incluir informações sobre terras, proprietários, uso da terra, empregados, animais e que serviria também de base para o cálculo de impostos. Esse levantamento originou um volume intitulado “Domesday Book” (Livro do dia do juízo final).

“Domesday Book” (Livro do dia do juízo final). Jonh Graunt (1620 - 1674) No século XVII,

Jonh Graunt (1620 - 1674)

No século XVII, ganhou destaque na Inglaterra, a partir das Tábuas de mortalidade de Jonh Graunt e William Petty, a aritmética política que consistiu de exaustivas análises de nascimentos e mortes. Dessas análises resultou a conclusão, entre outras, de que a percentagem de nascimentos de crianças do sexo masculino era ligeiramente superior à de crianças do sexo feminino.

era ligeiramente superior à de crianças do sexo feminino. William Petty (1623 - 1687) Em 1708,

William Petty (1623 - 1687)

Em 1708, foi organizado o primeiro curso de Estatística na Universidade de Yena, na Alemanha.

Piana, Machado e Selau

Introdução

A palavra estatística foi cunhada pelo acadêmico alemão Gottfried Achenwall, em

1740. Também é ele quem estabelece as relações da Estatística com outras áreas, definindo- lhe o campo de ação.

Contudo, foi o casamento entre o cálculo das probabilidades e a Estatística, em meados do século XIX, que permitiu que a Estatística fosse organicamente estruturada e ampliasse largamente o seu campo de ação. O avanço na teoria das probabilidades possibilitou a descoberta das distribuições de probabilidade e, como consequência, a criação de técnicas de amostragem mais adequadas e de formas de relacionar as amostras com as populações de onde provieram.

Outro marco decisivo no desenvolvimento dos métodos estatísticos foi o advento da computação eletrônica, ferramenta valiosíssima que permitiu que a Estatística alargasse ainda mais os seus horizontes.

1.5. Conceitos fundamentais

1.5.1. Característica e variável

As unidades de uma população se distinguem e se caracterizam por um conjunto de particularidades, propriedades ou atributos. Cada uma dessas particularidades ou propriedades é uma característica ou atributo da população e de suas unidades. Cada característica pode manifestar-se nas unidades sob diferentes alternativas ou níveis. Por exemplo, sexo e grau de instrução são características de indivíduos de uma população. Os níveis (alternativas) para a característica sexo são dois: masculino e feminino, e para a característica grau de instrução poderiam ser quatro: fundamental, médio, graduação e pós-graduação. Em geral, o conjunto de características das unidades de uma população é demasiadamente vasto e não totalmente conhecido para ser completamente descrito. Assim, apenas as características relevantes numa pesquisa específica é que são consideradas. O conjunto dessas características irá depender dos objetivos e das condições de realização da pesquisa. Desse modo, o interesse estará sempre focalizado não nas unidades em si, mas nas suas características relevantes.

O termo variável é utilizado genericamente para indicar aquilo que é sujeito à variação

ou à inconstância. No contexto da pesquisa científica, uma variável é definida como a função que estabelece uma correspondência entre os níveis de uma característica e os valores de um conjunto numérico segundo uma escala de medida. Em outras palavras, uma variável é uma característica populacional que pode ser medida de acordo com alguma escala.

1.5.2. Escalas de medida

O termo escala de medida é usualmente relacionado com instrumentos como régua,

balança, copos de medida, utilizados para determinar comprimento, peso, volume, etc. Ou seja,

comumente tende-se a associar a mensuração com um processo de medida física com escala bem definida que possui uma origem ou ponto zero natural e uma unidade de medida constante. Frequentemente, entretanto, características devem ser representadas por escalas menos informativas, que não possuem as propriedades associadas com a maioria das medidas físicas.

Podemos classificar as escalas de medida em quatro categorias: escala nominal, escala ordinal, escala intervalar e escala de razão ou racional. Cada escala de medida possui seu próprio conjunto de pressuposições referentes à correspondência de números com entidades do mundo real e ao significado da realização das várias operações matemáticas sobre esses números. A complexidade e a informação aumentam conforme aumenta o nível da escala de medida.

Piana, Machado e Selau

Introdução

Escala nominal

Uma variável de escala nominal classifica as unidades em classes ou categorias quanto à característica que representa, não estabelecendo qualquer relação de grandeza ou de ordem. É denominada nominal porque duas categorias quaisquer se diferenciam apenas pelo nome.

A escala nominal é a menos restritiva. A igualdade ou equivalência de classes é caracterizada pelas seguintes três propriedades:

reflexividade: cada unidade em uma classe é igual a ela própria;

simetria: para cada duas unidades em uma mesma classe, sejam A e B, A=B implica B=A;

transitividade: para quaisquer três unidades em uma classe, sejam A, B e C, A=B e B=C implica A=C.

Os rótulos das categorias eventualmente podem ser numéricos, mas operações aritméticas sobre esses números não têm qualquer significado com respeito aos objetos do mundo real que eles identificam. A escala nominal permite apenas algumas operações aritméticas mais elementares. Pode-se contar o número de elementos de cada classe e determinar a classe mais numerosa ou efetuar testes de hipóteses estatísticas referentes à distribuição das unidades da população nas classes. Como uma escala nominal apenas classifica unidades, mas não infere grau ou quantidade, as várias classes não podem ser manipuladas matematicamente (por exemplo, por adição ou subtração de equivalentes numéricos daquelas classes). Consequentemente, a maioria das estatísticas usuais, como média e desvio padrão não têm sentido, pois as operações para sua determinação não são permitidas. Se tudo o que pode ser dito sobre um objeto é que ele é diferente de outros, então a escala de medida é nominal.

Escala ordinal

Uma variável de escala ordinal classifica as unidades em classes ou categorias quanto à característica que representa, estabelecendo uma relação de ordem entre as unidades pertencentes a categorias distintas. A escala ordinal é uma escala de ordenação, designando uma posição relativa das classes segundo uma direção. Qualquer conjunto de valores que preservem a ordem é válido para essa variável tornando, dessa forma, a escala ordinal invariante sob transformações que preservem a ordem. Ou seja, uma escala ordinal pode ser transformada em outra escala ordinal. Isto implica que, se eventualmente forem empregados números para representar as classes, apenas a propriedade de ordem deve ser respeitada. Assim como na escala nominal, operações aritméticas (somas, diferenças, etc.) entre esses valores não têm sentido. A escala ordinal mantém a propriedade da equivalência de classes da escala nominal, no sentido de que unidades equivalentes recebem a mesma ordem. Além da propriedade de simetria da escala nominal, a escala ordinal tem a propriedade de assimetria. Isso significa que classes podem ser designadas não apenas como equivalentes a outras classes, mas também como não equivalentes. Assim, por exemplo, uma escala ordinal pode designar que a classe A é maior do que a classe B e, portanto, que a classe B é menor que a classe A. A propriedade de transitividade é preservada na escala ordinal: se a classe A é maior ou mais elevada que a classe B, qualquer unidade particular da classe A é maior ou mais elevada que qualquer unidade específica da classe B. Essas propriedades adicionais caracterizam a superioridade da escala ordinal em relação à escala nominal. Entretanto, as descrições estatísticas ainda são limitadas. As medidas descritivas restringem-se ao grupo das medidas de ordem (separatrizes) porque as operações aritméticas usuais não podem ser efetuadas com símbolos que caracterizam apenas ordem e designam quantidade vagamente. Alguns procedimentos estatísticos são especificamente apropriados para dados de ordem. Se o que pode ser dito sobre um objeto é que ele é maior, melhor, mais colorido, etc. que outro, então a escala é ordinal.

Piana, Machado e Selau

Introdução

Escala intervalar

Uma variável de escala intervalar, além de ordenar as unidades quanto à característica mensurada, possui uma unidade de medida constante. A escala intervalar, ou escala de intervalo, aproxima-se da concepção comum de medida, mas não possui uma origem (ou ponto zero) única. O ponto zero dessa escala é arbitrário e não expressa ausência de quantidade. Os exemplos mais comuns de escala de intervalo são as escalas Celsius e Fahrenheit, usadas para medir a temperatura. Cada uma dessas escalas assinala um zero arbitrário e diferenças de temperatura iguais são determinadas através da identificação de volumes iguais de expansão no líquido usado no termômetro. Dessa forma, a escala de intervalo permite inferências referentes a diferenças entre unidades a serem medidas, mas não se pode dizer que um valor em um intervalo específico da escala seja um múltiplo de outro. Por exemplo, a mensuração da temperatura de unidades permite determinar quanto uma é mais quente do que outra, mas não é correto dizer que um objeto com 30 o C está duas vezes mais quente que um com temperatura de 15 o C. Segundo a fórmula de conversão de graus Celsius para graus Fahrenheit, F = 9 5C + 32 , essas temperaturas, 30 o C e 15 o C, expressas em graus Fahrenheit são, respectivamente 86 o F e 59 o F, que não estão na razão 2:1. Pode-se dizer, entretanto, que uma diferença entre dois valores em uma escala é um múltiplo de uma diferença entre dois outros valores. Por exemplo, a diferença 30ºC 0º C é o dobro da diferença 15º C 0ºC . As correspondentes diferenças na escala Fahrenheit são 86ºF 32ºC e 59ºF 32º C , que estão na mesma razão 2:1. A escala intervalar é invariante sob transformações lineares positivas (ou seja, transformações da forma y = a + bx, b > 0 ). Isso significa que uma escala de intervalo pode ser transformada em outra por meio de uma transformação linear positiva. A transformação de graus Celsius em Fahrenheit é um exemplo de transformação linear. A maioria das medidas descritivas, tais como média, desvio padrão, coeficiente de correlação, requer apenas escala de intervalo. Entretanto, algumas medidas, como o coeficiente de variação, podem ser enganosas quando aplicadas a dados de variável de escala intervalar. Se o que pode ser dito sobre um objeto é que ele é tantas unidades maior que outro, então a escala de medida é intervalar.

maior que outro, então a escala de medida é intervalar. Escala de razão Uma variável de

Escala de razão

Uma variável de escala de razão ou racional ordena as unidades quanto à característica mensurada, possui uma unidade de medida constante e sua origem (ou ponto zero) é única. Nessa escala o valor zero expressa ausência de quantidade. A escala de razão, ou escala racional, é a mais elaborada das escalas de medida, no sentido de que permite todas as operações aritméticas. É a escala de medida mais comum nas ciências físicas, tais como as escalas para a medida de comprimento, peso, etc. Conforme a designação sugere, razões iguais entre valores da escala racional correspondem a razões iguais entre as unidades mensuradas. Dessa forma, escalas de razão são invariantes sob transformações de proporção positivas, ou seja, transformações da forma y = cx, x > 0 . Por exemplo, se uma unidade tem 3m e a outra 1m, pode-se dizer que a primeira unidade tem altura 3 vezes superior a da segunda. Isso porque, se as alturas das duas unidades forem transformadas em centímetros, suas medidas serão, respectivamente, 300cm e 100cm, que estão na mesma razão 3:1. Pode-se efetuar a transformação das medidas de uma escala racional para outra escala racional meramente pela multiplicação por uma constante apropriada. Se puder ser dito que um objeto é tantas vezes maior, mais pesado, etc. que outro, então a escala de medida é de razão. A escala racional contém toda a informação das escalas de nível mais baixo, ou seja, igualdade de classe, ordem e igualdade de diferenças, e mais ainda. Todas as medidas descritivas podem ser determinadas para dados de uma variável expressa em escala racional.

Piana, Machado e Selau

Introdução

1.5.3. Classificação de variáveis

De modo geral, as variáveis podem ser divididas em dois grupos: variáveis categóricas

e variáveis numéricas.

As variáveis categóricas, também denominadas fatores de classificação ou simplesmente fatores, são aquelas cujos valores representam categorias ou classes. Caracterizam-se por possuir um conjunto limitado de valores (níveis) que usualmente se repetem entre as unidades. As variáveis categóricas podem ser qualitativas ou quantitativas.

Variáveis categóricas qualitativas descrevem qualidades e, de acordo com a escala de medida, são classificadas em:

Nominais: quando não houver um sentido de ordenação entre os seus possíveis valores. Exemplos: sexo (com os níveis masculino e feminino), raça de cavalos (com os níveis manga-larga, crioulo e árabe, por exemplo), região geográfica (com os níveis norte, sul, sudeste e leste), estado civil (com os níveis solteiro, casado e divorciado, por exemplo), linhagens de uma cultivar em um processo de melhoramento vegetal, etc.

Ordinais: quando houver um sentido de ordenação entre os seus possíveis valores.

Exemplos: faixas de idade (criança, adolescente, adulto, idoso), intensidade de cor (claro, escuro), intensidade de infestação (forte, média, fraca), grau de instrução (fundamental, médio,

graduação, pós-graduação) etc.

Variáveis categóricas quantitativas descrevem quantidades. Possuem os mesmos atributos das variáveis qualitativas, mas, uma vez que seus níveis expressam quantidade, a cada nível está associado um valor, denominado valor do nível. Por exemplo, se uma variável exprime a quantidade de um tranquilizante utilizado contra a insônia, então os níveis poderão ser Dose 1, Dose 2 e Dose 3 e as quantidades (valores) associadas poderão ser 0, 2 e 4 mg.

As variáveis numéricas são aquelas cujos valores são números reais, de modo que

cada valor representa um valor da variável e não uma categoria ou uma classe. De acordo com

o processo de obtenção dos seus dados (valores), as variáveis numéricas são classificadas em:

Discretas: descrevem dados discretos ou de enumeração, ou seja, obtidos por

processo de contagem. As variáveis discretas só podem assumir valores do conjunto dos

números inteiros não negativos (0, 1, 2, 3,

número de pacientes que se recuperam, número de frutos estragados, número de filhos de um casal, etc.

Contínuas: descrevem dados contínuos ou de mensuração, ou seja, obtidos por processo de medição. As variáveis contínuas podem assumir qualquer valor do conjunto dos

reais (-10, 0, corporal, etc.

2 , π). Exemplos: peso, altura, tempo de sono, teor de umidade, temperatura

Exemplos: número de sementes germinadas,

).

temperatura Exemplos: número de sementes germinadas, ). Observemos que variáveis categóricas quantitativas são,

Observemos que variáveis categóricas quantitativas são, de certa forma, variáveis numéricas, mas, nesse caso, os valores representam quantidades associadas a categorias (níveis do fator).

A classificação correta de uma variável é fundamental, uma vez que esta

discriminação é que irá indicar a possibilidade e a forma de utilização dos procedimentos

estatísticos disponíveis.

1.5.4. Observação e conjunto de dados

Os números, taxas e outras informações coletados em experimentos ou levantamentos são denominamos dados. Todo dado é um valor de uma variável (numérico ou não numérico). A unidade da população em que são medidas as variáveis de interesse é chamada de unidade de observação. Uma planta, por exemplo, pode ser a unidade de

Piana, Machado e Selau

Introdução

observação em uma determinada pesquisa. Os valores obtidos para a variável medida nas unidades de observação (nas plantas) são os dados.

Observação é o conjunto de valores referentes a todas as variáveis medidas em uma unidade de observação. Por exemplo, os valores referentes ao peso de matéria seca, à estatura e ao número de perfilhos de uma planta constituem uma observação. O conjunto de todas as observações, ou seja, todos os valores referentes a todas as unidades de observação, constituem o conjunto de dados.

As variáveis são representadas por letras maiúsculas (X, Y, Z, etc.) e os seus valores

(dados) por letras minúsculas (x, y, z, etc.). Assim, se uma variável é representada por X (xis maiúsculo), todos os seus valores serão representados por x (xis minúsculo). Para diferenciar ou individualizar os valores de uma variável, acrescenta-se um índice

, n, que representa a unidade ou a observação. Assim, um conjunto de n valores de

uma variável X será representado por x 1 , x 2 , x 3 ,

i = 1, 2,

, x n .

Como exemplo, tomemos o conjunto de dados apresentado na tabela abaixo. Esse conjunto é constituído por 19 unidades ou observações (i), uma variável identificadora (nome), uma variável do tipo fator (sexo) e três variáveis numéricas contínuas (idade, estatura e peso).

i Nome

Sexo

Idade

Estatura

Peso

1 Alfredo

M

14

1,75

51,03

2 Carol

F

14

1,60

46,49

3 Jane

F

12

1,52

38,33

4 João

M

12

1,50

45,13

5 Luísa

F

12

1,43

34,93

6 Roberto

M

12

1,65

58,06

7 William

M

15

1,69

50,80

8 Bárbara

F

13

1,66

44,45

9 Juca

M

12

1,46

37,65

10 Joca

M

13

1,59

38,10

11 Judite

F

14

1,63

40,82

12 Felipe

M

16

1,83

68,04

13 Tomas

M

11

1,46

38,56

14 Alice

F

13

1,44

38,10

15 Henrique

M

14

1,61

46,49

16 Janete

F

15

1,59

51,03

17 Joice

F

11

1,30

22,91

18 Maria

F

15

1,69

50,80

19 Ronaldo

M

15

1,70

60,33

Este conjunto de dados é representado simbolicamente na tabela abaixo.

i

A

B

X

Y

Z

1

a

1

b

1

x

1

y

1

z

1

2

a

2

b

2

x

2

y

2

z

2

3

a

3

b

3

x

3

y

3

z

3

19

a 19

b 19

x 19

y 19

z 19

Piana, Machado e Selau

Introdução

1.6. Bibliografia

COSTA, S.F. Introdução Ilustrada à Estatística (com muito humor!). 2.ed., São Paulo:

Harbra, 1992. 303p.

FARIA, E.S. de. Estatística. Edição 97/1. (Apostila)

FERREIRA, D.F. Estatística Básica. Lavras: Editora UFLA, 2005, 664p.

FREUND, J.E., SIMON, G.A. Estatística Aplicada. Economia, Administração e Contabilidade. 9.ed., Porto Alegre: Bookman, 2000. 404p.

PIMENTEL GOMES, F. Iniciação à Estatística. São Paulo: Nobel, 1978. 211p.

SILVA, J.G.C. da. Estatística experimental: análise estatística de experimentos. (Apostila) 2000. 318p.

SILVEIRA JÚNIOR, P., MACHADO, A.A., ZONTA, E.P., SILVA, J.B. da Curso de Estatística. v.1, Pelotas: Universidade Federal de Pelotas, 1989. 135p.

SPIEGEL, M.R. Estatística. São Paulo: McGraw-Hill, 1972. 520p.

Sistema Galileu de Educação Estatística. Disponível em: http://www.galileu.esalq.usp.br

Unidade II Estatística Descritiva

2.1. Apresentação de dados

14

2.1.1. Séries estatísticas

14

2.1.2. Tabelas

18

2.1.3. Gráficos

21

2.2. Distribuições de frequências e gráficos

24

2.2.1. Tabelas de classificação simples

24

2.2.2. Tabelas de classificação cruzada

33

2.3. Medidas descritivas

36

2.3.1. Medidas de localização ou tendência central

37

2.3.2. Medidas separatrizes

42

2.3.3. Medidas de variação ou dispersão

44

2.3.4. Medidas de formato

48

2.3.5. Medidas descritivas para dados agrupados em classe

51

2.4. Análise exploratória de dados

56

2.5. Bibliografia

63

Piana, Machado e Selau

Estatística Descritiva

2. Estatística Descritiva

O método científico, quando aplicado para solução de um problema científico,

frequentemente gera dados em grande quantidade e de grande complexidade. Desse modo, a análise da massa de dados individuais, na maioria das vezes, não revela a informação subjacente, gerando a necessidade de algum tipo de condensação ou resumo dos dados.

A Estatística Descritiva é a parte da Estatística que desenvolve e disponibiliza

métodos para resumo e apresentação de dados estatísticos com o objetivo de facilitar a compreensão e a utilização da informação ali contida. Em resumo, a Estatística Descritiva tem por finalidade a utilização de tabelas, gráficos, diagramas, distribuições de frequência e medidas descritivas para:

examinar o formato geral da distribuição dos dados;

verificar a ocorrência de valores atípicos;

identificar valores típicos que informem sobre o centro da distribuição;

verificar o grau de variação presente nos dados.

Evidentemente, a validade do resumo dos dados está intimamente ligada à quantidade de informação disponível e à qualidade da obtenção dos dados. Pode-se pensar que todo método descritivo possui uma entrada, os dados, e uma saída, que pode ser uma medida descritiva ou um gráfico. Se a entrada é deficiente a saída também será de má qualidade.

2.1. Apresentação de dados

2.1.1. Séries Estatísticas

A reunião ou agrupamento de dados estatísticos, quando apresentados em tabelas ou em gráficos, para apreciação ou investigação, determina o surgimento das séries estatísticas.

As séries estatísticas resumem um conjunto ordenado de observações através de três

fatores fundamentais:

a) tempo: refere-se a data ou a época em que o fenômeno foi investigado;

b) espaço: refere-se ao local ou região onde o fato ocorreu;

c) espécie: refere-se ao fato ou fenômeno que está sendo investigado e cujos

valores numéricos estão sendo apresentados.

As séries estatísticas são classificadas de acordo com o fator que estiver variando,

podendo ser simples ou mistas.

Séries simples: são aquelas em que apenas um fator varia. Podem ser de três tipos:

permanecendo fixos o espaço e a espécie do fenômeno estudado.

(temporal

Série

histórica

ou

cronológica

ou

evolutiva):

Exemplo:

onde

varia

o

tempo

Tabela 2.1. Casos de sarampo notificados no Brasil de 1987 a 1992.

Ano

Número de casos

1987

65.459

1988

26.173

1989

55.556

1990

61.435

1991

45.532

1992

7.934

Fonte: Anuários estatísticos – IBGE.

Piana, Machado e Selau

Estatística Descritiva

Série geográfica (territorial ou regional): onde varia o espaço permanecendo fixos o tempo e a espécie do fenômeno estudado.

Exemplo:

Tabela 2.2. Necessidades médias de energia em alguns países, em

1973.

País

kcal/per capita/dia

Brasil

2.174

Estados Unidos

2.397

Etiópia

2.120

Japão

1.125

México

2.114

Fonte: Necessidades Humanas de Energia – IBGE.

Série especificativa (qualitativa ou categórica): onde varia a espécie do fenômeno estudado permanecendo fixos o tempo e espaço.

Exemplo:

Tabela 2.3. Abate de animais, por espécie, no Brasil, em 1993.

Espécie

Número de cabeças

Aves

1.232.978.796

Bovinos

14.951.359

Suínos

13.305.932

Ovinos

926.818

Caprinos

803.188

Equinos

165.691

Fonte: Anuário Estatístico do Brasil (1994).

Séries mistas: são aquelas em que mais de um fator varia ou um fator varia mais de uma vez.

Exemplos:

Série histórica geográfica (ou geográfica histórica)

Tabela 2.4. Taxa de atividade feminina urbana (em percentual) em três regiões do Brasil, 1981/90.

Ano

Região

1981

1984

1986

1990

Norte

28,9

30,3

34,0

37,1

Nordeste

30,2

32,6

34,3

37,8

Sudeste

34,9

37,2

40,1

40,7

Fonte: Anuário Estatístico do Brasil (1992).

Piana, Machado e Selau

Estatística Descritiva

Série especificativa geográfica (ou geográfica especificativa)

Tabela 2.5. Consumo per capita anual de alguns tipos de alimentos, em algumas regiões metropolitanas do Brasil, no ano de 1988.

Cidade

Consumo (kg)

Hortaliças

Carnes

Pescado

Belo Horizonte Rio de Janeiro São Paulo Curitiba Porto Alegre

44,5

21,6

1,3

54,3

24,7

4,9

46,7

26,1

2,9

36,2

24,1

1,7

48,9

34,2

1,5

Fonte: Anuário Estatístico do Brasil (1992).

Série especificativa histórica (ou histórica especificativa)

Tabela 2.6. Taxa de mortalidade (em percentual) de menores de um ano no Brasil, segundo as três principais causas, no período de 1984 a 1987.

Causa

1984

1985

1986

1987

Doenças infecciosas intestinais

20,6

17,3

17,9

16,8

Pneumonia

12,1

11,7

12,0

10,8

Perinatal

42,4

45,8

45,3

48,0

Fonte: Informe Epidemiológico SUS.

Série especificativa histórica geográfica

Tabela 2.7. Número de vítimas em acidentes, segundo as grandes regiões do Brasil, nos anos de 1991 e 1992.

Região

Vítimas fatais

Vítimas não fatais

1991

1992

1991

1992

Norte

1.188

1.165

10.229

9.739

Nordeste

3.857

3.843

23.774

23.942

Sudeste

11.555

10.217

130.938

159.669

Sul

4.402

4.213

61.797

58.832

Centro-Oeste

2.220

1.949

22.147

22.086

Brasil

23.222

21.387

248.885

274.268

Fonte: Anuário Estatístico do Brasil (1994).

Piana, Machado e Selau

Estatística Descritiva

Série distribuição de frequências: ocorre quando nenhum dos fatores varia. Nesta série os dados são agrupados em classes (intervalos com limites predeterminados) segundo suas respectivas frequências. Segundo a natureza dos dados, as distribuições de frequências, podem ser de dois tipos.

Para dados de enumeração

Tabela 2.8. Número de alarmes falsos, acionados acidentalmente ou por mau funcionamento do equipamento, recebidos diariamente por uma empresa de segurança, na cidade de Pelotas, no mês de abril de 2003.

Classes (Número de alarmes falsos)

Frequência (Número de dias)

2

2

3

6

4

8

5

4

6

5

7

3

8

2

Total

30

Fonte: Dados fictícios.

Para dados de mensuração

Tabela 2.9. Peso de 80 estudantes da Escola São José, em 1980.

Classes

(Peso, em kg)

Frequência

(Número de estudantes)

40

|50

12

50

|60

28

60

|70

25

70

|80

10

80

|90

5

Total

80

Fonte: Dados fictícios.

A série distribuição de frequências será abordada com maiores detalhes na Seção 2.2 desta unidade.

Piana, Machado e Selau

Estatística Descritiva

2.1.2. Tabelas

A tabela é a forma não discursiva de apresentar informações, das quais o dado

numérico se destaca como informação central. Sua finalidade é apresentar os dados de modo ordenado, simples e de fácil interpretação, fornecendo o máximo de informação num mínimo de

espaço.

A construção de uma tabela, entretanto, deve obedecer a uma série de normas

técnicas. Estas normas podem ser encontradas na publicação do IBGE intitulada "Normas de Apresentação Tabular" que tem como objetivo orientar a apresentação racional e uniforme de dados estatísticos na forma tabular. Seguem abaixo algumas das principais normas e recomendações.

Elementos da tabela

Uma

tabela

estatística

é

composta

de

complementares. Os elementos essenciais são:

elementos

essenciais

e

elementos

Título: é a indicação que precede a tabela contendo a designação do fato observado, o local e a época em que foi estudado.

Corpo: é o conjunto de linhas e colunas onde estão inseridos os dados.

Cabeçalho: é a parte superior da tabela que indica o conteúdo das colunas.

Coluna indicadora: é a parte da tabela que indica o conteúdo das linhas.

Os elementos complementares são:

Fonte: entidade que fornece os dados ou elabora a tabela.

Notas: informações de natureza geral, destinadas a esclarecer o conteúdo das

tabelas.

Chamadas: informações específicas destinadas a esclarecer ou conceituar dados numa parte da tabela. Deverão estar indicadas no corpo da tabela, em números arábicos entre parênteses, à esquerda nas casas e à direita na coluna indicadora.

Os elementos complementares devem situar-se no rodapé da tabela, na mesma ordem em que foram descritos.

Número da tabela

Uma tabela deve ter número para identificá-la sempre que o documento apresentar uma ou mais tabelas, permitindo, assim, a sua localização. A identificação da tabela deve ser feita em números arábicos, de modo crescente, precedidos da palavra Tabela, podendo ou não ser subordinada a capítulos ou seções de um documento. Exemplos: Tabela 5, Tabela 10.4.

Apresentação de dados numéricos

Toda tabela deve ter dado numérico para informar a quantificação de um fato específico observado, o qual deve ser apresentado em números arábicos. A parte inteira dos dados numéricos deve ser separada por pontos ou espaços de três em três algarismos, da direita para a esquerda, por exemplo: 12.243.527 ou 12 243 527. A separação da parte inteira da decimal deve ser feita por vírgula, por exemplo: 25,67. No sistema inglês, a separação da parte inteira é feita por vírgula, e a separação da parte inteira da decimal é feita por ponto, ou seja, é o inverso do sistema brasileiro.

Sinais convencionais

Sempre que um dado numérico não puder ser apresentado, o mesmo deve ser substituído por um sinal convencional. A substituição de um dado numérico deve ser feita por um dos sinais abaixo, conforme o caso.

Piana, Machado e Selau

Estatística Descritiva

a)

(traço): indica dado numérico igual a zero não resultante de arredondamento;

b)

(dois pontos): indica que não se aplica dado numérico;

 

c)

(três pontos): indica dado numérico não disponível;

d)

x (xis):

indica dado numérico omitido a fim

de evitar

a individualização da

informação;

e) 0, 0,0 ou 0,00: indica dado numérico igual a zero resultante de arredondamento.

f) ? (interrogação): quando há dúvida sobre a veracidade da informação.

Quando uma tabela contiver sinais convencionais, estes deverão ser apresentados em nota geral com seus respectivos significados.

Arredondamento

Quando o primeiro algarismo a ser abandonado for 0, 1, 2, 3 ou 4, fica inalterado o último algarismo a permanecer. Exemplo: 48,23 48,2. Quando o primeiro algarismo a ser abandonado for 5, 6, 7, 8 ou 9, aumenta-se de uma unidade o último algarismo a permanecer. Exemplo: 23,87 23,9.

Unidade de medida

Uma tabela deve ter unidade de medida, inscrita no cabeçalho ou nas colunas indicadoras, sempre que houver necessidade de se indicar, complementarmente ao título, a expressão quantitativa ou metrológica a dos dados numéricos. Esta indicação deve ser feita com símbolos ou palavras, entre parênteses. Exemplos:

(m) ou (metros), (t) ou (toneladas), (R$) ou (reais).

Quando os dados numéricos forem divididos por uma constante, esta deve ser indicada por algarismos arábicos, símbolos ou palavras, entre parênteses, precedendo a unidade de medida, quando for o caso. Exemplos:

(1.000 t): indica dados numéricos em toneladas que foram divididos por mil; (1.000 R$): indica dados numéricos em reais que foram divididos por mil; (%) ou (percentual): indica dados numéricos proporcionais a cem; (1/1.000): indica dados numéricos divididos por 1/1.000, ou seja, multiplicados por mil.

Classe de frequência

A classe de frequência é cada um dos intervalos não superpostos em que se divide uma distribuição de frequências. Toda classe deve ser apresentada, sem ambiguidade, por extenso ou com notação. Toda a classe que inclui o extremo inferior do intervalo (EI) e exclui o extremo superior (ES), deve ser apresentada de uma destas duas formas:

EI |ES

ou

Apresentação de tempo

[EI; ES)

Toda a série histórica consecutiva deve ser apresentada por seus pontos inicial e final, ligados por hífen (). Exemplos:

1892-912: quando varia o século; 1960-65: quando variam os anos dentro do século; out 1991 - mar 1992: quando variam os meses dentro de anos.

Toda a série histórica não consecutiva deve ser apresentada por seus pontos inicial e final, ligados por barra (/). Exemplos:

1981/85: indica dados não apresentados para pelo menos um ano do intervalo; out 1991 / mar 1992: indica dados não apresentados para pelo menos um mês do intervalo.

Piana, Machado e Selau

Estatística Descritiva

Apresentação da tabela

O corpo da tabela deve ser delimitado, no mínimo, por três traços horizontais.

Recomenda-se não delimitar as tabelas à direita e à esquerda por traços verticais. É

facultativo o uso de traços verticais para a separação de colunas no corpo da tabela.

Quando, por excessiva altura, a tabela tiver que ocupar mais de uma página, não

deve ser delimitada inferiormente, repetindo-se o cabeçalho na página seguinte. Deve-se usar

no alto do cabeçalho a palavra continuação ou conclusão, conforme o caso.

Se possuir muitas linhas e poucas colunas, poderá ser apresentada em duas ou

mais partes dispostas lado a lado e separadas por traço duplo.

A disposição da tabela deve estar na posição normal de leitura. Caso isso não seja

possível, a apresentação será feita de forma que a rotação da página seja no sentido horário.

Exemplo:

Tabela 2.10. Total de estabelecimentos, pessoal ocupado, valor da produção e valor da transformação industrial das indústrias metalúrgicas, por Unidade da Federação do Brasil,

1982.

 

Total de

Pessoal (1)

ocupado

Valor da produção (2) (1.000 Cr$)

Valor da transformação industrial (1.000 Cr$)

Unidade da Federação

estabelecimentos

Rondônia Acre Amazonas Roraima Pará Amapá Maranhão Piauí Ceará Rio Grande do Norte Paraíba Pernambuco Alagoas Sergipe Bahia Minas Gerais Espírito Santo Rio de Janeiro São Paulo Paraná Santa Catarina Rio Grande do Sul Mato Grosso do Sul Mato Grosso Goiás Distrito Federal

1

x

x

x

2

x

x

x

31

1.710

21.585

10.103

2

x

x

x

43

1.675

6.492

3.287

14

328

498

251

12

193

454

159

74

5.336

21.732

10.878

11

343

1.267

383

30

794

2.089

1.265

105

5.171

44.673

14.506

20

439

4.101

1.768

20

423

1.447

534

116

5.527

89.072

27.679

736

54.264

954.258

306.856

42

2.281

22.923

6.297

847

40.768

635.731

177.358

4.699

272.983

2.531.363

939.032

449

11.118

43.797

22.014

305

10.816

84.294

41.894

706

30.103

156.680

74.316

29

485

1.643

623

13

528

884

686

106

2.686

9.860

4.800

28

843

2.577

1.301

Brasil

8.452

448.932

4.637.512

1.646.043

Fonte: Pesquisa Industrial - 1982-1984. Dados gerais, Brasil. Rio de Janeiro: IBGE, v.9, 410p. Nota: Sinais convencionais utilizados:

x Dado numérico omitido a fim de evitar a individualização da informação.

Dado numérico igual a zero não resultante de arredondamento. (1) Em 31.12.1982. (2) Inclui o valor dos serviços prestados a terceiros e a estabelecimentos da mesma empresa.

Piana, Machado e Selau

Estatística Descritiva

2.1.3. Gráficos

Outro modo de apresentar dados estatísticos é sob uma forma ilustrada, comumente chamada de gráfico. Os gráficos constituem-se numa das mais eficientes formas de apresentação de dados. Um gráfico é, essencialmente, uma figura construída a partir de uma tabela; mas, enquanto a tabela fornece uma ideia mais precisa e possibilita uma inspeção mais rigorosa aos dados, o gráfico é mais indicado para situações que visem proporcionar uma impressão mais rápida e maior facilidade de compreensão do comportamento do fenômeno em estudo. Os gráficos e as tabelas se prestam, portanto, a objetivos distintos, de modo que a utilização de uma forma de apresentação não exclui a outra. Para a confecção de um gráfico, algumas regras gerais devem ser observadas:

Normas para representação gráfica

Os gráficos, geralmente, são construídos num sistema de eixos chamado sistema

cartesiano ortogonal. A variável independente é localizada no eixo horizontal (abscissas), enquanto a variável dependente é colocada no eixo vertical (ordenadas). No eixo vertical, o

início da escala deverá ser sempre zero, ponto de encontro dos eixos.

Iguais intervalos para as medidas deverão corresponder a iguais intervalos para as

escalas. Exemplo: Se ao intervalo 10-15 kg corresponde 2 cm na escala, ao intervalo 40-45 kg também deverá corresponder 2 cm, enquanto ao intervalo 40-50 kg corresponderá 4 cm.

O gráfico deverá possuir título, fonte, notas e legenda, ou seja, toda a informação necessária à sua compreensão, sem auxílio do texto. O gráfico deverá possuir formato aproximadamente quadrado para evitar que problemas de escala interfiram na sua correta interpretação.

Tipos de gráficos

Podemos considerar quatro tipos principais de representação gráfica:

Estereogramas: são gráficos onde as grandezas são representadas por volumes. Geralmente são construídos num sistema de eixos bidimensional, mas podem ser construídos num sistema tridimensional para ilustrar a relação entre três variáveis. Exemplo:

60

50

40

30

20

10

0

Hortaliças Carnes Pescado Belo Rio de São Paulo Curitiba Porto Horizonte Janeiro Alegre
Hortaliças
Carnes
Pescado
Belo
Rio de
São Paulo
Curitiba
Porto
Horizonte
Janeiro
Alegre

Figura 2.1. Consumo, em kg, de alguns tipos de alimentos “per capita” anual em algumas regiões metropolitanas do Brasil, em 1988. Fonte: Anuário Estatístico do Brasil (1992).

Piana, Machado e Selau

Estatística Descritiva

Cartogramas: são representações em cartas geográficas (mapas).

Pictogramas ou gráficos pictóricos: são gráficos puramente ilustrativos, construídos de modo a ter grande apelo visual, dirigidos a um público muito grande e heterogêneo. Não devem ser utilizados em situações que exijam maior precisão. Exemplo:

em situações que exijam maior precisão. Exemplo: Figura 2.2. Problemas a serem solucionados pelo governo

Figura 2.2. Problemas a serem solucionados pelo governo brasileiro de acordo com um levantamento encomendado pelo Ministério da Educação, em 1985. Fonte: Silveira Júnior et al. (1989).

Diagramas: são gráficos geométricos de duas dimensões, de fácil elaboração e grande utilização. Podem ser ainda subdivididos em: gráficos de colunas, de barras, de linhas ou curvas e de setores.

a) Gráfico de colunas: neste gráfico as grandezas são comparadas através de retângulos de mesma largura, dispostos verticalmente e com alturas proporcionais às grandezas. A distância entre os retângulos deve ser, no mínimo, igual a 1/2 e, no máximo, 2/3 da largura da base dos mesmos. Exemplo:

e, no máximo, 2/3 da largura da base dos mesmos. Exemplo: Figura 2.3. Efetivo do rebanho

Figura 2.3. Efetivo do rebanho suíno no Brasil, segundo as grandes regiões em 1992. Fonte: Anuário Estatístico do Brasil (1994).

Piana, Machado e Selau

Estatística Descritiva

b) Gráfico de barras: segue as mesmas instruções que o gráfico de colunas, tendo a

única diferença que os retângulos são dispostos horizontalmente. É usado quando as inscrições dos retângulos forem maiores que a base dos mesmos. Exemplo:

Estados Paraná Minas Gerais Rio Grande do Sul Rio de Janeiro São Paulo Casos 0
Estados
Paraná
Minas Gerais
Rio Grande do Sul
Rio de Janeiro
São Paulo
Casos
0
1000
2000
3000
4000
5000
6000

Figura 2.4. Casos notificados de AIDS nos cinco estados brasileiros de maior incidência em 1992. Fonte: Anuário Estatístico do Brasil (1994).

c) Gráfico de linhas ou curvas: neste gráfico os pontos são dispostos no plano de

acordo com suas coordenadas, e a seguir são ligados por segmentos de reta. É muito utilizado em séries históricas e em séries mistas quando um dos fatores de variação é o tempo, como instrumento de comparação. Exemplo:

é o tempo, como instrumento de comparação. Exemplo: Figura 2.5. Eleitores inscritos para as eleições

Figura 2.5. Eleitores inscritos para as eleições brasileiras - 1978/90. Fonte: Anuário Estatístico do Brasil (1992).

d) Gráfico em setores: é recomendado para situações em que se deseja evidenciar o

quanto cada informação representa do total. A figura consiste num círculo onde o total (100%) representa 360°, subdividido em tantas partes quanto for necessário à representação. Essa divisão se faz por meio de uma regra de três simples. Com o auxílio de um transferidor efetua- se a marcação dos ângulos correspondentes a cada divisão. Exemplo:

Piana, Machado e Selau

Estatística Descritiva

Piana, Machado e Selau Estatística Descritiva Figura 2.6. Hospitalizações pagas pelo SUS, segundo a natureza do

Figura 2.6. Hospitalizações pagas pelo SUS, segundo a natureza do prestador de serviço – 1993. Fonte: Anuário Estatístico do Brasil (1994).

2.2. Distribuição de frequências e gráficos

Um grande número de dados necessita de uma forma eficiente de sumarização. Uma das formas mais comuns de resumir e apresentar dados é através de tabelas de distribuição de frequências. Estas tabelas podem ser de dois tipos: de classificação simples ou de classificação cruzada.

2.2.1. Tabelas de classificação simples

As tabelas de classificação simples são tabelas de frequências relativas a uma variável. As características dessas tabelas variam de acordo com o tipo de variável em estudo. Se a variável é do tipo categórica (fator), então são obtidas as frequências de ocorrência de cada nível dessa variável. Se a variável é do tipo numérica contínua, primeiro são obtidos intervalos de mesma amplitude e depois contados os valores que ocorrem em cada intervalo.

2.2.1.1. Distribuição de frequências de variáveis categóricas

Quando a variável em estudo for categórica ou, em alguns casos, numérica discreta, a tabela de distribuição de frequências apresentará a seguinte característica: cada valor da variável constituirá uma classe.

Construção da tabela

A construção da tabela de distribuição de frequência para variáveis categóricas envolve apenas dois passos bastante simples:

1 o passo: ordenar os níveis do fator, ou seja, colocá-los em ordem crescente de grandeza (rol). Cada nível constituirá uma classe. O número de cada classe da distribuição

será representado por j, tal que j = 1, 2,

, k.

2 o passo: contar o número de elementos em cada classe, ou seja, contar quantas vezes o dado está repetido.

Piana, Machado e Selau

Estatística Descritiva

Veremos, por meio de exemplos, como construir uma tabela de distribuição de frequências para os dados de uma variável categórica (Exemplo 1) e de uma variável numérica discreta (Exemplo 2).

Exemplo 1:

Seja a variável em estudo o conceito obtido por 60 estudantes na disciplina de Estatística, para o qual os dados observados foram os seguintes:

ruim, médio, bom, médio, ruim, médio, ruim, médio, ruim, bom, médio, médio, bom, médio, médio, médio, ótimo, médio, bom, ótimo, bom, ótimo, médio, ótimo, médio, ruim, médio, ótimo, médio, médio, bom, ruim, bom, bom, médio, ruim, médio, médio, ótimo, médio, bom, ruim, ruim, bom, médio, médio, ruim, bom, médio, médio, bom, bom, bom, médio, ruim, bom, médio, médio, ruim, médio

Podemos observar que esta variável categórica qualitativa ordinal apresenta quatro níveis (ruim, médio, bom e ótimo). Como cada nível deve constituir uma classe da distribuição de frequências, já está determinado que o número total de classes (k) é quatro. O primeiro passo é a ordenação dos níveis da variável. Assim, temos

Número da

classe (j)

1

2

3

4

Classe

Ruim

Médio

Bom

Ótimo

O passo seguinte é a contagem do número de estudantes em cada nível. Estes

valores são denotados por

frequência absoluta podemos obter outras frequências de interesse numa distribuição, tais como:

expressa o

F e chamados de frequências absolutas das classes. A partir da

j

frequência absoluta acumulada na classe j, denotada por

número de elementos (observações) acumulados até a classe j;

F ,

j

que

frequência relativa da classe j, denotada por

elementos (observações) na classe j;

f j , que expressa a proporção de

frequência relativa acumulada na classe j, denotada por

proporção de elementos (observações) acumulados até a classe j.

f

j

,

que expressa a

As frequências obtidas são então apresentadas na forma tabular.

Tabela 2.11. Frequência do conceito obtido por estudantes na disciplina de Estatística. UFPel, 2001.

j Classe

F

j

F

j

f

j

f

j

1 Ruim

12

12

0,2

0,2

2 Médio

27

39

0,45

0,65

3 Bom

15

54

0,25

0,9

4 Ótimo

6

60

0,1

1

Σ

60

-

1

-

Piana, Machado e Selau

Estatística Descritiva

Exemplo 2:

Muito frequentemente, as tabelas de distribuição de frequência de variáveis numéricas discretas são construídas da mesma forma que as das variáveis categóricas. Consideremos agora que a variável em estudo seja o número de animais portadores de brucelose em 350 propriedades rurais. Os valores observados para esta variável foram:

2, 5, 6, 0, 4, 4, 3, 4, 2, 2, 3, 3, 5, 3, 5, 1, 2, 4, 2, 3, 5, 4, 3, 3, 2, 3, 0, 4, 4, 3, 4, 0, 3, 1, 2, 4, 2,

Como cada valor da variável deve constituir uma classe e foram observados apenas sete valores diferentes para esta variável, a tabela de distribuição de frequências terá sete classes.

Número da

classe (j)

Classe

1

0

2

1

3

2

4

3

5

4

6

5

7

6

Através da contagem do número de vezes que cada valor apareceu, ou seja, do número de observações em cada classe, obtemos as frequências absolutas, relativas e acumuladas, apresentadas na tabela a seguir.

Tabela 2.12. Frequência do número de animais portadores de brucelose em 350 propriedades rurais. UFPel, 2001.

j

Classe

F

j

F

j

f

j

f

j

1

 

0 55

55

0,1571

0,1571

2

1 60

115

0,1714

0,3286

3

2 112

227

0,32

0,6486

4

3 82

309

0,2343

0,8829

5

4 31

340

0,0886

0,9714

6

5 8

348

0,0229

0,9943

7

6 2

350

0,0057

1,0000

   

Σ 350

-

1,0000

-

Devemos observar, ainda, que tão importante quanto saber construir uma tabela é saber interpretar os seus valores. Vejamos, como exemplo, o significado de alguns valores da tabela:

= 82 significa que, das 350 propriedades rurais consultadas, 82 possuem três

animais portadores de brucelose. F = 227 significa que, das 350 propriedades rurais consultadas, 227 possuem

F

4

3

menos de três animais portadores de brucelose.

= 0,1714 significa que a proporção de propriedades rurais que possuem apenas

um animal portador de brucelose é de 0,1714 (em percentual: 17,14). f = 0,9714 significa que a proporção de propriedades rurais que possuem menos de quatro animais portadores de brucelose é de 0,9714 (em percentual: 97,14).

f

2

5

Piana, Machado e Selau

Estatística Descritiva

2.2.1.2. Distribuição de frequências de variáveis numéricas contínuas

Ao contrário das variáveis discretas, as variáveis contínuas assumem, em geral, muitos valores e, em sua grande maioria, diferentes uns dos outros. Para contornar problemas desse tipo, as tabelas de distribuição de frequências para variáveis contínuas são construídas de modo que cada classe seja constituída por um intervalo de valores da variável. Devemos observar, no entanto, que em algumas situações uma variável discreta também poderá assumir tantos valores diferentes que a construção de uma tabela onde cada valor constitui uma classe seja impraticável. Em outras palavras, pode ocorrer que ela tenha tantas linhas que sua construção pouco auxilie na descrição resumida dos dados. Nesses casos, por uma questão de simplificação, é usual agrupar os dados discretos em intervalos de classe, da mesma forma que se agrupam os dados contínuos.

Construção da tabela

O processo de construção da tabela de distribuição de frequência para variáveis numéricas segue os seguintes passos:

1 o passo: ordenar o conjunto de dados, ou seja, colocar os dados brutos em ordem crescente de grandeza (rol).

2 o passo: determinar o número de classes da tabela. De modo geral, este valor não deverá ser inferior a 5 e nem superior a 15. A definição do número de classes deverá ser orientada pelos objetivos do trabalho, mas existem algumas regras objetivas de determinação, como, por exemplo:

onde:

k = 1+ 3, 32 × log n (Fórmula de Sturges)

k

= número de classes;

n

= número de observações;

log = logaritmo de base 10.

ou

k =

de observações; log = logaritmo de base 10. ou k = n , 3 o passo:

n ,

3 o passo: determinar a amplitude do intervalo. Para isto, podemos utilizar a seguinte expressão:

onde:

i =

a

t

k

i = amplitude do intervalo;

a

t

=

ES

EI : amplitude total do conjunto de valores;

k

= número de classes.

Convencionamos, também, que o arredondamento no número de classes (k) ou na amplitude do intervalo (i) é sempre feito para cima.

4 o passo. Construir os intervalos de classe. O limite inferior da primeira classe será sempre o menor valor do conjunto de dados (x (1) ) e o limite superior será o limite inferior acrescido do valor da amplitude do intervalo de classe (i). Na sequência, o limite inferior da segunda classe será o limite superior da primeira e o limite superior da segunda classe será este limite inferior acrescido da amplitude do intervalo. Para todas as classes subsequentes, os intervalos deverão ser construídos da mesma forma que para a segunda:

j

Classe

1

x (1) |x (1) + i

2

x (1) + i |x (1) + 2i

k

x (1) + (k -1)i |x (1) + ki

Piana, Machado e Selau

Estatística Descritiva

Notamos, assim, que a amplitude do intervalo é constante para todas as classes. O intervalo fechado à esquerda e aberto à direita, representado pelo símbolo |, garante a não superposição de classes.

Exemplo:

Tomemos a seguinte variável:

X = peso ao nascer (em kg) de 60 bovinos machos da raça Ibagé, para a qual os valores observados (e já ordenados) foram:

16,

17, 17,

18, 18,

18, 19,

20,

20,

20,

20, 20,

21,

21,

22, 22,

23,

23,

23, 23,

23,

23,

23,

23, 23,

25, 25,

25, 25,

25,

25,

26,

26, 27,

27,

27, 27,

28,

28, 28,

29, 29,

29, 30,

30, 30,

30,

30, 30,

30,

31,

32, 33,

33, 33,

34,

34,

35, 36,

39.

Sendo o peso uma variável contínua cujos valores poderiam ser todos diferentes entre si, não podemos considerar cada valor como sendo uma classe, de modo que não podemos saber de antemão o número de classes da distribuição de frequência. Este valor deverá ser determinado e, para isto, usaremos a fórmula de Sturges. Para n = 60, temos

k

=

1

+

3,32

×

logn

k

=

1

+

3,32

×

log60

k

=

1

+

3,32

×

1,778

=

6,9

Como o número de classes tem que ser um número inteiro, teremos que arredondar o valor 6,9. Usaremos como regra o arredondamento para cima. Deste modo, o número de classes será k = 7. Uma vez determinado o valor de k, temos que obter a amplitude dos intervalos. Sendo k = 7 e a amplitude total do conjunto de dados

temos

i

a

a

t

t

=

=

=

a

t

k

ES

39

=

23

7

EI

16

=

23,

= 3,2857.

Por uma questão de praticidade, vamos arredondar o valor da amplitude do intervalo para uma casa decimal, lembrando que o arredondamento, também neste caso, deverá ser sempre para cima. Assim, temos i = 3,3. O próximo passo é a construção dos intervalos de classe. Tomamos como limite inferior da primeira classe o menor valor do conjunto de dados x (1) = 16. Somando ao 16 o valor da amplitude do intervalo i = 3,3, obtemos o limite superior deste intervalo. Todos os demais intervalos são construídos considerando como limite inferior o limite superior do intervalo de classe que o precede e como limite superior a soma do limite inferior com o valor 3,3. Assim, temos:

j

Classes

1

16,0 |19,3

2

19,3 |22,6

3

22,6 |25,9

4

25,9 |29,2

5

29,2 |32,5

6

32,5 |35,8

7

35,8 || 39,1

Piana, Machado e Selau

Estatística Descritiva

Para a obtenção das frequências absolutas das classes, contamos quantos valores (observações) do conjunto de dados pertencem a cada intervalo. As demais frequências, como já vimos anteriormente, derivam da frequência absoluta.

Em distribuições de frequências de variáveis contínuas, geralmente existe interesse em uma outra quantidade conhecida como ponto médio ou centro de classe, denotada por c j . Os centros de classe são calculados da seguinte forma:

onde:

 

c

j

=

EI

j

+ ES

2

j

,

EI

j

=

extremo inferior da classe j

 

ES = extremo superior da classe j

j

 

No exemplo, temos:

 

c 1 =

16

+

19

35,5

=

= 17,65

 

2

2

 

c

=

19,3

+

 

22,6

=

41,9

= 20,95

c

2

=

35,8

2

+

39,1

=

2

74,9

= 37,45

 

7

2

2

A tabela de frequências completa é apresentada a seguir.

Tabela 2.13. Frequência do peso ao nascer (em kg) de 60 bovinos machos da raça Ibagé. UFPel, 2001.

j

Classes

F

j

F

j

f

j

f

j

c

j

1

16 | 19,3

7

7

0,1167

0,1167

17,65

2 19,3 | 22,6

9

16

0,15

0,2667

20,95

3 22,6 | 25,9

15

31

0,25

0,5167

24,25

4 25,9 | 29,2

12

43

0,2

0,7167

27,55

5 29,2 | 32,5

9

52

0,15

0,8667

30,85

6 32,5 | 35,8

6

58

0,1

0,9667

34,15

7 35,8 || 39,1

2

60

0,0333

1,0000

37,45

 

Σ

60

1,0000

A interpretação das frequências da tabela é exemplificada através de alguns valores:

= 15 significa que 15 dos 60 bovinos nasceram com peso entre 22,6 e 25,9 kg

(exclusive).

= 52 significa que 52 dos 60 bovinos nasceram com peso entre 16,0 e 32,5 kg

(exclusive).

= 0,15 significa que a proporção de bovinos que nasceram com peso entre 19,3 e

22,6 kg (exclusive) é de 0,15 (em percentual: 15). f = 0,9667 significa que a proporção de bovinos que nasceram com peso entre 16 e 35,8 kg (exclusive) é de 0,9667 (em percentual: 96,67).

F

3

F

5

f

2

6

Piana, Machado e Selau

Estatística Descritiva

2.2.1.3. Representação gráfica das distribuições de frequências

As distribuições de frequências podem ser representadas graficamente de duas formas distintas e exclusivas, são elas: o histograma e o polígono de frequências.

Histograma

O histograma consiste de um conjunto de retângulos contíguos cuja base é igual à amplitude do intervalo e a altura proporcional à frequência das respectivas classes.

Na figura abaixo podemos observar o histograma da distribuição de frequências da Tabela 2.13.

F j
F j

Figura 2.6. Peso ao nascer (em kg) de 60 bovinos machos da raça Ibagé. UFPel, 2001.

Quando trabalhamos com variáveis discretas, os retângulos dos histogramas se reduzem a retas e, consequentemente, deixam de ser contíguos. Vejamos um exemplo na figura a seguir que representa a distribuição da Tabela 2.12.

F j
F j

Figura 2.7. Número de animais portadores de brucelose em 350 propriedades rurais. UFPel, 2001.

Piana, Machado e Selau

Estatística Descritiva

Polígono de frequência

O polígono de frequências é constituído por segmentos de retas que unem os pontos cujas coordenadas são o ponto médio e a frequência de cada classe. O polígono de frequências é fechado tomando-se uma classe anterior a primeira e uma posterior a última, uma vez que ambas possuem frequência zero.

Na Figura 2.8 podemos observar o polígono de frequências da distribuição da Tabela

2.13.

polígono de frequências da distribuição da Tabela 2.13. Figura 2.8. Peso ao nascer (em kg) de

Figura 2.8. Peso ao nascer (em kg) de 60 bovinos machos da raça Ibagé. UFPel, 2001.

Piana, Machado e Selau

Estatística Descritiva

Exercícios propostos:

2.1. Os dados a seguir se referem aos números de pães não vendidos em uma certa padaria

até a hora do encerramento do expediente:

0

0

4

2

0

1

0

2

0

4

1

0

0

3

2

0

1

0

0

0

2

0

0

1

0

0

3

2

1

7

0

1

0

0

2

0

0

3

2

1

Construa a distribuição de frequências para esses dados.

2.2. Os dados em rol (ordenação horizontal) abaixo se referem aos valores gastos (em reais)

pelas primeiras 50 pessoas que entraram em um determinado supermercado, no dia

01/01/2000.

3,11

8,88

9,26

10,81

12,69

13,78

15,23

15,62

17,00

17,39

18,36

18,43

19,27

19,50

19,54

20,16

20,59

22,22

23,04

24,47

24,58

25,13

26,24

26,26

27,65

28,06

28,08

28,38

32,03

36,37

38,98

38,64

39,16

41,02

42,97

44,08

44,67

45,40

46,69

48,65

50,39

52,75

54,80

59,07

61,22

70,32

82,70

85,76

86,37

93,34

Faça a distribuição de frequências desses dados.

2.3. Faça a representação gráfica (histograma e polígono de frequências, quando for o caso)

das distribuições de frequências construídas nos Exercícios 2.1 e 2.2 da página 30.

Piana, Machado e Selau

Estatística Descritiva

2.2.2. Tabelas de classificação cruzada

Em algumas situações, pode haver interesse no estudo de duas ou mais variáveis simultaneamente. Daí surgem as distribuições conjuntas de frequências. As tabelas de classificação cruzada são tabelas de frequências relativas a duas variáveis, numéricas ou categóricas. Existe um número razoável de tipos de tabelas e gráficos para descrever esses casos.

2.2.2.1. Frequências cruzadas de variáveis categóricas

Quando um estudo envolve duas variáveis categóricas (fatores), a tabela de frequência cruzada dessas duas variáveis é conhecida também como tabela de dupla entrada, tabela de associação ou tabela de contingência. As regras básicas para sua construção são semelhantes às das tabelas de classificação simples. A diferença é que agora a tabela apresenta duas margens, cada qual com os totais referentes a um dos fatores.

Na Tabela 2.14, por exemplo, os 60 alunos da escola E foram classificados segundo duas variáveis categóricas: Conceito em Estatística e Hábito de fumar. Para isso, primeiramente, os alunos são classificados de acordo com o Conceito em Estatística e, posteriormente, dentro de cada nível deste fator, são classificados quanto ao Hábito de fumar.

Tabela 2.14. Distribuição dos alunos da escola E, segundo o hábito de fumar e conceito em Estatística.

Conceito

Hábito de fumar

Totais

Sim

Não

Ruim

5

8

13

Médio

10

16

26

Bom

5

10

15

Ótimo

2

4

6

Totais

22

38

60

Podemos observar que, com as frequências marginais (totais) da tabela cruzada, poderíamos resgatar a tabela de classificação simples de cada fator.

A representação gráfica de distribuições de frequências de variáveis categóricas pode ser feita através de dois tipos de gráficos:

Gráficos em duas dimensões (diagramas): descrevendo a variação de um fator dentro dos níveis do outro.

Por exemplo, na Figura 2.9, observamos a variação do fator Hábito de fumar dentro de cada nível do fator Conceito em Estatística, enquanto que, na Figura 2.10, fica mais evidente a variação do fator Conceito em Estatística dentro de cada nível do fator Hábito de fumar.

Pode não ser necessário apresentar os dois gráficos simultaneamente. É mais comum apresentar apenas um deles, de acordo com o fato que desejamos ressaltar. Assim, no exemplo, se for mais importante ressaltar a distribuição de fumantes e não fumantes dentro de cada conceito, utilizamos a Figura 2.9. Se for mais importante ressaltar a distribuição do conceito em estatística dentro dos grupos de fumantes e não fumantes, utilizamos a Figura 2.10. Naturalmente, se ambas as situações forem relevantes podemos apresentar os dois diagramas.

Piana, Machado e Selau

Estatística Descritiva

Piana, Machado e Selau Estatística Descritiva Figura 2.9. Distribuição dos alunos da escola E, segundo o

Figura 2.9. Distribuição dos alunos da escola E, segundo o hábito de fumar e conceito em Estatística.

E, segundo o hábito de fumar e conceito em Estatística. Figura 2.10. Distribuição dos alunos da

Figura 2.10. Distribuição dos alunos da escola E, segundo o hábito de fumar e conceito em Estatística.

A observação atenta destes gráficos já pode fornecer uma ideia da possível associação existente entre os fatores. Por exemplo, se o um fator apresenta o mesmo comportamento dentro de todos os níveis do outro, podemos supor que eles não estão associados, ou seja, comportam-se independentemente um do outro. Devemos observar, entretanto, que os gráficos fornecem apenas indicações, para verificar tais hipóteses (suposições) devemos utilizar os testes apropriados que serão vistos posteriormente.

Gráficos tridimensionais (estereogramas): compostos por paralelogramos, dispostos em eixos tridimensionais, separados entre si, cujas bases são determinadas pelos níveis dos fatores e as alturas pelas suas respectivas frequências (Figura 2.11).

alturas pelas suas respectivas frequências (Figura 2.11). Figura 2.11. Distribuição dos alunos da escola E, segundo

Figura 2.11. Distribuição dos alunos da escola E, segundo o hábito de fumar e conceito em Estatística.

Piana, Machado e Selau

Estatística Descritiva

2.2.2.2. Frequências cruzadas de variáveis numéricas

Ao estudarmos conjuntamente duas variáveis numéricas, as tabelas de classificação cruzada são, agora, denominadas tabelas de correlação. As ideias básicas sobre a construção dessas tabelas já foram vistas em seções anteriores.

As tabelas de frequências cruzadas de duas variáveis contínuas também são construídas de modo similar às de classificação simples, ou seja, seguindo todos os passos já descritos na Seção 2.2.1.2. Primeiramente, procedemos à classificação das observações segundo uma das variáveis, para em seguida, dentro de cada classe da primeira, classificá-las de acordo com a outra variável. Por exemplo, na Tabela 2.15, observamos a classificação dos 400 alunos do Colégio C, segundo duas variáveis contínuas: Nota em Estatística e Nota em Matemática.

Tabela 2.15. Distribuição dos alunos do Colégio C, segundo suas notas em Estatística e Matemática.

Estatística

 

Matemática

Totais

0 |4

4 |7

7 |10

0

|4

32

25

5

62

4

|7

20

183

82

285

7

|10

7

27

19