Você está na página 1de 53
Estatística Autor: Prof. Mauricio Martins do Fanno Colaboradores: Prof. Flávio Celso Müller Martin Prof. Fábio
Estatística Autor: Prof. Mauricio Martins do Fanno Colaboradores: Prof. Flávio Celso Müller Martin Prof. Fábio
Estatística Autor: Prof. Mauricio Martins do Fanno Colaboradores: Prof. Flávio Celso Müller Martin Prof. Fábio
Estatística Autor: Prof. Mauricio Martins do Fanno Colaboradores: Prof. Flávio Celso Müller Martin Prof. Fábio
Estatística Autor: Prof. Mauricio Martins do Fanno Colaboradores: Prof. Flávio Celso Müller Martin Prof. Fábio
Estatística Autor: Prof. Mauricio Martins do Fanno Colaboradores: Prof. Flávio Celso Müller Martin Prof. Fábio
Estatística Autor: Prof. Mauricio Martins do Fanno
Estatística
Autor:
Prof. Mauricio Martins do Fanno
Estatística Autor: Prof. Mauricio Martins do Fanno Colaboradores: Prof. Flávio Celso Müller Martin Prof. Fábio
Estatística Autor: Prof. Mauricio Martins do Fanno Colaboradores: Prof. Flávio Celso Müller Martin Prof. Fábio
Estatística Autor: Prof. Mauricio Martins do Fanno Colaboradores: Prof. Flávio Celso Müller Martin Prof. Fábio

Colaboradores: Prof. Flávio Celso Müller Martin Prof. Fábio Gomes da Silva Profa. Ana Carolina Bueno Borges

do Fanno Colaboradores: Prof. Flávio Celso Müller Martin Prof. Fábio Gomes da Silva Profa. Ana Carolina

Professor conteudista: Mauricio Martins do Fanno

Professor conteudista: Mauricio Martins do Fanno Nascido em São Paulo‑SP, é formado em Engenharia Mecânica pela

Nascido em São Paulo‑SP, é formado em Engenharia Mecânica pela Faculdade de Engenharia Industrial (FEI) e pós‑graduado em Formação Didática do Ensino Superior. Desempenhou funções de gerente e diretor em diversas

empresas nacionais, nas áreas de Engenharia, Manutenção e Produção. É professor do Ensino Superior desde 1986, atuando em diversas faculdades e universidades, lecionando disciplinas voltadas para a formação de administradores, tanto na área da Matemática quanto na de Administração. Na UNIP, ministra aulas desde 1993, nas disciplinas de

Estatística, Administração da Produção e Materiais e Pesquisa Operacional.

Dados Internacionais de Catalogação na Publicação (CIP)

F213e

Fanno, Maurício Martins do.

Estatística. / Maurício Martins do Fanno. – São Paulo: Editora Sol, 2014. 172 p., il.

Nota: este volume está publicado nos Cadernos de Estudos e Pesquisas da UNIP, Série Didática, ano XIX, n. 2‑012/14, ISSN 1517‑9230.

1. Processos estatísticos. 2. Medidas estatísticas. 3. Teorias das probabilidades. I. Título.

CDU 519.2

U501.15 – 19

© Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida por qualquer forma e/ou quaisquer meios (eletrônico, incluindo fotocópia e gravação) ou arquivada em qualquer sistema ou banco de dados sem permissão escrita da Universidade Paulista.

Prof. Dr. João Carlos Di Genio Reitor Prof. Fábio Romeu de Carvalho Vice‑Reitor de Planejamento,

Prof. Dr. João Carlos Di Genio

Reitor

Prof. Fábio Romeu de Carvalho

Vice‑Reitor de Planejamento, Administração e Finanças

Profa. Melânia Dalla Torre

Vice‑Reitora de Unidades Universitárias

Prof. Dr. Yugo Okida

Vice‑Reitor de Pós‑Graduação e Pesquisa

Profa. Dra. Marília Ancona‑Lopez

Vice‑Reitora de Graduação

Unip Interativa – EaD

Profa. Elisabete Brihy Prof. Marcelo Souza Prof. Dr. Luiz Felipe Scabar Prof. Ivan Daliberto Frugoli

Material Didático – EaD

Comissão editorial:

Dra. Angélica L. Carlini (UNIP) Dra. Divane Alves da Silva (UNIP) Dr. Ivan Dias da Motta (CESUMAR) Dra. Kátia Mosorov Alonso (UFMT) Dra. Valéria de Carvalho (UNIP)

Apoio:

Profa. Cláudia Regina Baptista – EaD Profa. Betisa Malaman – Comissão de Qualificação e Avaliação de Cursos

Projeto gráfico:

Prof. Alexandre Ponzetto

Revisão:

Juliana Maria Mendes Amanda Casale

Sumário Estatística APRESENTAÇÃO 7 INTRODUÇÃO 8 Unidade I 1 ANÁLISE EXPLORATÓRIA DE DADOS
Sumário Estatística APRESENTAÇÃO 7 INTRODUÇÃO 8 Unidade I 1 ANÁLISE EXPLORATÓRIA DE DADOS

Sumário

Estatística

APRESENTAÇÃO

7

INTRODUÇÃO

8

Unidade I

1 ANÁLISE EXPLORATÓRIA DE DADOS

13

1.1 Dados e variáveis estatísticas

13

1.2 Classificações das variáveis

15

1.3 Amostragem

17

2 PROCESSOS ESTATÍSTICOS

20

2.1

Coletas de dados

21

3 REPRESENTAÇÃO DOS DADOS COLETADOS

23

3.1 Conceito de frequência

23

3.2 Distribuições ou tabelas de frequências

24

3.2.1 Dados isolados ou dados não agrupados em classes

24

3.2.2 Dados agrupados em classes

27

 

3.3 Frequências acumuladas

31

4 REPRESENTAÇÕES GRÁFICAS

34

 

4.1 Histogramas

35

4.2 Gráficos de colunas

36

4.3 Gráficos de barras

37

4.4 Diagramas de ogiva

39

4.5 Setorgramas

43

4.6 Gráficos de dispersão

46

Unidade II

5

MEDIDAS OU PARÂMETROS ESTATÍSTICOS

54

5.1 Medidas de posição

54

5.1.1 Média

54

5.1.2 Mediana

60

5.1.3 Moda

66

5.2 Medidas de dispersão

72

5.2.1 Medidas de dispersão absolutas

73

5.2.2 Medidas de dispersão relativas

83

5.3 Relações gráficas entre as medidas estatísticas

86

5.3.1 Assimetria 87 5.3.2 Curtose 88 6 TEORIA ELEMENTAR DAS PROBABILIDADES 92 6.1 Definições

5.3.1 Assimetria

87

5.3.2 Curtose

88

6

TEORIA ELEMENTAR DAS PROBABILIDADES

92

6.1 Definições de probabilidades

92

6.2 Cálculos das probabilidades elementares

94

6.3 Árvores de decisões

96

6.4 Análises combinatórias

98

6.5 Experimentos aproximadamente aleatórios

103

6.6 Eventos soma e Eventos produto

105

6.7 Eventos independentes e eventos vinculados

108

Unidade III

7 REVISÃO DE PROBABILIDADES

120

8 DISTRIBUIÇÃO BINOMIAL E DISTRIBUIÇÃO NORMAL

126

 

8.1 Distribuição binomial

126

8.1.1 Valor e variância esperados na distribuição binomial

8.2 Distribuição normal

136

141

8.2.1 Conceitos básicos

141

8.2.2 Cálculo das áreas da curva normal

144

APRESENTAÇÃO O administrador de empresas tem como uma das suas mais importantes funções, se não

APRESENTAÇÃO

O administrador de empresas tem como uma das suas mais importantes funções, se não for a mais importante, tomar decisões. O ideal é que essas decisões sejam tomadas da maneira mais racional possível, com a maior quantidade de informações objetivas que conseguir. Evidentemente nem sempre isso será possível. Administrar, normalmente, é trafegar num ambiente cambiante, que a cada momento apresenta características diferentes. A Estatística, no entanto, colabora de maneira decisiva para aumentar, a custos razoáveis, o grau de objetividade das decisões que tomamos ao longo da nossa vida profissional.

Em qualquer atividade humana – e a Administração não é exceção–, lidamos com situações, com problemas, com questões que apresentam algum grau de incerteza, algum grau de imprevisibilidade. Evidentemente em profissões como Engenharia o grau de imprevisibilidade é muito menor do que em Administração, por exemplo, mas também ocorre. Lidar com essas imprevisibilidades é a função mais central da Estatística.

Imagine por um instante que necessitamos tomar uma decisão administrativa. Por exemplo, em que tipo de aplicação investir o capital da nossa empresa, ou qual o melhor processo de fabricação do nosso produto, ou, ainda, qual a melhor mídia para a campanha publicitária de lançamento de um novo produto? Perceba como essas decisões estão submetidas a incertezas: não podemos “adivinhar” a valorização exata de uma aplicação, nem a produtividade real de um processo e menos ainda a efetividade de uma campanha publicitária, mas, se tivermos informações históricas de ocorrências similares anteriores, nós poderemos decidir com um maior grau de confiança. Além disso, no caso de podermos saber até que ponto essas ocorrências anteriores permanecem válidas, melhores ainda serão nossas decisões.

A Estatística vai nos ajudar nessas questões, primeiro coletando, organizando e “digerindo” as informações históricas para, em seguida, extrapolar essas conclusões para situações futuras, para novos cenários, para novos ambientes, permitindo que o administrador pise em chão mais firme.

Nosso curso foi montado exatamente considerando esse conceito. Primeiramente, nesta disciplina, Estatística, iremos estudar o manuseio dos dados históricos em seus diversos ângulos.

Uma situação que todos nós acompanhamos ciclicamente pode nos ajudar a entender o objetivo deste curso e mesmo da disciplina Estatística. A cada dois anos, acompanhamos com interesse as eleições para os diversos casos públicos. Quatro ou cinco meses antes da eleição, já desejamos saber quem será o próximo Presidente da República, por exemplo. Claro está que isso não é, objetivamente falando, possível antes que a eleição se consubstancie na data estabelecida, mas conseguimos nos aproximar muito dos resultados por meio do processo conhecido como pesquisa eleitoral.

Como é feita essa pesquisa? Primeiro é escolhido um pequeno grupo de eleitores, algumas vezes, menos de mil pessoas. A esses eleitores, pergunta‑se em quem votariam se a eleição fosse naquele momento. As respostas coletas são organizadas e trabalhadas, e a partir desse trabalho os jornais e as revistas publicam previsões do resultado da eleição. Obviamente esse resultado não é exato nem imutável, mas nos dá uma boa ideia de como evolui a campanha eleitoral.

7
7
Esse processo é exatamente o que pretendemos abordar neste curso. A partir de informações coletadas

Esse processo é exatamente o que pretendemos abordar neste curso. A partir de informações coletadas sobre determinado assunto, podemos prever o comportamento do ambiente, no futuro ou em outro contexto. Claro que sempre tendo em vista que, para nós, a Estatística é mais uma ferramenta para nosso uso como administradores.

O processo de coleta, organização e tratamento de dados históricos é conhecido por Estatística

Descritiva e é o principal assunto deste livro‑texto, que é completado pelos conceitos de Probabilidades.

Terminados esses assuntos, estaremos aptos a entender o comportamento estatístico de amostras e iniciarmos os estudos da indução estatística, predizendo características de populações estatísticas.

Esperamos que, com este material, você tenha a oportunidade de aprender os conceitos básicos de Estatística e esteja apto a continuar os estudos nessa área quando necessário for.

Observe que este texto foi produzido para apresentar os principais conceitos de Estatística da maneira mais aproximada possível da prática administrativa, evitando‑se, portanto, aprofundamento desnecessário na área de cálculo; é indispensável, no entanto, uma base matemática já adquirida em disciplinas anteriores. Na medida do possível, procuramos rever os conceitos matemáticos necessários.

O estudo da Estatística, como o de todas as Ciências Exatas, obriga à repetição, o maior número de

vezes possível, de exercícios de fixação. No presente material, os cálculos definidos são mostrados uma vez, como exemplo, e repetidos em alguns exercícios de fixação, mas o aluno deve se lembrar de que terá à disposição, nos materiais complementares, uma grande quantidade de exercícios e problemas, e de que o aprendizado somente será garantido caso estes sejam feitos em sua totalidade.

Bons estudos!

INTRODUÇÃO

O primeiro passo no nosso caminhar é entender o que é, como se divide e quais são os objetivos da Estatística, algo que faremos imediatamente.

Define‑se estatística como o conjunto de métodos e processos destinados a permitir o entendimento de um universo submetido a certas condições de incerteza, ou seja, de não determinismo matemático. Por exemplo, o dimensionamento do diâmetro das hastes do amortecedor de um automóvel é feito por meio de cálculos matemáticos de elevada precisão estudados num capítulo da Física chamado de “Resistência de Materiais”. No entanto, a vida útil desse amortecedor depende não só de seu dimensionamento, mas também de uma série de condições em que impera a incerteza, que pode, resumidamente, ser chamada de condições de uso. Neste último caso, entramos no campo da Estatística. De modo mais sintético, podemos dizer que a Estatística é a ciência que se ocupa de descrever, analisar e interpretar dados experimentais.

Para entendermos melhor o processo estatístico, é necessário definir dois conceitos básicos:

população e amostra. Considera‑se população o conjunto formado por todos os elementos que têm

8
8
em comum a característica que estamos estudando. Por exemplo, se estivermos pesquisando sobre o aprendizado

em comum a característica que estamos estudando. Por exemplo, se estivermos pesquisando sobre o aprendizado de música, a população será formada por todas as pessoas que aprendem ou aprenderam música em algum momento.

Deve‑se notar que a população estatística normalmente é muito numerosa, às vezes infinita e, eventualmente, formada por elementos ainda não existentes. Assim, quando quisermos saber qual é a expectativa de vida de um brasileiro, estaremos diante de uma população muito extensa (todos os brasileiros) e formada por elementos prováveis, visto que as pessoas que estão sendo estudadas ainda não morreram.

Em razão dessas características da população, o processo estatístico começa pelo estudo de uma amostra, que é uma parcela da população, mas uma parcela coerente com esta, ou seja, que segue todas as características dessa população. Assim, por exemplo, se determinada população tiver 62% de mulheres, as amostras tiradas desta deverão ter 62% de mulheres, se o sexo for fator importante no comportamento da característica estudada.

Uma amostra é finita e tem relativamente poucos elementos, de valores definidos. Desse modo, se quisermos definir a expectativa de vida de todos os brasileiros, tomaremos uma amostra finita de poucos brasileiros já falecidos. Assim, haveria poucos elementos a se estudar e de valor definido (a idade em que morreram). Deve‑se ressaltar que essa amostra retirada deve reproduzir todas as condições importantes para a duração da vida da população, tais como sexo, posição socioeconômica, educação etc.

Tanto os elementos das populações quanto os das amostras assumem valores para a característica que estamos estudando; por exemplo, a população formada pelos seguidores religiosos pode apresentar católicos, evangélicos, espíritas etc. Esses são alguns dos valores que a variável religião pode assumir. Assim, a característica da população ou da amostra que estamos estudando pode ser expressa de acordo com uma variável, que pode assumir diferentes valores. Podemos distinguir as variáveis em dois grupos:

• variáveis qualitativas: apresentam atributos como valor, por exemplo, cor de cabelos, orientação sexual, times de futebol etc.;

• variáveis quantitativas: apresentam valores numéricos, tais como peso e idade de pessoas, número de defeitos na produção de uma peça etc., podendo, ainda, ser divididas em duas categorias:

– discretas: são variáveis que podem apresentar apenas valores predeterminados em um conjunto, ou seja, não existirão valores intermediários (exemplos: número de filhos de um casal, número de defeitos numa linha de produção, quantidade de ações em alta numa bolsa de valores etc.); essas variáveis estão ligadas às contagens;

– contínuas: apresentam, teoricamente, qualquer valor dentro de um faixa possível (exemplos:

pesos dos estudantes de uma faculdade, diâmetros dos eixos produzidos por certa máquina, índices de inflação em vários períodos etc.); essas variáveis estão ligadas às medições.

9
9
Deve‑se notar que essa diferenciação entre variáveis discretas e contínuas pode ser tênue, em razão

Deve‑se notar que essa diferenciação entre variáveis discretas e contínuas pode ser tênue, em razão da quantidade de elementos envolvidos e da precisão de medida. Por exemplo: se medirmos o diâmetro de uma peça com paquímetro, iremos obter medidas em centésimos de milímetro, quer dizer, a medida

de 18,56 mm, na verdade, é um valor entre 18,555 e 18,564; não é possível saber, a menos que troquemos

o paquímetro por um micrômetro. Assim, a variável contínua diâmetro da peça comporta‑se como discreta após a precisão de centésimos de milímetro.

Lembretediscreta após a precisão de centésimos de milímetro. Paquímetro e micrômetro são instrumentos de medição de

Paquímetro e micrômetro são instrumentos de medição de precisão. A diferença operacional entre os dois é a precisão. O paquímetro é menos preciso que o micrômetro, ou seja, faz leituras mais “arredondadas”.

A existência dos conceitos de população e de amostra nos conduz à diferenciação entre dois campos da Estatística: a Estatística Descritiva e a Estatística Indutiva.

A Estatística Descritiva cuida da coleta, da organização, do resumo e da apresentação dos dados de

um conjunto (no fundo, é um tratamento das variáveis estatísticas). Evidentemente, esse conjunto tem

de ser finito e com elementos com valores definidos e determináveis, ou seja, uma amostra.

Já a Estatística Indutiva procura inferir comportamentos e respaldar decisões coerentes acerca de uma população, normalmente, com base em dados obtidos pela Estatística Descritiva de uma amostra.

Observaçãodados obtidos pela Estatística Descritiva de uma amostra. Inferir significa concluir, deduzir. Em estatística, o

Inferir significa concluir, deduzir. Em estatística, o termo é utilizado como resultado do processo em que se prevê o comportamento de um experimento a partir de observações amostrais.

Vamos supor que queiramos determinar a expectativa de vida dos brasileiros. A população, evidentemente, é correspondente a todos os brasileiros vivos. Isso nos conduz a dois entraves: a quantidade de elementos da população é muito grande, e os valores da variável idade de morte são prováveis não reais. A maneira de se contornar isso é por meio da amostragem: tomamos uma amostra (segundo regras estatísticas que veremos) que represente a população brasileira, ou seja, mesma divisão por sexos, classes sociais, regiões geográficas etc., e cujos elementos, já tendo falecido, permitam a coleta das idades de morte. Essa coleta, bem como todo o tratamento posterior da amostra, é feita

mediante a Estatística Descritiva, e os resultados desse tratamento estatístico da amostra são estendidos

à população inteira, por meio de ferramentas da Estatística Indutiva. Dessa forma, podemos determinar

a expectativa de vida de todos os brasileiros, com algumas ressalvas:

10
10

• a indução vale para a população como uma totalidade homogênea; não é possível aplicá‑la a um indivíduo específico;

• a previsão é de um valor provável, portanto sujeito a um erro estatístico ,

• a previsão é de um valor provável, portanto sujeito a um erro estatístico, ou seja, a uma faixa de incerteza, determinada estatisticamente, em torno do resultado esperado; esse erro depende das condições da população e da amostra.

Quando tratamos de um resultado obtido para uma população, falamos em valor provável, e não num valor exato. Isso nos remete ao campo da Matemática que estuda a Teoria das Probabilidades.

O estudo da Teoria das Probabilidades, com os estudos da Estatística Descritiva e da amostragem, são as ferramentas necessárias para a utilização da Estatística Indutiva.

Primeiramente, trataremos dos assuntos referentes à seleção e a coleta de dados, ponto de partida para qualquer estudo estatístico. Em seguida, verificaremos como esses dados coletados são inicialmente tratados por meio da tabulação, do resumo e da representação dessas informações, tanto do ponto de vista gráfico quanto do analítico. Depois, abordaremos os parâmetros ou as medidas estatísticas; primeiro, as medidas de posição e, em seguida, as medidas de dispersão. E ainda abordaremos a Teoria Elementar das Probabilidades. Por fim, falaremos sobre a distribuição binomial e distribuição normal.

11
11

ESTATÍSTICA

ESTATÍSTICA Unidade I 1 ANÁLISE EXPLORATÓRIA DE DADOS Entende‑se por Estatística o conjunto de conceitos, técnicas

Unidade I

1 ANÁLISE EXPLORATÓRIA DE DADOS

Entende‑se por Estatística o conjunto de conceitos, técnicas e ferramentas destinados a organizar, descrever, analisar e interpretar dados. Dados são valores apresentados por um determinado fenômeno ou observação, por exemplo, as alturas dos alunos de uma classe, o salário dos funcionários de um departamento, o volume de vendas de uma empresa ou a cor dos olhos das modelos de uma agência. Esses dados são coletados em estado bruto e submetidos a sucessivos tratamentos, com vistas a organizá‑los, resumi‑los e analisá‑los. Neste primeiro momento iremos nos ater à coleta e à organização dos dados.

Saiba mais O site português <http://www.alea.pt> tem interessantes abordagens sobre a ciência estatística em

Saiba mais

O site português <http://www.alea.pt> tem interessantes abordagens sobre a ciência estatística em linguagem fácil e precisa. Mediante jogos e desafios, você pode aprofundar seu conhecimento sobre o tema.

1.1 Dados e variáveis estatísticas

Entendemos como conjunto de dados o objeto de trabalho da Estatística. Esses dados são valores assumidos pelos elementos de um conjunto de indivíduos que apresentam em comum uma característica estudada. Caso você olhe à sua volta na empresa em que trabalha, verá uma grande quantidade de indivíduos, todos eles dotados de infinitas características, tais como cor dos olhos e dos cabelos, altura e peso, salário e idade, time de futebol do coração ou religião. Dessas infinitas características, estaremos atentos a uma delas, objeto do nosso estudo estatístico.

Digamos que estejamos, no momento, desejando entender como se comporta a remuneração dos funcionários dessa sua empresa. Iremos então coletar dados relativos a essa remuneração, ou seja, os salários. Salário, portanto, será a característica que estudaremos e que poderá assumir um determinado valor em uma faixa lógica.

Dizemos, assim, que, nesse referido estudo, salário é a variável estudada. Perceba que todos os funcionários da empresa têm uma série de outras características, mas a que nos interessa é o salário. As outras poderão ter importância para nós, mas não serão nossa variável de estudo. Coletar dados é obter os diversos valores que a variável estudada assume.

13
13

Unidade I

Unidade I Outro fator importante a ser observado é a quantidade de elementos com que temos

Outro fator importante a ser observado é a quantidade de elementos com que temos condição de trabalhar e a possibilidade ou não de medirmos seu valor. Dependendo dessas duas observações, deveremos utilizar ferramentas diferentes de organização e análise dos dados. Observe os seguintes exemplos, para tornarmos mais claro o raciocínio:

• Desejamos saber se os chefes de família das casas da rua em que moramos são mais ou menos altos em relação ao conjunto de brasileiros de modo geral. A primeira providência a se tomar seria medir todos os chefes de família, para obter os valores da variável estudada (altura). Perceba que, a não ser que moremos numa rua muito extensa, o processo de coleta de dados não será tão trabalhoso assim, principalmente pelo fato de que todos saberão responder a altura que têm.

• No entanto, caso desejemos saber se os chefes de família de todas as casas de nossa cidade são mais ou menos altos em relação aos brasileiros, passaremos a ter um primeiro inconveniente: a quantidade de elementos que deverão ser medidos. Mesmo que moremos numa cidade pequena, a quantidade de dados a serem coletados pode atingir facilmente a casa dos milhares. Perceba que o trabalho que teremos em levantar esses dados possivelmente não será compensado pela informação obtida.

• Em contrapartida, imagine a seguinte situação, em que desejamos saber se as crianças da nossa rua serão mais ou menos altas em relação às outras crianças brasileiras quando crescerem. Nesse caso, a quantidade de crianças não deve ser tão grande, mas, em compensação, não teremos como medi‑las no dia de hoje: elas ainda estão crescendo, portanto a altura delas quando adultas não é um valor definido, e sim provável.

Perceba, pelos exemplos anteriores, que, dependendo da situação, teremos dificuldades (ou facilidades) diferentes. Em Estatística, costumam‑se dividir as situações descritas em dois grandes campos: amostra e população.

Amostra é um conjunto que tem relativamente poucos elementos, e o valor da variável estudada para esses elementos é real e verificável. É o caso do primeiro item.

População é o conjunto que tem relativamente muitos elementos e/ou cujos valores da variável estudada não são reais e verificáveis, casos do segundo e do terceiro item.

Observe que, para configurarmos uma amostra, é necessário que a quantidade de elementos seja pequena e o valor seja real; caso contrário, nós estaremos configurando uma população. Situações envolvendo amostras terão tratamentos diferentes daquelas envolvendo populações.

tratamentos diferentes daquelas envolvendo populações. Lembrete Usaremos em Estatística, várias vezes, as

Lembrete

Usaremos em Estatística, várias vezes, as conjunções ou, significando alternativa, opção, e sua oposta e, significando obrigação, imposição. Assim, ou será usada quando tivermos opção entre duas ou mais situações, enquanto e será adotada quando tivermos obrigação de atender, simultaneamente, a duas ou mais situações.

14
14

ESTATÍSTICA

ESTATÍSTICA É importante também notar que, quando falamos em quantidades grandes ou pequenas, estamos

É importante também notar que, quando falamos em quantidades grandes ou pequenas, estamos relativizando‑as, ou seja, trabalhar com mil elementos pode ser uma grande quantidade ou uma pequena quantidade, dependendo dos recursos (monetários, de tempo, de espaço etc.) disponíveis.

Exemplificando: suponha que queiramos levantar as idades de todos os alunos que estão cursando Estatística neste semestre. Caso nós tenhamos ao nosso dispor os cadastros dos alunos no sistema de informação da instituição, a quantidade de alunos será relativamente pequena, pois temos recursos suficientes, mas se tivermos de consultar um por um dos alunos, a quantidade será relativamente grande, pois não teremos recursos para tanto.

De modo geral, podemos dizer que informações envolvendo amostras são obtidas por meio da Estatística Descritiva, e aquelas envolvendo populações, por meio da Estatística Indutiva; e que, para conhecermos o comportamento estatístico das populações, retiramos delas amostras para estudo.

das populações, retiramos delas amostras para estudo. Observação Tanto as populações quanto as amostras são

Observação

Tanto as populações quanto as amostras são formadas por dados que podem ser primários ou secundários. Dados primários são aqueles coletados especificamente para o estudo que estamos fazendo. Dados secundários são colhidos para outra finalidade, mas são utilizados no nosso estudo.

1.2 Classificações das variáveis

Vimos anteriormente que entendemos por variável a característica envolvida em nosso estudo estatístico. Variáveis podem ser de vários tipos diferentes, os quais determinarão os estudos estatísticos possíveis.

Algumas variáveis expressam atributos ou qualidades dos indivíduos, por exemplo, religião, sexo, estado civil etc. São as chamadas variáveis qualitativas. Outras apresentam como resultado possíveis valores numéricos, por exemplo, número de filhos, altura, salário, idade etc. São as chamadas variáveis quantitativas.

As variáveis qualitativas podem ser divididas em duas categorias: variáveis qualitativas nominais, quando não é possível fazer nenhum tipo de ordenação, e variáveis qualitativas ordinais, quando alguma ordenação é possível. Podemos citar como exemplos as perguntas que seguem.

Ao questionarmos “Você pratica esportes?”, há duas respostas possíveis: sim e não. Trata‑se, portanto, de uma variável qualitativa nominal. Caso a pergunta fosse “Com que intensidade você pratica esportes?”, a resposta poderia ser: nenhuma, pequena, média ou grande. Estaríamos tratando de uma variável qualitativa ordinal.

As variáveis quantitativas, por seu lado, também podem apresentar duas categorias. As variáveis quantitativas discretas são aquelas em que os resultados formam um conjunto finito e previsível de números, enquanto as variáveis quantitativas contínuas apresentam como resultados todos os

15
15

Unidade I

Unidade I valores numéricos em um intervalo de números reais. A pergunta “Quantos irmãos você tem?”

valores numéricos em um intervalo de números reais. A pergunta “Quantos irmãos você tem?” produz

Já a pergunta “Quanto você pesa?” gera uma variável

quantitativa contínua (qualquer valor dentro de uma faixa lógica para um ser humano). Para simplificar,

costumamos dizer que, quando contamos, estamos diante de uma variável quantitativa discreta, e, quando medimos, estamos diante de uma variável quantitativa contínua. Contamos o número de irmãos que temos e medimos nossa massa numa balança.

uma variável quantitativa discreta (0, 1, 2, 3

).

É importante observar que os estudos estatísticos apresentam quantidade de informação diferente para cada tipo de variável nesta sequência crescente: variáveis qualitativas nominais, variáveis qualitativas ordinais, variáveis quantitativas discretas e variáveis quantitativas contínuas. Desse modo, um estudo estatístico que utilize variáveis quantitativas contínuas nos trará muito mais informações que um estudo que utilize variáveis qualitativas nominais.

Um exemplo simples deixa mais clara essa ideia: suponha que uma instituição de ensino deseje avaliar seus docentes. Para tanto, irá arguir seus alunos, e essa arguição poderá ser feita de uma das formas a seguir:

• O desempenho do docente considerado é adequado? Respostas possíveis: sim e não. Estamos trabalhando, portanto, com uma variável qualitativa nominal.

• Classifique em Ruim, Regular, Bom ou Ótimo o desempenho do docente considerado. A variável continua qualitativa, mas tornou‑se ordinal. A quantidade e a qualidade das informações aumentaram.

• Atribua ao desempenho do docente considerado as notas 0, 1, 2, 3, 4 ou 5, sendo 0 para totalmente inadequado e 5 para totalmente adequado. A questão irá trabalhar com variável qualitativa discreta. Mais uma vez, aumentamos o “poder” da pesquisa.

• Numa escala de zero a cinco, avalie o desempenho do docente considerado. Você pode atribuir ao docente uma avaliação de 3,4, por exemplo; ou seja, estamos trabalhando com uma variável quantitativa continua, e essa é a forma que nos trará mais informações.

Exemplo de Aplicação
Exemplo de Aplicação

1. Considerando que as variáveis qualitativas se dividem em nominais (N) e ordinais (O) e que as variáveis quantitativas se dividem em discretas (D) e contínuas (C), assinale a alternativa que relaciona correta e respectivamente as seguintes variáveis estatísticas: número de defeitos numa linha de produção; tempo de casa dos funcionários de uma empresa; cores das camisetas de uma coleção de verão; vendas anuais em reais dos produtos de uma empresa; satisfação dos clientes com nossos serviços; bairro em que moramos:

A) C; C; N; C; O; N.

16
16

B) D; C; N; C; O; N.

ESTATÍSTICA

ESTATÍSTICA C) D; C; N; N; O; N. D) D; C; N; C; N; N. E)

C) D; C; N; N; O; N.

D) D; C; N; C; N; N. E) C; C; N; C; O; N.
D)
D; C; N; C; N; N.
E) C; C; N; C; O; N.

1.3 Amostragem

Abordamos anteriormente que amostra e população são tratadas de maneira diversa na Estatística

e também que os elementos de um conjunto de indivíduos têm inúmeras características, uma das

quais está sendo estudada e é chamada de variável. Falta falarmos das demais características desses

elementos e de algumas relações entre populações e amostras.

Frequentemente, quando desejamos saber algo a respeito de uma população, utilizamos uma amostra como campo de estudo do fenômeno e expandimos (extrapolamos) as conclusões para a população. A situação mais conhecida e mais didática que podemos usar são as pesquisas eleitorais. Meses ou dias antes de uma eleição, desejamos saber (antever, prever ou predizer) o resultado dessa eleição. Isso é possível, com certa margem de erro, por meio de um processo conhecido como amostragem. Esse processo se inicia no planejamento da amostra, que deve reproduzir em pequena escala todas as características da população. A ideia é a mesma do enólogo (aquele que prova vinhos):

ele não precisa beber uma garrafa inteira (ou um tonel) para dizer se o vinho é bom ou ruim; basta uma pequena dose, a amostra. Ocorre que o vinho é uma substância totalmente homogênea, todas as partes dele são idênticas. Já se fosse uma feijoada, não teríamos a mesma homogeneidade. A feijoada é heterogênea.

Isso significa que não podemos usar o mesmo princípio de amostragem do vinho para a feijoada? Não. Podemos usar sim, mas com alguns cuidados. Na amostra de feijoada que iremos provar, é necessário que todas as suas partes sejam representadas, ou seja, precisamos pegar um prato em que estejam

representados todos os componentes da feijoada (linguiças, paio, toucinho etc.). É mais fácil definir a qualidade do vinho do que de uma feijoada, ou seja, termos maior margem de erro no teste da feijoada que no do vinho. Por quê? Justamente em razão da heterogeneidade da feijoada. Anote isso; voltaremos

a esse assunto oportunamente.

No caso da pesquisa eleitoral, a situação é a mesma da feijoada. A população eleitoral (todos os eleitores inscritos em determinada região eleitoral) é heterogênea, logo a amostra retirada deverá representar essa heterogeneidade, naquilo que é importante para a definição do voto. Vamos exemplificar numericamente. Suponha que os dados da Tabela 1 representem algumas das características da população de eleitores de uma determinada cidade na qual o próximo prefeito será eleito em novembro.

17
17

Unidade I

Unidade I Tabela 1 – Características de uma cidade hipotética Características da população Valores possíveis

Tabela 1 – Características de uma cidade hipotética

Características da população

Valores possíveis

Porcentagem encontrada

   

Feminino

48,2%

Sexo

Masculino

51,8%

 

16

a 20 anos

12,3%

20

a 30 anos

24,6%

30

a 40 anos

26,9%

Idade

40

a 50 anos

15,8%

50

a 60 anos

14,6%

Acima de 60 anos

5,8%

   

Classe A

8%

 

Classe B

22%

Classe econômica

 

Classe C

43%

 

Classe D

27%

 

Arranca‑Toco FC

45%

Time de futebol preferido

EC Deixa que eu Chuto

32%

CA Asveissóbrio

23%

Quando fazemos uma pesquisa eleitoral, queremos saber em quem o leitor irá votar, ou seja, a característica que nos interessa é a intenção de voto. Portanto, a variável de uma pesquisa eleitoral é a intenção de voto. Mas essa não é a única característica com a qual iremos nos preocupar.

Sabemos por experiência anterior que, por exemplo, homens e mulheres têm comportamentos diferentes na hora de votar; em outras palavras, utilizam critérios diferentes para escolher suas preferências. Dessa forma, quando tomarmos uma amostra, precisaremos tomar cuidado com a quantidade de homens e mulheres que dela farão parte. Não podemos considerar uma amostra na qual só temos homens ou mulheres. Digamos que vamos fazer uma pesquisa eleitoral na cidade, a partir de uma amostra de mil eleitores. Essa amostra deverá ser formada por 482 homens (48,2% de 1.000) e por 518 mulheres (51,8% de 1000). Do mesmo modo nós devemos nos comportar com relação às outras características que têm importância na definição dos votos. Isso quer dizer que devemos manter a proporcionalidade de eleitores com relação à idade e à classe econômica, características que sabidamente influem na definição de voto. Caso não seja feito assim, introduziremos uma falha no nosso processo estatístico, um viés estatístico.

E a característica “time de futebol preferido”? Precisamos nos preocupar com ela? Evidentemente não. A preferência por um time de futebol não interfere na opção de voto (a não ser em casos muito especiais, dos quais a estatística não consegue se encarregar).

Podemos, portanto, dividir as características dos elementos de uma população ou de uma amostra em três categorias: a(s) características(s) estudada(s), chamada(s) variável(eis) estatística(s); as características principais, que definem a proporcionalidade das populações e suas amostras; e as

18
18

ESTATÍSTICA

ESTATÍSTICA características secundárias , que não interferem nos nossos estudos estatísticos. Assim, é possível

características secundárias, que não interferem nos nossos estudos estatísticos. Assim, é possível assumir que, a partir de uma amostra corretamente estabelecida, é possível conhecer uma população, por maior que seja ou menos reais que sejam seus elementos. O princípio é o mesmo do enólogo. Conhecermos o todo por uma pequena parte.

Claro que esse conhecimento não será composto de certezas absolutas; deverá haver alguma incerteza; em outras palavras, certa tolerância com as nossas conclusões. Assim, se numa amostra colhida para uma pesquisa eleitoral for revelada a preferência de 46% pelo candidato A, poderemos afirmar que a população provavelmente também terá 46% de eleitores para esse candidato, mas isso não é uma certeza: pode haver alguma variação, para mais ou para menos.

Essa tolerância é chamada de margem de erro e depende basicamente de três fatores:

• grau de homogeneidade da população: quanto mais homogênea for uma população, menor será a margem de erro;

• tamanho da amostra tomada: quantidade de elementos da qual é composta; dessa forma, uma pesquisa com mil eleitores tem maior margem de erro do que uma feita com 5 mil eleitores;

• grau de confiabilidade com o qual queremos trabalhar: podemos optar por ter maior ou menor confiança nas respostas obtidas; quanto maior confiança quiser ter, maior será a margem de erro.

Exemplo de aplicação
Exemplo de aplicação

2. Com relação ao processo de amostragem, foram feitas as seguintes afirmações:

I – Para que se possa estender para a população os resultados obtidos numa amostra, é necessário que amostra e população sejam proporcionais, ou seja, tenham todas as características importantes dos elementos representadas proporcionalmente.

II – Sempre que se induz uma conclusão da amostra para a população, ela será provável, ou seja, dotada de uma margem de erro.

III – A margem de erro de um processo amostral depende do tamanho da população e da homogeneidade desta.

IV – É possível induzir o comportamento de uma amostra a partir do conhecimento que se tem da população.

Escolha entre as alternativas aquela que contém afirmativas incorretas:

A) I; II.

Unidade I

Unidade I C) I; IV. D) Todas as afirmativas contêm erros. E) Todas as afirmativas estão

C)

I;

IV.

D)

Todas as afirmativas contêm erros.

E) Todas as afirmativas estão corretas.

2 PROCESSOS ESTATÍSTICOS

Utilizando os conceitos dos itens anteriores, podemos definir os passos do processo estatístico.

• Definir objeto de estudo, populações e amostras envolvidas. Planejar amostras de modo que representem corretamente, sem vieses, as populações de que foram retiradas.

• Coletar os dados amostrais, ou seja, medir a variável estatística de cada um dos elementos da amostra.

• Tabular e representar os dados colhidos na forma de tabelas e gráficos, que permitam visualizar de modo amigável as informações disponíveis.

• Cálculo dos parâmetros estatísticos. Esses parâmetros são medidas que “resumem” as informações coletadas de modo mais imediato.

• Indução de parâmetros amostrais em parâmetros populacionais ou vice‑versa. Consiste em fazer

a relação entre populações e amostras, conforme descrito anteriormente.

Os primeiros passos constituem o campo da Estatística Descritiva, objeto de estudo deste livro‑texto. O último passo vale‑se dos anteriores e é o campo da estatística indutiva.

Passaremos a nos preocupar com cada um dos passos descritos, visando percorrer todo o processo estatístico.

Saiba mais O livro a seguir conta como a estatística transformou radicalmente os métodos de

Saiba mais

O livro a seguir conta como a estatística transformou radicalmente os métodos de pesquisa na ciência, aumentando a credibilidade da investigação em diversos campos do saber. Ótima leitura para os iniciantes em Estatística:

SALSBURG, D. Uma senhora toma chá: como a Estatística revolucionou a ciência no século XX. Rio de Janeiro: Zahar, 2009.

20
20

ESTATÍSTICA

ESTATÍSTICA 2.1 Coletas de dados A coleta de dados é uma operação típica de campo na

2.1 Coletas de dados

A coleta de dados é uma operação típica de campo na qual identificamos os valores da variável estatística para todos os elementos de uma amostra previamente definida. Frequentemente, essa amostra tem seus elementos definidos por escolha aleatória, ou seja, sorteamos um elemento da população para fazer parte da amostra. Como exemplo, imagine que um pesquisador de campo precise entrevistar um eleitor com as seguintes características: mulher; classe econômica B; grau de instrução superior; idade entre 30 e 35 anos; moradora da zona leste. Essa tarefa que lhe foi confiada teria origem no planejamento da amostra feito de acordo com os conceitos vistos no item anterior.

Para cumprir sua tarefa, o pesquisador irá a um local em que mais provavelmente encontrará alguém nessas condições e, após algumas pré‑entrevistas, determinará um elemento com exatamente essas características. Esse elemento fará parte da amostra planejada e, para ele, o pesquisador fará as perguntas necessárias, por exemplo, em quem o entrevistado pretende votar.

As respostas dos elementos escolhidos para a amostra constituirão os dados brutos ou rol do estudo, ou seja, uma relação das respostas às questões sem nenhum tipo de ordenação, classificação ou elaboração.

A Tabela 2 exemplifica os dados brutos de uma pesquisa fictícia feita entre 42 alunos de uma universidade a respeito de alguns assuntos:

Tabela 2 – Dados brutos de uma amostra de alunos de uma universidade

     

Curso em

Qualidade

 

Idade

   

Ordem

Nome do

aluno

Estado civil

que está

atribuída à

Sexo

em

Renda

familiar

Número

de DPs

matriculado

instituição

anos

1

Daiane

Solteira

Jornalismo

Ótima

F

19

R$ 3.220,00

2

2

Alberto

Solteiro

Administração

Boa

M

20

R$ 4.050,00

0

3

Rui

Casado

Direito

Regular

M

25

R$ 1.950,00

4

4

Carolina

Casada

Engenharia

Ruim

F

21

R$ 1.682,00

6

5

Joaquim

Divorciado

Marketing

Péssima

M

28

R$ 7.850,00

8

6

Rubens

Solteiro

Engenharia

Ótima

M

23

R$ 4.567,00

0

7

Jéssica

Solteira

Administração

Boa

F

20

R$ 10.567,00

0

8

Luis Carlos

Solteiro

Engenharia

Regular

M

20

R$ 2.687,00

2

9

Fernando

Casado

Direito

Ótima

M

27

R$ 3.654,00

1

10

Mayra

Solteira

Marketing

Ruim

F

19

R$ 956,00

1

11

Cristina

Solteira

Administração

Boa

F

18

R$ 1.350,00

0

12

Walter

Casado

Direito

Péssima

M

30

R$ 4.560,00

2

13

Leonardo

Solteiro

Jornalismo

Boa

M

34

R$ 5.892,00

3

14

Guilherme

Divorciado

Engenharia

Regular

M

29

R$ 7.652,00

5

15

Paula

Solteira

Administração

Ruim

F

20

R$ 1.950,00

5

21
21

Unidade I

Unidade I   16 Danilo Solteiro Marketing Boa M 20 R$ 1.386,00 2   17 Camila
 

16 Danilo

Solteiro

Marketing

Boa

M

20

R$ 1.386,00

2

 

17 Camila

Solteira

Administração

Ótima

F

20

R$ 6.560,00

2

 

18 Pedro

Solteiro

Direito

Regular

M

18

R$ 4.325,00

2

 

19 Vinicius

Casado

Administração

Péssima

M

26

R$ 1.956,00

1

 

20 José

Solteiro

Engenharia

Boa

M

24

R$ 2.654,00

3

 

21 Carlos

Solteiro

Administração

Ótima

M

23

R$ 1.965,00

0

 

22 Vanessa

Solteira

Administração

Ruim

F

22

R$ 3.654,00

0

 

23 Samanta

Casada

Jornalismo

Boa

F

21

R$ 2.987,00

0

 

24 Mauro

Casado

Administração

Regular

M

29

R$ 3.652,00

0

 

25 Mariana

Solteira

Engenharia

Ruim

F

23

R$ 1.978,00

0

 

26 Juliana

Casada

Administração

Boa

F

24

R$ 5.478,00

1

 

27 Arnaldo

Solteiro

Marketing

Regular

M

26

R$ 6.352,00

4

 

28 Marília

Solteira

Administração

Péssima

F

24

R$ 4.231,00

2

 

29 Neiva

Solteira

Administração

Boa

F

27

R$ 1.289,00

3

 

30 Roberto

Solteiro

Direito

Regular

M

23

R$ 2.987,00

4

 

31 Wilson

Divorciado

Administração

Ótima

M

28

R$ 3.645,00

5

 

32 Manoel

Casado

Direito

Regular

M

22

R$ 9.564,00

3

 

33 Marina

Solteira

Engenharia

Boa

F

21

R$ 6.523,00

4

 

34 Gustavo

Solteiro

Direito

Ruim

M

19

R$ 4.235,00

1

 

35 Maicon

Solteiro

Administração

Ótima

M

18

R$ 5.634,00

0

 

36 Ladyjane

Casada

Administração

Péssima

F

34

R$ 1.965,00

0

 

37 Maria

Solteira

Direito

Boa

F

36

R$ 1.932,00

1

 

38 Gabriel

Solteiro

Administração

Regular

M

27

R$ 1.002,00

0

 

39 Karina

Solteira

Jornalismo

Ótima

F

20

R$ 2.342,00

1

 

40 Diego

Solteiro

Direito

Ruim

M

21

R$ 2.569,00

2

 

41 Marcos

Solteiro

Engenharia

Boa

M

21

R$ 3.789,00

2

42

Valquíria

Casada

Administração

Ruim

F

29

R$ 4.675,00

3

Observe que as características arroladas na Tabela 2 são variáveis de diferentes tipos, como mostrado no quadro a seguir:

Quadro 1 – Variáveis, tipos e significados

Variável

 

Significado

Tipo de variável

Ordem

É

a sequência em que coletamos os dados.

Variável qualitativa nominal. Constitui apenas um atributo qualitativo.

Relaciona a entrevista à ordem utilizada.

Nome do aluno

O

primeiro nome de cada um dos entrevistados.

Variável qualitativa nominal. Constitui apenas um atributo qualitativo.

Estado civil

Estado civil do aluno.

Variável qualitativa nominal. Constitui apenas um atributo qualitativo.

22
22

ESTATÍSTICA

ESTATÍSTICA Curso em que está matriculado Curso ao qual o aluno pertence. Variável qualitativa nominal. Constitui

Curso em que está matriculado

Curso ao qual o aluno pertence.

Variável qualitativa nominal. Constitui apenas um atributo qualitativo.

Qualidade atribuída à instituição

Qual é qualidade do curso percebida pelo aluno.

Variável qualitativa ordinal. Constitui apenas um atributo qualitativo que mostra intensidade.

Sexo

M significa masculino; F significa feminino.

Variável qualitativa nominal. Constitui apenas um atributo qualitativo.

Idade

Quantos anos cada aluno tem.

Variável quantitativa contínua. Apesar de ser dada em anos, permitiria que fosse medida em valores fracionários (meses, dias, até horas).

Renda familiar

Qual é a renda da família nuclear do aluno.

Variável quantitativa continua. Medida em valores fracionários

Número de DPs

Quantas dependências o aluno tem para cursar.

Variável quantitativa discreta. Os valores são obrigatoriamente inteiros. Não existe “meia DP”.

A Tabela 2 relaciona uma grande quantidade de dados que dificilmente poderão ser entendidos se não forem agrupados, organizados, resumidos e apresentados de modo minimamente atraente.

As maneiras mais comuns de trabalharmos esses dados são o assunto do nosso próximo tópico.

3 REPRESENTAÇÃO DOS DADOS COLETADOS

Os dados brutos trazem toda a informação necessária para entendermos estatisticamente um determinado assunto, mas, como o próprio nome indica, a ausência de algum refinamento faz que não seja possível chegarmos a conclusões de qualidade. Para permitir essas conclusões e mesmo o entendimento das informações, devemos representar esses dados de uma forma mais imediata, seja analiticamente, por meio de quadros e tabelas, seja graficamente, aproveitando‑nos do impacto visual que os gráficos causam. Faremos isso com uma sequência de definições e procedimentos objetos deste tópico.

Saiba mais No Brasil, os dados necessários para relacionarmos populações e amostras são normalmente obtidos

Saiba mais

No Brasil, os dados necessários para relacionarmos populações e amostras são normalmente obtidos no Instituto Brasileiro de Geografia e Estatística (IBGE), cujo site é: <www.ibge.gov.br>. Experimente consultá‑lo.

3.1 Conceito de frequência

Trata‑se do número de vezes em que determinado valor (ou faixa de valores) se repete na amostra. Inicialmente, podemos citar:

• Frequênciasimples(f i ):éonúmerodevezesemquedeterminadovaloraparece, contadodiretamente.

O símbolo mencionado significa a frequência do iésimo valor, ou seja, de um determinado valor

que será numerado em sequência. Desse modo, o primeiro valor terá a frequência f 1 , o segundo,

a frequência f 2 e assim por diante. Essa notação do iésimo termo será utilizada em todas as

23
23

Unidade I

Unidade I definições posteriores. A somatória de todas as frequências gerará a frequência total (f t

definições posteriores. A somatória de todas as frequências gerará a frequência total (f t ), que corresponderá, evidentemente, ao número total de elementos da amostra (N). A fórmula matemática envolvendo essas definições é:

f

t

f

r

i

=

n

i

f ouN =

i =

1

n

=

i

1

f

i

Frequência relativa (f ri ): é a frequência simples dividida pela frequência total, ou seja, é o “peso” que cada valor tem na amostra total. Pode ser apresentada em valor decimal ou em valor percentual. A somatória das frequências relativas de todos os valores é igual a 1 ou 100%.

=

f

i

f

i

f

t

%

f

t

ou f

r i

=

× 100

Com essas duas definições, podemos começar a agrupar os dados coletados em tabelas mais resumidas; são as chamadas tabelas ou distribuições de frequências.

3.2 Distribuições ou tabelas de frequências

Trata‑se de um quadro que resume os valores da variável estudada na amostra, mediante o relacionamento do valor com sua frequência. Pode assumir dois formatos diferentes, conforme descrevemos a seguir.

3.2.1 Dados isolados ou dados não agrupados em classes

Esse formato é utilizado quando estamos trabalhando com variáveis qualitativas ou com variáveis quantitativas discretas. Os valores dos dados são tomados como foram colhidos, sem nenhum tipo de agrupamento, relacionados à sua frequência. Já que os valores são exatamente como foram colhidos, não há perda de precisão. O inconveniente é que pode ser gerada uma tabela de frequências com muitos dados, o que dificulta o tratamento estatístico. A Tabela 3 mostra alguns exemplos de distribuições de frequências desse tipo, produzidas a partir dos dados brutos constantes da Tabela 2. Essa tabela foi construída unicamente pela contagem e pelo relacionamento dos dados coletados. Assim, por exemplo, na tabela de frequências de estados civis os valores possíveis encontrados na Tabela 2 são: casados, divorciados e solteiros. Estes foram mostrados na tabela apenas em ordem alfabética. A frequência simples foi obtida pela simples contagem dos componentes de cada uma das categorias. A frequência total é a soma das frequências simples, e as frequências relativas, a divisão das frequências simples pela frequência total. Assim, existem 11 alunos casados num total de 42 alunos, o que significa uma frequência relativa de:

f

r i

=

f 0 262

i =

11

=

ou f

=

f

i

×

100

=

11

f

t

42

,

r i

%

f

t

 

42

×

100

=

26,2%

Raciocínio semelhante foi feito para as demais variáveis qualitativas e quantitativas discretas, como se vê na tabela que segue.

24
24

ESTATÍSTICA

ESTATÍSTICA Tabela 3 – Distribuição de frequências – Dados não agrupados   Distribuição de frequências

Tabela 3 – Distribuição de frequências – Dados não agrupados

 

Distribuição de frequências – Estados civis

 

Estado civil

Frequência simples

Frequências relativas

Decimal

Percentual

x

i

f

i

f

ri

f

ri%

Casados

11

0,262

26,2%

Divorciados

3

0,071

7,1%

Solteiros

28

0,667

66,7%

Total f t

42

1,000

100,0%

 

Distribuição de frequências – Cursos com matriculados

 

Cursos com matriculados

Frequência simples

Frequências relativas

Decimal

Percentual

x

i

f

i

f

ri

f

ri%

Administração

17

0,405

40,5%

Direito

9

0,214

21,4%

Engenharia

8

0,190

19,0%

Jornalismo

4

0,095

9,5%

Marketing

4

0,095

9,5%

Total f t

42

1,000

100,0%

 

Distribuição de frequências – Número de dependências

 

Número de dependências

Frequência simples

Frequências relativas

Decimal

Percentual

x

i

f

i

f

ri

f

ri%

0

12

0,286

28,6%

1

7

0,167

16,7%

2

9

0,214

21,4%

3

5

0,119

11,9%

4

4

0,095

9,5%

5

3

0,071

7,1%

6

1

0,024

2,4%

8

1

0,024

2,4%

Total f t

42

1,000

100,0%

 

Distribuição de frequências – Sexo

 

Sexo

Frequência simples

Frequências relativas

Decimal

Percentual

x

i

f

i

f

ri

f

ri%

Masculino

24

0,571

57,1%

Feminino

18

0,429

42,9%

Total f t

42

1,000

100,0%

 

Agrupamento dos dados brutos relacionados na Tabela 2

 
25
25

Unidade I

Unidade I Exemplo de aplicação 3 (ENADE 2006 – Adaptado). A tabela a seguir mostra como
Exemplo de aplicação
Exemplo de aplicação

3 (ENADE 2006 – Adaptado). A tabela a seguir mostra como se distribui o tipo de ocupação dos jovens de 16 a 24 anos que trabalham em cinco regiões metropolitanas e no Distrito Federal.

Tabela 4 – Distribuição dos jovens ocupados, de 16 a 24 anos, segundo posição na ocupação – Regiões metropolitanas e Distrito Federal – 2005 (em porcentagem)

   

Assalariados

   

Autônomos

   

Regiões

   

Setor privado

Setor

     

metropolitanas

público

Trabalha

Trabalha

Empregado

Outros

e Distrito

Federal

Total

 

Com

Sem

 

Total

para o

para

doméstico

Total

carteira

carteira

público

empresas

 

assinada

assinada

Belo Horizonte

79,0

72,9

53,2

19,7

6,1

12,5

7,9

4,6

7,4

(1)

Distrito Federal

80,0

69,8

49,0

20,8

10,2

9,8

5,2

4,6

7,1

(1)

Porto Alegre

86,0

78,0

58,4

19,6

8,0

7,7

4,5

3,2

3,0

(1)

Recife

69,8

61,2

36,9

24,3

8,6

17,5

8,4

9,1

7,1

(1)

Salvador

71,6

64,5

39,8

24,7

7,1

18,6

14,3

4,3

7,2

(1)

São Paulo

80,4

76,9

49,3

27,6

3,5

11,3

4,0

7,4

5,3

(1)

Nota: (1) A amostra não comporta a desagregação para esta categoria.

Fonte: Convênio DIEESE/Seade, TEM/FAT e convênios regionais. PED – Pesquisa de Emprego e Desemprego. Elaboração: DIEESE.

Dessas regiões estudadas, afirma‑se que:

I – A região metropolitana que apresenta maior percentual de jovens sem carteira assinada é a de Recife.

II – A região metropolitana que apresenta menor percentual de jovens no setor público é a de São Paulo.

III – Salvador é a região metropolitana em que existe a maior relação de autônomos sobre assalariados.

IV – A maior quantidade percentual de jovens assalariados ocorre na região metropolitana de Porto Alegre.

Escolha entre as alternativas a seguir aquela que contém afirmativas incorretas:

26
26

A) I; II.

B) I; III.

C) I; IV.

ESTATÍSTICA

ESTATÍSTICA D) E) Todas as afirmativas contêm erros. Todas as afirmativas estão corretas. 3.2.2 Dados agrupados
D) E)
D)
E)

Todas as afirmativas contêm erros.

ESTATÍSTICA D) E) Todas as afirmativas contêm erros. Todas as afirmativas estão corretas. 3.2.2 Dados agrupados

Todas as afirmativas estão corretas.

3.2.2 Dados agrupados em classes

Esse formato é o indicado quando trabalhamos com variáveis quantitativas contínuas. Neste caso, os valores são agrupados por classes, o que reduz a quantidade de informações trabalhadas, mas provoca, consequentemente, uma perda de precisão.

A construção dessa tabela é mais trabalhosa que a anterior e se justifica pelo fato de que apresenta

os dados de modo mais resumido. Caso não a utilizássemos, iríamos produzir uma tabela de frequências muito extensa, com excesso de valores diferentes, cada um deles com baixa frequência. Para construí‑la, necessitamos definir alguns conceitos e tomar algumas decisões.

A primeira providência é escolher o número de classes (n) em que iremos agrupar os dados. Devemos

notar que, se utilizarmos muitas classes, aumentaremos o trabalho no tratamento dos dados; se utilizarmos poucas, prejudicaremos a precisão das conclusões. Existem muitas recomendações diferentes

para a adoção do número de classes; adotaremos a relação de Sturges:

n = 1 + 3,33 log N

Onde n é o número de classes recomendado e N é o número de total de elementos da nossa amostra. Lembre‑se de que:

N =

f t

Na Tabela 1, temos uma amostra de 42 alunos; portanto, caso queiramos montar a tabela de frequências das rendas familiares deles (que é uma variável quantitativa contínua), deveremos usar sete classes:

n = 1 + 3,33 log 42 n = 1 + 3,33 × 1,62 n = 6,4

Observaçãon = 1 + 3,33 log 42 ⇒ n = 1 + 3,33 × 1,62 ⇒

Como não podemos usar 6,4 classes, optamos pelo valor inteiro mais próximo, acima ou abaixo. Nesse caso, decidimos usar sete classes porque, assim, teremos mais precisão do que com seis.

Lembreteporque, assim, teremos mais precisão do que com seis. Ao consultar obras sobre Estatística, você verá

Ao consultar obras sobre Estatística, você verá que a relação de Sturges é frequentemente substituída por outra recomendação. Como não existe

27
27

Unidade I

Unidade I uma razão matemática objetiva para esse cálculo, qualquer recomendação pode ser utilizada. Essas sete

uma razão matemática objetiva para esse cálculo, qualquer recomendação pode ser utilizada.

Essas sete classes devem abranger todos os valores do rol que está sendo estudado, desde o menor

até o maior; assim, devemos determinar esses valores, que são chamados, respectivamente, de limite

mínimo da distribuição (L min ) e limite máximo da distribuição (L max ).

Em tese, o valor do limite inferior da distribuição coincide com o valor inicial da primeira classe da tabela – esses valores iniciais de cada classe são chamados de limites inferiores de classe (li i ) –, e o limite superior da distribuição coincide com o valor final da última classe da distribuição – esses valores finais de cada classe são chamados de limites superiores de classe (ls i ). Na prática, pode ser necessário algum ajuste desses últimos dois valores para podermos trabalhar com dados arredondados.

Entre o limite superior e o limite inferior de cada classe, existe um intervalo chamado de intervalo

de classe (h). Este deve ser determinado a partir da amplitude total (At), que é a diferença entre o maior

e o menor valor do rol e do número de classes, mediante as seguintes fórmulas:

h =

A

t

A

t

n

=

L

max

L

min

Desse modo, o limite superior de cada classe será o valor inferior dela mesma mais a amplitude de classe, ou seja:

ls

i

li

= +

i

h

Observemos os 42 valores relacionados na Tabela 2, na coluna Renda Familiar. Iremos agrupá‑los em SETE classes, conforme os passos a seguir.

Podemos determinar o intervalo (ou a amplitude) de classes, desde que tenhamos a amplitude total; para tanto, precisamos determinar os valores máximos e mínimos da distribuição, que, no nosso exemplo, são, respectivamente:

28
28

L

L

max =

min =

R

$10.567,00

R

$956,00

Logo, a amplitude total será:

A

t

=

L

max

L

min

=>

A

t

= 10567 956 =>

A

t

=

R

$9.611,00

ESTATÍSTICA

ESTATÍSTICA Consequentemente, a amplitude de cada classe será: h = A 9611 t => = h

Consequentemente, a amplitude de cada classe será:

h =

A 9611 t => = h => = h R $1.373,00 n 7 Observação
A
9611
t
=> =
h
=> =
h
R $1.373,00
n 7
Observação

Nesse exemplo, a amplitude de classe é um valor exato dentro da quantidade de casas decimais utilizadas; se isso não ocorresse, seria necessário ajustar a amplitude total de modo que a amplitude de classe assumisse um valor exato. Assim, o limite superior da distribuição, o limite inferior ou ambos deveriam ser alterados para corresponderem à nova amplitude total, quando da montagem da tabela de frequências.

Definidos o número de classes e a amplitude de classe, podemos montar a tabela de frequências. O limite inferior da primeira classe coincide com o limite inferior da distribuição, e o limite da sétima (e última classe) coincide com o limite superior da distribuição (ressalvando o exposto no rodapé).

Os demais limites superiores de classe são obtidos somando‑se o limite inferior da classe com a amplitude da classe. O limite inferior de uma classe tem o mesmo valor do limite superior da classe inferior. Assim, o limite superior da primeira classe é dado por:

ls

1

=

956 + 1373 =>

ls

1

= 2329

Já o limite inferior da segunda classe é dado por:

li

2

=

ls

1

=>

li

2

= 2329

Devemos definir também qual dos limites será aberto e qual será fechado, de modo que não haja possibilidade de algum valor ficar sem sua classe perfeitamente definida.

Entende‑se por limite fechado aquele que inclui o valor nominal, e por limite aberto aquele que não o inclui. Uma barra vertical indica o limite fechado, e sua ausência, o limite aberto. A simbologia para um e para outro é a seguinte:

|‑‑‑‑‑‑‑ limite fechado (à esquerda)

‑‑‑‑‑‑‑ limite aberto (tanto à direita quanto à esquerda)

Na Tabela 3, a primeira classe é limitada pelos valores 956 e 2329, sendo o valor 956 um limite fechado, e 2329, aberto. Isso quer dizer que o valor 956 está incluído nessa classe, e o 2329, na classe seguinte.

29
29

Unidade I

Unidade I Podemos fixar de modo arbitrário os limites aberto ou fechado, desde que para cada

Podemos fixar de modo arbitrário os limites aberto ou fechado, desde que para cada valor exista uma e apenas uma classe possível.

Definidas as classes, procedemos à contagem dos elementos abrangidos por cada uma delas. O número de elementos encontrados em cada uma é a já definida frequência simples.

Tabela 5 – Distribuições de frequências – Dados agrupados

 

Renda familiar

 

Classe

Limites de classes em R$

Contagem

Frequência simples

Frequências relativas

Decimal

Percentual

1 956

 

|‑‑‑‑‑

2329

IIIII IIIII III

13

0,310

31,0%

2 2329

 

|‑‑‑‑‑

3702

IIIII IIIII I

11

0,262

26,2%

3 3702

 

|‑‑‑‑‑

5075

IIIII III

8

0,190

19,0%

4 5075

 

|‑‑‑‑‑

6448

IIII

4

0,095

9,5%

5 6448

 

|‑‑‑‑‑

7821

II

2

0,048

4,8%

6 7821

 

|‑‑‑‑‑

9194

I

1

0,024

2,4%

7 9194

 

|‑‑‑‑‑

10567

III

3

0,071

7,1%

Total f t

 

42

1,000

100,0%

Transformamos 42 informações em 7, o que nos poupará muito tempo e custo nos estudos estatísticos, além de nos permitir uma melhor visualização dos dados.

Exercício de aplicação
Exercício de aplicação

4. Uma empresa relacionou, na tabela que segue, uma amostra dos valores líquidos pagos a quarenta de seus funcionários:

Tabela 6 – Salários dos trabalhadores da amostra

971

656

591

794

697

1.320

682

931

531

1.866

921

656

818

1.192

776

863

728

603

858

1.306

526

855

455

917

510

500

1.337

493

1.221

762

1.273

657

1.261

461

1.012

412

639

602

645

784

Baseando‑se nesses dados, fizeram‑se as seguintes afirmações:

I – O limite máximo da distribuição é R$ 1.866,00.

30
30

ESTATÍSTICA

ESTATÍSTICA II – A amplitude da distribuição é R$ 1.544,00. III – O limite mínimo da

II – A amplitude da distribuição é R$ 1.544,00.

III – O limite mínimo da distribuição é R$ 412,00.

IV – Considerando que esses valores sejam distribuídos em cinco classes, a amplitude de classe seria de R$ 380,80.

Analisando essas afirmativas, podemos dizer que:

A) Todas as afirmativas estão incorretas.

B) Existe uma afirmativa correta.

C) Existem duas afirmativas corretas.

D) E)
D)
E)

Existem três afirmativas corretas.

corretas. D) E) Existem três afirmativas corretas. Todas as afirmativas estão corretas. 3.3 Frequências

Todas as afirmativas estão corretas.

3.3 Frequências acumuladas

Voltando aos dados da Tabela 2, poderiam surgir questões como:

• Quantos alunos têm idade superior a 23 anos?

• Quantos alunos têm renda familiar acima de R$ 5.000,00?

• Quantos alunos acham que a faculdade é acima de regular?

Essas questões são respondidas com as chamadas frequências acumuladas, que podem ser crescentes

e decrescentes.

Assim, podemos conceituar e calcular as frequências acumuladas acima de (ou decrescentes) e as frequências acumuladas abaixo de (ou crescentes), respectivamente.

As frequências acumuladas acima de (ou decrescentes) correspondem à quantidade total de elementos que existem na amostra acima de dado valor. No caso de dados agrupados, a frequência acumulada acima de determinada classe é a somatória das frequências posteriores, incluindo a da

própria classe. Desse modo, a frequência acumulada acima da primeira classe é a frequência total,

a da segunda classe é a frequência total menos a frequência da primeira classe e assim por diante.

A frequência acumulada acima da última classe é a frequência simples da própria classe.

31
31

Unidade I

Unidade I Raciocínio oposto se faz para a frequência acumulada abaixo de (ou frequência crescente). Nesse

Raciocínio oposto se faz para a frequência acumulada abaixo de (ou frequência crescente). Nesse caso, a frequência acumulada abaixo de uma classe (ou valor) é a somatória da quantidade de elementos de menor valor, incluído a frequência da própria classe. Assim, a frequência acumulada abaixo da primeira classe é a frequência dela mesma, a da segunda é a soma das frequências da primeira e da segunda classe e assim por diante. A frequência acumulada abaixo da última classe é a frequência total.

A Tabela 6 apresenta os cálculos feitos para a variável Quantidade de Dependências, e a Tabela 7, para a variável Idades, sempre a partir dos dados da Tabela 2.

Tabela 7 – Distribuição de frequências – Dados isolados – Número de dependências

 

Frequência

Frequências relativas

Frequências acumuladas

Número de

dependências

     

Acima de

Abaixo de

simples

Decimal

Percentual

 

ou

 

ou

 

decrescente

crescente

x

i

f

i

f

ri

f

ri%

f

ac

x i f i f ri f ri% f ac f ac

f

ac

x i f i f ri f ri% f ac f ac

0

12

0,286

28,6%

 

12

 

42

1

7

0,167

16,7%

 

19

 

30

2

9

0,214

21,4%

 

28

 

23

3

5

0,119

11,9%

 

33

 

14

4

4

0,095

9,5%

 

37

 

9

5

3

0,071

7,1%

 

40

 

5

6

1

0,024

2,4%

 

41

 

2

8

1

0,024

2,4%

 

42

 

1

Total f t

42

1,000

100,0%

   

Tabela 8 – Distribuição de frequências – Dados agrupados – Idades

 

Limites de classes

Frequência

Frequências relativas

Frequências acumuladas

Classe

número

       

Acima de

Abaixo de

 

em anos

simples

Decimal

Percentual

 

ou

 

ou

   

decrescente

crescente

 

li

 

ls

f

i

f

ri

f

ri%

f

ac

  li   ls f i f ri f ri% f ac f ac

f

ac

  li   ls f i f ri f ri% f ac f ac
 

1 18

|‑‑‑‑‑

21

13

0,310

31,0%

 

13

 

42

2 21

 

|‑‑‑‑‑

24

11

0,262

26,2%

 

24

 

29

 

3 24

|‑‑‑‑‑

27

6

0,143

14,3%

 

30

 

18

4 27

 

|‑‑‑‑‑

30

8

0,190

19,0%

 

38

 

12

 

5 30

|‑‑‑‑‑

33

1

0,024

2,4%

 

39

 

4

6 33

 

|‑‑‑‑‑

36

3

0,071

7,1%

 

42

 

3

Total f t

     

42

1,000

100,0%

   
32
32

ESTATÍSTICA

ESTATÍSTICA Observação Podemos definir as frequências relativas acumuladas seguindo os mesmos princípios descritos
ESTATÍSTICA Observação Podemos definir as frequências relativas acumuladas seguindo os mesmos princípios descritos

Observação

Podemos definir as frequências relativas acumuladas seguindo os mesmos princípios descritos anteriormente, mas tomando como ponto de partida a frequência relativa, e não a frequência simples. O conceito de ambas é idêntico.

Exemplo de aplicação
Exemplo de aplicação

5. A tabela a seguir relaciona a idade (em anos) de alunos de uma classe de calouros de uma universidade:

Tabela 9

Idades (anos)

Número de alunos

 

17 4

 

18 8

 

19 38

 

20 47

 

21 45