Você está na página 1de 42
Estatística
Estatística
Estatística
Professor conteudista: Maurício Martins do Fanno

Professor conteudista: Maurício Martins do Fanno

Professor conteudista: Maurício Martins do Fanno
Professor conteudista: Maurício Martins do Fanno
Sumário   Estatística Unidade I 1 COLETA DE DADOS 7 1.1 Dados e variáveis estatísticas

Sumário

 

Estatística

Unidade I

1 COLETA DE DADOS

7

1.1 Dados e variáveis estatísticas

7

1.2 Classificações das variáveis

10

1.3 Amostragem

11

1.4 Processos estatísticos

15

1.5 Coletas de dados

16

2 REPRESENTAÇÃO DOS DADOS COLETADOS

19

2.1 Conceito de frequência

19

2.2 Distribuições ou tabelas de frequências

20

2.2.1 Dados isolados ou dados não agrupados em classes

20

2.2.2 Dados agrupados em classes

21

2.3 Frequências acumuladas

26

2.4 Representações gráficas

28

2.4.1

Histogramas

28

2.4.2

Gráfico de colunas

30

2.4.3

Gráfico de barras

31

2.4.4

Diagrama de ogiva

32

2.4.5

Setorgrama

34

2.4.6

Gráficos de dispersão

36

Unidade II

3 MEDIDAS OU PARÂMETROS ESTATÍSTICOS

39

3.1 Média

40

3.2 Mediana

43

3.3 Moda

49

4 MEDIDAS DE DISPERSÃO

55

4.1 Medidas de dispersão absolutas

55

4.1.1 Amplitude total

55

4.1.2 Desvio médio

56

4.1.3 Variância

59

4.1.4 Desvio padrão

60

4.2 Medidas de dispersão relativas

66

4.3 Relações gráficas entre as medidas estatísticas

68

4.3.1 Assimetria

70

4.3.2 Curtose

71

ESTATÍSTICA

ESTATÍSTICA Unidade I Apresentação da disciplina Prezado aluno, Este texto foi produzido para apresentar os principais
ESTATÍSTICA Unidade I Apresentação da disciplina Prezado aluno, Este texto foi produzido para apresentar os principais
Unidade I

Unidade I

Unidade I
Unidade I
Unidade I
Unidade I
Unidade I
Unidade I

Apresentação da disciplina

Prezado aluno,

Este texto foi produzido para apresentar os principais conceitos de estatística da maneira mais aproximada da prática administrativa possível, evitando-se, portanto, aprofundamento

5

desnecessário na área de cálculo. É necessária, no entanto, uma base matemática já adquirida em disciplinas anteriores. Na medida do possível, procurou-se rever os conceitos matemáticos necessários.

O estudo da estatística, como de todas as ciências exatas,

10

obriga à repetição, o maior número de vezes possível, de exercícios de fixação. No presente material, os cálculos definidos são mostrados uma única vez, como exemplo, mas o aluno deve se lembrar de que terá à disposição nos materiais complementares uma grande quantidade de exercícios e problemas e que o

15

aprendizado somente será garantido caso eles sejam feitos em sua totalidade.

Objetivamente, o primeiro passo do nosso caminhar é entender o que é, como se divide e são quais os objetivos da estatística, algo que faremos imediatamente.

20

Define-se estatística como o conjunto de métodos e processos destinados a permitir o entendimento de um universo submetido a certas condições de incerteza, ou seja, de não determinismo matemático. Por exemplo, o dimensionamento do diâmetro das hastes do amortecedor de um automóvel é feito

Unidade I

Unidade I por meio de cálculos matemáticos de elevada precisão estudados num capítulo da física chamado

por meio de cálculos matemáticos de elevada precisão estudados num capítulo da física chamado de resistência de materiais.

No entanto, a vida útil deste mesmo amortecedor depende não só de seu dimensionamento, mas também de

5

uma série de condições em que impera a incerteza que pode, resumidamente, ser chamada de condições de uso. Neste último caso, entraríamos no campo da estatística. De modo mais sintético, poderíamos dizer que a estatística é a ciência que se ocupa de descrever, analisar e interpretar dados

10

experimentais.

Para entendermos melhor o processo estatístico, é necessário definir dois conceitos básicos: população e amostra. Considera-se população o conjunto formado por todos os elementos que têm em comum a característica que

15

estamos estudando. Por exemplo, se estamos pesquisando sobre o aprendizado de música, a população é formada por todas as pessoas que aprendem ou aprenderam música em algum momento.

Deve-se notar que a população estatística normalmente é

20

muito numerosa, às vezes infinita, e eventualmente formada por elementos ainda não existentes. Assim, quando queremos saber qual é a expectativa de vida de um brasileiro, estamos diante de uma população muito extensa (todos os brasileiros) e formada por elementos prováveis, visto que as pessoas que

25

estão sendo estudadas ainda não morreram.

Em razão dessas características da população, o processo estatístico começa pelo estudo de uma amostra, que é um pedaço da população. Mas um pedaço coerente com a população, ou seja, que siga todas as características da população. Assim,

30

por exemplo, se determinada população tem 62% de mulheres, as amostras tiradas dela terão que ter 62% de mulheres se o sexo for fator importante no comportamento da característica estudada.

ESTATÍSTICA

ESTATÍSTICA Uma amostra é finita e tem relativamente poucos elementos, de valores definidos. Deste modo, se

Uma amostra é finita e tem relativamente poucos elementos, de valores definidos. Deste modo, se quisermos definir a expectativa de vida de todos os brasileiros, pegaríamos uma amostra finita de poucos brasileiros já mortos. Assim, haveria

5

poucos elementos a se estudar e de valor definido (a idade em que morreram). Deve-se ressaltar que essa amostra retirada deveria reproduzir todas as condições importantes para a duração da vida da população, tais como sexo, posição socioeconômica, educação, etc.

10

Tanto os elementos das populações quanto os elementos das amostras assumem valores para a característica que estamos estudando; por exemplo, a população formada pelos seguidores religiosos pode apresentar católicos, evangélicos, espíritas, etc. Esses são alguns dos valores que a variável religião pode assumir.

15

Assim, a característica da população ou da amostra que estamos estudando pode ser expressa em termos de uma variável, que pode assumir diferentes valores. Podemos distinguir as variáveis em dois grupos:

• variáveis qualitativas: apresentam atributos como valor,

20

por exemplo, cor de cabelos, opções sexuais, times de futebol etc.;

• variáveis quantitativas: apresentam valores numéricos, tais como peso de pessoas, idade, número de defeitos na produção de uma peça, etc. Também podem ser divididas

25

em duas categorias:

- discretas: são variáveis que podem apresentar apenas valores predeterminados dentro de um conjunto, ou seja, não existirão valores intermediários. Exemplo:

números de filhos de um casal; número de defeitos

30

numa linha de produção; quantidade de ações em alta numa bolsa de valores, etc. Essas variáveis estão ligadas às contagens;

Unidade I

Unidade I - contínuas : apresentam teoricamente qualquer valor dentro de um faixa possível. Por exemplo:

- contínuas: apresentam teoricamente qualquer valor dentro de um faixa possível. Por exemplo: pesos dos estudantes desta faculdade, diâmetros dos eixos produzidos por certa máquina; índices de inflação em

5

vários períodos, etc. Essas variáveis estão ligadas às medições.

 

Deve-se notar que essa diferenciação entre variáveis discretas e contínuas pode ser tênue, em função da quantidade de elementos envolvidos e da precisão de medida. Por exemplo:

10

se medirmos o diâmetro de uma peça com paquímetro, iremos obter medidas em centésimos de milímetro, quer dizer, a medida 18,56 mm na verdade é um valor entre 18,555 e 18,564; não é possível saber, a menos que troquemos o paquímetro por um micrômetro. Assim sendo, a variável contínua diâmetro da peça

15

se comporta como discreta após a precisão de centésimos de milímetro.

A

existência dos conceitos de população e de amostra nos

conduz à diferenciação entre dois campos da estatística: a estatística descritiva e a estatística indutiva.

20

A

estatística descritiva cuida da coleta, da organização, do

resumo e da apresentação dos dados de um conjunto (no fundo, é um tratamento das variáveis estatísticas). Evidentemente, esse conjunto tem que ser finito e com elementos com valores definidos e determináveis, ou seja, uma amostra.

25

a estatística indutiva procura inferir conclusões e respaldar

decisões coerentes acerca de uma população, normalmente respaldadas em dados obtidos pela estatística descritiva de uma amostra.

Vamos supor que queiramos determinar a expectativa de

30

vida dos brasileiros. A população, evidentemente, é todos os brasileiros vivos. O que nos conduz a dois entraves: a quantidade de elementos da população é muito grande e os valores da

ESTATÍSTICA

ESTATÍSTICA variável, idade de morte, são prováveis, não reais. A maneira de se contornar isso é

variável, idade de morte, são prováveis, não reais. A maneira de se contornar isso é através de amostragem: pegamos uma amostra (segundo regras estatísticas que veremos) que represente a população brasileira, ou seja, mesma divisão por

5

sexos, classes sociais, regiões geográficas etc., e cujos elementos, já tendo morrido, permitam a coleta das idades de morte. Essa coleta, bem como todo o tratamento posterior da amostra, é feita através da estatística descritiva, e os resultados deste tratamento estatístico da amostra são estendidos à população

10

toda, através de ferramentas da estatística indutiva.

Desta forma, podemos determinar a expectativa de vida de todos os brasileiros, com algumas ressalvas:

• a indução vale

para a população como um todo

 

homogêneo; não é possível aplicá-la para um indivíduo

15

específico;

 

• a previsão é de um valor provável, portanto, sujeito a um erro estatístico, ou seja, a uma faixa de incerteza, determinada estatisticamente, em torno do resultado esperado. Esse erro depende das condições da população

20

e da amostra.

 

Note que quando falamos de um resultado obtido para uma população, falamos em valor provável, e não num valor exato. Isso nos remete ao campo da matemática que estuda a teoria das probabilidades.

25

O

estudo da teoria das probabilidades com os estudos da

estatística descritiva e da amostragem são as ferramentas necessárias para a utilização da estatística indutiva.

Neste curso de estatística, trataremos da estatística descritiva, ficando para o curso de estatística para administradores o estudo

30

de probabilidades e da estatística indutiva.

Unidade I

Unidade I O curso de estatística foi dividido em duas unidades, totalizando quatro módulos. No módulo

O curso de estatística foi dividido em duas unidades, totalizando quatro módulos. No módulo I, trataremos dos assuntos referentes à seleção e à coleta de dados, ponto de partida para qualquer estudo estatístico.

5

No módulo II, iremos verificar como esses dados coletados são inicialmente tratados através da tabulação, do resumo e da representação dessas informações, tanto do ponto de vista gráfico quanto analítico.

Os módulos III e IV (unidade II) tratam dos parâmetros ou

10

das medidas estatísticas. O primeiro, das medidas de posição, e o segundo, das medidas de dispersão.

Terminados esses assuntos, estaremos aptos a entender o comportamento estatístico de amostras e iniciarmos os estudos da indução estatística, predizendo características de populações

15

estatísticas.

Esperamos que, com esse material, você tenha a oportunidade de aprender os conceitos básicos de estatística e esteja apto para continuar os estudos nessa área quando necessário for.

Bons estudos!

20

Prof. Maurício Martins do Fanno

ESTATÍSTICA

ESTATÍSTICA ANÁLISE EXPLORATÓRIA DE DADOS 1 COLETA DE DADOS Objetivos Entende-se por estatística o conjunto de

ANÁLISE EXPLORATÓRIA DE DADOS

1 COLETA DE DADOS

Objetivos

Entende-se por estatística o conjunto de conceitos, técnicas e ferramentas destinados a organizar, descrever, analisar e interpretar dados. Dados são valores apresentados

5

por um determinado fenômeno ou observação, como, por exemplo, as alturas dos alunos de uma classe, o salário dos funcionários de um departamento, o volume de vendas de uma empresa ou a cor dos olhos das modelos de uma agência. Esses dados são coletados em estado bruto e submetidos a

10

sucessivos tratamentos no sentido de organizá-los, resumi-los e analisá-los. Neste primeiro momento, iremos nos ater à coleta e à organização dos dados.

1.1 Dados e variáveis estatísticas

Entendemos como conjunto de dados o objeto de trabalho da estatística. Esses dados são valores assumidos pelos

15

elementos de um conjunto de indivíduos que apresentam em comum uma característica estudada. Caso você olhe à sua volta na empresa em que trabalha, verá uma grande quantidade de indivíduos, todos eles dotados de infinitas características, tais como cor dos olhos e cabelos, altura e peso, salário e

20

idade, time de futebol do coração ou religião. Dessas infinitas características, estaremos atentos a uma delas, objeto do nosso estudo estatístico.

Digamos que estamos, no momento, desejando entender como se comporta a remuneração dos funcionários dessa

25

sua empresa. Iremos então coletar dados relativos a essa remuneração, ou seja, os salários. Salário, portanto, será a característica que estamos estudando e que poderá assumir um determinado valor dentro de uma faixa lógica.

Unidade I

Unidade I Dizemos, assim, que nesse referido estudo salário é a variável estudada. Perceba que todos

Dizemos, assim, que nesse referido estudo salário é a variável estudada. Perceba que todos os funcionários da empresa têm uma série de outras características, mas a característica que nos interessa é o salário. As outras poderão

5

ter importância para nós, mas não será nossa variável de estudo. Coletar dados é obter os diversos valores que a variável estudada assume.

Outro fator importante de ser observado é a quantidade de elementos com que temos condição de trabalhar e a

10

possibilidade ou não de se medir seu valor. Dependendo dessas duas observações, deveremos utilizar ferramentas diferentes de organização e análise dos dados. Observe os seguintes exemplos, para tornarmos mais claro o raciocínio:

a. desejamos saber se os chefes de família das casas da

15

rua em que moramos são mais ou menos altos em relação ao conjunto de brasileiros de modo geral. A primeira providência a se tomar seria medir todos os chefes de família, para obter os valores da variável estudada (altura). Perceba que, a não ser que moremos

20

numa rua muito extensa, o processo de coleta de dados não será tão trabalhoso assim, principalmente pelo fato de que todos saberão responder a altura que têm. No entanto, caso,

b. desejarmos saber se os chefes de família de todas as

25

casas de nossa cidade são mais ou menos altos em relação aos brasileiros, passaremos a ter um primeiro inconveniente: a quantidade de elementos que deverão ser medidos. Mesmo que moremos numa cidade pequena, a quantidade de dados a serem coletados

30

pode atingir facilmente a casa dos milhares. Perceba que o trabalho que teremos em levantar esses dados possivelmente não será compensado pela informação obtida. Por outro lado, imagine a seguinte situação, em que

ESTATÍSTICA

ESTATÍSTICA c. desejamos saber se as crianças da nossa rua serão mais ou menos altas em

c. desejamos saber se as crianças da nossa rua serão mais ou menos altas em relação aos brasileiros quando crescerem. Nesse caso, a quantidade de crianças não deve ser tão grande, mas, em compensação, não teremos

5

como medi-las no dia de hoje; elas ainda estão crescendo, portanto, a altura delas quando adultas não é um valor definido, e sim provável.

Perceba, pelos exemplos acima, que, dependendo da situação, teremos dificuldades (ou facilidades) diferentes. Em estatística,

10

costuma-se dividir as situações descritas em dois grandes campos: amostra e população.

Amostra é um conjunto que tem relativamente poucos elementos, e o valor da variável estudada para esses elementos é real e verificável. É o caso do item a acima. População é o

15

conjunto que tem relativamente muitos elementos e/ou cujos valores da variável estudada não são reais e verificáveis, casos dos itens b e c acima.

Observe que, para configurarmos uma amostra, é necessário que a quantidade de elementos seja pequena e o valor seja real;

20

em casos contrários, estaremos configurando uma população. Note também que é evidente o fato de que situações envolvendo amostras terão tratamentos diferentes daquelas envolvendo populações.

É importante também notar que, quando falamos em

25

quantidades grandes ou pequenas, estamos relativizando-as, ou seja, trabalhar com mil elementos pode ser uma grande quantidade ou uma pequena quantidade, depende dos recursos (monetários, de tempo, de espaço etc.) disponíveis.

Exemplificando: suponha que queiramos levantar as

30

idades de todos os alunos que estão cursando estatística neste semestre. Caso nós tenhamos ao nosso dispor os cadastros dos alunos no sistema de informação da instituição,

Unidade I

Unidade I a quantidade de alunos será relativamente pequena, pois temos recursos suficientes, mas, se tivermos

a quantidade de alunos será relativamente pequena, pois

temos recursos suficientes, mas, se tivermos que consultar um por um dos alunos, a quantidade será relativamente grande, pois não teremos recursos para tanto.

5

De modo geral, podemos dizer que informações envolvendo amostras são obtidas através da estatística descritiva, enquanto aquelas envolvendo populações, através da estatística indutiva, e que, para conhecermos o comportamento estatístico das populações, retiramos delas

10

amostras para estudo.

1.2 Classificações das variáveis

Vimos anteriormente que entendemos por variável a característica envolvida em nosso estudo estatístico. Essa variável pode se apresentar de vários tipos diferentes, os quais determinarão os estudos estatísticos possíveis.

15

Algumas variáveis expressam atributos ou qualidades dos indivíduos como, por exemplo, religião, sexo, estado civil etc. São as chamadas variáveis qualitativas. Outras variáveis apresentam como resultados possíveis valores numéricos; por exemplo, o número de filhos, a altura, salário, idade etc. São as

20

chamadas variáveis quantitativas.

 

As variáveis qualitativas podem ser divididas, por sua

 

vez, em duas categorias: variáveis qualitativas nominais, quando não é possível fazer qualquer tipo de ordenação, e variáveis qualitativas ordinais, quando alguma ordenação

25

é

possível. Podemos citar como exemplo a pergunta: “Você

pratica esportes?”. Há duas respostas possíveis: sim e não. Trata-se, portanto, de uma variável qualitativa nominal. Caso a pergunta fosse: “Com que intensidade você pratica esportes?”, a resposta poderia ser: nenhuma, pequena, média

30

ou grande. Estaríamos tratando de uma variável qualitativa ordinal.

ESTATÍSTICA

ESTATÍSTICA As variáveis quantitativas, por seu lado, também podem apresentar duas categorias: as variáveis

As variáveis quantitativas, por seu lado, também podem

apresentar duas categorias: as variáveis quantitativas discretas são aquelas em que os resultados formam um conjunto finito e previsível de números, enquanto que

5

as variáveis quantitativas contínuas apresentam como resultados todos os valores numéricos dentro de um intervalo de números reais. A pergunta “Quantos irmãos você tem?” produz uma variável quantitativa discreta

(0,1,2,3,

irmãos). Já a pergunta “Quanto você pesa?” gera

10

uma variável quantitativa contínua (qualquer valor dentro de uma faixa lógica para um ser humano). Para simplificar,

costumamos dizer que, quando contamos, estamos diante de uma variável quantitativa discreta e, quando medimos, estamos diante de uma variável quantitativa contínua.

15

Perceba que eu conto o número de irmãos que tenho e meço o meu peso numa balança.

É importante observar que os estudos estatísticos apresentam quantidade de informação diferente para cada tipo de variável na seguinte sequência crescente: variáveis

20

qualitativas nominais; variáveis qualitativas ordinais; variáveis quantitativas discretas e variáveis quantitativas contínuas.

1.3 Amostragem

Falamos anteriormente que amostra e populações são tratadas de maneira diversa na estatística e também que

25

os elementos de um conjunto de indivíduos têm inúmeras características, uma das quais está sendo estudada e é chamada de variável. Falta falarmos das demais características desses elementos e de algumas relações entre as populações e amostras.

30

Frequentemente, quando desejamos saber algo a respeito de uma população, utilizamos uma amostra como campo de estudo do fenômeno e expandimos (extrapolamos) as

Unidade I

Unidade I conclusões para a população. A situação mais conhecida e mais didática que podemos usar

conclusões para a população. A situação mais conhecida e mais didática que podemos usar são as pesquisas eleitorais. Meses ou dias antes de uma eleição, desejamos saber (antever ou prever ou predizer) o resultado dessa eleição. Isso é possível

5

com certa margem de erro através de um processo conhecido como amostragem.

Esse processo de amostragem inicia-se a partir do planejamento da amostra, que deve reproduzir em pequena escala todas as características da população. A ideia é a mesma

10

do enólogo (aquele que prova vinhos): ele não precisa beber

uma garrafa inteira de vinho (ou um tonel) para dizer se o vinho

é

bom ou ruim; basta uma pequena dose, a amostra. Ocorre

que o vinho é uma substância totalmente homogênea, todas as partes dele são idênticas. Já se fosse uma feijoada, não teríamos

15

a mesma homogeneidade. A feijoada é heterogênea.

Isso significa que não podemos usar o mesmo princípio de amostragem do vinho para a feijoada? Não. Podemos usar sim, mas com alguns cuidados! Na amostra de feijoada que iremos provar, é necessário que todas as suas

20

partes sejam representadas, ou seja, precisamos pegar um prato em que estejam representados todos os pertences da feijoada (linguiças, paio, toucinho etc.). Note que é mais fácil definir a qualidade do vinho do que de uma feijoada, ou seja, termos maior margem de erro no teste

25

da feijoada que do vinho. Por quê? Justamente devido à heterogeneidade da feijoada. Anote isso; voltaremos a esse assunto oportunamente.

No caso da pesquisa eleitoral, a situação é a mesma da feijoada. A população eleitoral (todos os eleitores inscritos em determinada região eleitoral) é heterogênea, logo, a amostra retirada deverá representar essa heterogeneidade naquilo que

30

é

importante para a definição do voto. Vamos exemplificar

numericamente. Suponha que os dados do quadro a seguir representam algumas das características da população de

ESTATÍSTICA

ESTATÍSTICA eleitores de uma determinada cidade na qual o próximo prefeito será eleito em novembro. Sexo

eleitores de uma determinada cidade na qual o próximo prefeito será eleito em novembro.

Sexo

Homens

48,2%

 

A 8%

 

Mulheres

51,8%

Classe

B 22%

 
 

16

a 20 anos

12,3%

econômica

C 43%

 

20

a 30 anos

24,6%

D 27%

 

Idade

30

a 40 anos

26,9%

Time

Arranca Toco FC

45%

40

a 50 anos

15,8%

preferido

Se Deixa que xuto

32%

 

de

50

a 60 anos

14,6%

futebol

CA Avezesobrio

23%

acima de 60 anos

5,8%

 

Dados fictícios

Perceba que, quando fazemos uma pesquisa eleitoral, queremos saber em quem o leitor irá votar, ou seja, a

5

característica que nos interessa é a intenção de voto. Portanto, a variável de uma pesquisa eleitoral é a intenção de voto. Mas essa não é a única característica com a qual iremos nos preocupar.

Sabemos por experiência anterior que, por exemplo, homens

10

e mulheres têm comportamentos diferentes na hora de votar, quer dizer, utilizam critérios diferentes para escolher suas preferências. Desta forma, quando tomarmos uma amostra, nós precisaremos tomar cuidado com a quantidade de homens e mulheres que farão parte da amostra. Não podemos pegar uma

15

amostra na qual só temos homens ou mulheres. Digamos que na cidade vamos fazer uma pesquisa eleitoral a partir de uma amostra de 1.000 eleitores. Essa amostra deverá ser formada por 482 homens (48,2% de 1.000) e por 518 mulheres (51,8% de

1.000).

20

Do mesmo modo, nós deveríamos nos comportar com relação às outras características que têm importância na definição dos votos. Isso quer dizer que deveríamos manter a proporcionalidade de eleitores com relação à idade e à classe econômica, características que sabidamente influem na

Unidade I

Unidade I definição de voto. Caso não fosse feito assim, introduziríamos uma falha no nosso processo

definição de voto. Caso não fosse feito assim, introduziríamos uma falha no nosso processo estatístico, introduziríamos um viés estatístico.

E a característica “time de futebol preferido”? Precisamos

5

nos preocupar com ela? Evidentemente que não. A preferência por um time de futebol não interfere na opção de voto (a não ser em casos muito especiais, dos quais a estatística não consegue se encarregar).

Note que nós podemos, portanto, dividir as características

10

dos elementos de uma população ou de uma amostra em três categorias: a(s) características(s) estudada(s), chamada(s) variável(eis) estatística(s); características principais, que definem a proporcionalidade das populações e suas amostras e as características secundárias, que não interferem nos nossos

15

estudos estatísticos.

Assim sendo, é possível assumir que, a partir de uma amostra corretamente estabelecida, é possível conhecer uma população, por maior que seja ou menos real que sejam seus elementos. O princípio é o mesmo do enólogo. Conhecermos o todo por uma

20

pequena parte dele.

É

claro que esse conhecimento não será composto de

certezas absolutas; deverá haver alguma incerteza, em outras palavras, certa tolerância com as nossas conclusões. Assim, se numa amostra colhida para uma pesquisa eleitoral

25

for revelada a preferência de 46% para o candidato A, poderemos afirmar que a população provavelmente também terá 46% de eleitores para esse candidato. Mas isso não é uma certeza, pode haver alguma variação, para mais ou para menos.

30

Essa tolerância é chamada de margem de erro e depende basicamente de três fatores:

ESTATÍSTICA

ESTATÍSTICA   1. O grau de homogeneidade da população. Quer dizer,   quanto mais homogênea for
 

1.

O grau de homogeneidade da população. Quer dizer,

 

quanto mais homogênea for uma população, menor será

a

margem de erro.

 

2.

O tamanho da amostra tomada. Tamanho da amostra é

5

a

quantidade de elementos pela qual é composta. Desta

forma, uma pesquisa com 1.000 eleitores tem maior margem de erro do que uma feita com 5.000 eleitores.

 

3.

O

grau de confiabilidade com o qual queremos trabalhar.

 

Podemos optar por ter maior ou menor confiança nas

10

respostas obtidas. Quanto maior confiança quiser ter, maior será a margem de erro.

 

1.4 Processos estatísticos

Utilizando os conceitos dos itens anteriores, podemos definir os passos do processo estatístico:

1. Definir o objeto do estudo, as populações e as amostras

15

envolvidas. Planejar amostras de modo que representem corretamente, sem vieses, as populações de que foram retiradas.

 

2. Coletar os dados amostrais, ou seja, medir a variável estatística de cada um dos elementos da amostra.

3. Tabular e representar os dados colhidos na forma de

20

tabelas e gráficos, que permitam visualizar de modo amigável as informações disponíveis.

 

4. Cálculo dos parâmetros estatísticos. Esses parâmetros são medidas que “resumem” as informações coletadas de modo mais imediato.

25

5. Indução de parâmetros amostrais em parâmetros populacionais ou vice-versa. Consiste em fazer a relação entre populações e amostras, conforme descrito acima.

Unidade I

Unidade I Os passos de um a cinco acima constituem o campos da estatística descritiva ,

Os passos de um a cinco acima constituem o campos da estatística descritiva, objeto de estudo desta apostila. O passo cinco é o campo da estatística indutiva, assunto que veremos

na disciplina Estatística para Administradores.

5

Passaremos, então, a nos preocupar com cada um dos passos acima visando percorrer todo o processo estatístico.

1.5 Coletas de dados

A coleta de dados é uma operação típica de campo na qual identificamos os valores da variável estatística para todos os elementos de uma amostra previamente definida.

10

Frequentemente, essa amostra tem seus elementos definidos por escolha aleatória, ou seja, sorteamos um elemento da população para fazer parte da amostra. Como exemplo, imagine que eu, pesquisador de campo, precise entrevistar um eleitor com as seguintes características:

15

mulher; classe econômica B; grau de instrução superior; idade entre 30 e 35 anos; moradora da zona leste.

Para cumprir minha tarefa, irei a um local em que mais provavelmente encontrarei alguém nessas condições e, após algumas pré-entrevistas, determinarei um elemento com

20

exatamente essas características. Esse elemento fará parte da minha amostra e para ele irei fazer as perguntas desejadas; por exemplo, em quem ele pretende votar.

As respostas dos elementos escolhidos para a amostra constituirão os dados brutos ou rol do meu estudo, ou seja,

25

uma relação de respostas às minhas questões sem nenhum tipo de ordenação, classificação ou elaboração. A tabela 1 exemplifica os dados brutos de uma pesquisa feita entre 42 alunos de uma universidade a respeito de vários assuntos:

ESTATÍSTICA

ESTATÍSTICA   Tabela 1 - Dados brutos de uma amostra de alunos de uma universidade  
 

Tabela 1 - Dados brutos de uma amostra de alunos de uma universidade

 
 

Nome do

 

Curso

Qualidade

 

Idade em

Renda

 

Ordem

Aluno

Estado civíl

matriculado

atribuída à

Sexo

 

familiar

nº de DPs.

instituição

anos

 

1 Daiane

solteiro

Jornalismo

Ótima

F

19

R$ 3.220,00

2

 

2 Alberto

solteiro

Administração

Boa

M

20

R$ 4.050,00

0

 

3 Rui

casado

Direito

Regular

M

25

R$ 1.950,00

4

 

4 Carolina

casado

Engenharia

Ruim

F

21

R$ 1.682,00

6

 

5 Joaquim

divorciado

Marketing

Péssima

M

28

R$ 7.850,00

8

       

Ótima

       

6 Rubens

solteiro

Engenharia

M

23

R$ 4.567,00

0

7 Jéssica

solteiro

Administração

Boa

F

20

R$ 10.567,00

0

 

8 Luis Carlos

solteiro

Engenharia

Regular

M

       
 

20

R$ 2.687,00

2

 

9 Fernando

casado

Direito

Ótima

M

 

27

   
   

R$ 3.654,00

1

 

10 Mayra

solteiro

Marketing

Ruim

F

 

19

R$ 956,00

1

       
 

11 Cristina

solteiro

Administração

Boa

F

18

R$ 1.350,00

0

     
 

12 Walter

casado

Direito

Péssima

M

30

R$ 4.560,00

2

 

13 Leonardo

solteiro

Jornalismo

Boa

M

34

R$ 5.892,00

3

 

14 Guilherme

divorciado

Engenharia

Regular

M

29

R$ 7.652,00

5

 

15 Paula

solteiro

Administração

Ruim

F

20

R$ 1.950,00

5

 

16 Danilo

solteiro

Marketing

Boa

M

20

R$ 1.386,00

2

 

17 Camila

solteiro

Administração

Ótima

F

20

R$ 9.560,00

2

 

18 Pedro

solteiro

Direito

Regular

M

18

R$ 4.325,00

2

19 Vinicius

casado

Administração

Péssima

M

26

R$ 1.956,00

1

 

20 José

solteiro

Engenharia

Boa

M

       
 

24

R$ 2.654,00

3

 

21 Carlos

solteiro

Administração

Ótima

M

       
 

23

R$ 1.965,00

0

 

22 Vanessa

solteiro

Administração

Ruim

F

 

22

R$ 3.645,00

0

       
 

23 Samantha

casado

Jornalismo

Boa

F

 

21

R$ 2.987,00

0

       
 

24 Mauro

casado

Administração

Regular

M

29

R$ 3.652,00

0

     
 

25 Mariana

solteiro

Engenharia

Ruim

F

23

R$ 1.978,00

0

 

26 Juliana

casado

Administração

Boa

F

24

R$ 5.478,00

1

 

27 Arnaldo

solteiro

Marketing

Regular

M

26

R$ 6.352,00

4

 

28 Marília

solteiro

Administração

Péssima

F

24

R$ 4.231,00

2

 

29 Neiva

solteiro

Administração

Boa

F

27

R$ 1.289,00

3

 

30 Roberto

solteiro

Direito

Regular

M

23

R$ 2.987,00

4

 

31 Wilson

divorciado

Administração

Ótima

M

28

R$ 3.645,00

5

32 Manoel

casado

Direito

Regular

M

22

R$ 9.564,00

3

Unidade I

Unidade I   33 Marina solteiro Engenharia Boa F 21 R$ 6.523,00 4   34 Gustavo
 

33 Marina

solteiro

Engenharia

Boa

F

21

R$ 6.523,00

4

 

34 Gustavo

solteiro

Direito

Ruim

M

19

R$ 4.235,00

1

 

35 Maicon

solteiro

Administração

Ótima

M

18

R$ 5.634,00

0

 

36 Ladyjane

casado

Administração

Péssima

F

34

R$ 1.965,00

0

 

37 Maria

solteiro

Direito

Boa

F

36

R$ 1.932,00

1

 

38 Gabriel

solteiro

Administração

Regular

M

27

R$ 1.002,00

0

 

39 Karina

solteiro

Jornalismo

Ótima

F

     

20

R$ 2.342,00

1

 

40 Diego

solteiro

Direito

Ruim

M

21

R$ 2.569,00

2

     
 

41 Marcos

solteiro

Engenharia

Boa

M

21

R$ 3.789,00

2

 

42 Valquiria

casado

Administração

Ruim

F

29

R$ 4.675,00

3

Observe que as características arroladas no quadro são variáveis de diferentes tipos, como mostrado abaixo:

Variável

 

Significado

Tipo de variável

É

coletamos os dados. Relaciona a entrevista à sequência utilizada.

a ordem com que

Variável qualitativa nominal.

apenas um atributo qualitativo.

É

Ordem

 
   

Variável qualitativa nominal.

Nome do aluno

primeiro nome de cada um dos entrevistados.

O

apenas um atributo qualitativo.

É

   

Variável qualitativa nominal.

apenas um atributo qualitativo.

É

Estado civil

Estado civil do aluno.

   

Variável qualitativa nominal.

apenas um atributo qualitativo.

É

Curso

matriculado

Curso ao qual o aluno pertence.

Qualidade

 

Variável qualitativa ordinal. É apenas um atributo qualitativo que mostra intensidade.

atribuída à

Qual é a qualidade do curso percebida pelo aluno.

instituição

   

Variável qualitativa nominal.

apenas um atributo qualitativo.

É

Sexo

significa Masculino; F

M

significa Feminino.

   

Variável quantitativa contínua. Apesar de ser dada em anos, permitiria que fosse medida em valores fracionários (meses, dias, até horas).

Quantos anos cada aluno tem.

Idade

 

Renda familiar

Qual é a renda da família nuclear do aluno.

Variável quantitativa continua. É medida em valores fracionários.

Número de

Quantas dependências o aluno tem para cursar.

Variável quantitativa discreta. Os valores são

DPs

   

obrigatoriamente inteiros. Não existe “meia DP”.

ESTATÍSTICA

ESTATÍSTICA A tabela 1 relaciona uma grande quantidade de dados que dificilmente poderão ser entendidos se

A tabela 1 relaciona uma grande quantidade de dados que

dificilmente poderão ser entendidos se não forem agrupados, organizados, resumidos e apresentados de modo minimamente atraente.

5

As maneiras mais comuns de trabalharmos esses dados é o assunto do nosso próximo módulo.

2 REPRESENTAÇÃO DOS DADOS COLETADOS

 

Objetivos

 

Os dados brutos trazem toda informação necessária para se entender estatisticamente determinado assunto, mas como

10

o próprio nome indica, a ausência de algum refinamento faz com que não seja possível chegar-se a conclusões de qualidade. Para permitir essas conclusões e mesmo o entendimento das informações, devemos representar esses dados de uma forma mais imediata, seja analiticamente, através de quadros e tabelas,

15

seja graficamente, aproveitando-se do impacto visual que os gráficos nos trazem. Faremos isso com uma sequência de definições e procedimentos objetos deste módulo.

2.1 Conceito de frequência

É

o

número de vezes que determinado valor (ou faixa de

valores) se repete dentro da amostra. Inicialmente, podemos

20

citar:

• Frequência simples (f i ): é o número de vezes em que determinado valor aparece, contado diretamente. O símbolo mencionado significa a frequência do iésimo valor, ou seja, de um determinado valor que será numerado em

25

sequência.Destemodo,oprimeirovalorteráafrequênciaf 1 ,

o segundo, a frequência f 2 e assim por diante. Essa notação do iésimo termo será utilizada em todas as definições posteriores. A somatória de todas as frequências gerará

Unidade I

Unidade I a frequência total ( f t ) , que corresponderá, evidentemente, ao número total

a frequência total (f t ), que corresponderá, evidentemente,

ao número total de elementos da amostra (N). A fórmula

matemática envolvendo essas definições é:

5

10

f

t

=

n

i

f

i =

1

ou N =

n

=

i

1

f

i

• Frequência relativa (f ri ): é a frequência simples dividida pela frequência total, ou seja, é o “peso” que cada valor tem na amostra total. Pode ser apresentada em valor decimal ou em valor percentual. Evidentemente que a somatória das frequências relativas de todos os valores é igual a 1 ou 100%.

f

r

i

=

f

i

f

i

ou f

=1

n

i

f

i

i

=1

n

i

f

i

r

% =

x

100

Com essa duas definições, podemos começar a agrupar os dados coletados em tabelas mais resumidas; são as chamadas tabelas ou distribuições de frequências.

2.2 Distribuições ou tabelas de frequências

15

É o quadro que resume os valores da variável estudada na

amostra, através do relacionamento do valor com sua frequência. Pode assumir dois formatos diferentes:

2.2.1 Dados isolados ou dados não agrupados em classes

20

Neste caso, os valores dos dados são tomados como foram colhidos, sem nenhum tipo de agrupamento, relacionados à sua frequência. Como os valores são exatamente como foram

colhidos, não há perda de precisão. O inconveniente é que pode-se gerar uma tabela de frequências com muitos dados, o que dificulta o tratamento estatístico. Normalmente, é utilizado este formato quando trabalhamos com variáveis qualitativas ou variáveis quantitativas discretas. A tabela 2 mostra alguns

ESTATÍSTICA

ESTATÍSTICA exemplos de distribuições de frequências deste tipo produzidas a partir dos dados brutos constantes da

exemplos de distribuições de frequências deste tipo produzidas a partir dos dados brutos constantes da tabela 1 (página 17). Perceba que ela foi construída unicamente pela contagem e pelo relacionamento dos dados coletados.

 

Tabela 2 - Distribuições de Frequências - dados não agrupados

 
 
 

Distribuição de frequências

     

Distribuição de frequências

 
 

Estados civis

     

Cursos matriculados

 

Estado

Frequência

Frequências relativas

 

Curso

Frequência

Frequências relativas

 

simples

       

simples

   

Civil

Decimal

Percentual

Matriculado

Decimal

Percentual

x

i

f

i

f

ri

f

ri%

x

i

f

i

f

ri

f

ri%

Casados

               

11

0,262

26,2%

Administração

17

 

0,405

40,5%

Divorciados

3

 

0,071

7,1%

 

Direito

9

     
 

0,214

21,4%

Solteiros

28

0,667

66,7%

 

Engenharia

8

     
 

0,190

19,0%

Total

42

1,000

100,0%

 

Jornalismo

4

 

0,095

9,5%

     
   

Marketing

4

 

0,095

9,5%

     
 

Distribuição de frequências

   

Total f t

42

 

1,000

100,0%

 

Número de dependências

     

Número de

Frequência

Frequências relativas

   

Distribuição de frequências

 

dependências

simples

Decimal

Percentual

   

Sexo

 

x

i

f

i

f

ri

f

ri%

 

Sexo

Frequência

Frequências relativas

0

12

0,286

28,6%

 

simples

Decimal

Percentual

1

7

0,167

16,7%

 

x

i

f

i

f

ri

f

ri%

2

9

0,214

21,4%

 

Masculino

24

 

0,571

57,1%

3

5

0,119

11,9%

 

Feminino

18

 

0,429

42,9%

4

4

0,095

9,5%

 

Total f t

42

 

1,000

100,0%

5

3

0,071

7,1%

   

6

1

0,024

2,4%

 

Agrupamento de dados brutos relacionados na tabela 1

 
         

8

1

0,024

2,4%

 
 

42

       

Total f t

1,000

100,0%

2.2.2 Dados agrupados em classes

5 Neste caso, os valores são agrupados por classes, o que reduz a quantidade de informações trabalhadas, mas provoca,

Unidade I

Unidade I consequentemente, uma perda de precisão. Esse formato é o indicado quando trabalhamos com variáveis

consequentemente, uma perda de precisão. Esse formato é o indicado quando trabalhamos com variáveis quantitativas contínuas.

A construção dessa tabela é mais trabalhosa que a

5

anterior e se justifica pelo fato de que apresenta os dados de modo mais resumido. Caso não a utilizássemos, iríamos produzir uma tabela de frequências muito extensa, com excesso de valores diferentes, cada um deles com baixa frequência. Para construí-la, necessitamos definir alguns

10

conceitos e tomar algumas decisões.

A

primeira providência que devemos tomar é escolher

o número de classes (n) em que iremos agrupar os dados. Deve-se notar que, se utilizarmos muitas classes, estaremos aumentando o trabalho no tratamento dos dados, e se

15

utilizarmos poucas, estaremos prejudicando a precisão das conclusões. Existem muitas recomendações diferentes para a adoção do número de classes; iremos adotar a relação de Sturges:

n

= 1+1,44 lnN

20

Onde n é o número de classe recomendado e N é o número de total de elementos da nossa amostra. Lembre-se de que:

N

= f t

 

Na

tabela 1, nós temos uma amostra de 42 alunos, portanto,

 

caso queiramos montar a tabela de frequências das rendas

25

familiares deles (que é uma variável quantitativa contínua),

deveremos usar 7 classes:

n = 1+1,44 ln42 => n = 1+1,44 x 3,74 => n = 6,4

Obs.: evidentemente, não podemos usar 6,4 classes. Optamos então pelo valor inteiro mais próximo acima ou

ESTATÍSTICA

ESTATÍSTICA abaixo. Optamos por usar 7 classes porque assim teremos mais precisão do que com 6.

abaixo. Optamos por usar 7 classes porque assim teremos mais precisão do que com 6.

5

10

15

20

Essas sete classes devem abranger todos os valores do rol que está sendo estudado, desde o menor até o maior; deste

modo, devemos determinar estes valores, que são chamados, respectivamente, de limite mínimo da distribuição (L min ) e limite máximo da distribuição (L max ).

Em tese, o valor do limite inferior da distribuição coincide com o valor inicial da primeira classe da tabela (esses valores

iniciais de cada classe são chamados de limites inferiores de classe (li i )), e o limite superior da distribuição coincide com o valor final da última classe da distribuição (esses valores finais de cada classe são chamados de limites superiores de classe (ls i )). Na prática, pode ser necessário algum ajuste desses últimos dois

valores para podermos trabalhar com dados arredondados.

Entre o limite superior e o limite inferior de cada classe, existe um intervalo chamado de intervalo de classe (h), e ele deve ser determinado a partir da amplitude total (At), que é a diferença entre o maior e o menor valor do rol e do número de

classes, utilizando as seguintes fórmulas:

h =

A

t

A

t

n

=

L

max

L

min

Deste modo, o limite superior de cada classe será o valor inferior dela mesma mais a amplitude de classe, ou seja:

25

ls i = li i +h

Observemos os 42 valores relacionados na tabela 1 na coluna “Renda familiar”. Iremos agrupá-los em 7 classes conforme os passos a seguir.

Unidade I

Unidade I Podemos determinar o intervalo (ou a amplitude) de classes, desde que tenhamos a amplitude

Podemos determinar o intervalo (ou a amplitude) de classes, desde que tenhamos a amplitude total, e para tanto precisamos determinar os valores máximos e mínimos da distribuição, que, no nosso exemplo, são, respectivamente:

5

L max = R$ 10.567,00 L min = R$ 956,00

Logo, a amplitude total será:

A t = L max - L min => A t =10.567 - 956 => A t = R$ 9.611,00

Consequentemente, a amplitude de cada classe 1 será:

10

15

20

h =

A

t

9611

=> h =

n

7

=>

h

= R $1.373,00

Definidos o número de classes e a amplitude de classe, podemos montar a tabela de frequências. O limite inferior da primeira classe coincide com o limite inferior da distribuição, e o limite da oitava (e última classe) coincide com o limite superior

da distribuição (ressalvando o exposto no rodapé).

Os demais limites superiores de classe são obtidos somando- se o limite inferior da classe com a amplitude da classe. O limite inferior de uma classe tem o mesmo valor do limite superior da classe inferior. Assim, o limite superior da primeira classe é dado

por:

ls 1 = 956 + 1373 = > ls 1 = 2329

E o limite inferior da segunda classe é dado por:

li 2 = ls 1 = > li 2 = 2329

1 Neste exemplo, a amplitude de classe é um valor exato dentro da quantidade de casas decimais utilizadas; se isso não ocorresse, seria necessário ajustar a amplitude total de modo que a amplitude de classe

assumisse um valor exato. Assim sendo, o limite superior da distribuição ou o limite inferior ou ambos deveriam ser alterados para corresponderem à nova amplitude total, quando da montagem da tabela de frequências.

ESTATÍSTICA

ESTATÍSTICA Devemos definir também qual dos limites será aberto e qual será fechado de modo que

Devemos definir também qual dos limites será aberto e qual será fechado de modo que não haja possibilidade de algum valor ficar sem sua classe perfeitamente definida.

Entende-se por limite fechado aquele que inclui o valor

5

nominal, e por limite aberto, aquele que não inclui. Uma barra vertical indica o limite fechado, e sua ausência, o limite aberto.

A

simbologia para um e para outro é a seguinte:

 

|-------

Limite fechado (obviamente à esquerda)

-------

Limite aberto (tanto à direita quanto à esquerda)

10

Note, na tabela 3, que a primeira classe é limitada pelos

 

valores 956 e 2329, sendo o valor 956 um limite fechado e 2329, aberto. Isso quer dizer que o valor 956 está incluído nesta classe,

e

o 2329, na classe seguinte.

 

Pode-se fixar de modo arbitrário os limites aberto ou

15

fechado, desde que para cada valor exista uma e apenas uma classe possível.

Definidas as classes, procedemos à contagem dos elementos abrangidos por cada uma delas. O número de elementos encontrados em cada uma delas é a já definida frequência

20

simples.

 

Tabela 3 - Distribuições de frequências - dados agrupados

 
 

Renda familiar

 
       

Frequências relativas

Limites de classes em R$

Contagem

Frequência

Classe

simples

Decimal

Percentual

número

   

li

 

ls

       
 

1 956

|-----

2329

IIIII IIIII III

13

0,310

31,0%

 

2 2329

|-----

3702

IIIII IIIII I

11

0,262

26,2%

 

3 3702

|-----

5075

IIIII III

8

0,190

19,0%

 

4 5075

|-----

6448

IIII

4

0,095

9,5%

 

5 6448

|-----

7821

II

2

0,048

4,8%

 

6 7821

|-----

9194

I

1

0,024

2,4%

 

7 9194

|-----

10567

III

3

0,071

7,1%

Total f t

       

42

1,000

100,0%

Unidade I

Unidade I Perceba que transformamos 42 informações em 7, o que nos poupará muito tempo e

Perceba que transformamos 42 informações em 7, o que nos poupará muito tempo e custo nos estudos estatísticos, além de nos permitir uma melhor visualização dos dados.

2.3 Frequências acumuladas

Voltando aos dados da tabela 1, poderiam surgir questões do

5

tipo: quantos alunos têm idade superior a 23 anos? Ou então, quantos alunos têm renda familiar acima de R$ 5.000,00? Ou ainda, quantos alunos acham que a faculdade é acima de regular? Essas questões são respondidas com as chamadas frequências acumuladas, que podem ser crescentes e decrescentes.

10

Assim,

podemos

conceituar

e

calcular

as

frequências

acumuladas acima de (ou decrescentes), e as frequências acumuladas, abaixo de (ou crescentes), respectivamente.

As frequências acumuladas acima de (ou decrescentes) correspondem à quantidade total de elementos que existem

15

na amostra acima de dado valor. No caso de dados agrupados, a frequência acumulada acima de determinada classe é a somatória das frequências posteriores, incluindo a da própria classe. Deste modo, a frequência acumulada acima da primeira classe é a frequência total, e a da segunda classe é a frequência

20

total menos a frequência da primeira classe e assim por diante. Notar que a frequência acumulada acima da última classe é a frequência simples da própria classe.

Raciocínio oposto se faz para a frequência acumulada abaixo de (ou frequência crescente). Nesse caso, a frequência

25

acumulada abaixo de uma classe (ou valor) é a somatória da quantidade de elementos de menor valor, incluída a frequência da própria classe. Assim sendo, a frequência acumulada abaixo da primeira classe é a frequência dela mesma, a da segunda é a soma das frequências da primeira e segunda classe e assim

30

por diante. Notar que a frequência acumulada abaixo da última classe é a frequência total.

ESTATÍSTICA

ESTATÍSTICA A tabela 4 apresenta os cálculos feitos para a variável “quantidade de dependências”, e a

A tabela 4 apresenta os cálculos feitos para a variável “quantidade de dependências”, e a tabela 5, para a variável “Idades”, sempre a partir dos dados da tabela 1.

Tabela 4 - Distribuições de frequências - dados não agrupados

 
 

Número de dependências

 
   

Frequências relativas

Frequências acumuladas

Número de

Frequência

   

Abaixo de

Acima de

dependências

simples

Decimal

Percentual

 

ou

 

ou

crescente