Você está na página 1de 155

Licenciatura em Matemática

Estatística

Karin Elisabeth Von Schamlz Peixoto

Instituto Federal de Educação, Ciência e Tecnologia de Pernambuco

Recife-PE

2010

Presidência da República Federativa do Brasil Ministério da Educação Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES

Este Caderno foi elaborado em parceria entre o Instituto Federal de Educação, Ciência e Tecnologiade Pernambuco - IFPE e a Universidade Aberta do Brasil - UAB

Equipe de Elaboração

Diagramação

Rafaela Pereira Pimenta de Oliveira

Coordenação do Curso

Maria de Fátima Neves Cabral

Edição de Imagens

Supervisão de Tutoria

Verônica Emília Campos Freire

Sônia Quintela Carneiro

Logística de Conteúdo

Revisão de Conteúdo

Clayson Pereira da Silva

Moacyr Cunha Filho

Giselle Tereza Cunha de Araújo Maridiane Viana

Revisão Linguística

Verônica Emília Campos Freire

Ivone Lira de Araújo

Coordenação Institucional

Reitoria Pró-Reitoria de Ensino Diretoria de Educação a Distância Pró-Reitoria de Extensão Pró-Reitoria de Pesquisa e Inovação Pró-Reitoria de Administração e Planejamento

Sumário
Sumário

Sumário

5

Palavra do professor-autor

7

Apresentação da Disciplina

9

Aula 1

11

Aula 2

31

Aula 3

61

Aula 4

85

Aula 5

103

Aula 6

127

Palavra do professor-autor
Palavra do professor-autor

Olá!

Eu sou Karin von Schmalz Peixoto, professora conteudista de Estatística. Sou graduada em Ciências Biológicas pela Universidade Federal de Pernambu- co, mestre em Zoologia pela Universidade Federal da Paraíba e doutora em Zoologia Numérica pela University of Oxford, na Inglaterra. Comecei a ver a beleza da Estatística ainda na graduação e, desde 1995, ministro cursos voltados à aplicação do método estatístico na Biologia, Arqueologia e Ciên- cias Sociais. Fui professora da Universidade Federal Rural de Pernambuco, ensinando Genética Quantitativa, e hoje sou consultora da área, ajudando pesquisadores, laboratórios e empresas a entender como longas listas de números podem, na verdade, deixar suas vidas mais fáceis.

Espero passar a vocês a admiração e entusiasmo que tenho por este ramo da Matemática.

Bom estudo!

Apresentação da Disciplina
Apresentação da Disciplina

Caros alunos!

Vamos, a partir de agora, estudar a Estatística, que talvez seja a face mais popular das Ciências Matemáticas, além dos cálculos básicos que fazemos diariamente.

A Estatística nos ajuda a entender como nos comportamos, votamos e o que escolhemos enquanto população, e nos faz compreender como esco- lhas individuais, quando frequentes, mudam a face de uma multidão.

A Estatística nos mostra, também, o poder das massas e como as tendên- cias, quando populares, superam os interesses individuais.

Essa é a ferramenta que nos permite entender as grandes quantidades, de pessoas, eventos, opiniões ou características, sem que nos percamos em uma floresta de números.

Neste curso, vamos aprender todo o necessário para que possamos coletar dados, analisá-los através de métodos estatísticos e, mais importante, inter- pretemos seus resultados com a confiança de entender como chegamos lá.

Bons estudos!

Aula 1 Objetivos
Aula 1
Objetivos

• Entender o que é a Estatística, quais suas origens e diferentes

abordagens;

• Compreender os conceitos básicos em Estatística;

• Aprender a fazer as aplicações da Estatística no estudo de po- pulações;

• Entender os diferentes métodos de amostragem e suas aplica- ções.

Assuntos

Nesta aula, veremos como surgiu a Estatística, quais são seus objetivos e conceitos básicos e quais são os métodos utilizados na primeira etapa de um trabalho estatístico: a amostragem.

Introdução: Breve História da Estatística

O que é a Estatística?

Estatística é um ramo da matemática aplicada que visa à descrição e suma- rização das características de uma população.

O nome “Estatística” vem do latim Statisticum collegium, que significa “conselho de estado”, e da palavra Statista, estadista ou político.

A palavra (em alemão, Statistik) foi usada pela primeira vez pelo filósofo alemão Gottfried Achenwalt (1719-1772), em 1749, para descrever os mé- todos usados pelos governos para analisar dados de censos demográficos e conhecer a situação econômica, social e política das populações de seus estados.

Por isso, Achenwalt é considerado um dos “pais” da Estatística, sendo o primeiro a ensinar a disciplina na Universidade de Göttingen, na Alemanha, em meados do Século XVIII.

De uma forma geral, a Estatística divide-se em duas áreas básicas:

A Estatística Descritiva que lida com a coleta, organização, sumarização, descrição e apresentação dos dados representativos de uma população. Os resultados de uma análise de Estatística Descritiva são apresentados através de tabelas de frequências e gráficos, como o gráfico de barras e a curva de frequências acumuladas, que veremos mais tarde.

Já a Estatística Inferencial, também chamada Indutiva, lida com o teste de hipóteses e a interpretação dos fatores que afetam os dados representa- tivos de uma população.

Como surgiu a Estatística?

A partir do crescimento dos grandes aglomerados humanos e da formação de Estados, governos sentiram a necessidade de saber as características de suas populações.

Quantos súditos há no reino? Com quantos soldados podemos contar? Quais as principais atividades econômicas em nossas fronteiras? Qual a posi- ção política ou a religião da maioria dos habitantes? Como devemos cobrar impostos dessa população?

Essas perguntas são de importância crucial para a manutenção de um go- verno e assim os regentes passaram a organizar grandes pesquisas, como os censos demográficos, na tentativa de respondê-las.

Censos demográficos são a forma mais antiga de aplicação da matemática na descrição de uma população. O mais antigo censo que se tem conheci- mento foi realizado pelos babilônios em 3800 AC que era atualizado a cada seis ou sete anos, quando representantes do rei contabilizavam a população, o gado, os estoques de manteiga, mel, leite, lã e vegetais.

No Egito, faraós realizaram censos entre 3340 e 3050 AC. O primeiro censo, documentado total e matematicamente mais elaborado, foi realizado pelos militares do Império Persa no ano 500 e serviu como base para distribuição de terras e cobrança de impostos.

Governos da Grécia Antiga usavam métodos matemáticos simples para con- tabilizar seus potenciais exércitos. No Oriente, imperadores chineses faziam censos agrícolas e industriais, como os descritos por Confúcio no Século V a.C. No período medieval, o mais famoso censo realizado foi o Domesday Book (que pode ser traduzido como o “Livro do Juízo Final”), encomendado, em 1066, pelo rei Guilherme I, que havia invadido e tomado as Ilhas Britâ- nicas, e queria saber quanta riqueza estava sobre seu comando. O relatório resultante ficou pronto em 1086 e até hoje, é o melhor retrato da população britânica daquela época (fig. 1).

Governos da Grécia Antiga usavam métodos matemáticos simples para con- tabilizar seus potenciais exércitos. No Oriente,

Figura 1: Domesday Book, o “Livro do Juízo Final” do Rei Guilherme I. Fonte: Arquivo Nacional do Reino Unido.

Mas os censos demográficos antigos usavam, basicamente, as quatro ope- rações matemáticas básicas para seus fins. Usava-se a soma dos habitantes das vilas e províncias para saber a população geral do reino; ao se subtrair do total as mulheres, crianças e os idosos, era possível saber qual o tamanho potencial dos exércitos. Calculava-se o quanto um reino poderia produzir, multiplicando-se a área cultivável total pela produção de, por exemplo, tri- go ou beterraba em uma área menor; e os impostos eram calculados pela divisão da riqueza individual em partes iguais: uma parte era mantida pelo súdito, outra iria para o regente.

A Estatística, como se conhece hoje, baseia-se, principalmente, nos concei- tos da Teoria das Probabilidades, que iremos ver mais adiante em nosso curso. Com base em trabalhos anteriores que tentavam entender a nature-

za dos jogos de dados e cartas, o matemático holandês Christian Huygens (1629-1695) foi o primeiro a descrever as propriedades probabilísticas em um livro de 1657. A partir daí, a Estatística moderna começou a se formar.

Muitos estudiosos citam o trabalho do demógrafo inglês John Graunt (1620- 1674) como um dos primeiros trabalhos formais de Estatística, apesar deste ramo da ciência só ter se estabelecido um século mais tarde. Graunt (fig. 2) utilizou os dados coletados pelos censos britânicos para preparar “tabelas de vida”, em que estimava a expectativa de vida das várias faixas etárias nas diversas regiões do país.

za dos jogos de dados e cartas, o matemático holandês Christian Huygens (1629-1695) foi o primeiro

Figura 2: O demógrafo John Graunt, capitão do exército britânico. Fonte: Universi- dade de York, Inglaterra.

O trabalho de Gottfried Achenwall ainda era voltado ao estudo demográ- fico, tanto que, além do nome “Estatística” relacionar a ciência aos dados estatais, o termo foi traduzido para o inglês como “aritmética política”. Ape- nas no século XIX, o termo passou a abranger a coleta, classificação e análise de dados de qualquer origem.

Foi durante o século XX, no entanto, que a Estatística provou ser um instru- mento fundamental para todas as ciências quantitativas e qualitativas.

O desenvolvimento, no início do século, de fórmulas matemáticas especiais para lidar com questões agrícolas, de saúde pública e de controle de qua- lidade industrial, entre outros, levou a Estatística para fora de sua área de

origem e hoje ela é instrumento fundamental para as ciências sociais, am- bientais, médicas, humanas e econômicas.

Atenção!

origem e hoje ela é instrumento fundamental para as ciências sociais, am- bientais, médicas, humanas e

Basicamente, a Estatística se presta a responder as perguntas dos pesquisadores em relação a um conjunto de dados que fo- ram coletados de uma população.

As duas abordagens estatísticas, a descritiva e a inferencial, res- pondem a perguntas bem diferentes.

Abaixo estão alguns exemplos do que cada abordagem pode investigar.

Estatística Descritiva:

• Qual o valor mínimo e máximo? • Qual o valor mais comum?

• Como difere um indivíduo em particular da população como

um todo?

• Quantos tipos diferentes existem? • Quais os tipos mais frequentes? • Qual evento é mais provável de ocorrer no futuro?

Estatística Inferencial:

• Como se relacionam duas características de uma população? • Há diferenças entre grupos dentro da população? • Qual a diferença entre grupos? • Como a variação de um elemento afeta o outro? • Quais elementos têm influência sobre uma característica? • Quão forte é a influência de uma característica sobre a outra?

Conceitos Básicos

A Estatística usa termos que estamos acostumados a usar em nosso dia-a- dia, como “amostra”, “população” e “dados”, mas os significados desses termos em são bem claros e, por vezes, diferentes do significado coloquial. A

seguir, veremos os termos mais comuns que usaremos em nosso curso, seus significados e suas variações.

População: Para a Estatística, população é uma coleção completa de pessoas, animais, plantas ou coisas da qual nós podemos coletar dados (fig. 3). É o grupo inteiro, ou “universo”, no qual estamos interessados e o qual desejamos descrever ou tirar conclusões sobre um aspecto em par- ticular. De forma, ao fazer qualquer generalização sobre uma população, devemos estudar, geralmente, uma amostra, que deve ser representati- va da mesma, como um todo. Para cada população há muitas amostras possíveis.

Uma amostra estatística fornece informação sobre um parâmetro corres- pondente da população. Por exemplo, a média da amostra de um conjunto de dados deve fornecer informação sobre a média geral da população. É importante que o pesquisador defina a população, cuidadosa e completa- mente, antes de coletar a amostra, incluindo uma descrição dos membros a ser inseridos.

Um exemplo: a população, em um estudo de saúde infantil, poderia ser to- das as crianças nascidas no Brasil na década de 90. Uma amostra seria todas as crianças nascidas no dia seis de junho de qualquer um dos anos.

seguir, veremos os termos mais comuns que usaremos em nosso curso, seus significados e suas variações.

Figura 3: Uma “população”. Fonte: www.freefoto.com

Amostra: Uma amostra (fig. 4) é um grupo de unidades selecionado de um grupo maior (a população). Ao se estudar uma amostra, espera-se que ela forneça conclusões válidas sobre o grupo maior. Pois, ela é, geral-

mente, selecionada, porque a população é grande demais para ser estu- dada por inteiro. Assim, deve ser representativa da população em geral. Isso é, geralmente, alcançado com sucesso ao se fazer uma amostragem aleatória, ou seja, ao acaso. Contudo, é importante definir a população antes de fazer a amostragem, ou corre-se o risco de produzir uma amos- tra enviesada, ou seja, tendenciosa.

Por exemplo, se numa pesquisa sobre a qualidade da água que a população de um município consome forem entrevistadas apenas as pessoas que mo- ram em ruas pavimentadas, a amostra será enviesada, pois essas residências tendem a ser servidas pelo sistema de abastecimento de água tratada e não representará os indivíduos que consomem água de poço ou outras fontes. Mais adiante, veremos os diversos métodos de amostragem.

mente, selecionada, porque a população é grande demais para ser estu- dada por inteiro. Assim, deve

Figura 4: Uma “amostra” da população acima. Fonte: www.freefoto.com

Parâmetro: Um parâmetro é um valor, geralmente, desconhecido (e o qual deve ser estimado), usado para representar certa característica de uma população. Por exemplo, a média de uma população é um parâ- metro que é, em geral, usado para indicar o valor médio, ou tendência central, de uma quantidade.

Dentro de uma população, o parâmetro é um valor fixo, que não varia. Cada amostra tirada da população tem seu próprio valor de qualquer estatística que é usada para estimar esse parâmetro. Por exemplo, a média dos da- dos, em uma amostra, é usada para dar informação sobre a média geral na população da qual foi tirada. Parâmetros são, comumente, designados por caracteres gregos (como ou µ), enquanto estatísticas são designadas por caracteres romanos (como s ou x).

mente, selecionada, porque a população é grande demais para ser estu- dada por inteiro. Assim, deve
Glossário Se usarmos as espécies de plantas de uma área para descrever uma população (nesse caso,
Glossário
Se usarmos as espécies de
plantas de uma área para
descrever uma população
(nesse caso, de vegetais),
estaremos criando uma
variável nominal.
O tamanho dos sapatos,
apesar de representado por
números inteiros, é uma
variável ordinal.
Temperatura em graus
Celsius é um dos poucos
exemplos de uma variável
intervalar.
Qualquer medida de peso
é uma variável em escala
de razão. Um objeto pode
ser duas vezes mais pesado
que outro e zero quer dizer
ausência.

Estatística: com a inicial maiúscula, é o ramo da ciência que estamos es- tudando, uma estatística é o valor que é calculado a partir de uma amos- tra de dados. É usada para dar informação sobre valores (ou parâmetros) desconhecidos na população correspondente.

Por exemplo, a média de um grupo de dados (estatística) fornece informação sobre a média geral (parâmetro) da população da qual se coletou a amostra.

É possível tirar mais de uma amostra da mesma população e o valor da esta- tística, geralmente, vai variar de uma amostra para outra.

Variável: Uma variável é qualquer atributo ou característica medida que difere para diferentes indivíduos, ou objetos. Por exemplo, se o peso de 30 indivíduos foi medido, então o peso é uma variável. Variáveis podem ser classificadas em grupos distintos de várias formas. Para entendermos melhor a diferenciação dos tipos de variáveis, teremos primeiro que en- tender as escalas de mensuração que podem ser usadas. Mais adiante, veremos os tipos diferentes de variáveis.

Escalas de Mensuração ou Níveis de Medidas

Uma das formas de se classificar as variáveis é de acordo com o nível de medida que utilizamos. Há quatro níveis possíveis de medidas que podemos coletar em uma amostra, cada uma um pouco mais refinada que a anterior. Os níveis ou escalas de medidas são a nominal, a ordinal, a intervalar e a escala de razão.

Nominal: A mais simples medida que pode ser tomada de uma carac- terística é da escala nominal. Uma variável nominal possui classes, ou categorias, podemos descrever um atributo de cada indivíduo ou obje- to. No nível nominal, todas as categorias são iguais, ou têm o mesmo “peso”. Exemplos de variáveis medidas em escala nominal são o gênero de um indivíduo (masculino ou feminino), a cor de um objeto (verde, azul, amarelo, etc.) ou a espécie de uma planta de uma área (coqueiro, babaçu, etc.). Variáveis nominais fornecem frequências em vez de me- didas propriamente ditas. Por exemplo, uma população humana pode ter 49% de homens e 51% de mulheres; uma área pode ter 20% de coqueiros, 40% de palmeiras, 30% de um tipo de grama e 10% de cajueiros. Como vemos, todas as categorias têm igual importância e o mesmo “valor” para o pesquisador.

Ordinal: A escala ordinal também possui categorias, ou classes, e tam- bém vai fornecer frequências. Mas, na escala ordinal, aparece mais uma informação sobre as características de uma população: o valor ou “peso” das categorias cresce gradualmente, ou seja, há uma ordem de impor- tância das classes. Exemplos de variáveis ordinais são o nível de escolari- dade (primário, médio, superior), o porte de um vegetal (erva, arbusto, árvore) ou a escala de Mohs para identificar a dureza de um mineral (indo de 1(um) para minerais macios como o talco, até 10(dez) para minerais duros como o diamante). Apesar de classes ordinais ser organizadas em uma ordem graduada, não fornecem informação sobre o tamanho da diferença entre as classes. Por exemplo, na variável ordinal “classe social” (baixa, média e alta), a diferença entre a classe baixa e a média não é a mesma entre a média e a alta.

Intervalar: Se uma variável apresenta classes que, além de poder ser or- ganizadas de forma graduada, apresentam intervalos iguais entre si, essa variável foi medida em uma escala intervalar. Um exemplo clássico da escala de medida intervalar é a temperatura em graus Celsius: as classes (o valor da temperatura) são, homogeneamente, distantes entre si; em intervalos regulares. Outra característica das variáveis intervalares é que o valor de “zero” não significa ausência da característica, mas é apenas um ponto de referência arbitrário e valores negativos também podem ser usados. Zero grau Celsius não quer dizer ausência de temperatura, mas é um ponto de referência, indicando a temperatura de congelamento da água. Outro exemplo de medida intervalar é o calendário Gregoriano (que usamos): o Ano Zero foi estipulado pelo nascimento de Cristo e datas anteriores são “negativas”, e designadas por a.C. (antes de Cristo). Além desses exemplos, escalas intervalares são raras.

Glossário Os quatro níveis de mensuração fornecem, gradualmente, mais informação com precisão crescente. Enquanto o nível
Glossário
Os quatro níveis de
mensuração fornecem,
gradualmente, mais
informação com precisão
crescente. Enquanto o nível
nominal só permite que
calculemos as frequências
dos tipos, o nível ordinal
já fornece a ideia de
gradação, o intervalar dá o
tamanho da diferença entre
classes, e o de razão dá a
ideia de ausência.

Escala de razão: Variáveis medidas em escala de razão têm as mesmas características da escala intervalar, com a diferença que o valor de zero significa ausência do atributo medido. Por exemplo, na escala de tempe- ratura Kelvin, o valor de zero, realmente, significa ausência de tempera- tura: quando a -273,15 °C, ou zero kelvin, não há nenhuma transferên- cia de energia térmica. Todas as variáveis “de contagem”, que incluam o valor de zero significando ausência, são em escala de razão. Exemplos são tamanho, peso, número de vezes que um evento ocorre, quantidade de substâncias, etc. A escala de razão é assim chamada, porque se pode descrever a relação entre medidas através de frações: José pesa duas ve- zes mais que Maria; meu carro usa a metade da gasolina do seu; o cabelo

de Joana é três vezes mais longo que o de Josefa. Escalas de razão não têm valores negativos.

Ferramentas do estatístico

Análises estatísticas podem ser feitas manualmente ou com a ajuda de um computador. Na pesquisa manual, o estatístico precisa de:

Calculadora: para facilitar o cálculo das frequências;

Papel milimetrado: para desenhar os gráficos com mais precisão;

Tabelas estatísticas: contêm os valores de significância de testes de estatística inferencial.

Ao usar o computador, há dois tipos básicos de programas:

Editores de planilhas: como o Excel; servem para organizar e ar- mazenar os dados, criar gráficos de frequências e calcular algumas estatísticas descritivas. Programas de estatística: Realizam tarefas complexas como testes de significância, criam gráficos elaborados e já possuem as tabelas estatísticas incluídas.

Os editores de planilhas são suficientes para a preparação de relatórios des- critivos. Já análises inferenciais precisam de programas estatísticos. Usar o computador como ferramenta estatística permite a análise de uma grande quantidade de dados sem medo de cometer pequenos erros.

Os quatro níveis de mensuração fornecem, gradualmente, mais informação com precisão crescente. Enquanto o nível nominal só permite que calcule- mos frequências dos tipos; o nível ordinal já fornece a ideia de gradação, o intervalar dá o tamanho da diferença entre classes e o de razão dá a ideia de ausência.

Tipos de Variáveis

Como foi dito antes, podemos classificar as variáveis de diversas maneiras. Se nos basearmos nos níveis de mensuração, as variáveis podem ser quali- tativas ou quantitativas. Variáveis qualitativas são também chamadas ca- tegóricas e são medidas em escala nominal, ou escala ordinal não numérica (como “classe baixa”, “classe média” e “classe alta”). Variáveis quantitativas

são medidas em escalas ordinal numérica, intervalar ou de razão. Por exem- plo, se perguntarmos aos alunos do jardim de infância qual a sua cor favo- rita, a resposta seria uma variável categórica, ou qualitativa. Se medirmos o tempo de resposta de cada um a essa pergunta, a variável será quantitativa.

Variáveis quantitativas podem ser subdivididas em discretas, também cha- madas descontínuas e contínuas.

Variáveis discretas podem apresentar qualquer valor entre zero e infinito, desde que seja um número inteiro. Por exemplo, se contarmos o número de pessoas em cada cidade de um país, todos os valores serão números intei- ros, pois não podemos ter “meio habitante”. Assim, as contagens em geral, como censos e levantamentos, produzem variáveis discretas.

Já as variáveis contínuas podem ter qualquer valor entre dois valores previa- mente estabelecidos, mesmo números não inteiros. Por exemplo, a altura dos soldados de um batalhão pode ser qualquer medida entre as alturas mínima e a máxima permitidas: 1,61m; 1,87m; 1,76m; etc.

Do ponto de vista da Estatística Inferencial, podemos dividir as variáveis entre independentes e dependentes.

Variáveis independentes são selecionadas e medidas pelo pesquisador na amostra de uma população e não são passíveis de controle, ou seja, suas variações são aleatórias.

Já as variáveis dependentes têm sua variação atrelada à diversificação de uma variável independente. Se pensarmos em termos de causa e efeito, as variáveis independentes são causa da variação de uma variável dependente. Um exemplo seria uma pesquisa sobre o efeito de um poluente, como o chumbo, no peso dos peixes de um rio. Não podemos controlar a quantida- de de chumbo absorvida por cada peixe que pesarmos, então a exposição ao chumbo, medida pelo nível do metal em cada peixe, é uma variável in- dependente.

Já o peso dos peixes é o efeito da exposição ao chumbo, sendo então a va- riável dependente. Variáveis independentes são chamadas, quando usamos um programa de computador para cálculos estatísticos, de fatores e as de- pendentes, de respostas.

Amostragem

“Amostragem” é a parte da prática da Estatística que se refere à seleção de uma amostra, ou subconjunto, de observações individuais com as quais se pretende estimar parâmetros de uma população de interesse.

O processo de amostragem é fundamental para a coleta de dados e contém diversos estágios:

Definição da população de interesse; Especificação da “base de sondagem”, ou conjunto de itens ou even- tos mensuráveis; Especificação do método de amostragem para selecionar itens ou eventos da base de sondagem; Definição do tamanho da amostra; Implementação do plano de amostragem; Amostragem e coleta de dados; Revisão do processo de amostragem.

A razão pela qual o processo de amostragem é tão rigoroso se deve ao fato de que um erro nesse processo pode invalidar toda a análise estatística, tor- nando o trabalho do pesquisador inútil. Como já vimos, as amostras devem representar a população de interesse e uma amostragem desleixada vai nos prover uma amostra não representativa da população, cheia de vieses que levarão a conclusões erradas.

A seguir, olharemos cada uma das etapas em maiores detalhes.

Para que se realize a prática estatística com sucesso, é necessário que a po- pulação de interesse seja definida com cuidado. Uma população pode ser vista como um conjunto que inclui todas as pessoas, itens ou eventos que possuem uma característica que desejamos compreender. Como vimos, é, geralmente, impossível coletar todos os dados de toda uma população de interesse, então devemos almejar a coleta de uma amostra representativa da mesma.

Às vezes, é fácil definir uma população. Em uma indústria, por exemplo, que se deseje verificar a qualidade de uma remessa de material, que é a “popu- lação” da qual será retirada a amostra. Em outras ocasiões, a população de interesse pode ser menos tangível e não envolver um conjunto de objetos. Se quisermos realizar um estudo sobre o tamanho das filas de um supermer-

cado durante as várias horas do dia, ou o comportamento de um animal nas várias estações do ano, o tempo vira o foco dessa população e as amostras deverão ser coletadas dentro de determinados períodos de tempo.

Em alguns casos, a “população” estudada é ainda mais abstrata. Um estu- do famoso, feito pelo engenheiro britânico Joseph Jagger (1830-1892) no cassino de Monte Carlo em 1873, teve como “população” o desempenho de seis rodas de roleta. Jagger contratou seis pessoas para anotar todos os resultados dessas seis rodas de roleta e descobriu que, em algumas delas, alguns números ocorriam com maior frequência que outros. Assim, ele pas- sou a apostar nos números que ocorriam com maior frequência e se tornou conhecido como o homem que “quebrou a banca” em Monte Carlo. Jagger investigou a distribuição de probabilidades dos resultados das roletas em tentativas infinitas e assim conseguiu identificar que roletas estavam enviesa- das. O mesmo se aplica a qualquer pesquisa que envolva medições repetidas de alguma característica física, como quando os dados de jogar são testa- dos, ou estuda-se a condutividade elétrica de materiais.

Em certos casos, é possível ter acesso a toda uma população de interesse, como os materiais de uma fábrica, nos quais podemos retirar amostras de cada lote. Em outros casos, não é possível ter acesso imediato a toda a popu- lação, seja por que ela não é conhecida, ou por que não é possível identificar todos os indivíduos. Assim, é necessário o uso de uma base de sondagem, na qual podemos identificar todos os elementos em que podemos selecionar qualquer um para nossa amostra.

Por exemplo, em pesquisas de opinião, podemos usar listas telefônicas como uma base de sondagem, da qual podemos selecionar, aleatoriamente, indi- víduos para nossa pesquisa. Dependendo do tipo de estudo, podemos usar mapas de ruas (de que selecionamos as ruas que serão visitadas), listas de eleitores (para pesquisas eleitorais), listas de usuários do SUS (para pesqui- sas de saúde), registros de crianças matriculadas em escolas públicas (para pesquisas sobre educação), etc. As bases de sondagem devem ser escolhidas com cuidado para incluir toda a população de interesse, sem que haja repe- tições, de modo que a amostra coletada a partir dessa base seja, realmente, representativa da população a ser estudada.

Após definir a base de sondagem, o pesquisador deve escolher o método de amostragem. Como vimos, na maioria dos casos, é importante que a amos- tra seja aleatória. Isso garante que cada um dos elementos da população

tenha uma probabilidade maior que zero de ser escolhida, aleatoriamente, para uma amostra. Esse tipo de amostragem é chamado de amostragem probabilística e permite que calculemos a probabilidade exata de cada ele- mento da população de ser escolhido. Tal abordagem é a comumente usada em estudos gerais, que pedem uma amostra não enviesada de uma popula- ção, como os censos demográficos.

A amostragem probabilística permite que sejam calculados os erros que po- deriam alterar os resultados da análise e levá-los em consideração quando da interpretação dos mesmos.

A amostragem não probabilística é qualquer método em que alguns ele- mentos da população não têm nenhuma chance de serem selecionados, ou quando não se pode calcular com precisão qual a probabilidade de seleção dos elementos. Por causa de sua natureza não aleatória, a amostragem não probabilística não permite o cálculo de erros de amostragem e essa abor- dagem deve ser especificada, quando os resultados são apresentados. Por exemplo, se estivermos usando um mapa de ruas como base de sondagem e formos visitar cada uma das casas das ruas escolhidas, para entrevistar a pessoa que abrir a porta, durante o horário de trabalho, entrevistaremos apenas as pessoas desempregadas, excluindo todos os trabalhadores que não faltaram. Essa é uma abordagem não probabilística, pois é impossível calcular a probabilidade de entrevistarmos um trabalhador e assim não po- deremos calcular possíveis erros de amostragem.

Métodos de Amostragem

Dentro das duas abordagens de amostragem, existem vários métodos que podem ser empregados, sozinhos ou em conjunto, dependendo de fato- res como a natureza e qualidade da base de sondagem, disponibilidade de informações auxiliares sobre os elementos da população, necessidade de acurácia de mensuração, nível de detalhe da análise e custos operacionais.

A seguir, veremos brevemente os métodos mais comuns de amostragem, tanto da abordagem probabilística quanto da não probabilística

Métodos Probabilísticos: Em que todos os elementos têm uma probabili- dade maior que zero de ser escolhidos e envolvem seleção aleatória:

Amostragem Aleatória Simples – Todos os elementos da base de son- dagem têm igual probabilidade de ser escolhidos para uma amostra, pois

a base não é subdividida ou particionada. Além disso, qualquer par de elementos tem a mesma chance de seleção que outro, o que minimiza o risco de um viés na amostra. No entanto, esse método é vulnerável a erros de amostragem, pois uma amostra pode não representar a cons- tituição da população. Por exemplo, uma amostra de uma população humana pode não representar a real proporção entre homens e mulheres de uma população. Tal método pode ser inadequado para populações muito grandes.

Amostragem Sistemática – Envolve organizar a população-alvo em al- gum sistema de ordenação antes de selecionar os elementos, em interva- los, através da lista ordenada.

Nesse método, o início da “lista” é aleatório, mas selecionam-se os ele-

mentos em intervalos k, definidos pela fórmula

a base não é subdividida ou particionada. Além disso, qualquer par de elementos tem a mesma

, em que:

N = tamanho da população; n = tamanho da amostra.

É importante que o início da “lista” seja aleatório e não seja escolhido o primeiro elemento, o que tiraria o caráter probabilístico do método. Amostragens sistemáticas não podem ser usadas em bases de sondagem que possuem alguma periodicidade, pois se o valor k for um múltiplo ou fator do valor de periodicidade da lista, o método torna-se menos acura- do que a amostragem aleatória simples.

Amostragem Estratificada – Usada quando a população possui catego- rias distintas, dentro das quais a base de sondagem pode ser organizada, criando “estratos” separados. Cada estrato é então amostrado como uma população independente, no qual elementos são escolhidos alea- toriamente.

Um exemplo seria a estratificação da população estudantil por séries, sendo as amostras coletadas, aleatoriamente, dentro de cada série. Esse método oferece vantagens quando a base de sondagem permite que os elementos sejam estratificados, desde que haja pouca variabilidade dentro dos estratos e grande variabilidade entre os estratos. Na, prática, algumas vezes, esse método pode ser mais oneroso que a amostragem simples.

Métodos não probabilísticos: Quando não há probabilidade de se esco- lher alguns membros da população, ou quando outras variáveis ligadas aos elementos afetam a probabilidade de que sejam escolhidos.

Amostragem em cotas – A população é separada em grupos, mutua- mente, excludentes, como na amostragem estratificada, mas a etapa se- guinte não é aleatória, pois alguns elementos são excluídos da amostra.

Exemplos comuns são as pesquisas de opinião que abordam um número determinado de homens e mulheres (os ‘estratos’), mas em que pessoas com aparência “simpática” são mais frequentemente entrevistadas do que as que parecem “antipáticas”. As amostras podem se tornar envie- sadas nesse caso e seu uso, por misturar uma abordagem aleatória com uma não aleatória, é motivo de controvérsia.

Amostragem Acidental – Nesse método, a amostra é colhida da parte da população que está mais próxima, ou disponível, ao pesquisador. Tam- bém é chamada de “amostragem de conveniência”. Muito utilizada em pesquisas socioculturais, a amostra não é representativa da população e não é possível estimar parâmetros populacionais gerais a partir dela. Ainda assim, é um método útil para “pesquisas-piloto”, que verificam a viabilidade da pesquisa antes que a coleta de dados válida seja iniciada.

Amostragem em “Bola-de-neve” – Nesse método, entrevista-se uma pessoa aleatoriamente, que se refere a um amigo que também é entre- vistado e recomenda outro amigo, assim por diante. É comumente usada nas pesquisas de mercado, quando se está interessado em entender a aceitação de um produto dentro de determinados grupos sociais.

Além dos métodos probabilísticos e não probabilísticos mais comuns, vários métodos já foram desenvolvidos para endereçar problemas encontrados em pesquisas específicas. Casos especiais são comuns nas ciências experimen- tais, em que os elementos são conhecidos e em pequeno número (como ratos de laboratório, por exemplo). Por exemplo, quando testando um novo medicamento em animais de laboratório, a amostra contém todos os animais usados, sendo assim não aleatória. Nesse caso, devem-se controlar todas as variáveis possíveis dos elementos, para examinar possíveis efeitos cruzados que alterariam ou confundiriam os resultados da pesquisa.

Os dados da amostra, uma vez coletados, devem ser organizados em bases de dados, que servirão para a análise estatística. A pesquisa estatística con- ta, basicamente, de seis etapas distintas:

1) Coleta de dados: Nessa fase, define-se qual é a população de interesse e toma-se cuidado para que o método de coleta forneça uma amostra que represente a população.

2) Avaliação dos dados: Antes de iniciar os trabalhos estatísticos propria- mente ditos, os dados devem ser avaliados quanto a possíveis erros de cole- ta, falhas e lacunas.

3) Descrição dos dados: Após verificar-se que os dados são válidos, pode- se descrever a amostra através de estatísticas descritivas.

4) Análise dos dados: Quando testando hipóteses, cálculos específicos po- dem ser usados para análises inferenciais.

5) Apresentação dos dados: Tanto as estatísticas descritivas quanto as in- ferenciais podem ser representadas por gráficos, que têm impacto maior na hora de se explicar os resultados da pesquisa. A descrição de uma amostra também deve ser feita através de tabelas.

6) Análise dos resultados: As estatísticas descritivas devem ser suficientes para descrever uma população através da amostra coletada; os resultados podem ser interpretados dentro dos limites de qualidade dos dados. Esta- tísticas inferenciais devem ser interpretadas com mais cuidados, mas podem servir para ilustrar as interações complexas entre fatores presentes em uma população.

Na próxima aula, veremos como utilizaremos, na prática, os conceitos e mé- todos que vimos aqui, e começaremos a trabalhar, matematicamente, os dados.

Até lá!

Resumo

A Estatística é um ramo da Matemática que surgiu da necessidade dos go- vernos de conhecer suas populações. Hoje é uma ciência fundamental para campos tão diversos quanto as Ciências Econômicas e Sociais, a Medicina e a pesquisa científica, a indústria e o comércio.

Os conceitos básicos da Estatística são conhecidos coloquialmente, mas têm significados bem específicos dentro desse ramo do conhecimento, incluindo palavras comuns como “amostra”, “população” e “variável”.

A primeira etapa de uma pesquisa estatística envolve a coleta de uma amos- tra que represente uma população de interesse, em que características es- pecíficas dos indivíduos, as variáveis, servirão para se calcular os parâmetros populacionais.

Há duas abordagens básicas de amostragem: a probabilística, onde todos os elementos de uma população têm uma probabilidade maior que zero de ser escolhidos para uma amostra, e a não probabilística, na qual essa probabilidade é igual a zero para alguns elementos, ou não pode ser calcu- lada. Há métodos probabilísticos e não probabilísticos de amostragem, que podem ser usados isoladamente ou em conjunto, para evitar problemas com a validade da amostra.

Cara Colega, o resumo deve conter todo teor da aula, de forma concisa e objetiva, para facilitar o ensino/aprendizagem do (a) aluno (a).Agradece, Ivone Lira (revisora linguística e textual).

Referências

LEME, R. A. DA S.: Curso de Estatística – Elementos. Rio de Janeiro: AO LIVRO TÉCNICO.

1967.

LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DO BRASIL. 1978.

SPIEGEL, MURRAY R, Estatística. MAKRON. 1994.

Aula 2 - Distribuição de Frequências
Aula 2 - Distribuição de Frequências

Objetivos

• Aprender a descrever as frequências absolutas e relativas em

uma amostra;

• Compreender as medidas de tendência central de uma popula- ção e como determinar essas estatísticas em uma amostra;

• Entender as medidas de dispersão de uma variável e como medir

as estatísticas em uma amostra;

• Aprender a usar as ferramentas estatísticas do Excel da Micro- soft.

Assuntos

Nesta aula vamos entender como podemos descrever a distribuição de uma amostra, usando técnicas simples, que fornecem uma visão geral dos dados coletados. Sendo a amostra válida e representativa de uma população, a estatística descritiva permite que sejam estimados os parâmetros populacio- nais. Vamos entender o que significam as estatísticas amostrais e como cal- culá-la através de fórmulas ou usando um editor de planilhas como o Excel.

Introdução

Os métodos de amostragem, que vimos na nossa primeira aula, nos permi- tem coletar dados confiáveis que serão representativos de uma população de interesse. Com esses dados amostrais, poderemos calcular suas estatísti- cas e assim estimar os parâmetros da população. Mas a coleta de dados é apenas o primeiro passo de uma pesquisa estatística e os passos seguintes são cruciais para que um estudo tenha validade.

O principal objetivo de uma pesquisa dessa natureza é descobrir como os dados estão distribuídos, ou seja, quais são os valores extremos, que valores

ocorrem mais frequentemente e que intervalos de valores englobam a maior parte da população. Para descrever uma distribuição de frequências, o pes- quisador necessita organizar os dados de uma forma prática, tornando mais fácil o trabalho de calcular a repetição de ocorrência dos eventos em ques- tão. Para isso, é preciso organizar tabelas de frequências, gráficos e planilhas de análise, de que possam ser retirados os valores necessários para o cálculo das estatísticas amostrais.

Tabelas de Frequências

O primeiro passo de um pesquisador, que pretende descrever uma popula- ção através de uma amostra, é descobrir a distribuição dos dados amostrais. Pode-se descrever uma amostra através de tabelas de frequência ou de gráficos.

Uma tabela de frequência é uma forma de organizar os dados, listando to- dos os valores possíveis como uma coluna de números e a frequência de ocorrência de cada valor como outra.

Assim, para se calcular a frequência absoluta de um valor ou categoria, deve-se apenas contar quantas vezes cada um desses valores ou categorias aparece em um grupo de dados. Na maioria dos casos, devemos incluir valo- res que não aparecem no conjunto de dados, que irão ser assinalados com a frequência absoluta de zero. Isso é importante para se entender a população através de uma amostra.

Por exemplo, se estamos estudando a frequência da cor de olhos em uma população e ninguém tem olhos azuis, essa informação é relevante e deve ser incluída, pois azul é uma cor de olhos possível nos humanos.

Ao criarmos uma tabela de frequências, entendemos a distribuição de fre- quências dos valores de uma variável, ou seja, quantas vezes cada valor ou classe aparece na amostra que estudamos.

Logo, a distribuição de frequências é importante para entendermos não ape- nas quantas vezes cada valor ou classe de uma variável é representado, mas fornece informação sobre a amplitude de variação dessa variável e sobre a natureza dessa variação, como veremos mais tarde.

Criando uma tabela de frequências

Vamos imaginar que um fabricante de sapatos femininos quer saber quais os tamanhos deve fabricar para suprir a demanda em uma cidade como, digamos, Recife. Para isso, ele coleta uma amostra do tamanho dos pés das mulheres da cidade, perguntando a vinte mulheres qual o número de seus sapatos e consegue os seguintes valores (tabela 1):

Tabela 1: Tamanho dos sapatos de 20 mulheres de Recife – PE.

  • 37 36

35

37

34

  • 38 37

39

36

35

  • 37 38

36

33

34

  • 36 37

37

35

36

Digamos que o fabricante tem, em sua linha de produtos, uma numeração de sapatos femininos que vai do 32 ao 40. Para ajudarmos ao fabricante, devemos organizar os dados que ele coletou em relação às linhas de sapatos femininos que já tem.

Vamos, então, criar uma tabela de frequências, usando os números disponí- veis em sua fábrica e contaremos quantas vezes esses números ocorrem na amostra que ele coletou na cidade (tabela 2):

Tabela 2: Frequências absolutas dos números de sapatos usados por 20 mu- lheres da cidade de Recife – PE.

Número do sapato

Frequência absoluta (f)

  • 32 0

  • 33 1

  • 34 2

  • 35 3

  • 36 5

  • 37 6

  • 38 2

  • 39 1

  • 40 0

Total

20

Podemos logo avisar ao fabricante de sapatos que, na amostra que ele cole- tou, não há nenhuma mulher que calce sapatos 32 ou 40, e que o tamanho mais comum é o 37. O fabricante, então, nos pergunta qual a proporção de cada número de sapatos que deveria fabricar, para que não tenha números pouco procurados, encalhados em suas lojas.

Podemos responder a sua pergunta, calculando as frequências relativas dos tamanhos de sapatos da amostra, em valores proporcionais expressos em proporções (que vão de 0 a 1) ou porcentagens (que vão de 0 a 100). Assim, acrescentaremos mais uma coluna na tabela que já vimos (tabela 3):

Tabela 3: Frequências absolutas e relativas dos números de sapatos de 20 mulheres de Recife – PE.

Número do sapato

Frequência absoluta (f)

Frequência relativa (fr)

  • 32 0

0

  • 33 1

0,05

  • 34 2

0,1

  • 35 3

0,15

  • 36 5

0,25

  • 37 6

0,3

  • 38 2

0,1

  • 39 1

0,05

  • 40 0

0

Total

20

1

As frequências relativas são calculadas como se calculam proporções: divide- se a frequência absoluta da classe em questão pelo total de dados da amos- tra. Mas, se quisermos representar as frequências absolutas em porcenta- gens, é só multiplicar a proporção por 100.

Assim, teríamos a tabela de frequências representada um pouco diferente (tabela 4):

Tabela 4: Frequências absolutas e frequências relativas proporcionais e per- centuais dos números de sapatos de 20 mulheres de Recife – PE.

Número do sapato

Frequência absoluta (f)

Frequência relativa (%)

  • 32 0

0

  • 33 1

5

  • 34 2

10

  • 35 3

15

  • 36 5

25

  • 37 6

30

  • 38 2

10

  • 39 1

5

  • 40 0

0

Total

20

100

Nosso amigo fabricante ficará feliz em saber que 30% das mulheres da amostra calçam sapatos tamanho 37, que 25% calçam 36 e assim por dian- te. Então, poderá ajustar a sua produção para atender a demanda do mer- cado.

Outra forma de representar a distribuição das frequências é através das fre- quências acumuladas ou cumulativas. Para se conseguir isso, devemos apenas somar as frequências absolutas ou relativas de cada classe com a seguinte. Esse tipo de representação tem diversas aplicações que veremos nas próximas aulas, mas, de forma geral, serve para termos uma ideia de onde a maioria dos valores se encontra. No exemplo que estamos usando, poderíamos acrescentar uma coluna de frequências relativas acumuladas à nossa tabela (tabela 5):

Tabela 5: Frequências absolutas, relativas proporcionais e percentuais, e fre- quências cumulativas percentuais dos números de sapatos de 20 mulheres de Recife – PE.

Número do sapato

Frequência

Frequência

Frequência

absoluta (f)

relativa (%)

cumulativa (F)

  • 32 0

0

0

  • 33 1

5

5

  • 34 2

10

15

  • 35 3

15

30

  • 36 5

25

55

  • 37 6

30

85

  • 38 2

10

95

  • 39 1

5

100

  • 40 0

0

100

Total

20

100

100

Para o fabricante de calçados, é relevante saber que 95% das mulheres da cidade calçam sapatos de número 38 ou menor. Se precisar reduzir a produ- ção, ele não terá grandes prejuízos se parar, temporariamente, de fabricar números maiores que 38.

O tamanho do calçado, que utilizamos no exemplo, é uma variável em esca- la ordinal. Os números dos sapatos não são representativos de uma medida, como centímetros, mas são categorias criadas em cima de medidas. Se os fabricantes de sapatos fossem usar centímetros como base para seus produ- tos, seria impossível cobrir toda a variação milimétrica que encontramos nas pessoas. Assim, foram criadas medidas relativas que podem ser usadas por pessoas com tamanhos de pés próximos, mas não, necessariamente iguais. Por isso, às vezes, um calçado do número que usamos, normalmente, não fica perfeito. Os tamanhos de calçados são categorias que podem ser orde- nadas por ordem de tamanho (o 36 é menor que o 37, etc.), mas a diferença entre os tamanhos não é exatamente igual.

Quando lidamos com variáveis medidas em escala de razão, fica muito difícil criar tabelas de frequências. Uma forma, que temos para lidar com isso, é classificar os dados de uma variável contínua, em escala de razão, em intervalos que cobrirão toda a variação encontrada na amostra.

Vamos imaginar que um médico decidiu ver a frequência da altura dos sol- dados de um batalhão do exército. Ele mediu um soldado a cada cinco que

passavam em frente à porta do consultório e assim, conseguiu uma amostra aleatória (tabela 6). No fim do dia, ele tinha a altura, em metros, de 30 sol- dados.

Tabela 6: Altura, em metros, de 30 soldados de um batalhão do Exército Brasileiro.

1,81

1,61

1,75

1,84

1,67

1,60

1,77

1,66

1,61

1,75

1,72

1,62

1,94

1,72

1,62

1,80

1,74

1,68

1,83

1,70

1,88

1,85

1,79

1,73

1,76

1,73

1,65

1,69

1,65

1,80

Vemos que há dois soldados medindo 1,61m, dois com 1,72m, etc. Mas a maioria das medidas ocorre uma só vez. Assim, se fôssemos criar uma tabela de frequências como a que fizemos com o tamanhos dos sapatos, teríamos um monte de medidas com a frequência absoluta de 1 e não chegaríamos a qualquer conclusão. Desse modo, podemos criar intervalos de medidas que cubram a variação das medidas e ainda assim nos dê uma ideia de qual intervalo de altura é o mais frequente no batalhão. Devemos, em primeiro lugar, verificar qual o valor mínimo e máximo, e assim, decidiremos quantas classes de intervalos serão criadas.

Digamos que seria interessante fazer um intervalo de cinco centímetros: o primeiro cobriria alturas de 1,60m até 1,649m (o médico não mediu com essa acurácia, mas devemos deixar bem claro, quais são os limites de nossos intervalos); o segundo, de 1,65m até 1,699m; o terceiro iria de 1,70m até 1,749m, e assim por diante. Nossa tabela de frequências ficaria assim (tabela

7):

Tabela 7: Frequências absoluta, relativas e cumulativa da altura de 30 solda- dos do Exército Brasileiro, em intervalos de 5 cm.

Altura (m)

Frequência

Frequência

Frequência

Frequência

1,60 – 1,649

absoluta

relativa

relativa (%)

cumulativa (%)

5

0,17

17

17

1,65 – 1,699

6

0,2

20

37

1,70 – 1,749

6

0,2

20

57

1,75 – 1,799

5

0,17

17

74

1,80 – 1,849

5

0,17

17

91

1,85 – 1,899

2

0,06

6

97

1,90 – 1,949

1

0,03

3

100

Total

30

1

100

100

Veremos na próxima aula como podemos montar gráficos, usando as tabelas de frequência e como essas informações podem nos ajudar a entender uma população que estamos estudando.

Como apresentar uma tabela de frequências

Há regras bem estabelecidas sobre como uma tabela de frequências deve ser apresentada em um trabalho acadêmico ou relatório profissional.

Uma tabela deve ser apresentada com um título explicativo do seu conte- údo e deve ser, devidamente, numerada dentro do trabalho. Também no título, entram as notas que elucidam detalhes de abreviaturas ou métodos utilizados.

No cabeçalho, vão as informações sobre os dados contidos nas colunas, verticais. A primeira coluna é denominada coluna indicadora e contém in- formação sobre os dados contidos nas linhas, horizontais. O corpo da colu- na é formado pelas células, que são a intercessão entre as linhas e colunas.

No rodapé, deve-se indicar a fonte da informação, quando necessário.

O formato usado deve ser o de duas barras, separando o cabeçalho e uma linha contendo a tabela na parte inferior. Se usarmos uma linha final para indicar totais, deve ser destacada e separada por duas barras, como o ca- beçalho. No editor de texto Word, da Microsoft, deve-se usar o formato “Tabela clássica”. Verifiquem a tabela 7, acima, para ver como o formato final deve ser.

Tal formato deve ser usado em toda a extensão de um relatório ou trabalho acadêmico, tendo-se o cuidado com a numeração das tabelas apresentadas. Esse é o primeiro passo para um bom trabalho descritivo de Estatística apli- cada a qualquer área do conhecimento.

Medidas de Tendência Central

Como vimos, podemos descrever uma amostra representativa de uma po- pulação através das frequências das classes, ou valores, de uma variável, criando uma distribuição de frequências. Para entendermos a distribuição dos dados de uma variável, precisamos resumir a variável em medidas que representem seus valores centrais e sua amplitude.

Assim, temos as medidas de tendência central, que representam os valo- res centrais de uma distribuição e as medidas de dispersão, que represen- tam sua amplitude, as quais estudaremos mais tarde.

As medidas de tendência central são medidas da localização do “meio” ou “centro” de uma distribuição. A definição de “meio” ou “centro” é deixada um tanto quanto vaga de propósito, de modo que o termo “tendência cen- tral” pode se referir a uma larga variedade de medidas.

A média aritmética é a medida de tendência central mais comum e a que estamos mais acostumados a usar: das nossas notas em uma disciplina até notícias nos jornais, fala-se sempre nessa medida. As outras duas medidas de tendência central são a mediana e a moda.

Média aritmética

A média aritmética é, simplesmente, a soma de todos os números dividida pela quantidade dos mesmos. O símbolo µ (a letra grega mu) é usado para representar a média de uma população, que é um parâmetro. Os símbolos (pronunciado “xis barra”) ou M representam a média de uma amostra, que é uma estatística.

Tal formato deve ser usado em toda a extensão de um relatório ou trabalho acadêmico, tendo-se

A fórmula para a média aritmética é a mesma para uma amostra ou popu- lação, é muito simples. Abaixo, podemos ver a fórmula da média aritmética

de uma amostra (

):
):

Em que x é a soma de todos os números, ou valores, em uma amostra e n é a quantidade de números, ou valores, nessa amostra.

Por exemplo, a média dos números 1, 2, 3, 6 e 8 é igual a 4, pois a soma dos cinco números é 20, então 20/5 = 4.

Podemos coletar dados sobre o número de chutes a gol de cada um dos 31 times de um campeonato de futebol (tabela 8); os dados estão no quadro abaixo, organizados do maior para o menor valor:

Tabela 8: Número de chutes a gol de 31 times de futebol durante um cam- peonato.

  • 37 33

33

32

29

28

28

23

  • 22 22

22

21

21

21

20

20

  • 19 18

19

18

18

18

16

15

  • 14 14

14

12

12

9

6

Com esses valores, podemos calcular a média de chutes a gol dos times nes- se campeonato, usando a fórmula acima:

Em que x é a soma de todos os números, ou valores, em uma amostra e

Mas devemos prestar atenção quando o uso da média aritmética é válido e o quanto ela representa a realidade. Sabemos que o número de chutes a gol é uma variável descontínua, ou seja, não existem números decimais, apenas inteiros. Não é possível que exista meio chute a gol. Devemos, então, lembrar que o valor 20,4516 é uma aproximação da realidade, já que esse valor não é inteiro.

A média aritmética, obviamente, não pode ser usada em variáveis categóri- cas, pois não podemos somar, por exemplo, azul, vermelho e verde.

Para valores contínuos, que possuem números não inteiros (como altura ou peso), a média aritmética é muito mais acurada, representando um valor possível de ocorrer. Em muitos casos, a melhor medida de tendência central para uma variável discreta, como a acima, não é a média, mas uma das ou- tras medidas que veremos a seguir.

Mediana

A mediana também é uma medida de tendência central, frequentemente, usada. É o ponto central de uma distribuição: se ordenarmos os dados, há a mesma quantidade de valores acima da mediana e abaixo dela. Se usarmos, novamente, os dados dos chutes a gol dos times em um campeonato, no quadro acima, sabemos que há 31 valores. O 16º valor mais alto, que corres- ponde a 20, é a mediana, pois há 15 valores maiores e 15 valores menores que ele. Assim, a mesma divide a amostra em duas partes iguais.

A mediana independe da amplitude da amostra. Por exemplo, se temos os valores: 1, 23, 54, 76, 190, 379 e 1098, a mediana será 76, pois há três valores menores e três maiores que esse número. Ainda, na série 1, 16, 53, 76, 82, 90 e 92, ela será 76, pois também há três valores maiores e menores que ele.

No primeiro exemplo, a amplitude dos dados é maior, indo de 1 a 1098. No segundo exemplo, vai apenas de 1 a 92. Em ambos os casos, a amostra consiste de sete números, com o valor de 76 caindo, exatamente, no meio da distribuição.

A mediana, no entanto, é dependente do tamanho da amostra, pois divide a distribuição em duas partes iguais. Quanto maior a amostra, mais alta a posição da mesma.

Para calcularmos a mediana, devemos organizar os dados por ordem de tamanho. Se tivermos uma amostra com um número ímpar de dados, ela será aquele, exatamente, do meio. E a sua posição pode ser calculada pela fórmula:

Mediana A mediana também é uma medida de tendência central, frequentemente, usada. É o ponto central

Em que Me é a mediana e n o número de dados em uma variável.

Por exemplo, na distribuição 11, 12, 13, 16, 17, 20 e 25, a mediana é igual a 16, pois é o valor que está, exatamente, no meio da distribuição:

Mediana A mediana também é uma medida de tendência central, frequentemente, usada. É o ponto central
  • 4 a posição.

Mas atenção: essa fórmula serve para localizar a posição da mediana e não, o seu valor que se encontrará na posição indicada pela fórmula, quando os dados forem organizados em ordem crescente.

Se o número de dados da amostra é par, a mediana é o ponto da distribui- ção que é antecedido e precedido por igual número de dados, mesmo que seu valor específico não figure entre os dados, pois em um número par de dados, há dois valores centrais. Por exemplo, na distribuição 11, 12, 13, 16, 17, 20, 25 e 26, podemos usar a fórmula acima:

Se o número de dados da amostra é par, a mediana é o ponto da distribui-

Isso significa que a mediana se encontra entre o quarto e o quinto valor da série, que na quarta posição é 16 e na quinta, 17. E para achá-la , tiramos a média aritmética desses dois valores:

Se o número de dados da amostra é par, a mediana é o ponto da distribui-

Assim, a mediana da série é 16,5, apesar desse valor não existir na série em questão.

O fato de a mediana ser uma posição a torna inadequada para certas bases de dados. Por exemplos, para a série 1, 2, 3, 100, 200, 300, a mediana seria 3+100/2 = 51,5, o que a deixa muito mais perto dos valores menores da série e bem distante dos maiores.

Já a média aritmética seria 606/6 = 101 e dá uma ideia mais adequada desse grupo de dados. A mediana é ideal, no entanto, para descrever a tendência central de um grupo de dados proporcionais ou em porcentagem, já que esses ficarão entre 0 e 1 ou 0 e 100.

Moda

A terceira é última medida de tendência central é a moda, que consiste sim- plesmente no valor que ocorre mais frequentemente.

Assim, no nosso exemplo, lá em cima, dos chutes a gol dos 31 times em um campeonato d futebol, a moda é 18, pois, pois quatro dos 31 times fizeram 18 chutes a gol. Para dados contínuos, que possuem valores decimais, é mui- to difícil que se encontrem vários valores iguais, e geralmente acabamos com vários valores da frequência de ocorrência 1, ou seja, cada valor só ocorre uma vez. Nesses casos, o que se pode fazer é agrupar os dados em intervalos e criar uma distribuição de frequências agrupadas.

Vejamos um exemplo: um pesquisador mediu o tempo de resolução de 20 alunos para um quebra-cabeça. Os valores, medidos em segundo, variaram

entre 500 e 1100, e nenhum aluno resolveu o quebra-cabeça, exatamen- te, no mesmo tempo. Assim, podemos criar uma distribuição de frequência agrupada (tabela 9).

Tabela 9: Frequência absoluta dos intervalos de tempo de resolução de um quebra-cabeça, em segundos, por 20 alunos de uma escola.

Amplitude de tempo (segundos)

Frequência absoluta

  • 500 3

– 599

  • 600 6

– 699

  • 700 5

– 799

  • 800 5

– 899

  • 900 0

– 999

1000 – 1100

1

Nessa amostra, a amplitude de tempo que contém o maior número de regis- tros é a de 600 a 699 segundos, com seis estudantes resolvendo o problema nesse intervalo de tempo. A moda estará no meio do intervalo e correspon- derá a 650 segundos.

A moda é a única medida de tendência central que pode ser utilizada em dados categóricos, nominais ou ordinais não numéricos. Moda quer dizer apenas o que é mais comum, e assim, o termo estatístico tem um significado bem diferente do sentido coloquial da palavra.

Enquanto no nosso dia-a-dia, os estilistas criam peças exclusivas que poucas pessoas vão usar e chamam isso de “moda”, já a moda estatística é o que a maioria das pessoas está vestindo. Assim, calças jeans e camiseta formam a moda estatística na maioria dos países ocidentais.

Medidas de dispersão

Vimos como podemos verificar quais os valores mais comuns em uma variá- vel, usando as medidas de tendência central. Mas sem sabermos algo sobre como os dados estão dispersos, as medidas de tendência central podem dar uma impressão errada da variável.

Por exemplo, uma rua residencial há 20 casas com um valor médio de R$ 200.000,00, mas com pouca variação entre os preços, seria muito diferente de uma rua cujas 20 casas têm o mesmo valor médio, mas que três casas valem R$1.000.000,00 e as outras 17 custam cerca de R$ 60.000,00.

As medidas de dispersão dão uma visão mais completa e nos fazem enten- der melhor o tamanho da variação dos dados. Elas incluem a amplitude, o desvio médio, a variância e o desvio padrão.

Amplitude

A mais simples medida de dispersão é a amplitude que é calculada, sim- plesmente, tomando-se a diferença entre os valores máximo e mínimo do conjunto de dados.

No entanto, a amplitude só fornece informação sobre os valores extremos e não diz nada sobre os valores entre eles, ou seja, se a variação é homogênea ou se os valores estão mais agrupados próximos aos extremos. Ela é usada apenas para ilustrar o intervalo de valores dentro do qual um grupo de dados se encontra.

Desvio médio

Para se ter uma melhor compreensão da distribuição dos dados em uma amostra, os valores residuais são utilizados para calcular o quanto cada ponto de dados está afastado dos valores esperados em uma distribuição. Esses resíduos podem ser calculados com base nas diferenças entre cada ponto de dados e a média, ou através de valores estimados através de, por exemplo, um cálculo de regressão, que veremos mais tarde.

Um método para calcular o desvio, ou resíduo, em uma amostra é o desvio médio, que calcula a diferença média entre cada ponto de dados (cada va- lor da variável) e a média dos pontos de dados, e a divide pelo número de dados.

Ao se fazer esse cálculo, no entanto, o resultado será um desvio igual a zero, pois os valores acima da média irão cancelar aqueles abaixo. Se esse método for usado, o valor absoluto da diferença deve ser medido, de modo, que apenas valores positivos são obtidos e o resultado é chamado de “desvio médio absoluto”:

Por exemplo, uma rua residencial há 20 casas com um valor médio de R$ 200.000,00, mas

ou

Por exemplo, uma rua residencial há 20 casas com um valor médio de R$ 200.000,00, mas

Em que:

  • = desvio médio absoluto;

  • = cada ponto de dados;

  • = média da amostra;

n = total de pontos de dados na amostra.

O desvio médio não é difícil de calcular e tem certo apelo intuitivo.

No entanto, quando é utilizado para análises estatísticas subsequentes, os cálculos matemáticos se tornam muito complexos, pois a maior parte dos teoremas estatísticos se baseia na minimização da soma dos resíduos ao quadrado, em vez da soma dos resíduos absolutos. Por causa dessa com- plexidade, o desvio médio não é, comumente, usado como uma medida de dispersão.

Variância

Uma maneira de resolver o problema que o desvio médio apresenta é usar a variância como medida de dispersão.

A variância de uma variável é uma medida de dispersão estatística que tira a média da distância ao quadrado entre todos os valores possíveis e a média aritmética da variável. Desse modo, todos os valores são positivos e a unida- de da variância é o quadrado da unidade da variável.

Para usarmos a medida de dispersão mais comum, o desvio padrão, que veremos a seguir, precisamos primeiro calcular a variância.

A variância de uma população é um parâmetro representado por ância de uma amostra é representada por s 2 .

2 ; a vari-

Em que: = desvio médio absoluto; = cada ponto de dados; = média da amostra; n

Geralmente, trabalhamos com amostras que representam uma população; por isso, devemos usar a fórmula da variância amostral:

Em que: = desvio médio absoluto; = cada ponto de dados; = média da amostra; n

Lemos a fórmula como o somatório da diferença entre cada valor e a média, ao quadrado, dividida pelo número de valores, menos um.

O cálculo da variância resolve um problema que o desvio médio apresenta, que é o de criar valores residuais muito diversos. A aplicação da potência quadrática funciona como se utiliza um logaritmo, homogeneizando as dife- renças quando forem calculadas outras estatísticas, como o desvio padrão, que veremos a seguir. Por esse motivo, a medida de dispersão é usada como base na maioria dos cálculos estatísticos, inclusive em análises avançadas.

Vamos aplicar essa fórmula a um exemplo. Queremos entender quantos quilos de detritos são produzidos em média pela indústria de tecelagem. Co- letamos informação de dez tecelagens e conseguimos a seguinte amostra, em toneladas de detritos por ano (tabela 10).

Tabela 10: Toneladas de detritos produzidos, por ano, em dez tecelagens.

  • 60 61

74

58

  • 55 65

54

57

56

42

Vamos, então, produzir uma tabela para calcular a variância.

O primeiro passo é calcular a média. A soma dos valores de nossa amostra é 582. A média será 582/10 + 58,2. A partir desse resultado, podemos calcular a diferença entre cada valor e a média. Por exemplo, se subtrairmos a média do primeiro número, 60, teremos 1,8.

As fábricas, que produziram menos que 58,2 toneladas de detritos por ano, terão desvios da média com valores negativos; esse é o problema que vimos sobre o uso do desvio médio como uma medida de dispersão: se somarmos todos os valores da coluna preenchida, a soma será zero.

Mas sabemos que, se multiplicarmos um valor negativo por ele mesmo, ou seja, se o fazemos ao quadrado, esse valor se tornará positivo. Por exemplo, (-0,02) x (-0,02) = 0,04. Vamos então preencher a última coluna e fazer a soma dos desvios ao quadrado que precisamos para calcular a variância (ta- bela 11).

Tabela 11: Desvio da média e desvio da média ao quadrado da produção de detritos em dez tecelagens.

Detritos

Desvio da média

Desvio da média ao

(Toneladas/ano)

(Xi -

)
)

quadrado (Xi -

(Toneladas/ano) (Xi - ) quadrado (Xi - )

) 2

  • 60 1,8

3,24

  • 74 15,8

249,64

  • 58 -0,2

0,04

  • 61 2,8

7,84

  • 56 -2,20

4,84

  • 55 -3,20

10,24

  • 54 -4,20

17,64

  • 57 -1,20

1,44

  • 65 6,8

46,24

  • 42 -16,20

262,44

Média: 58,2

Soma: 603,60

 

Agora que temos a soma de todos os desvios da média ao quadrado e sabe- mos que (n-1) = 10-1 = 9, podemos substituir os termos da fórmula:

Tabela 11: Desvio da média e desvio da média ao quadrado da produção de detritos em

Nesse caso, como vimos, a unidade da variância é uma quantidade ao qua- drado. Dizemos, então, que a variância na quantidade de detritos produzida pelas indústrias da tecelagem é de 67,07 toneladas por ano ao quadrado.

Quando calculamos a variância de uma população, usamos a mesma fórmu- la. A diferença é que usaremos a média da população (µ), que é um parâme- tro, em vez da média amostral ( ), que é uma estatística.

Tabela 11: Desvio da média e desvio da média ao quadrado da produção de detritos em

Desvio Padrão

A variância dá a ideia da amplitude da distribuição, mas como seu resultado é um valor ao quadrado, precisamos saber qual o desvio da média em geral, usando uma unidade igual à unidade da variável.

No nosso exemplo, precisamos saber qual o desvio geral da média em tone- ladas de detritos por ano. Assim, devemos usar o desvio padrão, cujo resul- tado é dado na mesma unidade da variável.

O desvio padrão é, simplesmente, a raiz quadrada da variância, sendo repre- sentado por , quando representando um parâmetro populacional, ou por s, quando representando uma estatística amostral. Novamente, usaremos a estatística amostral como exemplo em nossa fórmula:

No nosso exemplo, precisamos saber qual o desvio geral da média em tone- ladas de detritos
No nosso exemplo, precisamos saber qual o desvio geral da média em tone- ladas de detritos

A raiz quadrada anula a potência de dois, então temos o desvio padrão. Seguindo o exemplo que usamos até agora, teremos:

No nosso exemplo, precisamos saber qual o desvio geral da média em tone- ladas de detritos

Podemos então dizer que, usando nossa amostra de indústrias de tecela- gem, a quantidade média de resíduos é de 58,2 toneladas por ano e o des- vio padrão é de 8,19 toneladas por ano. Para resumir, nós apresentamos os resultados da seguinte forma: a quantidade média de resíduos da indústria de tecelagem é de 58,2 ± 8,19 toneladas por ano.

Quando apresentamos os resultados dessa forma, damos duas ideias bási- cas: uma é a da tendência central da variável, dada nesse caso pela média. A outra é a ideia de dispersão, fornecida pelo desvio padrão.

Com estas duas medidas, estamos descrevendo a maioria dos dados que analisamos. De volta ao nosso exemplo, se subtrairmos o desvio padrão da média, teremos o valor de 50,01 toneladas/ano; se somarmos os valores, o resultado é de 66,39 toneladas/ano. Vamos ver quanto dos nossos dados estão entre 50,01 e 66,39:

42 – 54 – 55 – 56 – 57 – 58 – 60 – 61 – 65 – 74

Nesse caso, subtraindo ou adicionando o desvio padrão, a média é suficiente para cobrir 80% dos dados. Por isso, o formato ± s ou µ ± serve bem para descrever os dados de uma amostra ou população.

No nosso exemplo, precisamos saber qual o desvio geral da média em tone- ladas de detritos
No nosso exemplo, precisamos saber qual o desvio geral da média em tone- ladas de detritos

Estatística no Excel

Os programas de computador podem economizar muito tempo de uma pes- quisa estatística e os editores de planilhas são ideais para a organização das bases de dados.

Alguns desses editores servem apenas como base para que sejam listados os dados, para depois serem transferidos a programas estatísticos, que realizam os cálculos. Outros editores possuem funções que permitem o cálculo de estatísticas básicas, como as medidas de tendência central e de dispersão. O mais popular dos editores de planilhas é o Excel da Microsoft, que apresenta várias funções estatísticas.

É muito provável que a maioria de vocês já esteja familiarizada com esse pro- grama, que em muito facilita a vida de quem trabalha com números. Criado, inicialmente, para a área financeira, os editores de planilhas como o Excel são hoje utilizados em todas as áreas do conhecimento que apresentem dados quantificáveis.

A seguir, veremos como criar uma pequena base de dados no Excel e como calcular as principais estatísticas de uma amostra.

O primeiro passo é criar um novo arquivo. A primeira linha será sua linha de título, conterá o nome e a unidade de medida das variáveis. (figura 1).

Estatística no Excel Os programas de computador podem economizar muito tempo de uma pes- quisa estatística

Figura 1: Aparência de um novo arquivo no editor de planilhas do Excel.

A partir da linha 2, comece a colocar os valores da variável, uma célula para cada indivíduo e uma abaixo da outra. Se houver mais de uma medida de cada indivíduo, usam-se as colunas seguintes, sempre mantendo os valores para um mesmo indivíduo na mesma linha (figura 2).

A partir da linha 2, comece a colocar os valores da variável, uma célula para cada

Figura 2: Planilha de Excel contendo a altura (em cm), o peso (em kg) e a cor dos olhos de 12 indivíduos.

Os dados inseridos nas planilhas de Excel podem ser, facilmente, organizados em ordem crescente ou decrescente, permitindo que, em um lance, possa- mos ver que características são mais frequentes, ou mesmo qual o intervalo (amplitude) de dados numéricos. Para isso, devemos selecionar toda a tabela (pois se selecionarmos apenas a variável, só ela será classificada) e usar a ferramenta “classificar dados” (Dados => Classificar) para organizá-los em ordem crescente ou decrescente. Temos a opção de “avisar” ao programa se temos ou não uma linha de cabeçalho (figura 3).

Figura 3: Usando a ferramenta “Classificar dados” do Excel para ordenar, alfabetica- mente, os dados pela

Figura 3: Usando a ferramenta “Classificar dados” do Excel para ordenar, alfabetica- mente, os dados pela variável “Cor dos olhos”.

A ordenação dos dados é importante em vários testes estatísticos, como as chamadas “correlações de postos”. Mesmo que eles não sejam realizados pelo Excel da Microsoft, a simples ordenação automática dos dados já remo- ve a fase mais demorada desse tipo de teste.

Medidas de tendência central no Excel

Podemos calcular as medidas de tendência central com a ajuda do programa Excel, de forma rápida e fácil.

Média aritmética

O Excel possui um sistema de fórmulas que podemos utilizar. Por exemplo, para calcular a média da altura dos indivíduos da tabela vista na figura 2, devemos ir até o fim da coluna em questão e digitar a seguinte fórmula:

=média(b2:b13)

O Excel reconhece o sinal de “=” como um aviso que vamos usar uma fór- mula e, entre parênteses, devemos inserir o intervalo de células que contém a variável, separado por dois pontos. No caso, da célula 2 da coluna B (b2) até a célula 18 da coluna B (b18)( figura 4).

Figura 4: Calculando a média de uma variável no Excel. O programa, automaticamente, calcula a média

Figura 4: Calculando a média de uma variável no Excel.

O programa, automaticamente, calcula a média dos dados em questão, bas- tando para isso que pressionemos a tecla “enter”. O valor da média aparece- rá, de forma automática, na célula em que escrevemos a fórmula (figura 5).

Figura 4: Calculando a média de uma variável no Excel. O programa, automaticamente, calcula a média

Figura 5: O valor da média da variável “Altura (cm)” é calculado, automaticamente, pelo Excel.

Mediana

Agora, usando a mesma tabela, vamos calcular a mediana para a altura dos indivíduos. Há uma fórmula para isso e seu comando, no Excel, é MED. Assim, para que possamos calcular a mediana de nossa variável, devemos escrever, em uma célula livre, a fórmula “=med(b2:b13)”, como pode ser visto na figura 6.

Mediana Agora, usando a mesma tabela, vamos calcular a mediana para a altura dos indivíduos. Há

Figura 6: A fórmula para a mediana no Excel.

Novamente, pressionando-se a tecla “enter”, o valor da mediana é, automa- ticamente, calculado (figura 7).

Mediana Agora, usando a mesma tabela, vamos calcular a mediana para a altura dos indivíduos. Há

Figura 7: A mediana dos valores de altura de uma amostra com 20 indivíduos.

Moda

Para calcular a moda, vamos usar a variável categórica nominal “cor dos olhos”, que possui três classes (azul, castanho e verde) e está representada na figura 2.

Como fizemos para a organização dos dados, vamos selecionar toda a tabe- la e pedir que o programa classifique os dados pela variável “cor dos olhos”, da mesma forma como foi vista naffigura 3. Com as classes ordenadas, po- demos, facilmente, contar qual a classe mais abundante. Castanho é a moda para a cor dos olhos dos indivíduos da amostra, com sete indivíduos, em uma amostra de 12, apresentando olhos castanhos ffigura 8).

Moda Para calcular a moda, vamos usar a variável categórica nominal “cor dos olhos”, que possui

Figura 8: Dados nominais ordenados permitem a identificação da classe modal no Excel.

Variância e desvio padrão com Excel

Podemos usar o Excel para calcular a variância de uma variável bem rapida- mente; isso é muito útil, principalmente, com grandes bases de dados. O Excel possui um comando para calcular a variância: VAR. Então, vamos usar nosso exemplo da altura de um grupo de indivíduos, com a mesma tabela que estamos utilizando, inserindo a fórmula “=var (b2:b13)” em uma célula livre ffigura 9).

Figura 9: A fórmula para calcular a variância em Excel. Novamente, o valor é calculado, automaticamente,

Figura 9: A fórmula para calcular a variância em Excel.

Novamente, o valor é calculado, automaticamente, ao se pressionar “enter” ffigura 10).

Figura 9: A fórmula para calcular a variância em Excel. Novamente, o valor é calculado, automaticamente,

Figura 10: A variância dos valores de altura de uma amostra com 20 indivíduos.

Há duas maneiras de se calcular o desvio padrão a partir de agora: pode- mos, simplesmente, tirar a raiz quadrada da variância em uma calculadora comum, ou podemos aplicar o comando DESVPAD no Excel ffigura 11).

Figura 11: A fórmula do desvio padrão no Excel. A vantagem de se utilizar a fórmula

Figura 11: A fórmula do desvio padrão no Excel.

A vantagem de se utilizar a fórmula na planilha do Excel é que podemos ter todos os cálculos em um único luga (ffigura 12). Não há problema se termi- namos com uma sequência de valores, aparentemente, desconhecidos abai- xo de nossos dados, pois, quando selecionamos a célula, a fórmula utilizada aparece na caixa de função (fx) no alto da janela do Excel.

Figura 11: A fórmula do desvio padrão no Excel. A vantagem de se utilizar a fórmula

Figura 12: O desvio padrão dos valores de altura de uma amostra com 20 indivíduos.

Em nossa base de dados, estudamos a variável “Altura (cm)” e verificamos que, em nossa amostra, os indivíduos tinham uma altura média de 164,17 ± 11,38 cm. Podemos, rapidamente, calcular as mesmas estatísticas para a variável “Peso (kg)”, ou qualquer outra, em outras bases de dados, com a ajuda dos comandos e fórmulas do MS Excel.

Resumo

As medidas de tendência central são a média aritmética, a mediana e a moda, e dão uma ideia em que está a maioria dos dados ou onde cai o meio da distribuição, assim:

a média aritmética é influenciada pelos valores extremos;

a mediana é apenas a posição do valor central e não sofre influência dos valores extremos;

a moda é a classe mais comum em um grupo de dados.

A média aritmética serve como tendência central de muitos tipos de dados, desde que a distância entre eles seja, relativamente, homogênea. Em bases de dados cujos valores estão agrupados mais aos extremos, a mediana se torna mais apropriada; essa medida também é ideal para variáveis propor- cionais ou em porcentagem. A moda é usada para variáveis categóricas ou dados contínuos agrupados.

As medidas de dispersão dão a ideia da amplitude da distribuição, que é, simplesmente, a distância entre o menor e o maior valor.

O desvio médio parece ser adequado para descrever a amplitude, mas os cálculos complexos necessários a seu uso o tornam inadequado para análises estatísticas.

A variância dá o desvio ao quadrado da média; calcula-se o desvio padrão, a partir desse valor, que é a medida de dispersão mais usada em análises estatísticas descritivas.

A média e o desvio padrão juntos dão uma boa ideia de como é uma va- riável: sabemos onde estão a maioria dos dados e o quanto eles variam. O formato ± s é a maneira mais comum de resumir uma variável.

Em nossa base de dados, estudamos a variável “Altura (cm)” e verificamos que, em nossa amostra,

Referências

LEME, R. A. DA S.: Curso de Estatística – Elementos. Rio de Janeiro: AO LIVRO TÉCNICO.

1967.

LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DO BRASIL. 1978.

SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009. SPIEGELRRAY R, Estatística. MAKRON. 1994

Aula 3 - Representações gráficas

Objetivos

• Conhecer a apresentação visual de dados amostrais e sua aplica- ção na pesquisa estatística;

• Aprender a construir os tipos mais comuns de representações

gráficas na Estatística;

• Conhecer alguns tipos de gráficos para variáveis múltiplas;

• Usar o Excel na elaboração de gráficos.

Assunto

Nesta aula, veremos como é possível representar um conjunto de dados amostrais visualmente, de forma a permitir uma rápida compreensão da informação coletada. Veremos os formatos de gráficos mais comuns para re- presentar uma única variável e algumas maneiras de trabalhar com múltiplas informações visíveis, assim como aprenderemos a aplicar esse conhecimento nas pesquisas estatísticas.

Introdução

Uma forma simples de sumarizar uma variável é através das representações gráficas. Gráficos e diagramas ajudam a visualizar os dados imediatamen- te - entende-se, de pronto, a distribuição das frequências, ajudando-nos a reconhecer padrões já existentes.

Há dezenas de possíveis representações gráficas na Estatística. Nesta aula, no entanto, vamos nos ater às formas mais utilizadas em relatórios e trabalhos acadêmicos, de forma a permitir a descrição adequada de dados amostrais.

O uso de gráficos em trabalhos estatísticos cresceu a partir da popularização dos computadores: gráficos que eram, penosamente, desenhados a mão

podem ser feitos, hoje em dia, em segundos, e com possibilidades infinitas de cores e formas. Porém, há um lado bom e um lado mau no uso crescente de representações gráficas.

No lado bom, os gráficos fáceis de fazer incentivam a importância da análise exploratória. No mau, existe o uso excessivo de recursos visuais mais sofis- ticados, como animações, dimensões múltiplas, muitas cores, texturas e formas originais. O embelezamento excessivo das representações estatísticas gráficas é ótimo para uma apresentação de negócios, mas péssimo para a Ciência, por distrair a atenção dos valores reais.

Há uma regra muito simples no uso de gráficos: fazer tudo o mais simples possível. Poucas linhas, cores padronizadas e uma apresentação limpa são muito mais eficazes para apresentar dados científicos.

Logo, devemos lembrar que dados de uma pesquisa devem ser entendidos e necessitam ser representados o mais precisamente possível. Qualquer resul- tado extraído de um grupo de dados é, igualmente, importante, então não há necessidade de distrair o leitor com cores e formas.

As representações gráficas de uma variável, geralmente, envolvem a apre- sentação de frequências de distribuição, que podem ser agrupadas ou cumu- lativas. Mais adiante, no curso, veremos o uso das representações de dados brutos na Estatística Inferencial. Para a análise descritiva de um grupo de dados, os métodos de representação visual incluem:

Gráficos de barras e de “torta”;

Gráficos de frequência contínua e histogramas;

Polígonos de frequência absoluta e curva de frequência acumulada;

Diagramas do tipo “ramo e folha”.

Nos próximos itens vamos aprender a construir cada um deles.

Gráficos de barras e “torta”

Gráficos de barras e “tortas” são o tipo mais comum de representação es- tatística. Esse tipo de sumário gráfico permite uma visualização imediata das frequências de ocorrência de dados categóricos. Para dados ordinais, a representação em um gráfico de barras fornece uma compreensão instan-

tânea sobre a distribuição, enquanto o gráfico de “torta” nos permite ver o tamanho das “fatias” de cada categoria nominal prontamente.

Aí, neste tipo de representação são usados dados categóricos (nominais e ordinais podem ser usados diretamente; mas os contínuos precisam ser se- parados em intervalos) com frequências absolutas.

Vamos, então, representar, em um gráfico de barras, os dados de uma variá- vel nominal. Estamos interessados em saber qual candidato seria eleito como representante estudantil de uma universidade, e para isso, entrevistamos

  • 573 alunos de um total de 5000, ou seja, um pouco mais de 10% dos elei-

tores em potencial. Descobrimos que 54 votariam em José, 167 em Maria,

  • 198 em João, 89 em Ana e 65 em Robert.

Agora que nossos dados foram quantificados, podemos criar um gráfico de barras. Primeiro, devemos criar a área do gráfico. Nela temos o eixo de x, na horizontal, que vai conter as classes de materiais dentro da variável e o eixo de y, vertical, graduado de forma a representar as frequências absolutas de cada classe.

Em seguida, desenhamos as barras correspondentes a cada classe; o ta- manho da barra é limitado pela repetição de cada classe. Todo gráfico deve ser acompanhado de uma legenda, detalhando o tamanho da amostra e de onde vieram os dados (fig. 1). A frequência absoluta de cada categoria também pode ser exibida.

tânea sobre a distribuição, enquanto o gráfico de “torta” nos permite ver o tamanho das “fatias”

Figura 1: Frequências absolutas das intenções de votos para a eleição de um repre- sentante estudantil de uma universidade (n = 573).

Nesse caso, a variável é nominal, portanto podemos ordenar as categorias no eixo de x da forma que quisermos. Se a variável fosse ordinal, a ordem das categorias também deverá ser mantida no gráfico. A grande vantagem desse tipo de gráfico é a visualização imediata da categoria mais frequente; no caso, sabemos, imediatamente, qual é o candidato que possui mais in- tenções de voto.

Outra forma de se representar esse tipo de dados é através do gráfico de “torta” (fig. 2). A grande diferença entre o gráfico de barras e o de torta é que o último representa dados proporcionais: os 360° do círculo repre- sentam 100% e cada fatia representa a proporção que cada categoria tem nesses 100%:

Nesse caso, a variável é nominal, portanto podemos ordenar as categorias no eixo de x da

Figura 2: Frequências relativas das intenções de votos para a eleição de um represen- tante estudantil de uma universidade (n = 573).

Os gráficos de torta são perfeitos para comparar as diferenças de frequ- ências entre diferentes amostras, especialmente, se elas têm tamanhos di- ferentes. Por exemplo, se estivéssemos pesquisando eleições estaduais ou nacionais, poderíamos comparar os resultados entre os municípios, mesmo que as amostras fossem respectivamente de 330, 240, 159 e 58 eleitores.

Para fazer, manualmente, um gráfico de torta, devemos transformar as fre- quências absolutas em relativas e daí em graus. Isso é muito simples: se

100% = 360°, então 1% =

100% = 360°, então 1% = . Assim, seguindo nosso exemplo anterior, vamos construir uma tabela

. Assim, seguindo nosso exemplo anterior,

vamos construir uma tabela (tabela 1).

Tabela 1: Frequências absolutas e relativas das intenções de votos para a eleição de um representante estudantil de uma universidade (n = 573) e seus equivalentes em graus (°).

Candidato

Fr. absoluta

Fr. relativa (%)

Graus (°)

José

54

9,42

33,93

Maria

 
  • 167 104,92

29,14

 

João

 
  • 198 124,40

34,55

 

Ana

 
  • 89 15,53

55,92

Robert

 
  • 65 11,34

40,84

Total

573

100

360

Com o uso do compasso e do transferidor, podemos desenhar o gráfico de torta e colorir as “fatias” a gosto.

Gráficos de barras contínuas e histogramas

Esses dois tipos de representação são utilizados para sumarizar intervalos ou escalas de razão, ou seja, variáveis contínuas. Medidas como altura, peso ou comprimento podem ser representadas assim, dando ideia do padrão geral da distribuição. O número de casas decimais usadas, nesses casos, depen- de do nível de detalhe necessário e da acurácia da medição, mas de forma geral, variáveis contínuas possuem valores que aparecem apenas uma vez. Assim, antes de começar os gráficos, devemos criar intervalos de valores, como fizemos com o tempo de resposta de estudantes a um quebra-cabeça na aula anterior. O gráfico de barras contínuas daqueles dados teria a apa- rência vista na fig. 3.

Figura 3: Histograma de frequências absolutas dos intervalos de tempo de resolução de um quebra-cabeça, em

Figura 3: Histograma de frequências absolutas dos intervalos de tempo de resolução de um quebra-cabeça, em segundos, por 20 alunos de uma escola.

A diferença entre o gráfico de barras contínuas e um histograma é a mesma que entre um gráfico de barras e um de torta: o gráfico de barras contínuas é criado em cima de frequências absolutas e o histograma, das relativas, ou proporcionais. A principal característica do histograma é que a soma das áreas de suas barras vai sempre ser 1, o que é igual a 100%.

Vamos imaginar que coletamos informação sobre o comprimento das es- pigas de uma variedade de milho. Após medirmos 30 espigas, chegamos à tabela 2.

Tabela 2: Tabela de frequências absoluta e relativa dos intervalos de compri- mento, em centímetros, de 30 espigas da variedade A de milho.

Tamanho da espiga (cm)

Fr. absoluta

Fr. relativa

  • 15 – 16,9

 
  • 2 0,07

  • 17 – 18,9

 
  • 6 0,2

  • 19 – 20,9

10

0,33

  • 21 – 22,9

 
  • 9 0,3

  • 23 – 24,9

 
  • 3 0,1

Total

30

1

Com as frequências relativas, podemos construir um histograma (fig. 4).

Tamanho da espiga (cm) Fr. absoluta Fr. relativa 15 – 16,9 2 0,07 17 – 18,9

Figura 4: Histograma de frequências relativas dos intervalos de comprimento, em centímetros, de 30 espigas da variedade A de milho.

A vantagem dos histogramas é a mesma do gráfico de torta: podemos colo- car, lado a lado, informações vindas de amostras com tamanhos diferentes,

pois os dados estão representados em proporções. Não se poderia fazer isso com um gráfico de barras contínuas a não ser que as amostras fossem do mesmo tamanho.

Polígonos e curvas de frequência

Outra forma de apresentar frequências, graficamente, é através dos polígo- nos e curvas de frequência. O polígono de frequência pode ser usado quan- do não há intervalos entre os valores e, basicamente, é um gráfico cujos pontos são conectados por uma linha. Por exemplo, digamos que estamos tentando descobrir o número de moradores em 109 apartamentos de um conjunto residencial. Os resultados que encontramos estão na tabela 3.

Tabela 3: Tabela de frequências absolutas do número de moradores em 109 domicílios de um conjunto habitacional.

Número de moradores por domicílio

Número de domicílios

1

17

2

30

3

26

4

17

5

13

6

6

Total

109

O polígono de frequência pode ser construído tanto com frequências abso- lutas quanto relativas. Contudo, nesse caso, usaremos, apenas, as absolutas

(fig.5).

Figura 5: Polígono de frequências absolutas do número de moradores em 109 domi- cílios de um

Figura 5: Polígono de frequências absolutas do número de moradores em 109 domi- cílios de um conjunto habitacional.

Podemos representar os mesmos dados em uma curva de frequências acu- muladas. Desta vez, vamos usar frequências relativas e vamos somar cada valor com o anterior, como vimos nas aulas passadas. Adicionaremos, então, mais duas colunas à nossa tabela, criando a tabela 4.

Tabela 4: Tabela de frequências absoluta, relativa e acumulada do número de moradores em 109 domicílios de um conjunto habitacional.

Número de

Número de lotes

Fr. relativa

Fr. acumulada

espécies vegetais

(%)

(%)

1

  • 17 15,60

 

15,60

2

  • 30 27,52

 

43,12

3

  • 26 23,85

 

66,97

4

  • 17 15,60

 

82,57

5

  • 13 11,93

 

94,50

6

6

5,50

100

Total

109

100

100

O gráfico resultante será uma curva de frequências acumuladas, como vista na fig. 6.

O gráfico resultante será uma curva de frequências acumuladas, como vista na fig. 6. Figura 6:

Figura 6: Curva de frequências relativas acumuladas do número de moradores em 109 domicílios de um conjunto habitacional.

Esse tipo de gráfico é, extremamente, útil para comparar distribuições or- dinais entre amostras de tamanhos diferentes e para entender onde está a maioria dos dados. Curvas cumulativas são muito usadas em avaliações am- bientais, no controle de qualidade, em avaliações de segurança e em estudos sobre populações humanas.

Diagramas de “ramo e folha”

Todas as representações gráficas anteriores perdem informação, pois não representam todos os valores reais de uma variável, e sim, os sumariza e agrupa de forma a dar uma visão geral dos dados.

Os diagramas de “ramo e folha”, às vezes, chamados dendrogramas, (ape- sar desse termo também ser usado para outros diagramas, especialmente em Linguística e Biologia), preservam os valores individuais dos dados.

Outra vantagem dos diagramas de “ramo e folha” é que eles podem ser montados manualmente, ou com o auxílio de uma máquina de escrever ou processador de texto, sem a necessidade de planilhas ou programas estatís- ticos.

Vejamos um exemplo: coletamos a emissão de dióxido de carbono de 35 indústrias (em toneladas por ano) e conseguimos os seguintes dados:

  • 48 57

 

66

 
  • 48 47

  • 50 58

 
  • 48 49

 

48

 
  • 47 50

  • 57 40

 
  • 43 40

 

44

 
  • 40 47

    • 34 42

   
  • 48 53

 

43

 
  • 43 39

  • 25 45

 
 
  • 38 35

30

 
  • 38 27

  • 38 28

 

Para criar o diagrama, devemos separar os valores em dois dígitos. Escreve- mos os dígitos das dezenas verticalmente, formando o “ramo”:

2

3

4

5

6

Depois acrescentamos os dígitos que sobraram (as unidades) nas fileiras cor- respondentes: são as “folhas”:

2| 5

7

8

3| 0

4

5

8

8

8

9

4| 0

0

0

2

3

3

3

4

5

7

7

7

8

8

8

8

8

9

5| 0

0

3

7

7

8

6| 6

Todos os dados estão expostos no diagrama. Se quisermos, também coloca- remos dois “ramos” para cada dezena: um conterá as “folhas” de 0 a 4, e o outro, de 5 a 9:

2|

2| 5

7

8

3| 0

4

3| 5

8

8

8

9

4| 0

0

0

2

3

3

3

4

4| 5

7

7

7

8

8

8

8

8

9

5| 0

0

3

5| 7

7

8

6|

6| 6

Além desse tipo de diagrama permitir que observemos, imediatamente, quais os valores mais repetidos, pode-se usar a informação para outros tipos de análises ou representações, pois a amostra já está totalmente representada.

Gráficos com informações múltiplas

Às vezes, é necessário que se represente mais de uma informação em um único gráfico, seja por que desejamos verificar se há alguma influência entre duas características de um mesmo elemento de uma população, ou por que queremos representar como duas ou mais características são afetadas por uma determinada variação de condições.

Gráficos mais complexos, baseados nos tipos que vimos até agora, podem ser usados para representar duas ou mais amostras de uma mesma popu- lação. Por exemplo, se quisermos visualizar a variação do número de mo- radores, em cada domicílio de um conjunto habitacional através dos anos, podemos usar um polígono de frequência como o da figura 5 e criar “linhas“ separadas para cada ano estudado (fig.7).

Além desse tipo de diagrama permitir que observemos, imediatamente, quais os valores mais repetidos, pode-se usar

Figura 7: Polígonos de frequências absolutas do número de moradores em 109 domi- cílios de um conjunto habitacional nos Censos de 2000, 2005 e 2010.

A mesma técnica pode ser usada com gráficos de barras ou curvas de frequ- ência, usando os dados sobre uma mesma variável de amostras obtidas de populações diferentes, ou da mesma população em momentos diferentes, como o gráfico acima.

Até agora, nossos gráficos apresentam, no eixo de y, a frequência absoluta ou relativa da ocorrência de uma característica, ou seja, estamos represen-

tando apenas uma variável. Para representar as relações entre duas ou mais variáveis, x e y vão representar duas características que se encontram em um indivíduo, ou elemento, da amostra.

Por exemplo, podemos usar um gráfico de dispersão para verificar a relação entre duas variáveis. Digamos que pesamos e medimos 12 alunos de uma sala de aula e gostaríamos de saber se, como era esperado, os alunos mais pesados são também os mais altos.

Então, usamos do eixo de x para a altura e o de y para o peso, e criamos um gráfico com doze pontos, cada um representando um aluno (fig. 8).

tando apenas uma variável. Para representar as relações entre duas ou mais variáveis, x e y

Figura 8: Relação entre altura (em kg) e peso (em cm) de 12 alunos de uma escola municipal.

É fácil perceber pelo gráfico da figura 7 que, de forma geral, quanto mais alto um aluno, mais pesado ele é, mesmo que a relação entre as duas variá- veis não seja perfeita. Quanto mais dados apresentamos em um gráfico de dispersão, ou seja, quanto maior a amostra, mais visualmente clara se torna a existência, ou não, de uma relação entre as variáveis.

Temos que nos lembrar que, cada ponto em um gráfico de dispersão é um elemento ou indivíduo da amostra; assim, se n = 250, haverá 250 pontos em um gráfico de dispersão xy. Voltaremos a falar desse tipo de gráfico e de sua interpretação, quando abordarmos Regressão.

Os gráficos “em caixas” ou boxplots são muito úteis para visualizar subgru- pos dentro de uma amostra. Digamos que tenhamos medido a altura dos indivíduos em um grupo de 13 mulheres e 13 homens (n = 26) e gostaríamos de visualizar uma possível diferença na dispersão e tendência central da al- tura em cada um dos gêneros.

Podemos, então, criar um gráfico boxplot, usando o eixo de y para a altura em centímetros e o eixo de x para as duas categorias de interesse: mulheres e homens.

Assim, o gráfico é criado traçando-se uma linha vertical sobre cada categoria que vai do menor ao maior valor para cada categoria, marcando os extremos da dispersão. A partir dessa linha, é marcado um ponto da medida da ten- dência central escolhida e marca-se, a partir da medida central, um valor de medida de dispersão acima e abaixo dela.

Por exemplo, se usarmos a média, então marcaremos na linha a média e o desvio padrão positivo e negativo; se usarmos a mediana, usaremos o pri- meiro e o terceiro quartis (um quartil se consegue, dividindo a distância entre a mediana e os extremos em dois).

A partir dessas medidas, desenha-se uma caixa limitando onde a maioria da população se encontra. O gráfico visto na fig. 9 ilustra como, em nossa amostra, há uma diferença aparente na distribuição das alturas entre mulhe- res e homens, sendo eles, geralmente, mais altos.

Os gráficos “em caixas” ou boxplots são muito úteis para visualizar subgru- pos dentro de uma

Figura 9: Boxplot das alturas, em cm, de 13 mulheres e 13 homens; a linha central marca a mediana.

Sendo uma representação geral, o boxplot é mais indicado para amostras grandes, e é normalmente usado para ilustrar análises de variância. Em tra- balhos gerais, ou quando a amostra é, relativamente, pequena, uma forma de representar a diferença entre subgrupos, sem perder nenhuma informa- ção é o gráfico de valores individuais.

Nele, cada valor (no nosso caso, cada indivíduo) é marcado como um ponto, formando uma linha vertical sobre cada categoria do eixo de x. Os dados usados no gráfico da figura 9, se apresentados em um gráfico de valores individuais, apresentam-se como visto na figura 10.

Sendo uma representação geral, o boxplot é mais indicado para amostras grandes, e é normalmente usado

Figura 10: Gráfico de valores individuais da altura, em cm, de 13 mulheres e 13 ho- mens. O losango representa a média.

É possível representar a média ± desvio padrão, ou a mediana e o primeiro e terceiro quartis (Q1 e Q3), usando símbolos, como o da média acima, ou linhas horizontais curtas.

Há dezenas de outros gráficos múltiplos para representar a relação entre va- riáveis ou observar diferenças dentro de subgrupos amostrais e muitos deles são utilizados em conjunto com testes estatísticos específicos.

Várias análises fazem uso de gráficos tridimensionais (com os de eixos x, y e z), como pesquisas de geografia, geologia, cartografia e oceanografia que usam a estatística espacial. Os tipos apresentados aqui, no entanto, são os mais comumente usados para descrever dados.

Representações gráficas no Excel

O Excel tem uma função para criar gráficos, o “Assistente de gráfico” (um ícone com um gráfico no alto da barra de tarefas, à direita). Há vários gráfi- cos que podem ser criados com essa função, desde que a tabela usada para criá-los esteja, adequadamente, preparada. Mas alguns deles não podem ser preparados pelo Excel e dependem de programas de estatística mais sofisti- cados, porém, é possível ilustrar um relatório de estatística descritiva usando apenas o Excel.

O primeiro passo para criar um gráfico no Excel é selecionar os dados que queremos representar. Geralmente, isso é feito, movendo as teclas direcio- nais enquanto se pressiona a tecla “shift”, até que se cubra a área desejada (fig. 11). Não é necessário incluir sempre o título das colunas, uma vez que essa informação pode ser incluída depois.

Representações gráficas no Excel O Excel tem uma função para criar gráficos, o “Assistente de gráfico”

Figura 11: Tabela de Excel com a frequência de intenção de votos em uma eleição para representante estudantil; a área selecionada será usada para confeccionar um gráfico.

Em seguida, clicamos no ícone do assistente de gráfico (fig. 12), e assim abriremos uma caixa de diálogo da função.

Figura 12: Assistente de gráficos no Excel da Microsoft. A caixa de diálogo do Assistente de

Figura 12: Assistente de gráficos no Excel da Microsoft.

A caixa de diálogo do Assistente de Gráfico oferece uma grande variedade de formatos pré-estabelecidos, além de permitir formatos personalizados. Por exemplo, se queremos fazer um gráfico de barras (no Excel, chamado de colunas; o de barras é orientado horizontalmente), clicamos no ícone correspondente (fig. 13).

Figura 12: Assistente de gráficos no Excel da Microsoft. A caixa de diálogo do Assistente de

Figura 13: Caixa de diálogo do Assistente de Gráfico no Excel da Microsoft.

Há várias opções de representação, desde a mais simples, que vamos fazer, até aquelas que comportam dois conjuntos de dados ou têm barras tridi- mensionais. Vamos escolher a apresentação mais simples, que é a recomen- dada na maioria dos relatórios estatísticos ou trabalhos acadêmicos (fig. 14).

As apresentações mais, visualmente, sofisticadas, com efeitos de textura, tridimensionais, etc., são, de modo geral, usadas em brochuras comerciais e em jornais e revistas.

Há várias opções de representação, desde a mais simples, que vamos fazer, até aquelas que comportam

Figura 14: Segunda etapa da criação de um gráfico de colunas no Excel da Microsoft.

Podemos editar o gráfico, acrescentando a legenda dos eixos, removendo legendas laterais desnecessárias, retirando linhas verticais, etc. (fig.15). Há inúmeras opções de edição e apenas a prática com esse programa de com- putador permite explorar todas as possibilidades.

Figura 15: Editando um gráfico de colunas no Excel da Microsoft. Depois de concluído, ainda podemos

Figura 15: Editando um gráfico de colunas no Excel da Microsoft.

Depois de concluído, ainda podemos editar o gráfico, mudando cores e le- gendas. E o mesmo pode ser salvo na própria planilha do Excel (fig. 16) ou em uma nova planilha. Assim, sempre que a tabela original dos dados for modificada, o gráfico será, automaticamente, atualizado. Se ele for copiado e colado em um documento de Word, também existe a opção de atualização automática, desde que os dois documentos estejam associados.

Figura 15: Editando um gráfico de colunas no Excel da Microsoft. Depois de concluído, ainda podemos

Figura 16: Gráfico de barras (colunas) preparado pelo Excel da Microsoft.

Os mesmos passos devem ser seguidos para preparar um gráfico de torta. Basta selecionar esse tipo quando abrir o assistente de gráfico (fig. 17).

Os mesmos passos devem ser seguidos para preparar um gráfico de torta. Basta selecionar esse tipo

Figura 17: Caixa de diálogo do Assistente de Gráfico do Excel da Microsoft, mostran- do as opções para um gráfico de torta (pizza).

Seguindo os mesmos passos que o gráfico anterior, podemos editar o dia- grama durante a criação ou após estar pronto. O gráfico de torta final será aquele que vimos na figura 2.

Polígonos e curvas de frequência acumulada são feitos com a opção de “grá- ficos de linhas” no assistente de gráfico. A forma do gráfico vai depender se estamos usando frequências absolutas ou acumuladas.

Para os gráficos de dispersão, selecionamos a opção inicial “Dispersão (XY)” na Caixa de Diálogo. O Assistente de Gráfico permite que algumas séries, ou variáveis, incluídas em uma tabela, sejam removidas da apresentação gráfica.

Também é possível mudar o valor inicial dos eixos, como visto no gráfico da figura 8, após o mesmo estar pronto. Para isso, basta clicar duas vezes no eixo que se quer modificar, abrindo a caixa de diálogo para edição dele (fig. 18). Assim, muitas outras características podem ser editadas.

Figura 18: Caixa de diálogo para edição de um eixo de um gráfico do Excel da

Figura 18: Caixa de diálogo para edição de um eixo de um gráfico do Excel da Mi- crosoft.

Por fim, esse editor de planilhas pode criar a maior parte das representa- ções gráficas mais importantes para auxiliar a visualização imediata de dados amostrais. A enormidade de funções e opções de edição desses gráficos me- rece ser experimentada, e apenas com a prática é possível explorar a maioria dos recursos que esse programa de computador oferece.

Resumo

Representações gráficas são, extremamente, úteis para a visualização de da- dos amostrais e são parte indispensável de qualquer relatório de pesquisa que envolva análises estatísticas. Os tipos mais comuns de gráficos de frequ- ência para uma variável são os gráficos de barras, de torta, os histogramas, os polígonos de frequência, as curvas de frequência acumulada e os gráficos de “ramo e folha”.

Todos os gráficos pedem, para sua confecção, a criação de tabelas de frequ- ência. Informações múltiplas podem ser representadas em gráficos de fre- quências, representando amostras múltiplas, ou em gráficos multivariados, em que mais de uma variável podem ser representadas, como os gráficos de dispersão.

Subgrupos amostrais podem ser representados através de gráficos de caixas (boxplots) ou de valores individuais. O editor de planilhas do Excel possui um Assistente de Gráfico que permite a criação rápida de uma variedade de representações gráficas e apresenta inúmeros recursos para personalizar os gráficos criados.

Referências

CHATFIELD, C.: Problem Solving – A Statistician’s Guide. London: CHAPMAN & HALL.

1991.

LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DO BRASIL. 1978.

SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009. VIEIRA, S. M.: Introdução à Bioestatística. 3ª edição. São Paulo: EDITORA CAMPUS. 1998.

Aula 4 - Probabilidades

Objetivos

• Entender os conceitos básicos de probabilidades e suas relações

com a análise estatística de uma amostra;

• Aprender a trabalhar com probabilidades aplicadas aos diversos

tipos de variáveis.

Assunto

Neste módulo, vamos entender como funciona a Estatística e como pode- mos confiar que uma amostra seja representativa de uma população. Vimos no primeiro módulo que a Estatística é baseada em probabilidades, então, vamos compreender como as leis da probabilidade podem ser usadas para estimar parâmetros de uma população.

Introdução

O termo “probabilidade” vem do latim probabilis, provável. Esse termo era empregado, desde os tempos romanos, principalmente no contexto jurídico e se referia à qualidade de uma testemunha legal ou à medida de autoridade de um cidadão, e era, geralmente, relacionada à nobreza. Assim, um nobre era provavelmente (probabilis) uma testemunha mais confiável que um plebeu.

Até o século XVII, o termo probabilis era usado no sentido de “aprovação” de uma opinião ou ação. Uma opinião “provável” era aquela que as pessoas sensatas teriam. Só quando o estudo matemático das “chances” se tornou mais profundo, foi cunhado o termo “probabilidade” com o sentido que usamos hoje.

Uma Ciência de Jogadores

O estudo das probabilidades é tão antigo quanto os chamados “jogos de azar”. Há milênios que jogadores tentam entender as chances em jogos diversos e apostam dinheiro, calculando a probabilidade de que os ganhos cubram o investimento inicial.

O italiano renascentista Girolamo Cardano (1501-1576, fig. 1) era filósofo, médico, matemático e advogado, foi pioneiro em muitas ciências, resolveu as primeiras equações algébricas, descreveu os sintomas e desenvolvimento da febre tifóide, e descobriu a diferença entre energia elétrica e magnética. Amigo de Leonardo da Vinci, também era um jogador inveterado e escre- veu, em 1560, o Líber de Ludo Aleae, o Livro dos Jogos de Dados. Nele, há o primeiro tratamento sistemático das probabilidades (ou ‘chances’) e um capítulo inteiro em como trapacear. O livro só foi publicado quase um século após sua morte.

Uma Ciência de Jogadores O estudo das probabilidades é tão antigo quanto os chamados “jogos de

Figura 1: Girolamo Cardano (1501-1576). Fonte: Wikimedia Commons.

O Nascimento da Ciência Probabilística

Considera-se que o estudo das probabilidades se tornou formal com a cor- respondência entre os matemáticos e filósofos franceses Pierre de Fermat (1601-1665) e Blaise Pascal (1623 – 1662, fig. 2). Fermat era também advo- gado, mas desenvolveu teoremas que servem de base ao Cálculo Diferencial moderno. Já Pascal, que também era médico, inventou a primeira calculado- ra mecânica e desenvolveu muitas ideias sobre a natureza física do universo, mais tarde revisadas por outros intelectuais. Os dois franceses passaram anos trocando ideias sobre probabilidades, porque Pascal começou a se interessar pelas recém-criadas ciências econômicas e sociais.

Figura 2: Blaise Pascal (1623-1662). Fonte: Wikimedia Commons. O primeiro livro, exclusivamente, dedicado ao estudo formal

Figura 2: Blaise Pascal (1623-1662). Fonte: Wikimedia Commons.

O primeiro livro, exclusivamente, dedicado ao estudo formal das probabili- dades foi escrito por Christiaan Huygens (1629-1695), físico e matemático holandês. Huygens descobriu que a luz se propaga em ondas, o que serviu mais tarde para o estudo das partículas subatômicas. Seu livro sobre proba- bilidades foi escrito, porque Pascal o encorajou.

Dois livros importantes, do século XVIII, colocaram o estudo das probabili- dades como um ramo formal da Matemática: Ars Conjectandi, ou a Arte da Conjectura, de Jakob Bernoulli (1654 – 1705) e The Doctrine of Chances, a Doutrina das Chances, de Abraham de Moivre (1667 – 1754, fig. 3). Vários matemáticos desenvolveram o tema através dos séculos XIX e XX. Já no sé- culo XXI, o uso dos computadores permite cálculos quase infinitos, usando teoremas com séculos de vida.

Figura 2: Blaise Pascal (1623-1662). Fonte: Wikimedia Commons. O primeiro livro, exclusivamente, dedicado ao estudo formal

Figura 3: Abraham de Moivre (1667-1754). Fonte: Wikimedia Commons.

Conceitos básicos da Probabilidade

O estudo da probabilidade surgiu por causa dos chamados “jogos de azar”. Desde a Grécia antiga, apostadores querem saber quais as chances que suas apostas têm de ganhar “a sorte grande”. Essa relação entre jogos e proba- bilidade perdura até hoje nos termos que usamos em Estatística: a palavra “aleatório” vem do latim Alea, ou “dado de jogar”. É conhecida a frase de Júlio César antes de uma dura campanha militar cujo resultado dependia quase, totalmente, da sorte: Alea jacta est, o dado foi lançado.

No contexto da Estatística, o termo probabilidade refere-se à frequência re- lativa de ocorrência de um valor ou evento qualquer, ou à chance que esse valor ou evento ocorra ao acaso. Dizemos que a probabilidade associada a um evento é o número de vezes que tal evento pode ocorrer em relação ao número total de eventos. Por exemplo, em um dado de jogar temos seis faces numeradas. A probabilidade de obtermos um três quando lançamos um dado vai ser:

Conceitos básicos da Probabilidade O estudo da probabilidade surgiu por causa dos chamados “jogos de azar”.

Probabilidade de obter um três = = 0, 166666667 = 16,67%, já que o dado tem seis faces e só uma tem o valor três. Isso vale para cada um dos valores em um dado.

Mas, isso só se aplica a um dado de jogar “honesto”, ou seja, há a mesma chance de cair em qualquer uma das seis faces. Sabemos que existem dados “desonestos”, feitos para sempre dar valores mais altos. Com um dado de jogar honesto, toda vez que o lançarmos, teremos quase 17% de chance de que ele caia em um número em particular.

Esse é um conceito muito importante para entendermos sobre a probabili- dade: que não é cumulativa, ou seja, se jogarmos um dado três vezes e obti- vermos três 1, isso não quer dizer que temos mais chance de que saia um 6. Toda vez que lançamos o dado, temos quase 17% de chance que saia um 6.

Se usarmos um dado honesto e o jogarmos apenas seis vezes, provavel- mente, não conseguiremos um número diferente em cada jogada. Nossa amostra é pequena demais para representar as probabilidades de todos os possíveis lançamentos de dados, então podemos ter uma distribuição como a representada na figura 4.

Figura 4: Distribuição de frequências da ocorrência das faces de um dado em seis lançamentos. Não

Figura 4: Distribuição de frequências da ocorrência das faces de um dado em seis lançamentos.

Não conseguimos nem um 4 ou 5 nas seis vezes que jogamos os dados; no entanto, a face 1 e a face 6 apareceram duas vezes cada. Apenas as faces 2 e 3 tiveram a frequência esperada.

Vejamos o que acontece quando jogamos o dado 20 vezes (fig. 5):

Figura 4: Distribuição de frequências da ocorrência das faces de um dado em seis lançamentos. Não

Figura 5: Distribuição de frequências da ocorrência das faces de um dado em 20 lan- çamentos.

Dessa vez, todas as faces aparecem. Mas, ainda, há uma grande diferença entre as frequências com que as faces aparecem. Lembremos que, no caso de um dado de jogar “honesto”, todas as faces têm chances iguais de apa-

recer. Vamos continuar jogando o dado e anotando os resultados. Após 200 lançamentos, chegamos à distribuição vista na Figura 6.

recer. Vamos continuar jogando o dado e anotando os resultados. Após 200 lançamentos, chegamos à distribuição

Figura 6: Distribuição de frequências da ocorrência das faces de um dado em 200 lançamentos.

Quanto mais cresce o tamanho de nossa amostra, mais próximas as frequ- ências se encontram do esperado, que é ter repetições de ocorrência de cada face muito próximas das outras, ou quase iguais (afinal, cada face tem 16,67% de chance de ocorrer em cada lançamento de dado). Se continuar- mos jogando o dado, após mil lançamentos, teremos pouca diferença entre as frequências de ocorrência de cada uma das faces. Um exemplo é o gráfico abaixo, mostrando a frequência relativa da ocorrência de cada face do dado após mil lançamentos (fig. 7).

recer. Vamos continuar jogando o dado e anotando os resultados. Após 200 lançamentos, chegamos à distribuição

Figura 7: Distribuição de frequências da ocorrência das faces de um dado em 1000 lançamentos.

Podemos ver que nos aproximamos muito das frequências relativas espera- das, ou seja, da probabilidade calculada de ocorrência de cada face. Pode- mos dizer, então, que o dado que usamos é “honesto”, “balanceado” e não tem viés. Nossa amostra de mil lançamentos é um exemplo de amostragem aleatória e representa a população de todos os lançamentos de dados possí- veis, se aproximando das frequências esperadas.

Digamos que, após mil lançamentos de um dado de jogar, chegamos à se- guinte distribuição (fig. 8):

Podemos ver que nos aproximamos muito das frequências relativas espera- das, ou seja, da probabilidade calculada

Figura 8: Distribuição de frequências da ocorrência das faces de um dado em 1000 lançamentos.

Nesse caso, podemos afirmar que esse não é um dado “honesto”: se o cor- tamos ao meio, é possível que achemos um peso dentro dele para que caia com mais frequência na face 6. A distribuição de frequências desvia tanto dos valores esperados, que não há dúvida de que algo (no caso, o peso den- tro do dado) está enviesando os resultados.Assim, dizemos que esses valores não são aleatórios, mas são influenciados por algum fator (o peso).

Entender o conceito de valores que estão dentro das probabilidades espera- das ao acaso (randômicos ou aleatórios) e de valores que desviam do espera- do (não randômicos ou não aleatórios, também chamados determinísticos) servem de base para descobrirmos se fatores externos ou internos afetam os valores de um conjunto de dados estatísticos. Essa é a base da Estatística Inferencial.

Algumas Ideias Sobre Probabilidades

Há algumas ideias gerais sobre probabilidades que nada mais são do que o óbvio. Por exemplo, a probabilidade de um evento impossível ocorrer é zero. Algo que vá contra as propriedades da matéria, por exemplo, tem 0% de chance de acontecer, ao menos no que se pode detectar do universo. Já um evento certo tem probabilidade de 1, ou 100%. Tudo o mais tem uma pro- babilidade entre 0 e 1, ou 0 e 100%, de acontecer, mesmo que infinitesimal. Algo que possa ser respondido com um sim ou não tem 50% de chance de acontecer ou não.

Charlatães, que se passam por adivinhos, usam probabilidades de “senso comum” para parecer que acertaram o futuro. Se conseguirem acertar 50% de dez previsões do tipo “sim-ou-não”, o público só vai lembrar-se dos cinco acertos e esquecerá os cinco erros.

Logo, um adivinho de verdade teria que acertar 100% das previsões para poder ser considerado, realmente, alguém com visão do futuro, ou pelo menos alguém de muita sorte: a probabilidade que acerte, ao acaso, dez previsões tipo “sim-ou-não” seguidas é de 0, 00098.

Leis da Probabilidade

Vimos como probabilidade é a chance que um evento ocorra ao acaso. Essa chance é calculada, dividindo o número de vezes que o evento pode ocorrer pelo número total de eventos possíveis.

Assim, a chance da face de um dado de jogar aparecer em um lançamento é de 1/6 e a chance de sair cara ou coroa ao se lançar uma moeda é de ½. Se usarmos um baralho de cartas completo, com 52 cartas, podemos calcular que a chance de tirarmos, digamos, um ás de espadas é de 1/52. Mas como fazemos, quando um evento possui dois ou mais termos? Aí, entra a aplica- ção das chamadas “Leis da Probabilidade”.

A primeira lei da probabilidade que vamos aplicar aqui é a Lei Multipli- cativa. Ela afirma que a chance de dois ou mais eventos independentes ocorrerem juntos é o produto da probabilidade dos eventos ocorrerem separadamente. Vamos ver como isso se aplica se lançarmos dois dados de jogar em vez de um só.

Vimos que a probabilidade de conseguirmos um 6, ao lançarmos um dado é de 1/6. Qual a probabilidade de conseguirmos dois 6, formando um 12, se lançarmos dois dados?

Probabilidade de conseguirmos um seis em um dado = = 16,67% Probabilidade de conseguirmos um seis

Probabilidade de conseguirmos um seis em um dado = = 16,67%

Probabilidade de conseguirmos um seis em um dado = = 16,67% Probabilidade de conseguirmos um seis

Probabilidade de conseguirmos um seis em cada dado = = 2,78%

Aqui já descobrimos que o evento “um seis em cada um dos dois dados” é uma possibilidade em 36. Será que há 36 configurações diferentes ao se jo- gar dois dados? Vamos colocar, na tabela 1, todas as configurações possíveis ao se lançar dois dados de jogar.

Tabela 1: Configurações possíveis dos lançamentos de dois dados de jogar, representados por (x, y), sendo:

x= primeiro dado e y = segundo dado.

(1,1)

(2,1)

(3,1)

(4,1)

(5,1)

(6,1)

(1,2)

(2,2)

(3,2)

(4,2)

(5,2)

(6,2)

(1,3)

(2,3)

(3,3)

(4,3)

(5,3)

(6,3)

(1,4)

(2,4)

(3,4)

(4,4)

(5,4)

(6,4)

(1,5)

(2,5)

(3,5)

(4,5)

(5,5)

(6,5)

(1,6)

(2,6)

(3,6)

(4,6)

(5,6)

(6,6)

Temos, então, os 36 resultados possíveis ao lançarmos dois dados de jogar e apenas um deles representa o evento que calculamos acima: os dois dados com um seis.

Vejamos outro problema: qual a probabilidade de conseguirmos um valor específico, lançando dois dados de jogar? Se jogarmos dois dados, obtere- mos qualquer valor entre o mínimo de dois (1,1) e um máximo de doze (6,6). Mas, exceto esses dois valores, que só podem ser conseguidos em uma das 36 configurações possíveis, outros valores podem ser conseguidos de mais de uma maneira. Por exemplo, podemos conseguir o valor de nove de qua- tro formas diferentes: (3,6), (6,3), (4,5) e (5,4).

Para calcular a probabilidade de conseguirmos um nove ao lançar dois dados de jogar, devemos aplicar a Lei Aditiva da Probabilidade: ela calcula a probabilidade de que um evento ocorra em duas ou mais formas diferentes e é calculada, simplesmente, através da soma das probabilidades de cada forma do evento.

No caso que estamos estudando, o evento em questão é o valor de nove com dois dados de jogar. Há quatro maneiras diferentes de conseguirmos um nove e cada uma das formas tem 1/36, ou 2,78% de chance de ocorrer. Vamos, então, ao cálculo:

Probabilidade de conseguir um nove com dois dados = (3,6) + (6,3) + (4,5) + (5,4)
Probabilidade de conseguir um nove com dois dados = (3,6) + (6,3) + (4,5) +
(5,4) =
= 11,11%.

Vejamos quantas maneiras diferentes há de se conseguir os valores possíveis com dois dados (tabela 2).

Tabela 2: Valores possíveis no lançamento de dois dados de jogar e configu- rações necessárias.

 

(1,6)

 

(1,5)

(6,1)

(2,6)

 

(1,4)

(5,1)

(2,5)

(6,2)

(3,6)

 

(1,3)

(4,1)

(2,4)

(5,2)

(3,5)

(6,3)

(4,6)

 

(1,2)

(3,1)

(2,3)

(4,2)

(3,4)

(5,3)

(4,5)

(6,4)

(5,6)

(2,1)

(2,2)

(3,2)

(3,3)

(4,3)

(4,4)

(5,4)

(5,5)

(6,5)

(6,6)

2

3

4

5

6

7

8

9

10

11

12

Está claro que o valor de sete é o mais provável de ser conseguido com dois dados, pois há seis formas diferentes de rolar um sete. Vejamos qual a pro- babilidade de conseguir um sete com dois dados:

P(sete) = (1,6) + (6,1) + (2,5) + (5,2) 16,67%
P(sete)
=
(1,6)
+
(6,1)
+
(2,5)
+
(5,2)
16,67%

+

(3,4)

+

(4,3)

=

Ou seja, a probabilidade de conseguirmos um sete, jogando dois dados, é a mesma de se conseguir qualquer uma das faces ao se jogar apenas um dado: 1/6. Por isso, em países onde o jogo de dados é legal, sempre se paga menos por um sete do que por um dois ou um doze, que têm menor pro- babilidade de sair.

Consideremos a tabela dos valores possíveis de dois dados acima e as formas que esses valores podem tomar, vemos que a probabilidade de conseguir- mos qualquer uma das 36 configurações é igual, 1/36 ou 2,78%. Então, se lançarmos os dados de forma a obter uma amostra representativa (digamos, 2000 lançamentos) da população de lançamentos de dois dados possíveis (que tende ao infinito), vamos conseguir uma distribuição de frequências cuja forma se assemelha à “pirâmide” que conseguimos acima (fig. 9).

Consideremos a tabela dos valores possíveis de dois dados acima e as formas que esses valores

Figura 9: Frequências relativas (em %) dos valores possíveis em 2000 lançamentos de dois dados.

Podemos dizer que, nesse grupo de dados estatísticos, a moda é sete, já que esse é o valor mais comum. Se destrincharmos os valores, as configurações dos dois dados de jogar - (3,4), (6,3), (2,2), etc. – teríamos todas as 36 barras do mesmo tamanho, pois as 36 configurações têm chances iguais de ocorrer.

Mas, atenção: probabilidades não têm “memória”! Se jogarmos os dados três vezes e obtivermos três (6,6), isso não quer dizer que temos mais ou menos chance de conseguirmos outro (6,6). Todas as vezes que lançarmos os dados, teremos a mesma chance de conseguir uma das 36 configurações e uma chance em seis de conseguir um valor de sete.

O exemplo que vimos é bem simples, mas podem ser usadas as mesmas leis para entender a probabilidade de eventos muito complexos.

O estudo das probabilidades é extremamente intricado e alguns matemáti- cos dedicam suas carreiras a essa área, chamada Probabilística. Não é nossa intenção, portanto, ter o entendimento profundo ou minucioso do cálculo das probabilidades. Os conceitos básicos, no entanto, deverão nos servir para que entendamos suas aplicações nos cálculos de estimativas que são fundamentais nas análises estatísticas.

Prevendo Erros

Um dos pontos fundamentais da Estatística é que toda amostra contém er- ros que variam com o tamanho da amostra em relação à população estu- dada. A probabilidade de que nossos dados não representem a população está, explicitamente, inserida em todo cálculo estatístico. Por isso mesmo, como veremos mais tarde, nunca se tem certeza absoluta da validade de uma amostra.

Usando os mesmo cálculos probabilísticos, no entanto, pode-se garantir a validade de uma amostra em 95%, 98% ou até 99,99%. Nunca 100%. Eis a razão pela qual devemos ter cautela quando interpretamos resultados de estatísticas, pois são estimativas generalizadas passíveis de erro. Quanto maior o tamanho da amostra, menor fica o erro e podemos ter mais segu- rança quando interpretamos os resultados.

Esperado x Observado

Tudo em Estatística é baseado na ideia que as frequências de ocorrência de todo evento ao acaso vão assumir probabilidades que podem ser calculadas. Elas servem de base para a estimação das frequências de ocorrência desses eventos em uma população.

Assim, quando analisamos uma amostra, comparamos os dados que temos com aqueles calculados através de probabilidades. Muito do que se testa, estatisticamente, envolve comparar a nossa amostra (os valores observa- dos), com aqueles valores conseguidos através dos cálculos de probabilidade (esperados). Se os mesmos diferem muito dos valores esperados, há fatores influenciando as frequências da amostra.

Teoremas básicos

No estudo da probabilidade, há dois teoremas básicos.

O primeiro é a chamada “Lei dos Grandes Números”, que descreve a estabilidade em longo termo da média de uma variável aleatória. Dada uma

variável com um valor esperado finito, se seus valores forem amostrados repetidamente, à medida que a amostra cresce, a média tende para o valor esperado. Nós vimos um exemplo com as frequências de um dado de jogar:

cada valor de um dado tem 1/6 de chance de ocorrer, mas essas frequências só aparecem quando jogamos o dado muitas vezes.

O segundo é o “Teorema do Limite Central”, que diz que a soma de mui- tas variáveis aleatórias independentes, que tenham uma mesma distribuição de probabilidades, vai produzir uma distribuição que se aproxima da distri- buição normal.

Em nosso curso, vimos que é o que ocorre quando jogamos dois dados de jogar juntos: a soma dessas duas variáveis aleatórias independentes (dois dados) vai produzir, depois de muitas jogadas, uma distribuição que muito se assemelha a uma curva gaussiana.

Probabilidade na Estatística

Agora que temos uma noção do cálculo das probabilidades, podemos co- meçar a entender como isso se relaciona à Estatística. Primeiro, vimos como as probabilidades são calculadas dentro de um número possível de even- tos, como se comportam e são equivalentes às frequências relativas de uma amostra.

Depois, vimos como o tamanho da amostra é fundamental para validar as estimativas dos parâmetros da população da qual a mesma foi retirada:

quanto maior a amostra, mas próximo chegamos às frequências esperadas dos eventos dentro de uma população.

Quando vamos aplicar os conceitos de probabilidade em Estatística, estamos nos referindo à capacidade de estimar os parâmetros populacionais, usando uma amostra representativa dessa população.

Isso funciona da seguinte maneira: se usarmos uma amostra representativa de uma população, poderemos descrever as frequências de ocorrência dos eventos em uma distribuição de frequências, como vimos acima, com os dois dados de jogar.

Neste exemplo, nós calculamos as probabilidades de cada número sair de forma bem simples, já que se trata de uma variável aleatória discreta,

ou seja, têm apenas números inteiros e que se situam dentro de uma am- plitude restrita (no caso, entre 2 e 12). Esse tipo de distribuição é chamado binomial. Mas é possível calcular as probabilidades de quaisquer eventos, mesmo de variáveis aleatórias contínuas, desde que se faça primeiro, uma distribuição de frequências a partir de uma amostra. Então, estimam-se os parâmetros populacionais que serão usados nos cálculos das probabilidades.

Usando essas ideias, podemos construir, com base em uma distribuição de frequências de uma amostra válida, uma distribuição de probabilidades de ocorrências dos eventos em uma população.

Um gráfico que represente uma distribuição de probabilidades qualquer vai se parecer muito com um gráfico de distribuição de frequências de uma boa amostra, afinal, elas se aproximam das frequências das probabilidades de uma população.

Matemáticos probabilistas usam cálculos mais elaborados para calcular as probabilidades de todos os eventos possíveis, mesmo aqueles que ainda não foram observados. É possível extrapolar valores observados para incluir va- lores que são possíveis de ocorrer, mas ninguém nunca viu, pois são eventos muito raros.

Por exemplo, um pesquisador coletou uma amostra da distância de 319 casas de uma região para um grande oleoduto, para tentar entender qual seria o risco para a população no caso de um vazamento. Com base nessa amostra, ele construiu um histograma das frequências relativas (fig. 10).

ou seja, têm apenas números inteiros e que se situam dentro de uma am- plitude restrita

Figura 10: Histograma das frequências relativas da distância entre 319 domicílios e um oleoduto.

Vemos aqui que, a distribuição das frequências é um tanto irregular, mas há um grande número de casas entre 160 e 400 metros de distância do oleo- duto.

Nosso amigo pesquisador, que não poderia medir a distância de todas as casas da região em questão do oleoduto, usou um programa de estatística para estimar, usando as leis da probabilidade, qual a distribuição das proba- bilidades das distâncias de todas as casas para o oleoduto.

O programa estimou os dados que faltavam à amostra e criou uma distribui- ção de probabilidades correspondente. E também avaliou qual a média e o desvio padrão para a amostra que foi coletada, pois em cima desses valores, as probabilidades foram calculadas (fig. 11).

Vemos aqui que, a distribuição das frequências é um tanto irregular, mas há um grande número

Figura 11: Histograma de frequências relativas com curva normal da distância entre 319 domicílios e um oleoduto.

A linha que forma uma curva em sino é chamada Curva Normal. É uma curva estimada que dá uma ideia da forma da distribuição e permite que se saiba a probabilidade de ocorrência de qualquer evento dentro de uma população com base em amostras.

Vamos entender mais sobre ela na próxima aula.

Estatística no Computador

Os programas de computador para Estatística são fundamentais para a análi- se de grandes bases de dados e para o uso adequado dos testes de Estatísti- ca Inferencial. Há vários programas disponíveis, desde os muito sofisticados, usados por astrônomos, até programas mais simples, que ajudam a calcular testes básicos.

Alguns programas são de graça e podem ser baixados pela internet:

BioEstat 5.0 – Do Instituto Mamirauá, serve para a análise descritiva e alguns testes inferenciais com mais de uma variável (multivariados). Apesar de voltado para as Ciências Biológicas, esse programa pode ser usado para ajudar qualquer pesquisa científica que utilize a Estatística. A melhor característica do BioEstat é seu manual de instrução, que expli- ca em detalhes como são feitos os cálculos oferecidos pelo programa e como evitar problemas. A versão em Português pode ser encontrada no endereço http://www.mamiraua.org.br/download/

Winidams 1.3 – Para validação, manipulação e análise de dados. Em inglês.

ADE 4 (2004) – Para análises básicas, também em inglês.

Expansões do Excel – Podem ser baixados para que o editor de plani- lhas também possa realizar análises mais complexas. Alguns deles são o XLStatistics e o BiPlot.

Programas avançados são, geralmente, caros, mas realizam todos os testes e ainda criam gráficos editáveis. Alguns dos mais conhecidos são o Statistica, o SPSS e o MINITAB. Muitos possuem versões demo em suas páginas da internet que podem ser usados, de graça, por um mês, e possuem versões em português. Todos os programas se baseiam nas mesmas regras. O que importa é saber utilizá-los.

Resumo

(contém todo teor da aula vista acima?)

A análise de amostras retiradas de uma população pode servir de base para a estimação de parâmetros populacionais através de estatísticas amostrais.

O tamanho da amostra é fundamental para que ela seja válida na estimação dos parâmetros com base nas estatísticas. A Estatística se baseia na proba- bilística para assumir que muitas variáveis vão ter um padrão de distribuição normal, simétrico, que pode ser descrito, usando-se a média e o desvio pa- drão. Os pressupostos matemáticos sobre a distribuição normal permitem o cálculo da significância de testes de hipóteses.

Referências

CHATFIELD, C.: Problem Solving – A Statistician’s Guide. London: CHAPMAN & HALL.

1991.

LEME, R. A. DA S.: Curso de Estatística – Elementos. Rio de Janeiro: AO LIVRO TÉCNICO.

1967.

LEVIN, J.: Estatística Aplicada às Ciências Humanas. São Paulo: HARPER & ROW DO BRASIL. 1978.

SCHMULLER, J.: Statistical Analysis with Excel. Hoboken: Willey Publishing Inc. 2009. SPIEGEL, M. R, Estatística. MAKRON. 1994

Aula 5 - Distribuições de Probabilidades

Objetivos

• Compreender a aplicação dos teoremas fundamentais da proba- bilística na Estatística;

• Conhecer os diversos tipos possíveis de distribuições amostrais;

• Compreender como são estimados e com que acurácia, os parâ- metros populacionais a partir de estatísticas amostrais.

Assunto

A aplicação da Probabilística na Estatística é baseada em distribuições de frequências prováveis, que podem ser estimadas a partir de amostras. A partir desta aula, vamos entender como os teoremas fundamentais das pro- babilidades são aplicados nas pesquisas que usam a Estatística como instru- mento para estimar parâmetros populacionais, em todas as áreas do conhe- cimento que possuam características mensuráveis.

Introdução

Amostra e distribuição de amostras

Na última aula, vimos como a distribuição de frequências de uma variável aleatória contínua de uma amostra pode ser limitada por uma curva de pro- babilidades teórica, a curva normal, representando as frequências em uma população. Esse tipo de distribuição é chamado distribuição normal e sua curva representativa tem uma forma simétrica, mais alta nos valores centrais (mais frequentes) e que desce, simetricamente, para os valores extremos

(mais raros). Muitos fenômenos naturais ou antrópicos têm este padrão de distribuição. Por isso, vamos nos deter, um pouco, conhecendo mais esse tipo de distribuição.

A Curva Normal

Também chamada de Curva de Gauss, a curva normal é a representação teó- rica da distribuição das probabilidades de uma variável em uma determinada população. Vamos ver, novamente, a curva normal do exemplo da última aula: distância em metros entre as casas de uma região e um oleoduto (fig.

1).

(mais raros). Muitos fenômenos naturais ou antrópicos têm este padrão de distribuição. Por isso, vamos nos

Figura 1: Curva normal de distribuição da distância entre 319 domicílios e um oleo- duto.

Podemos notar que a curva é simétrica, apresentando frequências maiores no centro, onde estaria a média, as quais vão caindo em direção aos extre- mos. Além dessas características óbvias, a curva normal também apresenta certas particularidades.

Notem que as “caudas” da curva normal, em direção aos extremos, nunca toca o eixo de x: mesmo nos extremos, não há uma frequência de zero. Isso ocorre por que, como vimos, exceto por eventos impossíveis, todos os eventos têm uma probabilidade maior que zero. No caso, sempre há a pro- babilidade que haja uma casa mais distante ou mais perto do oleoduto do que aquelas que o pesquisador contou em sua amostra.

Outra característica dessa curva é que ela é, absolutamente, simétrica. Essa particularidade faz com que, numa curva normal, todas as medidas de ten- dência central caiam no mesmo ponto, ou estejam muito próximas. Nesse caso, a distância média entre as casas e o oleoduto é de 262,43 metros; a mediana, 264 metros.

A área sob a curva é a soma de todas as probabilidades de todas as distân- cias possíveis. Sendo, por isso, igual a 1 (ou 100%). Tal noção nos servirá para calcular estatísticas mais tarde.

Uma curva normal representa a distribuição em uma população, como já vimos. Nela, podemos traçar uma linha, mostrando nossa medida de ten- dência central, que a dividirá exatamente ao meio. Por se tratar da repre- sentação de uma população e não de uma amostra, a média, em uma curva normal, é representada por m e o desvio padrão é representado por s.

Se somarmos ou subtrairmos o desvio padrão do valor da média, em uma curva normal, cobriremos 68,26% dos dados ali representados. Isso se dá por causa da padronização da distribuição normal, que a torna totalmente simétrica. Se somarmos ou diminuirmos duas vezes o desvio padrão do valor da média, 95,44% dos valores estarão nesse intervalo (fig. 2). Uma popu- lação normal tem 99,74% dos seus valores a uma distância de três desvios padrão da média.

Outra característica dessa curva é que ela é, absolutamente, simétrica. Essa particularidade faz com que, numa

Figura 2: Proporção de dados, em uma distribuição normal, inseridos nos intervalos

µ ±

Outra característica dessa curva é que ela é, absolutamente, simétrica. Essa particularidade faz com que, numa

e µ ± 2

.
.

As proporções das áreas dentro de uma curva normal servem de base para o cálculo de um valor estatístico fundamental para o teste de hipóteses, chamado z.

No final de todo livro de Estatística, há uma tabela, mostrando os valores de z e t, que vão dar a significância dos testes de hipóteses. A proporção das áreas cobertas pelos parâmetros µ e , referentes a uma população, dá a forma da curva normal e serve de base para testar a significância de testes estatísticos.

As proporções das áreas dentro de uma curva normal servem de base para o cálculo de

No entanto, as estatísticas que usam o valor z assumem que parâmetros como µ e são conhecidos. Isso não é verdade para as amostras: nela temos os valores de e s. Com base nas duas estatísticas, são criadas as tabelas de valores t, também usadas como base de testes