Você está na página 1de 10

ESTATÍSTICA DESCRITIVA

CONCEITO: é a ciência que se preocupa com a coleta, a organização, descrição


(apresentação), análise e interpretação de dados experimentais e tem como objetivo
fundamental o estudo de uma população. Este estudo pode ser feito de duas maneiras: •
Investigando todos os elementos da população ou • Por amostragem, ou seja,
selecionando alguns elementos da população
Estatística Descritiva: é aquela que se preocupa com a coleta, organização,
classificação, apresentação, interpretação e analise de dados referentes ao fenômeno
através de gráficos e tabelas além de calcular medidas que permita descrever o
fenômeno.

POPULAÇÃO E AMOSTRAS
POPULAÇÃO: é o conjunto, finito ou infinito, de indivíduos ou objetos que
apresentam em comum determinadas características definidas, cujo comportamento
interessa analisar. A população é estudada em termos de observações de características
nos indivíduos (animados ou inanimados) que sejam relevantes para o estudo, e não em
termos de pessoas ou objetos em si. O objetivo é tirar conclusões sobre o fenômeno em
estudo, a partir dos dados observados.
AMOSTRA: É uma parte (um subconjunto finito) representativa de uma
população selecionada segundo métodos adequados. O objetivo é fazer inferências, tirar
conclusões sobre populações com base nos resultados da amostra, para isso é
necessário garantir que amostra seja representativa, ou seja, a amostra deve conter as
mesmas características básicas da população, no que diz respeito ao fenômeno que
desejamos pesquisar.
CENSO É o exame completo de toda população. Quanto maior a amostra mais
precisas e confiáveis deverão ser as induções feitas sobre a população. Logo, os
resultados mais perfeitos são obtidos pelo Censo. Na prática, esta conclusão muitas
vezes não acontece, pois, o emprego de amostras, com certo rigor técnico, pode levar a
resultados mais confiáveis ou até mesmo melhores do que os que seriam obtidos através
de um Censo. As razões de se recorrer a amostras são: menor custo e tempo para
levantar dados; melhor investigação dos elementos observados.

COLETA E CLASSIFICAÇÃO DE DADOS


Refere-se a obtenção, reunião e registro sistemático de dados, com o objetivo
determinado. A escolha da fonte de obtenção dos dados está diretamente relacionada ao
tipo do problema, objetivos do trabalho, escala de atuação e disponibilidade de tempo e
recursos. a)
FONTES PRIMÁRIAS: é o levantamento direto no campo através de
mensurações diretas ou de entrevistas ou questionários aplicados a sujeitos de interesse
para a pesquisa. Vantagens: grau de detalhamento com respeito ao interesse dos
quesitos levantados; maior precisão das informações obtidas. b)
FONTES SECUNDÁRIAS: quando são publicados ou registrados pôr outra
organização. A coleta de dados secundários se realiza através de documentos
cartográficos (mapas, cartas, imagens e fotografias obtidas por sesoriamento remoto ou
por fotogrametria e imagens de radar). Estas fontes de informação são de extrema
importância. Das fotografias aéreas em escalas reduzidas ou mais detalhadas, das
imagens de radas ou satélite e de cartas obtêm-se informações quanto ao uso do solo,
drenagem, estruturas viárias e urbanas, povoamento rural, recursos florísticos, minerais e
pedológicos, estrutura fundiária e de serviços, dados altimétricos, etc. Vantagens: inclui
um processo de redução e agregação de informações. A coleta dos dados pode ser feita
de forma direta ou indireta.
COLETA DIRETA : A coleta é dita direta, quando são obtidos diretamente da fonte
primária, como os levantamentos de campo através de questionários. Há três tipos de
coleta direta: a) a coleta é contínua quando os dados são obtidos ininterruptamente,
automaticamente e na vigência de um determinado período: um ano, por exemplo. É o
caso dos registros de casamentos, óbitos e nascimentos, escrita comercial, as
construções civis. b) a coleta dos dados é periódica quando feita em intervalos constantes
de tempo, como o recenseamento demográfico a cada dez anos e o censo industrial,
anualmente. c) a coleta dos dados é ocasional quando os dados forem colhidos
esporadicamente, atendendo a uma conjuntura qualquer ou a uma emergência, como por
exemplo, um surto epidêmico.
COLETA INDIRETA : A coleta é dita indireta quando é inferida a partir dos
elementos conseguidos pela coleta direta, ou através do conhecimento de outros
fenômenos que, de algum modo, estejam relacionados com o fenômeno em questão.
Dicotomia: quando a classe em que o atributo é considerado admite apenas duas
categorias. Exemplos: Sexo (masc. e fem.); Existência ou ausência de certo produto
agrícola (existência, ausência), resposta a uma pergunta: (concorda, não concorda), (sim,
não).
2. Classificação policotômica ou policotomia: quando a classe em que o atributo é
considerado admite mais de duas categorias. Exemplos: Estado civil (solteiro, casado,
viúvo), classe social (alta, média ou baixa)

DISTRIBUIÇÃO DE FREQUÊNCIA
INTRODUÇÃO As tabelas estatísticas, geralmente, condensam informações de
fenômenos que necessitam da coleta de grande quantidade de dados numéricos. No caso
das distribuições de freqüências que é um tipo de série estatística, os dados referentes ao
fenômeno objeto de estudo se repetem na maioria das vezes sugerindo a apresentação
em tabela onde apareçam valores distinto um dos outros.
DISTRIBUIÇÃO DE FREQÜÊNCIA PARA DADOS AGRUPADOS: É a série
estatística que condensa um conjunto de dados conforme as freqüências ou repetições de
seus valores. Os dados encontram-se dispostos em classes ou categorias junto com as
freqüências correspondentes. Os elementos época, local e fenômeno são fixos. O
fenômeno apresenta-se através de gradações, ou seja, os dados estão agrupados de
acordo com a intensidade ou variação quantitativa gradual do fenômeno.
REPRESENTAÇÃO DOS DADOS (AMOSTRAIS OU POPULACIONAIS)
DADOS BRUTOS: são aqueles que não foram numericamente organizados, ou
seja, estão na forma com que foram coletados.
ROL: é a organização dos dados brutos em ordem de grandeza crescente ou
decrescente.
DISTRIBUIÇÃO DE FREQÜÊNCIAS: é a disposição dos valores com as
respectivas freqüências. O número de observações ou repetições de um valor ou de uma
modalidade, em um levantamento qualquer, é chamado freqüência desse valor ou dessa
modalidade. Uma tabela de freqüências é uma tabela onde se procura fazer corresponder
os valores observados da variável em estudo e as respectivas freqüências.
TIPOS DE FREQÜÊNCIAS: FREQÜÊNCIA SIMPLES ABSOLUTA ( F I ): é o
número de repetições de um valor individual ou de uma classe de valores da variável. ∑ f i
=n
FREQÜÊNCIA SIMPLES RELATIVA ( F R ): representa a proporção de
observações de um valor individual ou de uma classe em relação ao número total de
observações. Para calcular a frequência relativa basta dividir a freqüência absoluta da
classe ou do valor individual pelo número total de observações. É um valor importante
para comparações. f r = f i / n = f i / ∑ f i
Para expressar o resultado em termos percentuais, multiplica-se o quociente
obtido pôr 100.
f r = ( f i / n ). 100 A freqüência relativa é o resultado de uma regra de três
simples:

DIAGRAMA DE PONTOS, DIAGRAMA DE RAMOS E FOLHAS


Um diagrama ramo-e-folhas exibe os dados para mostrar sua forma e distribuição.
É similar a um histograma. Contudo, um diagrama ramo-e-folhas mostra pontos de dados
exatos, tornando o cálculo da média, mediana e modo muito mais fácil. Em um diagrama
ramo-e-folhas, cada valor de dados é dividido em um "ramo" e uma "folha". A "folha é
normalmente o último dígito do número, e os outros dígitos à esquerda da "folha" formam
o "ramo". A "unidade de folha" indica qual casa decimal representa os valores da folha.
Por exemplo, quando a unidade de folha é de 1,0, o número 125 seria dividido como:
ramo 12, folha 5. O número 8124 seria dividido como: ramo 812, folha 4. Cada linha do
diagrama exibe a contagem, ramo e folha. As contagens das linhas antes e depois da
mediana são acumuladas. A contagem de uma linha antes da mediana representa a
contagem total daquela linha e das linhas antes dela. A contagem de uma linha após a
mediana representa a contagem total daquela linha e das linhas após ela. O seguinte
diagrama ramo-e-folhas mostra as altas temperaturas diárias do mês de junho. A primeira
linha tem um valor de ramo 6 e contém os valores de folhas 8, 9 e 9. A unidade de folha é
de 1,0. Assim, a primeira linha do gráfico representa os valores de amostra de
aproximadamente 68, 69, e 69.
Este diagrama ramo-e-folhas tem os
seguintes recursos:
Contagem de dados: A primeira
coluna mostra a contagem de dados até a
mediana, que está entre o 4o. e o 5o. valores
na coluna e, depois, para baixo novamente. A
contagem de uma linha antes da mediana
representa a contagem total daquela linha e
das linhas antes dela. O valor para uma linha
após a mediana representa a contagem total
daquela linha e das linhas após ela. Ramo-e-
folhas: A interpretação do ramo e folhas inclui
o seguinte:
• A unidade de folha é de 1,0. O primeiro ramo é 6 com três folhas: 8, 9 e 9. Isso
significa que três dias foram nos sessenta: 68, 69, 69.
• Quatorze dias foram nos setenta: 70, 73, 73, 74, 74, 75, 75, 76, 76, 77, 77, 77, 78
e 78.
• Onze dias foram nos oitenta e dois dias foram nos noventa.

• A mediana para a amostra é 77,5, portanto, ambas as quinta e sexta linhas têm
contagem acumulada de 15.
Um diagrama de pontos é um gráfico que você pode usar para avaliar a
distribuição de dados contínuos. Um diagrama de pontos representa graficamente cada
observação como um ponto ao longo de uma linha de números (eixo x). Os valores estão
divididos em intervalos igualmente espaçados, chamados intervalos de classes. Os
valores que ocorrem no mesmo intervalo estão empilhados. Quando não existe espaço
suficiente para mostrar um ponto para cada observação, o Minitab representa múltiplas
observações por um único ponto, indicado por uma nota de rodapé no gráfico. Os
diagramas de ponto são especialmente úteis para avaliação de distribuições quando há
uma quantidade relativamente pequena de dados
Exemplos
Os gráficos a seguir mostram o número de pedidos preenchidos em restaurantes
de fast food durante uma hora de almoço em um único dia.
Diagrama de pontos simples
Este diagrama de pontos mostra que o
restaurante A preenche a maioria dos pedidos em 2 a
3 minutos.

Diagrama de pontos com grupos


Este diagrama de pontos mostra as
distribuições de dois restaurantes diferentes. O
restaurante A parece preencher os pedidos mais
rapidamente.

GRÁFICOS DE BARRAS, HISTOGRAMA E DENSIDADE


Um gráfico de barras é um gráfico que você pode usar para comparar alturas de
barra de medições de categoria. Os gráficos de barras podem ser feitos de contagens de
categoria, de diferentes estatísticas por categorias, ou de valores sumários. A altura das
barras significa a magnitude dos valores. Por exemplo, as barras poderiam representar:
• Total de vendas de quatro lojas filiais durante um ano

• Diâmetros médios de peças fabricadas por quatro máquinas diferentes em uma


fábrica durante uma semana
• Contagens de visitantes de quatro destinos turísticos locais durante um final de
semana
Por exemplo, as barras neste gráfico de barras representam as contagens de
falhas na pintura em uma peça de automóvel.
Barras agrupadas e empilhadas
Você pode representar subcategorias em gráficos de barra ao criar agrupamentos
de barras ou ao empilhar barras. Por exemplo, suponha que você queira controlar o
número de alunos em quatro escolas regionais por série escolar.

Barras agrupadas
Cada agrupamento de barras representa uma escola, e cada barra dentro de um
agrupamento representa o número de alunos em uma série escolar.
Criar agrupamentos é útil quando você deseja comparar subcategorias dentro e
entre categorias. Por exemplo, o gráfico anterior mostra:
• East High tem a maior parte dos alunos.

• Dentro de East High, a 12a. série escolar tem a maior parte dos alunos.
• Para cada colégio, o número de alunos em cada série escolar é similar.

• O menor número de alunos está na 9a. série escolar na West High, seguido de
perto pelas outras três séries naquele colégio.

Barras empilhadas
Cada pilha de barras representa uma escola, e cada barra dentro de uma pilha
representa o número de alunos em uma série escolar.
Empilhar barras é útil quando você deseja comparar subcategorias dentro de
categorias e categorias entre si.
Um histograma é um gráfico que você pode usar para avaliar a forma e a
distribuição de dados amostrais contínuos. Você pode criar um histograma antes ou
durante uma análise para ajudar a confirmar suposições e guiar análises adicionais.
Para traçar um histograma, divide valores amostrais em intervalos chamados
intervalos de classes. Por padrão, cada barra no histograma representa o número de
observações que se encaixam dentro de um intervalo de classes (a frequência).

Neste histograma, há uma observação entre 0 e 12, quatro observações entre 12


e 16 , e assim por diante.
MÉDIA, MEDIANA, MODA, QUANTIS
MÉDIA ARITMÉTICA SIMPLES E PONDERADA E SUAS PROPRIEDADES: É o
quociente da divisão da soma dos valores da variável pelo número deles.
MODA (MO): É o valor que ocorre com maior frequência em um conjunto de
dados, e que é denominado valor modal. Baseado nesse contexto, um conjunto de dados
pode apresentar mais de uma moda. Nesse caso, dizemos ser multimodais; caso
contrário, quando não existe um valor predominante, dizemos que é amodal.
MEDIANA (MD): A mediana é uma medida de posição. É, também, uma
separatriz, pois divide o conjunto em duas partes iguais, com o mesmo número de
elementos. O valor da mediana encontra-se no centro da série estatística organizada, de
tal forma que o número de elementos situados antes desse valor (mediana) é igual ao
número de elementos que se encontram após esse mesmo valor (mediana). A medianaéo
valor da variável que ocupa a posição central de um conjunto de n dados ordenados.
Posição da mediana: (n+1)/2 , onde n é o número de termos
QUARTIS: dividem a distribuição em 4 partes iguais.
• Q1 = 1º quartil, valor situado de tal modo na série que uma quarta parte
(25%) dos dados é menor que ele e as três quartas partes restantes (75%) são maiores.
• Q2 = 2º quartil, evidentemente, coincide com a Mediana (Q2 = Md).
• Q3 = 3º quartil, valor situado de tal modo que as três quartas partes (75 %)
dos termos são menores que ele e uma quarta parte 25 % é maior.

VARIÂNCIA E DESVIO PADRÃO, COVARIÂNCIA E CORRELAÇÃO


DESVIO PADRÃO: É a medida de dispersão mais geralmente empregada, pois
leva em consideração a totalidade dos valores da variável em estudo. É um indicador de
variabilidade bastante estável. O desvio padrão baseia-se nos desvios em torno da média
aritmética e a sua fórmula básica pode ser traduzida como : a raiz quadrada da média
aritmética dos quadrados dos desvios e é representada por S.
VARIÂNCIA - VAR (x) – é a medida que dá o grau de dispersão (ou de
concentração) de probabilidade em torno da média. O fato de conhecermos a média de
uma distribuição de probabilidades já nos ajuda bastante, porém, precisamos de uma
medida que nos dê o grau de dispersão de probabilidade em torno dessa média.
A covariância mede a relação linear entre duas variáveis. A covariância não é
padronizada, ao contrário do coeficiente de correlação. Por isso, valores de covariância
podem variar de infinito negativo a infinito positivo. Valores de covariância positivos
indicam que valores acima da média de uma variável estão associados a valores médios
acima da outra variável e abaixo dos valores médios são igualmente associado. Valores
de covariância negativos indicam que valores acima da média de uma variável estão
associados com valores médios abaixo da outra variável.
Um coeficiente de correlação mede o grau pelo qual duas variáveis tendem a
mudar juntas. O coeficiente descreve a força e a direção da relação. Um coeficiente de
correlação é a covariância dividida pelo produto do desvio padrão de cada variável.

ASSIMETRIA E CURTOSE

Assimetria
A assimetria é a medida em que os dados não são simétricos.
Valores de assimetria iguais a 0, positivos ou negativos revelam informações
sobre a forma dos dados.

DISTRIBUIÇÕES SIMÉTRICAS OU NÃO ASSIMÉTRICAS: Conforme os dados


tornam-se simétricos, seu valor de assimetria aproxima-se de zero. A Figura A mostra
dados de distribuição normal, que por definição exibe assimetria relativamente pequena.
Ao traçar uma linha abaixo do meio deste histograma de dados normais é fácil de ver que
os dois lados refletem um ao outro. Mas a falta de assimetria simplesmente não significa
normalidade. A Figura B mostra uma distribuição onde os dois lados ainda refletem um ao
outro, apesar de os dados estarem longe de serem uma distribuição normal.
DISTRIBUIÇÕES COM ASSIMETRIA POSITIVA OU À
DIREITA :Dados com assimetria positiva ou à direita são assim
chamados por causa da "cauda" dos pontos de distribuição à
direita, e porque seu valor de assimetria será maior do que 0 (ou
positiva). Dados salariais são, frequentemente, assimétricos desta
maneira: vários funcionários em uma empresa ganham
relativamente pouco, enquanto cada vez menos pessoas ganham altos salários.

DISTRIBUIÇÕES COM ASSIMETRIA NEGATIVA OU À


ESQUERDA: Assimetria à esquerda ou dados assimétricos
negativos são assim chamados porque a "cauda" da distribuição
aponta para a esquerda, e porque ela produz um valor de
assimetria negativo. Os dados da taxa de falha são frequentemente
assimétricos à esquerda. Considere as lâmpadas: muito poucas vão queimar
imediatamente, a grande maioria durará por um longo tempo.

Curtose
A curtose indica como o pico e as caudas de uma
distribuição diferem da distribuição normal. Use curtose para ajudar
você a entender inicialmente as características gerais sobre a
distribuição de seus dados. Linha de base: valor da curtose de 0
Os dados que seguem uma distribuição normal
perfeitamente têm um valor de 0. Normalmente, os dados
distribuídos estabelecem a linha de base para curtose. A curtose da
amostra que se desvia significativamente de 0 pode indicar que os
dados não estão normalmente distribuídos.

Curtose positiva
Uma distribuição com um valor de curtose positiva indica
que a distribuição tem caudas mais pesadas e um pico mais
pontudo do que a distribuição normal. Por exemplo, os dados que
se seguem a distribuição T tem um valor de curtose positiva. A
linha contínua mostra a distribuição normal e a linha pontilhada
mostra uma distribuição com um valor de curtose positiva.

Curtose negativa
Uma distribuição com um valor de curtose negativa indica que a distribuição tem
caudas mais leves e menos e um pico mais achatado do que a distribuição normal. Por
exemplo, os dados que seguem uma distribuição beta com primeiro e segundo
parâmetros de forma igual a 2 têm um valor de curtose negativo. A linha contínua mostra
a distribuição normal e a linha pontilhada mostra uma distribuição com um valor de
curtose negativa.

Você também pode gostar