Você está na página 1de 9

Mat.

Aplicada - Teoria
Conceitos básicos da estatística
Estatística é a parte da matemática aplicada que fornece métodos para coletar, organizar,
descrever, analisar e interpretar dados com o objetivo de utilizar a informação obtida na
tomada de decisões.

Algumas Expressões:

Data mining Data compression

Reconhecimento de linguagem Algoritmos estocáticos

Interação homem/computador Inteligência artificial

Modelagem Network/Traffic Machine learning

Otimização estocástica Técnicas de armazenamento e


recuperação
Capacity planning
Gerência de qualidade

Objetivo da estatística → tornar a informação clara e precisa para a tomada de decisões


através de ferramentas (gráficos, tabelas, medidas descritivas).

População e amostra
População: é o conjunto de todos os elementos ou resultados que se deseja estudar

Amostra: é uma parte (subconjunto da população)

Amostragem: é o processo de obtenção da amostra

Fases do trabalho estatístico


1. Planejamento→ define-se a população a ser estudada, formulando-se o trabalho de
pesquisa por meio da elaboração de questionários, entrevistas, etc. Perguntas que

Mat. Aplicada - Teoria 1


procuram justificar a necessidade da pesquisa: “quem”, “o que”, “por que”, “para que”,
“quando”, “como”.

2. Coleta de dados →

Direta: por meio de questionários previamente elaborados pelo pesquisador

Indireta: por meio de levantamento de dados em algum registro já existente

3. Crítica dos dados → visa eliminar possíveis erros na coleta de dados que possam
interferir nos resultados finais do estudo.

4. Apuração ou processamento de dados → Aplicação de métodos estatísticos ao


conjunto de dados de acordo com o objetivo da pesquisa.

5. Apresentação dos dados → Feita através de tabelas, gráficos, quadros.

6. Análise dos resultados → tirar conclusões sobre o todo (população) a partir das
informações fornecidas por parte (amostra).

A coleta de dados pode ser via Censo ou Amostragem

Censo: coleta de todos os elementos da população.

Não tem erro amostral

É caro

É lento

Nem sempre é possível de se realizar

Amostragem: coleta os dados de uma parte dos elementos da população.

Tem erro amostral

É barato

É rápido

É sempre possível de se realizar

Tipos de variáveis
Quantitativas: expressas em termos numéricos, resultados de medições ou contagens

Discretas: números inteiros

Continuas: números reais

Qualitativas: refere-se a qualidade dos elementos de uma população ou amostra segundo


algumas de suas características.

Nominais: reunidas em categorias que apresentam características idênticas não


existindo ordenação. Ex: sexo, religião

Mat. Aplicada - Teoria 2


Ordinais: elementos reunidos em categorias que aparecem em uma lista. Ex: IMC,
Pressão arterial.

Técnicas de amostragem
Aleatória Simples → equivale a um sorteio, é utilizada quando a população
encontra-se desordenada, sendo que por essa técnica, qualquer elemento tem
a mesma chance de ser sorteado. Cada elemento da população tem a mesma chance de ser
escolhido.
Estratificada → utilizada quando a população encontra-se dividida em
estratos (grupos semelhantes). Classificar a população em ao menos dois estratos e extrair a
amostra de cada um.

Sistemática → também é realizada por meio de um sorteio. A diferença é que nessa


amostragem os elementos da população já se encontram ordenados. O cálculo é feito
dividindo o tamanho da população pelo tamanho da amostra, o resultado será o intervalo
utilizado para selecionar os elementos.

Tipos de variáveis
Dados: características observadas ou medida de alguma maneira.
Variáveis estatísticas: representação dos dados.

Quantitativa: expressas em termos numéricos, resultados de


medições ou contagens.

discretas → associadas ao conjunto dos números inteiros (0, 1, 2, 3, ...),


resultantes dos processos de contagem.
Ex: número de alunos por sala do IFPE, número de crédito por disciplina.

contínuas → associadas ao conjunto dos números reais, resultantes


dos processos de medições.
Ex: peso, altura, etc.

Qualitativa: refere-se a qualidade dos elementos de uma população


ou amostra segundo algumas de suas características.

nominais: reunidas em categorias que apresentam características


idênticas, não existindo ordenação.
Ex: sexo, religião, etc.

ordinais: elementos reunidos de acordo com a ordem em que


aparecem em uma lista.
Ex: IMC (normal, sobrepeso, obeso), Pressão arterial (baixa, normal,
alta), etc.

Mat. Aplicada - Teoria 3


Os dados, depois de coletados, são apresentados em tabelas, quadros ou figuras.

Objetivo das tabelas e quadros: Apresentar, ao investigador ou ao público em geral, um


resumo do fenômeno em estudo.
Elementos essenciais
Título - indicação que precede a tabela e contém as seguintes respostas: O
que? Onde? Quando?
Cabeçalho - Parte superior da tabela que especifica o conteúdo das colunas
Coluna Indicadora - Parte da tabela que especifica o conteúdo das linhas
Corpo da tabela - conjunto de colunas e linhas que contém todas as
informações sobre a variável em estudo

Elementos complementares

Fonte – Indicação da entidade responsável pelo fornecimento dos dados ou pela sua
elaboração

Notas – Informações de natureza geral, destinadas a conceituar ou esclarecer o conteúdo


das tabelas ou a indicar a metodologia adotada no levantamento ou na elaboração dos
dados

A Fonte ou as Notas são chamadas de Rodapé da Tabela.

Distribuição de Frequências
Conceito: método de agrupamento de dados em valores, classes ou intervalos, de tal forma
que se possa determinar o número ou a porcentagem de cada valor, classe ou intervalo.

Objetivo: dispor um conjunto de valores, dando uma ideia global sobre esses valores (sua
distribuição).

Distribuição de Frequências por VALORES (variável qualitativa ou quantitativa discreta): é


construída considerando-se todos os diferentes valores ou categorias, levando em
consideração suas respectivas repetições.

Distribuição de Frequências por INTERVALOS OU CLASSES (variável quantitativa discreta


ou contínua): constroem-se classes de valores (intervalos) quando há muitos valores
diferentes, levando em consideração o número de valores que pertencem a cada classe.

Altura Como construir uma distribuição por frequência por intervalo:


Frequência
1° - Primeiro faz-se uma ordenação crescente ou decresceste
128 |--- 134 1 dos dados
134 |--- 140 3 2° - determina-se a amplitude total dos dados.

140 |--- 146 6 AT = maiorvalorobservado − menorvalorobservado


146 |--- 152 6

Mat. Aplicada - Teoria 4


152 |--- 158 12 3° - Escolhe-se o número total de classes k, onde k é um número
inteiro, 5≤ k ≤15, onde podemos tomar k ≈ √n. Se possível
158 |--- 164 5
constrói-se classes de mesma amplitude h, tomando h ≈ AT /k
164 |--- 170 3
4° - Efetua-se o agrupamento em classes, elaborando a tabela de
170 |--- 176 1
distribuição de frequências.
176 |--- 182 1
182 |--- 188 2

Total 40

O gráfico estatístico é uma forma de apresentação dos dados, cujo objetivo é o de produzir,
no pesquisador ou no público em geral, uma impressão rápida e viva do fenômeno em
estudo. A representação gráfica de um fenômeno deve obedecer aos seguintes requisitos:
a) Simplicidade: indispensável devido à necessidade de levar a uma rápida apreensão do
sentido geral do fenômeno apresentado a fim de não nos perdermos na observação de
minúcias de importância secundária.
b) Clareza: o gráfico deve possibilitar uma correta interpretação dos valores representativos
do fenômeno em estudo.
c) Veracidade: se não representa uma realidade, o gráfico perde sua finalidade.

Média Aritmética:
mede o valor médio do conjunto de dados.

X = ∑ Xi/n
Propriedades da Média Aritmética:

1. É uma medida de tendência central que, por uniformizar os valores de um conjunto de


dados, não representa bem os conjuntos que revelam tendências extremas. Ou seja, é
fortemente influenciada pelos valores extremos (grandes) do conjunto.

2. Pode ser tratada algebricamente:

3. Somando-se ou subtraindo-se uma constante (c) a todos os valores de uma variável, a


média do conjunto fica aumentada ou diminuída dessa constante;

4. Multiplicando-se ou dividindo-se todos os valores de uma variável por uma constante (c),
a média do conjunto fica multiplicada ou dividida por essa constante.

5. Depende de todos os valores do conjunto de dados.

Moda:
Dado um conjunto de valores, a moda é o valor mais frequente do conjunto de dados, ou
seja, aquele que aparece com maior frequência.

Mat. Aplicada - Teoria 5


A moda de um conjunto de dados pode não existir, ou até a moda de um conjunto de dados
pode não ser única.

Propriedades da Moda:

1. Não depende de todos os valores do conjunto de dados, podendo


mesmo não se alterar com a modificação de alguns deles.

2. Não é influenciada por valores extremos (grandes) do conjunto de


dados.

Mediana:
A mediana é o valor que divide o conjunto em duas partes iguais. Os termos devem ser
organizados em ordem crescente e a mediana é o número que fica exatamente no meio, ou a
média aritmética dois dois que estão no meio do conjunto.

Propriedade da Mediana:

1. A mediana não é influenciada por valores extremos (grandes) de um conjunto de dados.

Medidas separatrizes
Medidas Separatrizes são valores que separam o rol estatístico (dados ordenados) em partes
iguais.

Para a correta aplicação das medidas separatrizes, é necessário que os dados estejam
ordenados, ou seja, organizados em um rol estatístico.

1. Quartis: dividem o rol em 4 partes iguais;

2. Decis: dividem o rol em 10 partes iguais;

3. Percentis: dividem o rol em 100 partes iguais.

Mat. Aplicada - Teoria 6


Um exemplo do uso dos Percentis são as Curvas de Crescimento.

BoxPlot
o BoxPlot (gráfico de caixa) é um gráfico utilizado para avaliar a distribuição dos dados,
revelando a mediana e os quartis.

Em um boxplot são apresentadas 5


estatísticas: o mínimo, o primeiro quartil
(Q1), a mediana, o terceiro quartil (Q3) e o
máximo. Esses valores também são
chamados de resumo dos cinco
números.

O centro da distribuição é indicado pela


linha da mediana, no centro do quadrado.
A dispersão é representada pela amplitude
do gráfico, que pode ser calculada como
máximo valor – mínimo valor. Quanto
maior for a amplitude, maior a variação
nos dados.

O retângulo contém 50% dos valores do


conjunto de dados. A posição da linha Os outliers em um box plot aparecem como
mediana no retângulo informa sobre a pontos ou asteriscos fora das “linhas”
assimetria da distribuição. desenhadas. Perceba que no exemplo que
Uma distribuição simétrica teria a mediana temos um outlier representado pelo ponto no
no centro do retângulo. Se a mediana é começo do gráfico.
próxima de Q1, então, os dados são
positivamente assimétricos.
Se a mediana é próxima de Q3 os dados
são negativamente assimétricos. No
exemplo que você pode observar, a seguir,
a distribuição dos dados é simétrica.

Medidas de dispersão

Mat. Aplicada - Teoria 7


As medidas estatísticas responsáveis pela variação ou dispersão dos valores de um conjunto
são as medidas de dispersão ou de variabilidade, em que se destacam:

1. Variância

2. Desvio Padrão

3. Coeficiente de Variação

Entre dois ou mais conjuntos, o mais disperso (ou menos homogêneo) é aquele com a maior
medida de dispersão.

Variância:
Dado um conjunto de dados, a variância é uma medida de dispersão que mostra o quão
distante cada valor desse conjunto está do valor central (médio).

Quanto menor é a variância, mais próximos os valores estão da média; mas quanto maior ela
é, mais os valores estão distantes da média.
"Considere que x1, x2, …, xn são os n elementos de uma amostra e que x é a média
aritmética desses elementos."
Var. populacional = (x1–x)² + (x2–x)² + (x3–x)² + ... + (xn–x)²/ n

Desvio Padrão:
O desvio padrão é capaz de identificar o “erro” em um conjunto de dados, caso quiséssemos
substituir um dos valores coletados pela média aritmética.
O desvio padrão aparece junto à média aritmética, informando o quão “confiável” é esse
valor. Ele é apresentado da seguinte forma: média aritmética (x) ± desvio padrão (dp)

O cálculo do desvio padrão é feito a partir da raiz quadrada positiva da variância. Portanto:
~o = √var
desviopadr a

Coeficiente de variação:
O coeficiente de variação é usado para analisar a dispersão em termos relativos a seu valor
médio quando duas ou mais séries de valores apresentam unidades de medida diferentes.
Dessa forma, podemos dizer que o coeficiente de variação é uma forma de expressar a
variabilidade dos dados excluindo a influência da ordem de grandeza da variável. O cálculo
do coeficiente de variação é feito através da fórmula:

Mat. Aplicada - Teoria 8


Onde, s → é o desvio padrão
X → é a média dos dados
CV → é o coeficiente de variação

Mat. Aplicada - Teoria 9

Você também pode gostar