Você está na página 1de 16

Estatística com a Rê

A estatística é a ciência que levantará questões e as resolverá pelo estudo


exaustivo dos dados a respeito, ou seja, busca conclusões a partir de dados.

Questões Dados Explicação dos Dados

Caso números estejam envolvidos na investigação, usaremos méodos


quantitativos para recolha e análise de dados. Caso contrário, se estivermos
lidando com análise de linguagem, entrevistas, classificações usaremos
métodos qualitativos.

Definições:
População:
Conjuntos de objetos
Amostra:
que possuem uma
Subconjunto da População.
função específica.
(aqui é aplicada a pesquisa
- empresas, animais,
etc.

ESTATÍSTICA
Descritiva: Inferencial:
Responsável pela recolha, Tira conclusões dos dados
organização e analize dos da amostra para aplicar
dados. na população.

ESTATÍSTICA DESCRITIVA:

Apoio a
teoria
Observação Hipótese Recolha
inicial de dados
Reformulação
da hipótese.

Estatística com a Rê pg. 1


TIPOS DE DADOS , NÍVEIS OU ESCALAS DE MEDIDA:

Para conseguirmos uma correspondência entre a metodologia


qualitativa e quantitativa vamos aplicar em todos os dados recebidos a Teoria
da medida.
Isso significa que vamos sempre atribuir números para os dados
qualitativos, seguindo a seguinte regra: cada categoria estará ligada a um
único número e um número não poderá estar ligado a duas categorias
diferentes.

Agora vamos ver os tipos diferentes de dados de recolha.

VARIÁVEIS QUALITATIVAS – CATEGÓRICAS :

NOMINAL :
Os números/símbolos são usados para nomear, identificar ou classificar,
além disso, podemos dizer que os números são rotulos mutuamente
exclusivos e exaustivos, ou seja, não há como pertencer à duas das
categorias ou pertencer à nenhuma delas – esta já é uma das categorias.

Lembrete: os números só tem a capacidade de diferenciar as classes.


(estado civil, gênero, sexualidade, morto/vivo);

ORDINAL :
Os números indicam colocação, ordem lógica. Mas estes não são
capazes de oferecer a diferença de magnitude entre as categorias.

Lembrete: os termos “maior/menor que”, “melhor/pior que”, entre outros,


podem ser usados.
(avaliação de alunos, classe social, ser a favor ou não a algo);

VARIÁVEIS QUANTITATIVAS, MÉTRICAS OU ESCALARES :

INTERVALAR:
Os intervalos ou distâncias entre cada número e o seguinte são iguais,
mas não conseguimos saber a magnitude da diferença ente um número
e outro se não estabelecermos uma origem.
(escala de temperatura, dias contados pelo calendário);

DERAZÃO OU PROPORCIONAL :
Podemos ver cada número como a distância dele a zero, onde a origem
da escala é a ausência da característica medida. Além disso,
conseguimos ver a proporção entre as medidas.
(peso, altura, distância percorrida);

Estatística com a Rê pg. 2


Guia de como saber com que tipo de variável estamos lidando:

Mais do que duas categorias?

Não Sim

Variável binária (nominal) A distãncia esntre as categorias são


Qualitativa; iguais?

Não Sim

Variável intervalar ou de razão

Mensuração numéria de uma As caracteríscicas podem ser


característica – variável quantitativa; ordenadas?

Não Sim

Variável ordinal

Sugere ordem lógica – variável Variável intervalar ou de razão


qualitatia;
Sem ordem – variável quantitativa;

Variáveis contínuas e discretas:

As variáveis contínuas são valores que podem ser repesentados por


números decimais, “números com vírgula”, apresentam uma continuidade na
contagem – usados para representar variáveis quantitativas. Diferentemente, as
variáveis discretas são representadas por números inteiros, onde a unidade é
preservada, estes são normalmente usados para representar variáveis
qualitativas, mas podem representar variáveis quantitativas.

RECOLHA DE DADOS:
No processo de recolha de dados ou iremos apoiar a hipótese inicial ou iremos
modificar ela até que ela seja verdadeira e embasada por dados, para isso
precisamos saber que podemos fazer essa manipulação de duas formas:

Manipulando a variável independente.


 diferentes participantes, diferentes testes;

Manipulando a variável dependente.


 mesmos participantes, diferentes testes;

Estatística com a Rê pg. 3


ANÁLISE DE DADOS:
Distribuição de Frequências:

Este é um modo de organizar dados, nessa distribuição veremos a


quantidade de vezes que uma ‘resposta’ ou resultado foi obtido a partir dos
participantes.

1º Liste todos os resultados possíveis e os disponha na primeira coluna.


2º Coloque na coluna seguinte, ao lado de cada resultado, a
quantidade de vezes, a frequencia, que este foi ‘respodido’.

Distribuição por Classes:

Quando temos respostas muito variadas podemos gerar classes,


intervalos de resultados, para facilitar a visualização dos dados e frequencias.

1º Calcule a amplitude, o intervalo de variação;


2º Use a Formula de Sturges para descobrir em quantas classes iremos
dividir os resultatos obtidos;

Fórmula de Sturges:
 entrada: n – o número de objetos/valores/pessoas na pesquisa
 saída: k – o número de classes sugerido.

𝑘 = 1 + 3,322 (log10 𝑛)

número de classes número de objetos

3º Defina o valor máximo e o mínimo de cada classe, assinale as


frequências e faça o teste para ver se os números batem, ou seja, veja se a
soma das frequências é igual ao número de objetos/pessoas na pesquisa;
4º Represente graficamente.

Diagrama de Caule e Folhas:

Essa representação é útil para apresentar a frequência por classe e os


valores dos resultados ao mesmo tempo.
Consideraremos o caule – a primeira coluna – o lugar onde estarão os
dígitos dominantes, no nosso exemplo serão os números que estão na casa das
dezenas. As folhas serão as listas ao lado de cada um dos itens dominantes. Ou
seja, os valores que estão ligados aos dígitos dominantes- no nosso exemplo, as
unidades.

Estatística com a Rê pg. 4


Para os seguintes resultados 12, 13 21, 27, 33, 34, 35, 37, 40, 40, 41; o
diagrama de Caule e Folha é:

Caule Folhas
1 2 3
2 1 7
3 3 4 5 7
4 0 0 1

Agora iremos aprender as propriedades que podemos extrair a partir dos


dados recolhidos.

PROPIEDADES NUMÉRICAS DOS DADOS:

Forma:

Assimetria;

Achatamento/Curtose;

Tendência Central:

Média;

Mediana;

Moda;

Variabilidade:

Razão da Variação;

Amplitude;

Amplitude Interquartílica;

Desvio Padrão;

Variância;

Localização/ Posição não-central:

Quantis

Estatística com a Rê pg. 5


TENDÊNCIA CENTRAL:

Moda (Mo)
O dado que mais se repete, o mais respondido. Caso existam duas
respostas em moda dizemos que os dados são bimodais, se houver mais de dois
resultados em moda serão multimodais.

Mediana (Mdn)
O valor que se encontra na posição central quando as informações estão
organizadas de forma crescente.

Seja n o número de objetos, número de participantes da pesquisa.

1º Devemos organizar nossos dados de forma crescente;

par ímpar
a mediana é a média dos a mediana é o valor da posição
valores das posições
𝑛 𝑛 (𝑛 + 1)
𝑒 +1
2 2 2

Média Aritmética, ou simplesmente Média (𝜇) (𝑥̅ )


É a soma dos valores, resultados, dividido pelo número de objetos –
pessoas que participaram da pesquisa.

𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 Soma dos resultados


𝜇=
𝑛
Número de objetos

Média Ponderada (𝑥̅𝑝 )


Essa média é usada para potencializar um dos valores, ou dar sentido de
proporção entra os valores por meio de pesos.

Sejam 𝑥1 , 𝑥2 , … , 𝑥𝑛 os resultados obtidos e atrelados a eles os seguintes


pesos 𝑝1 , 𝑝2 , … , 𝑝𝑛 . Então podemos calcular a média ponderada por meio da
soma do produto entre os resuslltados e seus respectivos pesos dividida pela
soma dos pesos.
𝑥1 𝑝1 + 𝑥2 𝑝2 + ⋯ + 𝑥𝑛 𝑝𝑛
𝑥̅𝑝 =
𝑝1 + 𝑝2 + ⋯ + 𝑝𝑛

Estatística com a Rê pg. 6


Média Truncada (𝑥̅ 5% )
Esse tipo de média é usado para evitar dicrepâncias na média aritimética
pela presença de extremos. Assim “cortamos” uma determinada porcentagem
de resultados que estão muito afastados da maioria dos resultados tanto ‘para
cima’ como ‘para baixo’ essa mesma porcentagem.

Para 𝑥̅5% cortamos 5% dos maiores e 5% dos menores resultados, logo a


média é calculada com 90% dos dados.

VARIABILIDADE :

Razão de Variação (v)


É normalmente usada para analisar a dispersão ou consentração de
respostas quando lidamos com variáveis qualitativas.

𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑗𝑒𝑡𝑜𝑠 𝑓𝑜𝑟𝑎 𝑑𝑒 𝑚𝑜𝑑𝑎


𝑣=
𝑛
Número de objetos

Dicas da Rê:

Se v for mais próximo Temos poucas respostas Gráfico concentrado


de 0 do que de 1 fora da moda na moda

Se v for mais próximo Temos respostas bem Gráfico disperso


de 1 do que de 0 variadas

Amplitude = Intervalo de Variação (A)


É a diferença entre o valor máximo e o valor mínimo observado.

𝐴 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

Variância (s²)
É a soma das distãncias à média ao quadrado dividida pelo número de
observações – número de objetos – subtraindo uma unidade.

A vari ância calcula a dispersão dos resultados em relação à média.

(𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2


𝑠2 =
𝑛−1

Dica da Rê:

Se a variância for um número pequeno a dispersão é pequena, caso contrário


a dispersão é grande.

Estatística com a Rê pg. 7


Desvio Padrão (s) (dp) (𝜎)
O desvio padrão indica uma medida de dispersão dos dados em torno
de média, podemos imaginá-lo (apenas de maneira alusiva) como a média
entre as distâncias dos valores até a média aritimética.

(𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2


𝜎= √ = √𝑠²
𝑛−1

Dica da Rê:
Um desvio padrão pequeno nos mostra que os pontos dos dados tendem a
estar próximos da média, e quando o desvio padrão é grande os pontos dos
dados estão espalhados por uma ampla gama de valores, ou seja, o gráfico é
disperso.

M EDIDAS DA FORMA:

Simetria
Uma distribuição diz-se simétrica se a média divide
a curva em duas metades iguais, ou seja, um lado é o
espelho do outro. Uma distribuição simétrica típica é a
distribuição normal.

Quando isso não acontece ela é assimétrica,


podendo ser assimétrica negativa (alongamento à
esquerda) ou assimétrica positiva (alongamento à
direita).

Coeficiente de assimetria:

(𝑥1 − 𝑥̅ )3 + ⋯ + (𝑥𝑛 − 𝑥̅ )³
𝑔1 = 𝑛
2
(𝑥 − 𝑥̅ ) + ⋯ + (𝑥𝑛 − 𝑥̅ )²
(√ 1 𝑛 )

Conclusões:
𝑔1 > 0  assimetria positiva (alongamento à direita)

𝑔1 = 0  simetria perfeita – curva normal

𝑔1 < 0  assimetria negativa (alongamento à esquerda)

Curtose
Calculamos aqui o grau de achatamento ou de afunilamento da curva
de distribuição. Sabendo disso, precisamos de um padrão de comparação e
como de costume, a curva normal desempenhará esse papel tendo o valor de
curtose igual a zero.

Estatística com a Rê pg. 8


Curtose positiva – com pico Curtose negativa – achatada

Coeficiente de Curtose de Pearsen:

(𝑥1 − 𝑥̅ )4 + ⋯ + (𝑥𝑛 − 𝑥̅ )4
𝑔2 = 𝑛 −3
4
(𝑥 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )²
(√ 1 𝑛 )

Conclusões:
𝑔2 > 0  distribuição com pico - Leptocúrtca

𝑔2 = 0  achatamento normal - Mesocúrtica

𝑔2 < 0  curva achatada - Platicúrtica

LOCALIZAÇÃO – POSIÇÃO NÃO-CENTRAL:


Quartil
Os quartis são valores capazes de dividir toda a amostra em quatro
grupos de tamanho igual, de forma que:

25% de todas as respostas são menores ou iguais ao 𝑄1 .

5O% de todas as respostas são menores ou iguais ao 𝑄2 .

75% de todas as respostas são menores ou iguais ao 𝑄3 .

Calculamos os quartis, primeiramente calculando a mediana, que


corresponde ao 𝑄2 . Apartir disso teremos a amostra dividida em dois grupos
iguais, as respostas inferiores a mediana e as superiores. As medianas desses dois
grupos são 𝑄1 e 𝑄3 , respectivamente.

Amplitude Interquartílica:
𝑄 = 𝑄3 − 𝑄1

Amplitude Semi-interquartílica:

𝑄3 − 𝑄1
𝐴𝑆𝐼 =
2

Estatística com a Rê pg. 9


Percentil
A ordem percentílica ou o percentil é a posição de um valor observado
numa escala de 100, ela indica a porcentagem de resultados na distribuição
que se encontra a baixo de um dado resultado - valor observado - , o Ponto
Percentílico.
Por exemplo, se um aluno teve uma nota de 45 pontos num teste e, se o
percentil que lhe corresponde é 70, então 70% de todos os resultados da
distribuição estarão abaixo do resultado 45. 0u seja, 𝑃70 = 45.

Como calculamos?
Há duas formas, a primeira é usadapa para calcular o percentil quando
não estamos lidando com frequências. A segunda para quando isso acontece.

1º forma:
Primeiramente, ordene os dados de forma crescente.
 entrada: k  pencentil/ordem percentílica/porcentagem
 saída: 𝑃𝑘  quantia a qual k% dos resultados tem valor inferior.

(𝑛 + 1)
𝑖=𝑘
100

i é um valor intermediário, se ele for inteiro calculamos 𝑃𝑘 por meio da


seguinte fórmula:
𝑃𝑘 = 𝑌[𝑖]

Para 𝑌[𝑖] o valor na posição i.


Caso i seja decimal, identificamos por d a parte decimal e i a parte inteira
e calculamos 𝑃𝑘 com:

𝑃𝑘 = (1 − 𝑑)𝑌[𝑖] + (𝑑)𝑌[𝑖+1]

2º forma:
Nº de objetos
Soma dos resultados
𝑘 .𝑛 abaixo de L
−𝑆
𝑃𝑘 = 𝐿 + ( 100 . 𝑖)
𝑓
Amplitude do intervalo

Limite inferior do
intervalo onde 𝑃𝑘 está Frequência do intervalo

Estatística com a Rê pg. 10


Resultado Típico – SCORE Z

É a distância de um determinado valor até a média calculado em


desvios padrões.
𝑥− 𝜇 média
𝑧=
𝜎
desvio padrão

Dica da Rê:
𝑧 > 0  x acima da média

𝑧=0 x=

𝑧 < 0  x a baixo da média

Resultados T – SCORE SAT

Usamos o score SAT, para representar os mesmo valores em uma outra


escala, com nova média (𝜇𝑛𝑜𝑣𝑜 ) e novo desvio padrão (𝜎𝑛𝑜𝑣𝑜 ).

𝑇 = 𝜎𝑛𝑜𝑣𝑜 . 𝑧 + 𝜇𝑛𝑜𝑣𝑜

CURVA DE DENSIDADE :
Características:
 As curvas estarão sempre acima do eixo
horizontal (dos xx);
 A área abaixo da curva é sempre igual a 1.

Informações importantes:
 MEDIANA: será o resultado cuja reta vertical que passa por ele divide a área
da curva em duas partes iguais;
 MÉDIA: será o resultado que é, na curva, o ponto de equilíbrio.

C URVA NORMAL:
É a curva de densidade em que a
média e a mediana são iguais e estão
localizadas no centro da curva.

O desvio padrão será o responsável


pela dispersão na curva, ou seja, se
mantermos o desvio padrão intacto e
modificarmos a média deslocaremos a curva normal horizontalmente seguindo
a média.

Estatística com a Rê pg. 11


Regra 68 – 95 – 99,7
Esta regra é outra característica que qualifica uma curva de densidade
como a curva normal. Ela nos diz que:

68 % das observações estão a menos de ±1 desvio padrão () da média.

95% das observações estão a menos de ±2 desvios padrão () da média.

99,7% das observações estão a menos de ±3 desvio padrão () da média.

Distribuição Normal Reduzida ou Padronizada:


Essa será a distribuição em uma curva normal cuja a média é 0 e o desvio
padrão 1. Sabendo que a área abaixo da curva é sempre igual a 1 podemos
calcular, devido às proporções de uma curva normal, a quanticade de área
(proporcionalmete, a quantidade de pessoas) a partir de um ponto.

Para esse cálculo vamos precisar da tabela de distribuição normal.

Dado o score z de um ponto,


encontramos na tabela a área da curva
a partir desse ponto. Área a partir
de z.
Lembre-se que o score z retrata a
distancia de um ponto à média em
desvios padrões.

Estatística com a Rê pg. 12


Fómulas
Para o cálculo de classes, na distribuição por classes:

Fórmula de Sturges:

𝑘 = 1 + 3,322 (log10 𝑛)

número de classes número de objetos

Mediana

par ímpar
a mediana é a média dos a mediana é o valor da posição
valores das posições
𝑛 𝑛 (𝑛 + 1)
𝑒 +1
2 2 2

Média aritimética
𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛
𝜇= Soma dos resultados
𝑛
Número de objetos

Média ponderada
𝑥1 𝑝1 + 𝑥2 𝑝2 + ⋯ + 𝑥𝑛 𝑝𝑛
𝑥̅𝑝 =
𝑝1 + 𝑝2 + ⋯ + 𝑝𝑛

Razão da variação

𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑗𝑒𝑡𝑜𝑠 𝑓𝑜𝑟𝑎 𝑑𝑒 𝑚𝑜𝑑𝑎


𝑣=
𝑛
Número de objetos

Amplitude = Intervalo de Variação (A)

𝐴 = 𝑥𝑚𝑎𝑥 − 𝑥𝑚𝑖𝑛

Variância (s²)
(𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2
𝑠2 =
𝑛−1

Estatística com a Rê pg. 13


Desvio Padrão (s) (dp) (𝜎)

(𝑥1 − 𝑥̅ )2 + (𝑥2 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )2


𝜎= √ = √𝑠²
𝑛−1

Coeficiente de assimetria
(𝑥1 − 𝑥̅ )3 + ⋯ + (𝑥𝑛 − 𝑥̅ )³
𝑔1 = 𝑛
2
(𝑥 − 𝑥̅ ) + ⋯ + (𝑥𝑛 − 𝑥̅ )²
(√ 1 𝑛 )

Coeficiente de Curtose de Pearsen:

(𝑥1 − 𝑥̅ )4 + ⋯ + (𝑥𝑛 − 𝑥̅ )4
𝑔2 = 𝑛 −3
4
(𝑥 − 𝑥̅ )2 + ⋯ + (𝑥𝑛 − 𝑥̅ )²
(√ 1 𝑛 )

Amplitude Interquartílica:

𝑄 = 𝑄3 − 𝑄1

Amplitude Semi-interquartílica:

𝑄3 − 𝑄1
𝐴𝑆𝐼 =
2

Cálculo do Ponto Percentílico:

(𝑛 + 1)
𝑖=𝑘
100

i inteiro:
𝑃𝑘 = 𝑌[𝑖]
para 𝑌[𝑖] o valor na posição i.

i decimal, identificamos por d a parte decimal e i a parte inteira:

𝑃𝑘 = (1 − 𝑑)𝑌[𝑖] + (𝑑)𝑌[𝑖+1]

Resultado Típico – SCORE Z


𝑥− 𝜇 média
𝑧=
𝜎
desvio padrão

Estatística com a Rê pg. 14


Resultados T – SCORE SAT

𝑇 = 𝜎𝑛𝑜𝑣𝑜 . 𝑧 + 𝜇𝑛𝑜𝑣𝑜

Desvio Padrão ou Erro Padrão entre diferença de médias independentes:

𝑆𝑥2 𝑆𝑥2
𝑆(𝑥̅1−𝑥̅2) = √ 1 + 2
𝑛1 𝑛2

Desvio Padrão ou Erro Padrão entre diferença de médias quando 𝒏𝟏 ≠ 𝒏𝟐 :

𝑆𝑝2 𝑆𝑝2 (𝑛1 − 1). 𝑆12 + (𝑛2 − 1). 𝑆22 média pesada
𝑆(𝑥̅1−𝑥̅2) = √ +  𝑆𝑝2 =
𝑛1 𝑛2 (𝑛1 − 1) + (𝑛2 − 1) das variâncias

t distribuição de Student:

𝑥̅1 − 𝑥̅ 2
𝑡=
𝑆(𝑥̅1−𝑥̅2)

Intervalo de Confiança 95% para a diferença de duas médias

𝐼𝐶.95 = (𝑥̅1 − 𝑥̅2 ) ± 𝑡.025 . 𝑆(𝑥̅1−𝑥̅2)

Desvio Padrão ou Erro Padrão para diferenças de médias dependentes:

𝑆𝑥2 𝑆𝑥2 𝑆1 𝑆2
𝑆(𝑥̅1−𝑥̅2) = √ 1 + 2 − 2(𝜋) ( )( )
𝑛1 𝑛2 √𝑛1 √𝑛2

Teste t Emparelhado

̅ média das diferenças


𝐷
𝑡=
𝑆𝐷 desvio padrão das diferenças
número de observações √𝑛

Estatística com a Rê pg. 15


A PROFESSORA:

Renatha Vieira, estudante de Matemática na Universidade de Coimbra e


professora particular de matemárica, estatística, física, química e biologia.

Contatos:

Email: vieirasrept@gmail.com
Telefone: +351 938558169
Instagram: @vieirasre

Estatística com a Rê pg. 16

Você também pode gostar