Você está na página 1de 5

Estatística - Conceitos básicos

Escrito por vovó Vicki


Dom, 03.04.2005 04:56 - Última atualização Seg, 26.09.2005 01:11

Na Criptologia, assim como em outras ciências, são realizados estudos experimentais ou obser
vacionais
que resultam numa coleção de dados numéricos. O propósito da investigação é responder uma
questão científica onde o padrão de variação nos dados faz com que a resposta não seja
óbvia. É aí que entra a estatística: padroniza os métodos para coleta e descrição dos dados e
permite estabelecer evidências
pró
ou
contra
as questões que estejam sendo analisadas.

Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos
básicos.

Tipos de Dados

Os dados podem ser classificados em dois grandes grupos: os dados qualitativos ou


categóricos e os dados
quantitativos ou numéricos
. Os dados qualitativos, como diz o nome, referem-se a qualidades do objeto estudado (por
exemplo, frequente ou raro). Os dados quantitativos podem ser
discretos
ou
contínuos
. Os dados quantitativos discretos são contagens ou números inteiros e os dados quantitativos
contínuos representam valores numa escala contínua (por exemplo, altura, peso, volume, etc).

Na criptologia (tanto na criptografia quanto na criptoanálise), os dados, na grande maioria das


vezes, são dados quantitativos discretos (contagem de letras, de bytes, de bits, etc).

Resumo numérico

Para resumir numericamente dados qualitativos (por exemplo, se as letras forem classificadas
em "mais frequentes", de "frequência média" e "raras"), pode-se usar a moda. A moda é dada
pela categoria que possui o maior percentual de dados. No Português, a categoria da letra A é
a moda porque é a letra mais frequente neste idioma (A = 14.63%, E = 12.57% e O = 10.73%).
O gráfico de barras e o gráfico de setores (também conhecido como pizza) são os mais
utilizados para representar o resumo numérico de dados qualitativos.

1/5
Estatística - Conceitos básicos

Escrito por vovó Vicki


Dom, 03.04.2005 04:56 - Última atualização Seg, 26.09.2005 01:11

Para resumir numericamente dados quantitativos é preciso escolher medidas de locação ("qual
é o tamanho dos números envolvidos?") e de dispersão ("quanta variação existe?") adequadas.
Existem três escolhas principais para a medida de locação, os chamados "3 Ms". Estas
medidas de locação estão ligadas a certas medidas de dispersão:

Medida de Locação Dispersão


Média (o valor 'médio') Desvio Padrão Mediana (o valor 'do meio')
IQR
M

O histograma é um dos gráfico mais utilizado para representar o resumo numérico de dados
quantitativos.

A Variação Amostral

Quando se coleta dados, estes devem ser classificados em categorias e contados. Se a


população (coleção de unidades individuais) pesquisada for muito grande, podemos retirar uma
amostra de dados, analisá-la e, eventualmente, tirar conclusões acerca da população usando a
informação da amostra (este processo é chamado de inferência estatística).

Vamos tomar como exemplo a análise da frequência de ocorrência das letras no Português.
Não será preciso contar todas as letras de todos os textos que já tenham sido escritos - basta
analisar uma amostra suficientemente grande para que as contagens reflitam a proporção
"global". Geralmente considera-se que cerca de 100 objetos seja uma amostra confiável.

Se forem contadas apenas as letras A, E, O, S e R de várias amostras de texto com 500 letras,
poderemos realizar uma série de cálculos importantes. Veja a tabela abaixo:

Texto 1 Texto 2 Texto 3 Texto 4


A 68 81 67 8
E 60 55 70 5
O 53 53 45 6
S 52 36 40 3
R 31 31 47 2
Total 264 256 269 2

Apesar dos dados estarem "bem arrumadinhos" numa tabela, a primeira impressão que se tem

2/5
Estatística - Conceitos básicos

Escrito por vovó Vicki


Dom, 03.04.2005 04:56 - Última atualização Seg, 26.09.2005 01:11

é que as letras contadas nos quatro textos possuem uma distribuição muito diferente. Para
testar se esta variação é significativa ou não, o que nos permite manter ou excluir
determinados resultados, existem várias medidas mostradas a seguir.

Média

A média aritmética é uma medida de locação usada para resumir dados quantitativos
aproximadamente simétricos. Para se obter a média aritmética de uma categoria basta somar
suas frequências e dividi-las pelo total de contagens. Por exemplo, no total foram contadas 299
letras A em 4 amostras diferentes. A média das letras A é:

f / n = 299 / 4 = 74.75

Na tabela abaixo encontram-se as médias de todas as letras analisadas:

Letra Contagem Amostras Média


A 299 4 74.75
E 237 4 59.25
O 218 4 54.50
S 166 4 41.50
R 136 4 34.00

A média arimética nos diz qual o valor aproximado que devemos esperar quando fazemos a
contagem.

Variância

A variância é o desvio quadrático médio da média (creeeedo :wink: ) e é calculada da seguinte


maneira: Soma de todos (valor encontrado - média)2) / número de contagens - 1. Calculando a
variância da letra A temos:

(81 - 74.75)2 + (67 - 74.75)2 + (83 - 74.75)2 + (68 - 74.75)2 / 4 - 1 = 6.252 + (-7.75)2 +
(-8.25)
2

+ (6.75)
2

/ 3 = 39.06 + 60.06 + 68.06 + 45.56 / 3 = 212.74 / 3 = 70.91

A tabela a seguir mostra a variância (representada por s2) de todas as letras contadas: Letra
A 70.91
E 62.25

3/5
Estatística - Conceitos básicos

Escrito por vovó Vicki


Dom, 03.04.2005 04:56 - Última atualização Seg, 26.09.2005 01:11

O 83.66
S 51.66
R 78.66

O variância nos diz quanto, em média, os valores encontrados estão se afastando do valor
esperado. Quanto menor a variância, mais próximos da média estão os dados. Como a
variância é um valor quadrático, isto significa que seu valor é o quadrado da média de
dispersão.

Desvio Padrão

O desvio padrão é a raiz quadrada da variância, ou seja, é o valor da média de dispersão. A


letra A, por exemplo, mostrou uma variância = 70.91, o que nos fornece um desvio padrão s =
raiz 70.91 = 8.42. O desvio padrão nos diz que podemos esperar contagens para a letra A
entre 74.75 - 8.42 = 66.33 (média menos o desvio padrão) e 74.75 + 8.42 = 83.17 (média mais
o desvio padrão). Os desvios padrão das letras contadas nos quatro textos são:

Letra Desvio Padrão


A raiz 70.91 = 8.42
E raiz 62.25 = 7.89
O raiz 83.66 = 9.15
S raiz 51.66 = 7.19
R raiz 78.66 = 8.87

A Mediana e a Amplitude Inter-Quartis

Uma outra forma de sumarizar dados é em termos dos quantis ou percentis. Essas medidas
são particularmente úteis para dados não simétricos. A mediana (ou percentil 50) é o valor que
divide os dados ordenados ao meio, isto é, metade dos dados têm valores maiores do que a
mediana e a outra metade tem valores menores do que a mediana. Adicionalmente, os quartis
inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e
três quartos, respectivamente, dos dados. Estes três valores são frequentemente usados para
resumir os dados juntamente com o mínimo e o máximo.

No caso da contagem da letra A em 4 textos diferentes de 500 letras, as frequências


encontradas foram 68, 81, 67 e 83. Primeiramente, ordena-se as contagens: 67, 68, 81, 83.
Depois calcula-se a mediana:

número de contagens + 1 / 2 = 4 + 1 / 2 = 5 / 2 = 2.5

4/5
Estatística - Conceitos básicos

Escrito por vovó Vicki


Dom, 03.04.2005 04:56 - Última atualização Seg, 26.09.2005 01:11

A mediana está exatamente entre o segundo e o terceiro valor, ou seja, entre 68 e 81. Neste
caso, a mediana será 68 + (81 - 68) x 0.5 = 68 + 13 x 0.5 = 68 + 6.5 = 74.5

O quartil inferior, chamado de Q1, indica o ponto abaixo do qual se encontram 1/4 dos valores
medidos e é calculado

número de contagens + 1 / 4 = 4 + 1 / 4 = 5 / 4 = 1.25

Q1 está entre o primeiro e o segundo valor medido, ou seja, entre 67 e 68. Q1 = 67 + (68 - 67)
x 0.25 = 67 + 1 x 0.25 = 67 + 0.25 = 67.25.

O quartil superior, chamado de Q3, indica o ponto abaixo do qual se encontram 3/4 dos
valores medidos e é calculado

(número de contagens + 1) x 3 / 4 = (4 + 1) x 3 / 4 = 15 / 4 = 3.75

Q3 está entre o terceiro e o quarto valor medido, ou seja, entre 81 e 83. Q3 = 81 + (83 - 81) x
0.75 = 81 + 2 x 0.75 = 81 + 1.5 = 82.5.

A medida de dispersão é a amplitude inter-quartis: IQR = Q3 - Q1. No exemplo da letra A,


IQR = 82.5 - 67.25 = 15.25.

A Moda

A moda é o valor que ocorre com maior frequência. Em algumas contagens, como no caso da
contagem da letras A, ocorre mais de um "pico". Neste caso, este conjunto de dados é
chamado de multimodal (as contagens da letra A parecem ter moda ao redor de 60 e ao redor
de 80). Nestes casos, é interessante separar amostras usando algum critério, por exemplo,
separar vogais de consoantes. No Português, as letras mais frequentes, em ordem
decrescente, são A, E, O, S, R, I, N, etc. A letra A é a mais frequente e é a moda do idioma. Se
considerarmos apenas as vogais, a letra A continua sendo a moda, mas se considerarmos
apenas as consoantes, a letra S será a moda.

5/5