Você está na página 1de 19

BIOESTATÍSTICA

Juliane Silveira Freire da Silva


Análise estatística
utilizando o Excel
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:

 Descrever os dados estatísticos por meio de planilhas elaboradas


no Excel.
 Construir tabelas e gráficos utilizando o Excel.
 Listar os testes estatísticos paramétricos e não paramétricos utilizando
o Excel.

Introdução
É por meio de um levantamento de informações a respeito de determi-
nados assuntos que os dados estatísticos são coletados. No entanto, o
levantamento de dados estatísticos de forma isolada é de pouco uso.
Desse modo, é importante que seja possível analisar e comparar esses
dados, para se atingir uma totalidade de informações, o que pode ser feito
por meio da ferramenta Excel, em que é possível unir o levantamento
de dados com a sua análise.
Neste capítulo, você aprenderá a como montar um banco de dados
estatístico no Excel, como organizar os dados de forma correta para
posteriores análises estatísticas, bem como construirá tabelas e gráficos
com o auxílio do Excel e conhecerá os principais testes que podem ser
realizados nesse software.

Dados estatísticos
Quando fazemos um levantamento de informações ou fazemos algum tipo de
observação e anotamos esse resultado, estamos coletando dados estatísticos.
Quando, por exemplo, preenchemos uma ficha de avaliação de um novo aluno
em uma academia, estamos coletando algumas informações sobre esse indiví-
2 Análise estatística utilizando o Excel

duo, e assim o fazemos a cada novo aluno que inicia a atividade. O conjunto
dessas informações é o que chamamos de dados estatísticos.
Mas, se deixarmos esses dados anotados nas fichas de cadastro, não ob-
teremos toda a informação que esses dados podem nos fornecer. Precisamos,
então, tabular esses dados e analisá-los com as demais fichas de outros alunos;
caso isso não seja feito, teremos apenas fichas isoladas e não poderemos
verificar alguma tendência e nem poderemos fazer comparações, como, por
exemplo, analisar a evolução dos alunos dessa academia. Para construirmos
um banco de dados, precisamos organizar as variáveis de forma que cada
coluna da planilha seja uma variável, e cada linha dessa planilha seja uma
unidade amostral ou populacional.
Considere uma ficha contendo variáveis pertinentes à anamnese física e
a algumas variáveis comportamentais para preenchimento de novos alunos
dessa academia, considerando as variáveis quantitativas de idade, peso, altura
e as variáveis qualitativas sexo, histórico de dores, doença diagnosticada pré-
-existente. Observe, na Tabela 1, que as variáveis estão dispostas em cada uma
das colunas, e cada linha contém as informações de um paciente. Na primeira
linha, então, o aluno tem 32 anos, é do sexo masculino, tem 72 kg e 1,70 m,
tem histórico de dores e não tem doença pré-existente.

Tabela 1. Dados das fichas

Idade Sexo Peso Altura Histórico de dores Doença

32 Masculino 72 170 Sim Não

18 Feminino 55 165 Sim Não

25 Feminino 60 155 Não Não

36 Feminino 65 160 Sim Não

40 Masculino 80 190 Não Não

44 Feminino 70 163 Não Diabetes

52 Feminino 81 157 Não Diabetes

19 Masculino 69 180 Não Asma

18 Masculino 79 185 Não Não

23 Masculino 78 180 Não Não

(Continua)
Análise estatística utilizando o Excel 3

(Continuação)

Tabela 1. Dados das fichas

Idade Sexo Peso Altura Histórico de dores Doença

52 Masculino 90 182 Sim Pressão alta

31 Feminino 79 165 Não Não

37 Feminino 97 170 Sim Não

46 Masculino 95 180 Não Não

55 Feminino 69 155 Não Não

36 Feminino 55 165 Sim Diabetes

23 Masculino 60 175 Sim Não

25 Feminino 58 168 Sim Não

47 Feminino 68 157 Não Não

Os dados assim representados não nos fornecem muita informação ainda.


Imagine se, em vez de termos esses poucos dados, tivéssemos uma planilha
com 100 alunos: teríamos apenas um monte de números e palavra anotados
e não conseguiríamos observar nenhuma tendência. Contudo, essa é a forma
que os dados devem estar organizados para que possamos realizar as primeiras
análises, as quais chamamos de análises descritivas.
Segundo Callegari-Jacques (2007), a descrição das variáveis é imprescin-
dível como um passo prévio para a adequada interpretação dos resultados de
uma investigação, e a metodologia empregada faz parte da estatística descritiva.
A análise descritiva é uma das divisões da estatística. Nessa fase de análise, é
feito o primeiro resumo dos dados. A estatística descritiva, então, corresponde
a coleta, organização, apresentação e resumo de dados (com diagramas e
gráficos ou utilizando um valor numérico resumido) (DOANE; SEWARD,
2014). As estatísticas descritivas podem ser produzidas em forma de tabelas
de distribuição de frequências, em forma de gráficos e em forma de resumos
numéricos, como a média e o desvio-padrão.
Para as variáveis quantitativas, podemos calcular as medidas de posição
(média, moda e mediana) e as medidas de variabilidade (variância e desvio
padrão) com o uso do Excel. Para isso, precisamos apenas do banco de dados,
conforme a Tabela 1, para iniciarmos as análises.
4 Análise estatística utilizando o Excel

No Excel, temos algumas funções já definidas. Clicando-se em f x ,


aparecem as funções classificadas por categorias, e clicando em estatís-
tica, encontramos todas as funções dessa categoria. Dentro da categoria
estatística, aprenderemos a utilizar as funções predefinidas pelo Excel
para o cálculo da média, da mediana, da moda, da variância e do desvio
padrão (Figura 1).

Figura 1. Tela explicativa de funções do Excel.

A média de uma amostra é definida pela soma de todos os elementos,


dividida pela quantidade de elementos. Efetuamos esse cálculo facilmente
no Excel: digitamos na célula de destino “=média(núm1, núm2....)”, ou então
clicamos em f x e buscamos pela palavra média, de uma forma ou de outra
(Figura 1). Após ter escolhido a função, basta selecionar os dados e clicar em
enter. Sendo a mediana o valor central de um conjunto ordenado de valores,
digitamos na célula de destino “=med(núm1, núm2,...)”, ou então clicamos
em f x e buscamos pela palavra mediana, de uma forma ou de outra. Após
ter escolhido a função, basta selecionar os dados e clicar em enter. Para a
Análise estatística utilizando o Excel 5

moda, que é o valor mais frequente da distribuição de dados, digitamos


“=modo(núm1, núm2,...)”, selecionamos os dados e clicamos em enter. Para
o cálculo do desvio-padrão, que mede a variabilidade dos dados, digitamos
na célula de destino “=desvpad.a(núm1, núm2,...)”, ou então clicamos em f x
e buscamos pela palavra desvio-padrão amostra, de uma forma ou de outra.
Após ter escolhido a função, basta selecionar os dados e clicar em enter. É
importante ressaltar que essa é a função para o cálculo do desvio-padrão
de uma amostra.

Figura 2. Tela explicativa cálculo de média.

Tabelas e gráficos utilizando o Excel


Para o primeiro resumo dos dados, podemos construir as tabelas de distribuição
de frequências utilizando tabelas para dados categóricos, que são as tabelas de
distribuição de frequências para variáveis qualitativas, como exemplificado
na Tabela 2, a seguir.
6 Análise estatística utilizando o Excel

Tabela 2. Distruibuição de frequências para variáveis qualitativas

Sexo Frequência %

Feminino 11 57,9

Masculino 8 42,1

Total 19 100,0

A primeira coluna da tabela de distribuição de frequências é a variável


estudada, a segunda coluna resulta da contagem que cada uma das respostas
recebeu na amostra, a terceira coluna é o percentual, que pode ser calculado
por regra de três.
Temos também a tabela de distribuição de frequências por ponto, utilizada
para as variáveis quantitativas discretas, como exemplificado na Tabela 3, a
seguir.

Tabela 3. Distruibuição de frequências para variáveis quantitativas discretas

Número de dias que pratica atividade física Frequência %

1 6 10,3

2 8 13,8

3 13 22,4

4 12 20,7

5 10 17,2

6 7 12,1

7 2 3,4

Total 58 100,0

E, ainda, quando tivermos uma variável quantitativa contínua e, em alguns


casos, as quantitativas discretas, é necessário que façamos a construção dessa
tabela por intervalos de valores, como exemplificado na Tabela 4.
Análise estatística utilizando o Excel 7

Tabela 4. Distruibuição de frequências para variáveis quantitativas por intervalos de


valores

Faixa de altura Frequência %

155|—160 4 21,1

160|—165 2 10,5

165|—170 4 21,1

170|—175 2 10,5

175|—180 1 5,3

180|—185 4 21,1

185|—|190 2 10,5

Total 19 100,0

Nessa representação, o símbolo da barra na vertical ( | ) indica que o número


está contido no intervalo onde a barra está presente ao seu lado.

A|—B – A está contido e B não está.

A—|B – A não está contido e B está contido.

A—B – A e B não estão contidos.

A|—|B – A e B estão contidos.

Em todos os tipos de tabelas de distribuição de frequências simples, temos


sempre, na primeira coluna, a variável, na segunda coluna, a contagem da fre-
quência observada, e, na terceira coluna, o percentual. A tabela de distribuição
de frequências por intervalos (também chamada de tabela de distribuição de
frequências por classes) não é fornecida diretamente no Excel, pois antes pre-
cisamos organizar os intervalos para, posteriormente, podermos fazer a tabela.
A maneira mais rápida para montarmos as tabelas de distribuição de fre-
quências por ponto e para dados categóricos é com o uso do recurso de tabelas
dinâmicas do Excel. Na barra de ferramentas, clicamos na aba inserir e sele-
cionamos tabela dinâmica (ver Figura 3). O Excel, então, pede para selecionar
os dados, e selecionamos toda a planilha. Nesse momento, o Excel cria uma
8 Análise estatística utilizando o Excel

nova aba na sua planilha, onde podemos produzir todas as tabelas que forem
interessantes de serem elaboradas.
Com o recurso de tabelas dinâmicas podemos elaborar tabelas de distribui-
ção de frequências simples, conforme as que foram apresentadas anteriormente,
a tabela de dados categóricos e a tabela de distribuição de frequências por
ponto. Além das tabelas simples, o recurso ainda permite que se façam tabelas
cruzadas, como exemplificado na Tabela 5.

Tabela 5. Tabela cruzada

Histórico de dores

Sexo Não Sim Total

Feminino 6 5,0 11

Masculino 5 3,0 8

Total 11 8 19

Figura 3. Tela explicativa para inserção de tabela dinâmica.


Análise estatística utilizando o Excel 9

Com as tabelas dinâmicas, conseguimos construir nossas tabelas simples


e cruzadas. Quando tivermos uma tabela de distribuição de frequências por
intervalos, precisamos, primeiramente, construir os intervalos para, depois,
podermos gerar a tabela. O recurso das tabelas dinâmicas nos permite também
fazer médias segmentadas por sexo, por exemplo, assim como outros resumos
numéricos segmentados.
Depois de termos as tabelas de distribuição de frequências prontas, podemos
construir gráficos para essas tabelas.

As tabelas dinâmicas trazem muitos recursos, e você pode saber mais assistindo ao
vídeo disponível no link a seguir.

https://qrgo.page.link/6BX5m

Agora, nosso enfoque serão os gráficos mais simples, que fazem parte da
estatística descritiva, o primeiro resumo que fazemos com nosso banco de
dados. Existe um grande número de gráficos disponíveis, mas, aqui, estuda-
remos os gráficos básicos.
Depois de termos as tabelas prontas, podemos construir os gráficos no
Excel. Novamente, vamos na aba inserir e, dessa vez, inserimos gráficos
(nessa janela temos vários gráficos disponíveis).
Para a tabela de distribuição de frequências para dados categóricos, podemos
utilizar gráficos de setores (pizza), gráficos de colunas e gráficos de barras.
Em nosso exemplo para os dados da tabela da variável sexo, podemos obter
o seguinte gráfico (Figura 4).
10 Análise estatística utilizando o Excel

Figura 4. Tela explicativa para inserção de gráficos.

É importante saber que o gráfico de setores tem uso recomendado apenas


para variáveis qualitativas. Para os dados da nossa tabela de distribuição de
frequências por pontos, podemos elaborar gráficos de colunas ou de barras,
como mostra a Figura 5.
Análise estatística utilizando o Excel 11

Figura 5. Tela explicativa para inserção de gráficos de colunas.

O gráfico de colunas resultante ficaria conforme a Figura 6, depois de


formatado.

Figura 6. Gráfico de colunas.

O gráfico correto para uma tabela de distribuição de frequências por


intervalos é o histograma, que nada mais é do que um gráfico de colunas
“grudadas”, sem nenhum espaço entre elas. Basta fazer um gráfico de
12 Análise estatística utilizando o Excel

colunas no Excel e clicar com o botão direito do mouse sobre as colunas,


ir em formatar séries de dados e zerar o espaçamento entre as colunas
(Figura 7).

Figura 7. Histograma.

Além desses gráficos, o Excel ainda nos fornece gráficos de linhas, para
quando tivermos uma variável quantitativa que seja acompanhada em um
período temporal. Utilizamos o diagrama de dispersão quando temos duas
variáveis quantitativas e queremos verificar a correlação entre uma variável
dependente e uma variável independente.

Testes estatísticos paramétricos


e não paramétricos utilizando o Excel
Quando já temos o primeiro resumo dos nossos dados e temos as estatísticas
descritivas dos dados, muitas vezes ainda queremos explorar a parte da esta-
tística chamada de inferência estatística.
Utilizamos a inferência estatística quando, com base em uma amostra,
queremos inferir para toda a população. Isso é possível quando realizamos
testes estatísticos. A inferência estatística refere-se a generalizar resultados de
uma amostra para uma população, estimar parâmetros desconhecidos, chegar
a conclusões e tomar decisões (DOANE; SEWARD, 2014).
Análise estatística utilizando o Excel 13

O Excel fornece alguns recursos para podermos efetuar testes estatísticos


paramétricos e não paramétricos. Usamos testes paramétricos quando os dados
seguem uma distribuição normal ou aproximadamente normal. Já os testes não
paramétricos são utilizados quando os dados não seguem uma distribuição
normal ou aproximadamente normal, ou simplesmente quando não conhecemos
a distribuição que os dados seguem, ou, ainda, quando a variabilidade dos
dados é alta demais. Os testes não paramétricos também são apropriados para
quando estamos analisando variáveis qualitativas.
Os testes paramétricos exigem suposições específicas sobre a população, ou
populações, de onde provêm as amostras. Em muitos casos, devemos admitir
que as populações tenham aproximadamente a forma de distribuição normal,
que suas variâncias sejam conhecidas ou que se saiba que são iguais, ou que as
amostras sejam independentes. Como há muitas situações em que é duvidoso
se todas as suposições necessárias podem ser satisfeitas, os estatísticos elabo-
raram procedimentos alternativos baseados em suposições menos restritivas,
que passam a ser conhecidas como testes não paramétricos (FREUND, 2006).
O Excel nos fornece os valores de estatísticas de teste de várias distribui-
ções, bem como algumas probabilidades de distribuições conhecidas. Essas
funções estão disponíveis em fx. Alguns exemplos são:

 DIST.F = retorna a distribuição de probabilidade F;


 DIST.NORMP.N = retorna a distribuição normal padrão;
 DIST.NORM.N = retorna a distribuição normal com média e desvio-
-padrão especificados;
 DIST.QUIQUA.CD = retorna a probabilidade da cauda direita da dis-
tribuição qui quadrado e informa a probabilidade da estatística de teste
do qui quadrado;
 DIST.T = retorna a probabilidade da cauda esquerda da distribuição
t-student.

Podemos citar as distribuições F, t-student e distribuição normal como


sendo distribuições utilizadas para testes paramétricos, e a distribuição qui
quadrado para testes não paramétricos.
Essas funções apresentadas e outras disponíveis no Excel entregam valores
de probabilidades, e algumas revelam as probabilidades da estatística de teste,
os conhecidos valores de p (p-value).
Existe outro recurso no Excel que precisa ser habilitado, mas que nos
fornece testes estatísticos paramétricos completos. É necessário habilitar as
ferramentas de análises nos suplementos do Excel.
14 Análise estatística utilizando o Excel

Aprenda como habilitar o suplemento ferramentas de análise do Excel no link a seguir.

https://qrgo.page.link/tprwr

Habilitando as ferramentas de análise, temos disponíveis os testes para-


métricos: ANOVA, que serve para testar mais de duas médias; testes z, para
testar duas médias onde se conheça a variância populacional; testes t, para
testar a média duas amostras; e teste t, para amostras pareadas e análise de
regressão, que verifica a correlação entre duas variáveis.

Um estudo sobre o QI de pessoas em idades entre 25 e 45 anos investigou, por meio


de um teste de QI, uma amostra segmentada pelo nível de instrução. Verifique se os
QIs são iguais para os três níveis de instrução investigados.
As hipóteses formuladas são:
 hipótese nula de que não existe diferença do QI nos três níveis de instrução;
 hipótese alternativa de que existe diferença do QI em pelo menos um dos níveis
de instrução.
No Excel, iniciamos a análise depois de habilitar o suplemento ferramentas de análise:
Análise estatística utilizando o Excel 15

Como estamos testando a média do QI em mais de duas amostras (mais de dois


tipos de formação), utilizamos o teste ANOVA.

Os resultados obtidos são:

Observando a análise apresentada, pode-se verificar que o valor-p é significativo,


ou seja, inferior a 0,05 (nível de significância do teste de 5%). Sendo assim, podemos
rejeitar a hipótese nula de que sempre será a hipótese de igualdade.
Concluímos, então, que existe diferença da média do QI em pelo menos um dos
níveis de formação, ao nível de significância de 5%.
16 Análise estatística utilizando o Excel

Como podemos perceber, o Excel é um grande aliado às análises estatísticas


aplicadas à bioestatística. O Excel nos auxilia primariamente na obtenção de
um banco de dados, para que possamos realizar as análises. Essas análises vão
desde a estatística descritiva, fornecendo tabelas e gráficos para todos os tipos
de variáveis, até medidas de posição (média, moda, mediana) e medidas de
variabilidade (variância, desvio-padrão, amplitude) para variáveis numéricas,
ou seja, variáveis qualitativas.
Além da análise descritiva, podemos realizar testes paramétricos, como,
por exemplo, a ANOVA, que compara mais de duas médias, o teste t, para
comparar duas médias, e o teste t em par de médias, que testa duas médias
comparadas antes e depois de um tratamento.

CALLEGARI-JACQUES, S. M. Bioestatística. Porto Alegre: Artmed, 2007.


DOANE, D. P.; SEWARD, L. E. Estatística Aplicada à Administração e Economia. 4. ed. Porto
Alegre: Bookman, 2014.
FREUND, J. E. Estatística aplicada: economia, administração e contabilidade. 11. ed.
Porto Alegre: Bookman, –2006.

Leituras recomendadas
LAPPONI, J. C. Estatística usando Excel. 4. ed. Rio de Janeiro: Elsevier, 2005.
SCHMULLER, J. Análise estatística com Excel: para leigos. 3. ed. Rio de Janeiro: Alta Books,
2018.

Você também pode gostar