Você está na página 1de 26

1.

Pacote Excel: Análise Dados

Objectivo Ficheiro Excel

Amostragem Amostragem Excel 2022


Estatística Descritiva Estatística Descritiva Excel 2022
Histograma Histograma Excel 2022
Correlação Correlação Excel 2022
Teste t Teste t Excel 2022
Teste F Teste F Excel
ANOVA ANOVA Excel 2022
Teste Qui-quadrado Qui quadrado Excel 2022
Ordem e Percentil Oredem e Percentil Excel 2022
Amostragem
Objectivo
A obtenção de amostras com o objectivo de obter parâmetros para caracterizar uma população é um processo
recorrentemente utilizado no controlo de qualidade. Por exemplo, numa unidade de produção de pacotes de
açúcar com uma produção diária de milhões de pacotes não seria viável que a massa de açúcar de todos os
pacotes seja controlada. Assim, a caracterização da população (i.e., os pacotes de açúcar produzidos num dia,
numa semana, num mês ou num ano) poderá ser obtida através da selecção aleatória de alguns pacotes entre
a produção diária, semanal, mensal ou anual. Apesar da amostragem com reposição ser possível, requerendo
que o elemento da população selecciondo seja reposto para eventual nova selecção aleatória, o contexto mais
frequente é as amostras serem obtidas sem reposição. A amostragem sem reposição pode também ser a única
possível quando a quantificação do parâmetro envolve a sua alteração (p.e., no caso da medição da massa de
açúcar nos pacotes implicar a abertura dos pacotes, ou seja, massa efectiva descontando a embalagem).
Exemplos
Além dos exemplos no âmbito do controlo de qualidade, a amostragem é um processo também utilizado na
selecção dos participantes em sondagens, na caracterização de uma população (p.e., em 2020 no contexto da
pandemia de COVID19 vários países realizaram estudos para detectar a presença de anticorpos para o vírus
SARS-COVID2 em amostras das respectivas populações).
No caso desenvolvido no file Excel considerou-se como população as amostras de água recolhidas entre
localizações servidas pelo mesmo sistema de abastecimento de água e preservadas num laboratório analítico.
Se no final do ano os municípios pretenderem avaliar o desempenho do laboratório através da realização de
análises noutro laboratório não faz sentido reexaminar todas as amostras novamente, pois seria um processo
muito moroso e dispendioso. Assim, a alternativa passa por seleccionar 10 amostras entre as 365 recolhidas
durante um ano e comparar os resultados obtidos com os anteriormente reportados.
No laboratório às amostras recolhidas foi atribuído um código XYYY em que X é uma letra que indica o
concelho onde foi recolhida e XXX um número que indica a ordem da recolha. A utilização do código permite
que as amostras sejam controladas pelos analistas desconhecendo a origem, ou noutros contextos em que
seja necessária confidencialidade.
Etapas Excel (ver ficheiro Excel: Amostragem Excel 2022):
1. Vamos considerar que no Excel a primeira coluna indica a ordem da recepção e identificação das
amostras no laboratório, a coluna seguinte indica o local (e colunas adicionais poderiam indicar
informação suplementar, p.e., data e hora da recolha, identificação do técnico, etc..), na última coluna
temos o código atribuído.
2. Seleccionar no menu “Análise de Dados” a opção “Amostragem”;
3. Indicar o intervalo de entrada (i.e., os valores da primeira coluna); Indicar se a coluna está identificada
na opção rótulos; Relativamente ao método de amostragem proposto existem duas opções:
“Periódico” (i.e., se as amostras tivessem sido recolhidas no mesmo local durante um ano poderíamos
indicar o valor 30 para obter a selecção de uma amostra a cada 30 dias, ou seja, uma por mês),
“Aleatório” que requer a indicação do número de amostras pretendido (i.e., 10); Indicar a localização
pretendida para o output.
4. Análise do output
10 Amostras
Selecionadas
Aleatoriamente Código Local
169 B032 Lagos
40 E008 Faro
109 D020 Lagoa
65 D011 Lagoa
314 A035 Albufeira
252 C065 Silves
237 F013 Portimão
45 B008 Lagos
18 C006 Silves
128 C034 Silves

As células a vermelho indicam a selecção realizada aleatoriamente, ou seja, a ordem/identificação na primeira


coluna. A identificação com o código apresentada a azul na 2ª coluna é obtida recorrendo à função procurar
“=PROCV(E5;$A$5:$C$369;3)” onde E5 é a célula corresponde à Amostra nº 169, o intervalo fixo A5:C369
corresponde às 3 colunas com os dados e 3 indica que a identificação pretendida está na 3ª coluna. A
identificação das localizações pode ser obtida da mesma forma substituído a o “3” que indica a terceira coluna
por “2” que indica o concelho.
Estatística descritiva
Objectivo
A realização de medições experimentais na versão mais completa requer que sejam consideradas as variáveis
dependentes (i.e., variáveis sobre as quais não se tem controlo; p.e., quando se prepara uma série de solução
de sais podemos controlar a respectiva concentração. As variáveis dependentes representam-se no eixo dos
xx´s) e variáveis independentes (i.e., variáveis sobre as quais não temos controlo pois trata-se de resultados
de experiências ou de medições experimentais; p.e., a medição da condutividade das soluções de sais
preparadas com concentrações conhecidas). As variáveis independentes representam-se no eixo dos yys.
Devemos considerar relativamente às variáveis independentes o número de medições, estimar o valor médio
e os erros (i.e., incerteza) associada. Relativamente às variáveis dependentes identificadas temos a considerar
a relação entre as variáveis, número de ensaios e os erros associados.
Esta ferramenta do pacote “Análise de Dados” do Excel permite obter uma tabela com indicação de vários
parâmetros relativos à caracterização de um conjunto de medições ou resultados experimentais, sendo os
mais relevantes: Média, Erro-Padrão (i.e., o valor do desvio padrão da amostra dividido pela raiz quadrada
do número de elementos da amostra), Mediana (i.e., o valor situado no centro do conjunto de valores depois
da sua ordenação por crescente ou decrescente), Moda (i.e., o valor mais frequente no conjunto de dados,
frequentemente não pode ser determinado por ausência de valores repetidos), desvio-padrão, variância da
amostra (i.e., o quadrado do desvio-padrão), valores mínimo e máximo, soma, contagem dos elementos da
amostra e intervalo de confiança (i.e., valor que deve ser associado à media e representado como
média±intervalo de confiança considerando uma certeza de 95%, ou outro valor seleccionado). Além, destes
parâmetros temos com menor relevância a curtose (ou achatamento) e a assimetria.
Exemplos
Qualquer tabela que apresente os dados de uma amostra de valores numéricos (i.e., relativos a medições ou
resultados experimentais: medições de pH, temperatura, rendimento de reacções, etc.) numa coluna pode
ser utilizada com esta ferramenta do Execl.
Etapas Excel (ver ficheiro Excel: Estatística descritiva Excel 2022)
1. Organizar o dados numa tabela em que as colunas correspondem a cada conjunto de dados.
2. “Análise de Dados” -» “Estatística Descritiva”.
3. Seleccionar o conjunto de dados (i.e., uma coluna ou linha); Indicar se os dados estão agrupados por
linhas ou colunas; indicar se o intervalo inclui rótulos/título; Seleccionar a opção de saída;
Seleccionar “Estatística Sumário” (i.e., assim obtém o output completo … sem custo adicional);
Indicar o nível de confiança para a média (por defeito considera 95%); na opção N-ésimo maior (i.e.,
indicar a ordem pretendida desde o valor máximo, sendo 1-para o maior, 2-segundo maior, …); na
opção N-ésimo menor (i.e., indica a ordem pretendida desde o valor mínimo, sendo 1- para o menor,
2~para o seguinte, …)
4. Análise do output:
Entrada Saída

Média 1282.9 Média 138.7


Erro-padrão 10.6 Erro-padrão 3.2
Mediana 1296 Mediana 139
Moda #N/D Moda 132
Desvio-padrão 28.13 Desvio-padrão 8.56
Variância da amostra 791.48 Variância da amostra 73.24
Curtose 1.12 Curtose -1.02
Assimetria -1.36 Assimetria 0.31
Intervalo 79 Intervalo 24
Mínimo 1230 Mínimo 128
Máximo 1309 Máximo 152
Soma 8980 Soma 971
Contagem 7 Contagem 7
Maior 1309 Maior 152
Menor 1230 Menor 128
Nível de confiança (95.0%) 26.02 Nível de confiança (95.0%) 7.91
Histograma
Objetivo
Um histograma é um gráfico de barras para apresentar dados de acordo com a respectiva frequência. Para
criar um histograma no Excel são necessários dois conjuntos de dados: os dados que pretende analisar e os
valores numéricos dos intervalos que serão utilizados para medir a frequência (p.e., 0, 20, 40 … 100).
A organização mais fácil passa por duas colunas: uma com os dados e outra com os valores que definem os
intervalos usados na contagem da frequência. Se omitir os intervalos o Excel cria intervalos distribuídos
uniformemente entre o valor mínimo e máximo de acordo com o nº de intervalos pretendido.
Exemplo
Sendo esta ferramenta da “Análise de Dados” dedicada à produção de tabelas e de histogramas (i.e., “gráficos
de barras” da frequência absoluta e da % das frequências acumuladas) com valores das frequências (i.e.,
contagem e percentagem acumulada) é utilizada para realizar a contagem e o agrupamento de valores por
intervalos. Por exemplo, pode se utilizada para controlar o tempo necessário para um grupo de estudantes
realizar uma prova recorrendo a uma tabela com o registo dos tempos numa coluna e na outra os intervalos:
0-20; 20-40; 40-60; 60-80; 80-100 minutos.
No exemplo desenvolvido no Excel temos uma tabela com o registo dos valores da tensão arterial e da
pulsação de um paciente obtidos em medições realizadas durante vários dias. A medição da tensão arterial
incluiu duas componentes a relativa à tensão Sistólica e Diastólica expressas em unidades de pressão (i.e.,
mm Hg). Os valores combinados permitem avaliar se existe necessidade de controlo recorrendo a
medicamentos (i.e., os vulgarmente designados “medicamentos para a hipertensão). Valores da medição
Sistólica nos intervalos <120, 120-130, 130-140, 140-160, 160-180 e >180 e para a medição Diastólica nos
intervalos <80, 80-89, 89-90, 90-100, 100-110 e >110 correspondem à situação óptima, normal, elevada,
hipertensão nível 1, hipertensão nível 2 e hipertensão nível 3.
Etapas Excel (ver ficheiro Excel: Histograma Excel 2022):
1. Após ter numa coluna os dados da amostra (i.e., valores da pressão sistólica e diastólica e da pulsação
apresentados em colunas) e noutras os valores correspondentes ao limites dos intervalos (p.e., no caso
da pressão sistólica a indicação 120, 130, 140, 160 e 180 corresponde aos intervalos <120, 120-130,
130-140, 140-160 e 160-180, ou seja, os 5 valores permitem estabelecer 5 intervalos);
2. No menu “Análise de Dados” escolher “Histograma Excel 2022”;
3. Introduzir o intervalo de entrada (i.e., os valores relativos aos dados a tratar); Introduzir o intervalo
de bloco (i.e., os limites do intervalo); Indicar se estão disponíveis os rótulos; Indicar o intervalo de
saída pretendido; Seleccionar as componentes do output pretendidas (no exemplo apresentado temos
o resultado seleccionando tudo);
4. Análise do output
Na opção de output mais completa temos uma tabela com os valores das contagens e das percentagens
acumuladas para a sequência dos intervalos à esquerda, enquanto à direita aparece ordenada desde o
intervalo com maior contagem (e %) até ao com menor contagem. Esta tabela apresenta também uma linha
indicando como “Mais” na qual surgem os valores necessário para ter as percentagens a 100%.

Níveis Frequência % acumulada Níveis Frequência % acumulada


<120 4 4.60% 130-140 40 45.98%
120-130 29 37.93% 120-130 29 79.31%
130-140 40 83.91% 140-160 14 95.40%
140-160 14 100.00% 140-160 4 100.00%
160-180 0 100.00% 160-180 0 100.00%
Mais 0 100.00% Mais 0 100.00%
Notar que nesta tabela já estão introduzidos os valores correspondentes aos intervalos (a vermelho na tabela).
O gráfico de barras e da % acumulada apresentado em seguida também foi modificado recorrendo às
ferramentas e opções de personalização dos gráficos.
Correlação
Objectivo
Permite relativamente a uma matriz de dados influenciados por várias variáveis avaliar o nível de correlação
entre as variáveis. Notar que na realização de uma regressão linear estamos a avaliar uma correlação entre a
variável independente (p.e., a concentração de soluções padrão) e uma variável dependente (i.e., a medição
experimental) relativamente a uma relação linear que pode ser resumida através da equação de uma recta,
com um determinado valor de coeficiente. Esta ferramenta permite avaliar simultaneamente a existência (ou
não) de correlação entre várias variáveis numa análise concretizada duas a duas.
Os valores das correlações entre as variáveis em estudo podem ser positivos (i.e., um aumento da variável 1
conduz ao aumento da variável 2) ou negativos (i.e., uma redução da variável 1 conduz ao aumento da variável
2), variando entre 0 (i.e., valor mínimo correspondendo a uma ausência absoluta de correlação) até 1 (i.e.,
valor máximo “teórico” pois corresponde a valores iguais para as variáveis 1 e 2). Em termos gerais, os valores
de correlação superiores a 0,50 merecem ser reportados, mas só a partir de 0,70 têm significado, o qual
aumenta até 1.
Exemplos
Considere que numa transportadora é realizada uma tabela que reúne a informação de todos os motoristas
relativamente à antiguidade na empresa (i.e., anos de serviço), idade e os kms percorridos num ano. Através
da correlação obtemos uma tabela que permite avaliar as correlacções entre as 3 variáveis: Anos na empresa,
idade biológica e Kms percorridos:
Anos Serviço Idade Kms percorridos
Anos Serviço 1 - -
Idade A 1 -
Kms percorridos B C 1

Neste exemplo as correlações possíveis são 3 expressas através dos valores A, B e C (notar que as restantes
possibilidades seriam repetidas).
No exemplo desenvolvido no file Excel “Correlação Excel 2022” temos o estudo de 3 variáveis (i.e., Peso,
altura e concentração de colesterol) entre uma amostra de 75 indivíduos. As correlações que podemos avaliar
são entre o peso e nível de colesterol, entre altura e nível de colesterol no sangue e entre o peso e a altura.
Etapas Excel (ver ficheiro excel: Correlação Excel 2022)
1. Organizar o dados numa tabela em que as colunas e as linhas correspondem às variáveis em análise,
ou simplificar e considerar só duas variáveis (tabela 2x2 células). Notar que na análise da correlação
entre duas variáveis só temos um cálculo a realizar, mas para a análise de correlação de três variáveis
temos que realizar três cálculos.
2. “Análise de Dados” -» “Correlação”.
3. Seleccionar o intervalo de dados; Indicar se estão agrupados por colunas ou linhas (no exemplo estão
agrupados por colunas); Indicar se o intervalo inclui as designações das variáveis/rótulos; Indicar um
localização de saída do output.
4. Análise do output:
As células a amarelo indicam valores de correlação unitários por ambas as variáveis consideradas são iguais.
Entre os valores apresentados verifica-se (por ordem decrescente) que a correlação mais forte é estabelecida
entre as variáveis “Peso” e “Colesterol”, “Peso” e “Altura” e “Altura” e “Colesterol” (em termos fisiológicos
esta relação entre as varáveis altura e colesterol é realizada mas não tem sentido).
Peso Altura Colesterol
Peso 1
Altura 0.825 1
Colesterol 0.852 0.688 1
Teste T
Objectivo
O teste t de Student permite comparar as médias de duas amostras independentes (com variâncias iguais ou
diferentes) ou emparelhadas. Ou seja, é testada a H0 da igualdade das médias para amostras com o mesmo
número de elementos (distinguindo esta situação da comparação entre média no contexto da distribuição F,
na qual podemos ter amostras com nº de elementos diferente).
No Excel temos no menu “Análise de Dados” três possibilidades:
1. “Teste T: 2 amostras emparelhadas para médias” – aqui requer que tenha sido feita uma intervenção
em ambas as amostras (p.e., no caso de um ensaio clínico de um fármaco para regular o colesterol, a
população controlo e a que tomou o fármaco seriam sujeitas à mesma dieta), ou seja, as amostras não
são independentes.
2. “Teste T: 2 amostras com variâncias iguais” – pressupõe a avaliação das variâncias das amostras
independentes para estabelecer a igualdade;
3. “Teste T: 2 amostras com variâncias desiguais” – pressupõe a avaliação das variâncias das amostras
independentes para estabelecer que não são iguais;
Exemplo Teste t 2 amostras emparelhadas para as médias
Se num ensaio clínico de um fármaco para o colesterol forem seleccionados aleatoriamente duas amostras,
uma entre a população controlo (i.e., não tomou o fármaco) e outra entre a população que tomou o fármaco,
temos duas amostras independentes. Porém, se ambas as populações (i.e., a controlo e que tomou o fármaco)
forem forçadas à mesma dieta durante o ensaio teremos duas amostras dependentes. Também, seria aplicável
nos contextos de análise de efeito “antes” e “depois”.
Considere que se pretende comparar os resultados analíticos obtidos pelo laboratório A e B. Para tal as
mesmas 10 amostras foram atribuídas a ambos os laboratórios e a comparação dos resultados obtidos deverá
permitir se existe ou não uma diferença significativa entre os resultados de ambos os laboratórios. Permitindo
por exemplo a opção pelo mais barato. Neste exemplo temos duas amostras dependentes.
Etapas Excel (ver ficheiro Excel: Teste t Excel 2022):
1. Os dados devem ser organizados em 3 colunas, a primeira relativa às amostras e as outras 2 aos
resultados obtidos por cada laboratório.
2. Seleccionar no menu “Análise de Dados” a opção “Teste t 2 amostras emparelhadas para a média”;
3. Indicar o intervalo da variável 1 (i.e., os resultados do laboratório A ou B); Indicar o intervalo da
variável 2 (i.e., o laboratório B ou A consoante a escolha da variável 1); Na caixa “Hipótese da diferença
das médias” indicar 0, pois estamos a testar a H0 para médias iguais; Indicar se as colunas da variável
1 e 2 estão identificadas, assinalando os rótulos; Introduzir o valor de α, em geral 0,05 (i.e., 5%,
corresponde a um nível de confiança de 95%); Indicar a localização pretendida para o output;
4. Análise do output
De acordo com a selecção da variável 1 e 2 podemos ter 2 outputs:

Teste T: duas amostras emparelhadas para médias Teste T: duas amostras emparelhadas para médias
Lab. A Lab. B Lab. B Lab. A
Média 20.81 21.00 Média 21.00 20.81
507.2 521.0 521.0 507.2
Variância 5 2 Variância 2 5
Observações 10 10 Observações 10 10
Correlação de Pearson 0.996 0.996
Hipótese de diferença de média 0 Correlação de Pearson 4
gl 9 Hipótese de diferença de média 0
Stat t -0.309 gl 9
P(T<=t) uni-caudal 0.382 Stat t 0.309
t crítico uni-caudal 1.833 P(T<=t) uni-caudal 0.382
P(T<=t) bi-caudal 0.764 t crítico uni-caudal 1.833
t crítico bi-caudal 2.262 P(T<=t) bi-caudal 0.764
Nota: α=0.05 t crítico bi-caudal 2.262
Nota: α=0.05

Como é evidente, a conclusão do teste será a mesma e não depender da tabela obtida, pois a diferença está no
sinal da estatística do teste (i.e., “Sat t”, o valor calculado da estatística – tcalculado). Vamos optar pela tabela da
direita com o valor positivo. Iremos considerar um teste bilateral pois estamos a avaliar a H0: µ1=µ2 (ou, µ2 =
µ1) relativamente a Ha: µ1 diferente de µ2 (ou, µ2 diferente de µ1, no exemplo variável1 diz respeito ao Lab A e
variável2 ao Lab B). Assim, vamos ter uma região de aceitação que vai desde -2,262 até 2,262 e duas regiões
de exclusão: valores inferiores a -2,236 e valores calculados superiores a 2,262.
Como P(T<=t) bi-caudal = 0,764 >>>> α=0,05 não devemos rejeitar a H0, isto é, não existe evidência
estatística para afirmar que as médias das amostras são diferentes. A mesma conclusão pode ser obtida
considerando o “t crítico bi-caudal” =2,262 > tcalculado =”Stat” = 0,309.
O teste unilateral (à direita ou esquerda), considera que está subjacente às médias da população uma
diferença, se t <=0 (tabela da esquerda), "P(T <= t) unicaudal" = 0,382, fornece a probabilidade de se
observar um valor da estatística t mais negativo do que t. Porém, será a comparação entre “t crítico uni-
caudal” = -1,833 > tcalculado =”Stat” = -0,309 que decide neste caso a manutenção de H0 por oposição a Ha: µA
< µB. Se t >=0 (tabela da direita), "P(T <= t) unicaudal", fornece a probabilidade de se observar um valor da
estatística t mais positivo do que t. Porém, será também a comparação entre “t crítico uni-caudal” = 1,833 >
tcalculado =”Stat” = 0,309 permite concluir que não existe suficiente evidência estatística para rejeitar H0.

Teste T: duas amostras com variâncias iguais e Teste T: duas amostras com variâncias
diferentes
Objectivo
As ferramentas de análise Teste T: Duas Amostras testam a igualdade das médias da população subjacente a
cada amostra independente e selecionadas de forma aleatória. Quando nada é afirmado relativamente à
variância das amostras podemos presumir ambas as possibilidades (i.e., conhecimento ou não da variância)
e realizar ambos os testes e comparar os resultados obtidos, frequentemente a conclusão relativamente à
existência (ou não) de diferença significativa entre as médias é igual. Tal como acontece no exemplo
desenvolvido em seguida.
Exemplo:
Considere que foram realizadas determinações de CQO (i.e., carência química de oxigénio – CQO) com
amostras de efluente recolhidas numa ETAR antes e depois da troca de um equipamento. Será que a troca do
equipamento está a influenciar a depuração? Para isso comparam-se os resultados obtidos antes e depois.
Etapas Excel (ver ficheiro Excel: Teste t Excel 2022):
1. Os dados devem ser organizados em 2 colunas, a primeira relativa às amostras obtidas antes e a 2ª
depois da substituição do equipamento.
2. Seleccionar no menu “Análise de Dados” a opção “Teste t 2 amostras com variância conhecida (ou
desconhecida)”;
3. Indicar o intervalo dos valores antes (variável1) e depois variável2); Na caixa “Hipótese da diferença
das médias” indicar 0, pois estamos a testar a H0 para médias iguais; Indicar se as colunas da
variável 1 e 2 estão identificadas, assinalando os rótulos; Introduzir o valor de α, em geral 0,05 (i.e.,
5%, corresponde a um nível de confiança de 95%); Indicar a localização pretendida para o output;
4. Vamos comparar ambos os outputs (com e sem variância conhecida)
Tal como podemos confirmar os valores de tcalculados são iguais e as diferenças para os resultados críticos do
teste t uni e bi-caudal são muito próximos. Vamos analisar o teste bi-caudal (a análise uni-caudal pode ser
consultada em Teste t: duas amostras com médias emparelhadas.
Teste T: duas amostras com Teste T: duas amostras com variâncias
variâncias iguais desiguais

Antes Depo Ant Depo


is es is
Média 77.37 76.91 Média 77.3 76.91
7
Variância 1.30 0.50 Variância 1.30 0.50
Observações 11 11 Observações 11 11
Variância agrupada 0.90
Hipótese de diferença de 0 Hipótese de diferença de 0
média média
gl 20 gl 17
Stat t 1.145 Stat t 1.14
5
P(T<=t) uni-caudal 0.133 P(T<=t) uni-caudal 0.13
4
t crítico uni-caudal 1.725 t crítico uni-caudal 1.74
0
P(T<=t) bi-caudal 0.266 P(T<=t) bi-caudal 0.26
8
t crítico bi-caudal 2.086 t crítico bi-caudal 2.11
0

Como P(T<=t) bi-caudal = 0,266 (ou 0,268) >>>> α=0,05 não devemos rejeitar a H0, isto é, não existe
evidência estatística para afirmar que as médias das amostras são diferentes. A mesma conclusão pode ser
obtida considerando o “t crítico bi-caudal” =2,086 (ou 2,110) > tcalculado =”Stat” = 1,145.
Teste F
Objectivo
O teste F de Fischer-Snedecor é utilizado para verificar se existe evidência estatística relativamente à análise
de variância de duas amostras de populações independentes com distribuição Normal.
No Excel através da ferramenta “Análise de Dados” -» “Teste F: duas amostras para variâncias”; vamos
realizar testes unilaterais, ou seja, temos uma zona de aceitação (1-α) à esquerda e limitada por um Fcrítico (por
vezes também referido como Ftabelado) estabelecido de acordo com as dimensões das amostras, e uma zona de
rejeição (α) à direita. Em função do valor do Fcalculado podemos concluir pela rejeição ou aceitação da hipótese
nula, a qual afirma que as variâncias das amostras são iguais.
A conclusão relativamente à avaliação da hipótese nula (i.e., H0) pode ser estabelecida comparando a
probabilidade calculada com o valor de α: se o valor da probabilidade for inferior ao valor de α e próximo de
0 devemos concluir pela rejeição da hipótese nula e pela sua aceitação se o valor da probabilidade ser próximo
de 1. Em alternativa podemos comparar o Fcalculado com o tabelado e apresentado pelo Excel, se Fcalculado <
Ftabelado então devemos aceitar a hipótese nula, mas se Fcalculado > Ftabelado devemos rejeitar a hipótese nula. A
mesma conclusão pode ser obtida se o valor de P(F<=f) uni-caudal > valor do erro (i.e., 0,05 é o valor mais
comum de α-nível de significância) temos a aceitação da hipótese nula (i.e., as variâncias são iguais), sendo
o oposto também verdadeiro.
Exemplo
Os exemplos de aplicação do Teste F envolvem sempre a comparação de 2 processos, equipamentos,
desempenho, etc. entre amostras de duas populações independentes e com distribuição normal (condição
que é frequentemente assumida apesar de não ser confirmada).
Se o investigador quer comparar os resultados obtidos experimentalmente por 2 procedimentos, se se
pretender comparar os resultados de duas terapias ou dietas diferentes, se se pretender verificar se alteração
de um equipamento numa linha de montagem alterou o resultado final, etc..
No exemplo apresentado reporta-se à comparação da variância de duas amostras relativamente aos
resultados numa UC obtidos por 2 turnos (i.e., com aulas de manhã ou à tarde). Será que variância das ambas
pode ser considerada diferente ou igual, ou seja, existe ou não diferença entre os resultados obtidos.
Etapas Excel (ver ficheiro Excel: Teste F Excel 2022):
1. No menu “Análise de Dados” escolher “TesteF: duas amostras para variâncias”;
2. Seleccionar ambos os conjuntos de dados (matriz 1 e matriz 2) relativos a cada uma das amostras;
Indicar se a identificação faz amostras está incluída assinalando ou não a opção rótulos; Indicar o
valor de α (p.e., 0,05 para 5% para o nível de significância, ou valor pretendido); Indicar a opção de
saída;
3. Análise do output
Teste F: duas amostras para variâncias

Manhã Tarde
Média 11.69 11.13
Variância 5.03 4.70
Observações 16 15
gl 15 14
F 1.071 Fcalculado
P(F<=f) uni-caudal 0.451 Probabilidade
F crítico uni-caudal 2.463 Fcrítico

Conclusão:
Como P(F<=f) uni-caudal > valor do erro (i.e., 0,05) temos a aceitação da hipótese nula (i.e., não existe
diferença entre as variâncias);
Como Fcalculado < Fcrítico uni-caudal (i.e., 1.071 < 2.463) temos que se situa na zona de aceitação da hipótese
nula (i.e., para estar na zona de rejeição teria de ser superior a 2.463).
ANOVA
ANOVA: Fator único
Objetivo
Concretizar uma análise das variâncias de várias amostras independentes relativamente a um fator único.
Analisar estatisticamente o efeito de um fator único na variância da média de pelo menos 3 amostras.
Pressupõem que as amostras sejam bem modeladas por distribuições normais, relativamente às quais vamos
analisar como hipótese nula (i.e., não existência de diferenças entre as respectivas variâncias) e como hipótese
alternativa (i.e., existência de pelo menos diferenças na variância entre pelo menos duas das amostras).
O teste incorpora a avaliação das amostras a dois níveis de variabilidade: entre as amostras e dentro de cada
amostra.
Exemplos
Estudar o efeito das estações (i.e., inverno, primavera, verão e outono) no desempenho de uma ETAR
(apresentado no file Excel).
Estudar o efeito da dieta na variação da massa corporal (i.e., o resultado da diferença de peso e não o valor
do peso antes e depois da dieta, etc.).
Etapas Excel (ver ficheiro excel: ANOVA Excel 2022)
1. Organizar os dados relativos às amostraa em colunas ou linhas. Porém, apesar de ambas as
possibilidades serem viáveis, a organização dos dados em colunas é mais comum;
2. “Análise de Dados” -» “ANOVA: Fator único”
3. Indicar a localização dos dados (podendo incluir os títulos/rótulos das colunas); Indicar se os dados
estão organizados em colunas ou linhas; Indicar se estão disponíveis títulos/rótulos; Introduzir o nível
de significância (i.e., α em geral 0.05 correspondente a 5%); Seleccionar a localização para
apresentação do output;
4. Análise do output
Anova: factor único
SUMÁRIO
Grupos Contagem Soma Média Variância
Inverno 8 564.1 70.51 1.11
Primavera 8 572.8 71.60 3.87
Verão 8 579.7 72.46 1.32
Outono 8 557.2 69.65 1.14

ANOVA
Fonte de variação SQ gl MQ F valor P F crítico
Entre grupos 36.37125 3 12.12375 6.527232 0.001736 2.946685
Dentro de grupos 52.0075 28 1.857411

Total 88.37875 31

A primeira tabela fornece informação sobre os dados relativos ao desempenho da ETAR no Inverno,
Primavera, Verão e Outono, tais como o número de elementos de cada amostra (i.e., 8), a soma dos valores,
as médias e as variâncias relativas a cada amostra.
Assim, vamos recorrer à segunda tabela para esclarecer se os resultados de desempenho da ETAR nas
diversas estações do ano são iguais em termos de variação?
A conclusão pode ser obtida através da comparação entre o “valor P” (i.e., valor de prova, 0.002) e o valor de
α (i.e., nível de significância de 0.05), como “valor P” < α devemos rejeitar a H0 e aceitar H1 como
estatisticamente válida para um nível de confiança de 95%. Como é evidente, o oposto permitiria aceitar H0.
A conclusão também pode ser obtida através da comparação entre o valor do parâmetro calculado (i.e., F =
6.52) e o valor crítico do parâmetro do teste (i.e., Fcrítico = 2.94); como Fcalculado > Fcrítico devemos rejeitar a H0.
ANOVA Fator Duplo com repetição
Objectivo
Conserva-se o objectivo da análise de variância envolvendo 3 ou mais amostras, mas comparativamente à
situação ANOVA: Fator simples vamos ter 2 fatores com possibilidade de influenciarem a expressão da
variância das amostras. Notar que são realizadas repetições das medições ou da experimentação que originou
os resultados de cada amostra.
Exemplo 1
Estudar o efeito das estações do ano (i.e., inverno, primavera, verão e outono) e da região no consumo de
água por evapotranspiração de vasos com a mesma planta situados em regiões de Portugal (i.e., Porto, Lisboa,
Coimbra e Faro). É importante notar um handicap do teste ANOVA factor duplo com repetição através do
Excel requer que o número de repetições seja igual (i.e., a tabela abaixo tem de estar totalmente preenchida
com valores numéricos). Ou seja, no Inverno e Primavera, em cada vaso foram realizadas 3 medições.

Estação Localização
Ano Porto Lisboa Coimbra Faro

Inverno

Primavera

Verão

Outono

Notar que, para cada combinação entre “Estação do Ano” e “Localização” temos 3 resultados. Porém,
podemos questionar se a média dos resultados obtidos para cada localização é influenciado pela estação do
ano, ou vice-versa: os valores da evapotranspiração das plantas (i.e., 4 vasos com plantas, um em cada
localização) é influenciada pela estação do ano e/ou pela localização. Para garantir maior fiabilidade na
conclusão as medições em cada estação foram repetidas 3 vezes em cada localização.
No exemplo apresentado no Excel temos os resultados (hipotéticos) realizado por uma multinacional (i.e.,
com unidades produtivas em 3 países: Portugal, Espanha e França) as quais funcionam com turnos (i.e., 2
turnos: o diurno e o noturno). Considerando que se pretende avaliar se a produtividade das unidades
industriais (iguais) é influenciada pela localização (i.e., factor país) e/ou pelo turno (i.e., diurno ou noturno).
Para realizar esta análise a produção das unidades industriais foi controlada durante uma semana de trabalho
(i.e., 5 dias – 5 medições em cada unidade, ou seja, 5 repetições). Ou seja, temos os factores localização e
turno para serem analisados.
Etapas Excel (ver ficheiro excel: ANOVA Excel 2022)
1. Os dados obtidos durante uma semana por cada turno em cada país devem ser organizados numa
tabela (no exemplo, temos turnos nas linhas e unidades produtivas nas colunas).
2. “Análise de Dados” -» “ANOVA: Fator duplo com repetição”
3. Indicar a localização dos dados (podendo incluir os títulos/rótulos das colunas e linhas); Incluir os
títulos/rótulos das linhas e colunas; Indicar o número de linhas por amostra (i.e., 5 correspondendo
aos 5 dias da semana controlados); Introduzir o nível de significância (i.e., α em geral 0.05
correspondente a 5%); Seleccionar a localização para apresentação do output;
4. Analisar o output:
Anova: factor duplo com repetição

SUMÁRIO Portugal Espanha França Total


Turno Diurno
Contagem 5 5 5 15
Soma 509 497 502 1508
Média 101.8 99.4 100.4 100.5
Variância 9.2 5.3 8.3 7.6

Turno Noturno
Contagem 5 5 5 15
Soma 494 492 495 1481
Média 98.8 98.4 99.0 98.7
Variância 16.7 18.8 8.0 12.5

Total (por país)


Contagem 10 10 10
Soma 1003 989 997
Média 100.3 98.9 99.7
Variância 14.0 11.0 7.8

ANOVA
Fonte de variação SQ gl MQ F valor P F crítico
Amostra (Turnos) 24.3 1 24.3 2.199095 0.151106 4.259677
Colunas (País) 9.866667 2 4.933333 0.446456 0.645099 3.402826
Interacções 5.6 2 2.8 0.253394 0.778213 3.402826
Dentro 265.2 24 11.05
Total 304.9667 29

Na tabela “SUMÁRIO” temos a apresentação do número de elementos de cada amostra, valores médios e da
variância do turno diurno e noturno em cada país, além dos valores médios do turno nos 3 países. Também
temos informação com o que se passa em cada país considerando ambos os turnos.
Na segunda tabela temos então os resultados “específicos” do teste ANOVA a qual permite analisar e
comparar a amostra (i.e., o turno diurno com o noturno). Será que a o turno determina a observação de
variabilidade na produção das unidades com uma certeza de 95% (i.e., com uma possibilidade de erro de 5%)?
Como temos “valor P” (i.e., 0.151) > α (i.e., 0,05) devemos aceitar a H0 (ou seja, o turno não influencia a
produtividade das unidades localizadas nos 3 países). Esta conclusão pode também ser obtida pelo “Fcalculado”
(i.e., 2,199) > Fcrítico (i.e., 4.260) determinando que o valor calculado esteja à esquerda do valor crítico e como
tal na zona de aceitação, implicando que H0 não seja rejeitada.
Na segunda tabela podemos também analisar o efeito da localização das unidades industriais na
produtividade (i.e., das colunas). Será que a localização do reagentes determina a variabilidade da
produtividade com uma certeza de 95% (i.e., com possibilidade de erro de 5%)? Como temos “valor P” (i.e.,
0.645) > α (i.e., 0,05) devemos aceitar a H0 (ou seja, a localização não influencia a produtividade das
unidades industriais). Esta conclusão poderia também ser obtida “Fcalculado” (i.e., 0.446) < Fcrítico (i.e., 3,403)
determinando que o valor calculado esteja à esquerda do valor crítico e como tal na zona de aceitação,
implicando que Ho deva ser aceite.
Assim, podemos concluir que não existe evidência estatística (a um nível de certeza de 95%) que o turno
diurno ou noturno e a localização influenciam a produtividade das unidades industriais da multinacional.
Nesta pasta do ficheiro Excel temos também a resolução de um problema sobre o efeito da
variação do catalisador e do tipo de agitação no rendimento (i.e., redução da concentração de
um reagente) em que é exemplificada a organização dos dados experimentais.
ANOVA Factor Duplo sem repetição
Objectivo
Conserva-se o objectivo da análise de variância envolvendo 3 ou mais amostras, mas comparativamente à
situação ANOVA: Fator único vamos ter 2 fatores com possibilidade de influenciarem a expressão da
variância. Sem repetição significa que cada resultado é único, ou seja, as medições ou experimentação que
originou os resultados não foi repetida ao contrário de “ANOVA: Factor Duplo com repetição”
Exemplos
Estudar o efeito das estações do ano (i.e., inverno, primavera, verão e outono) e da região no consumo de
água por evapotranspiração de vasos com a mesma planta situados em regiões de Portugal (i.e., Porto, Lisboa,
Coimbra e Faro). Aqui teremos uma tabela do tipo:
Estação Localização
Ano Porto Lisboa Coimbra Faro
Inverno
Primavera
Verão
Outono

Ou seja, para cada combinação entre “Estação do Ano” e “Localização” temos um só resultado. Porém,
podemos questionar se a média do resultados obtidos para cada localização é influenciado pela estação do
ano, ou vice-versa: os valores da evapotranspiração das plantas (i.e., 4 vasos com plantas, um em cada
localização) é influenciada pela estação do ano e/ou pela localização. Notar que em vez das 3 medições
apresentadas no exemplo relativo à “ANOVA factor com repetição” aqui só foi realizada uma medição única.
No caso do exemplo do ficheiro Excel temos o estudo do efeito da temperatura (i.e., ambiente, 25ºC, 35ºC e
45ºC) no rendimento de uma reacção concretizada através do mesmo protocolo mas recorrendo a reagentes
de fornecedores diferentes (i.e, Merck, VWR e Aldrich), ou seja, o rendimento da reacção pode ser
influenciado por 2 fatores: temperatura e fornecedor dos reagentes. Mais uma vez notar que existe um único
resultado para cada temperatura e cada reagente.
Etapas Excel (ver ficheiro excel: ANOVA Excel 2022)
1. Organizar os dados relativos às amostras em colunas e linhas. A escolha das linhas ou colunas pode
ser trocada (i.e., nas linhas podemos ter as localizações e nas colunas as temperaturas, ou vice-versa.
Assim, o teste pode ser conduzido através da organização #1 ou #2;
2. “Análise de Dados” -» “ANOVA: Fator duplo sem repetição”
3. Indicar a localização dos dados (podendo incluir os títulos/rótulos das colunas e linhas); Indicar se
estão disponíveis títulos/rótulos; Introduzir o nível de significância (i.e., α em geral 0.05
correspondente a 5%); Seleccionar a localização para apresentação do output;
4. Analisar o output para Organização#1
Anova: factor duplo sem repetição

SUMÁRIO Contagem Soma Média Variância


ambiente 3 195.2 65.07 0.02
25ºC 3 194.0 64.67 0.52
35ºC 3 196.4 65.47 0.54
45ºC 3 200.9 66.97 0.00

Merck 4 263.9 65.98 0.60


VWR 4 261.4 65.35 1.35
Aldrich 4 261.2 65.30 1.43

ANOVA
Fonte de SQ gl MQ F valor P F crítico
variação
Linhas 9.0825 3 3.0275 17.21801 0.00236 4.75706
7 3
Colunas 1.131667 2 0.56583 3.21800 0.112308 5.143253
3 9
Erro 1.055 6 0.175833

Total 11.26917 11

Na primeira tabela temos os valores médios relativamente a cada temperatura (i.e., a média e variância dos
rendimentos obtidos com os 3 reagentes) e a cada reagente (i.e., média e variância dos rendimentos obtidos
para reacções realizadas às 4 temperaturas);
Na segunda tabela podemos analisar o que se passa por linhas (i.e, efeito temperatura). Será que a
temperatura determina uma variabilidade do rendimento da reacção com uma certeza de 95% (i.e., com uma
possibilidade de erro de 5%)? Como temos “valor P” (i.e., 0.0023) < α (i.e., 0,05) devemos rejeitar a H0 (ou
seja, a temperatura influencia o rendimento da reacção). Esta conclusão pode também ser obtida pelo
“Fcalculado” (i.e., 17.22) > Fcrítico (i.e., 4.76) determinando que o valor calculado esteja à direita do valor crítico e
como tal na zona de rejeição, implicando que H0 seja rejeitada.
Na segunda tabela podemos analisar o efeito dos reagentes (i.e., das colunas). Será que a marca dos reagentes
determina uma variabilidade do rendimento da reacção com uma certeza de 95% (i.e., com possibilidade de
erro de 5%)? Como temos “valor P” (i.e., 0.1123) > α (i.e., 0,05) devemos aceitar a H0 (ou seja, a marca dos
reagentes não influencia o rendimento da reacção). Esta conclusão poderia também ser obtida “Fcalculado” (i.e.,
3.218) < Fcrítico (i.e., 5.14) determinando que o valor calculado esteja à esquerda do valor crítico e como tal na
zona de aceitação, implicando que Ho deva ser aceite.
Assim, podemos concluir que o rendimento da reacção é influenciado pela temperatura mas não pela origem
dos reagentes utilizados.
5. Analisar o output para Organização#2
Concretizando uma análise através dos valores-p ou pelo Fcalculado obtemos a mesma conclusão (ver file
excel).
Nesta pasta do ficheiro Excel temos também a resolução de um problema sobre o efeito da
variação do catalisador e do tipo de agitação no rendimento (i.e., redução da concentração de
um reagente), mas tendo somente um resultado para ensaios com variação do catalisador e
do tipo de agitação.
Teste QUI-Quadrado e Tabelas dinâmicas
Objetivo
O teste Qui-Quadrado χ2 é geralmente utilizado para verificar se existe evidência estatística suficiente sobre
a associação entre duas variáveis qualitativas e distribuições de frequência. Ou seja, relativamente a um
conjunto de medições experimentais podemos avaliar quantitativamente a relação entre o resultado obtido e
o esperado atendendo à respectiva distribuição.
Requer a organização dos dados numa Tabela de contingência (i.e., uma tabela que relaciona uma variável
para a linha e outra para a coluna), ou seja, é uma tabela de frequências que representa um conjunto de dados
que foram classificados simultaneamente segundo duas (i.e., bidimensional) ou mais variáveis (i.e.,
multidimensional). Assim, as tabelas de contingência têm pelo menos 2 colunas x 2 linhas. O teste irá avaliar
se a variável linha e coluna estão relacionadas (i.e., hipótese nula – as duas variáveis na linha e coluna são
independentes) ou não (i.e., hipótese alternativa – as duas variável linha e coluna são dependentes). O
número de variáveis determina o número de tabelas de contingência que podem ser obtidas e analisadas.
Exemplos
No exemplo apresentado reporta-se o sucesso ou insucesso na concretização de uma determinada reação
química (i.e., uma variável qualitativa com dois resultados possíveis SIM ou NÃO) por alunos de 1º ciclo de
QIndustrial, Bioquímica, Biotecnologia e CFarmacêuticas, utilizando reagentes fornecidos por firmas
diferentes (i.e., Aldrich, Merck VWR).
É importante notar que no exemplo apresentado podemos criar duas tabelas de contingência que relacionem
o sucesso da reacção com a marca dos reagentes ou com o ciclo de estudos dos estudantes.
Apresenta-se igualmente o procedimento para organização dos dados através da ferramenta “Tabela
Dinâmica”.
Etapas Excel (ver ficheiro excel: QUI Quadrado Excel 2022)
Resposta para correlação entre variáveis qualitativas
1. A Tabela de Contingência poder obtida através da análise dos dados disponíveis ou recorrendo à
função “tabela dinâmica” devemos construir uma “Tabela para Analisar dados” (com ou sem indicação
da identificação das colunas);
2. Tabela dinâmica (não é necessária quando pretendemos analisar se as frequências seguem a
distribuição Normal ou comparar desempenho de pessoas ou equipamentos);
3. Construção da tabela dinâmica
3.1 Função “Inserir tabela dinâmica” ---» surge um menu com escolhas: “Coluna” e “Somatório” =
Variável Qualitativa expressa através de uma contagem (p.e., sucesso: Sim ou Não) e “Linhas” (i.e.,
será o reagente se quisermos testar a associação entre a variável “Sucesso” e “Reagente”; ou Ciclo de
estudos se quisermos testar a associação entre a variável “Sucesso” e “Reagente”)
3.2 Construir uma tabela esperada recorrendo à multiplicação da % de resultados de acordo com a
representatividade na utilização dos reagentes (ou dos ciclos de estudo) multiplicada pelos valores da
variável sucesso (Sim ou Não).
3.3 Recorrer aos intervalos dos dados reais e esperados e à função =TESTE.CHIQ(intervalo real; Intervalo
esperado)
3.4 Se o Valor-p > α=0,05 devemos concluir que não existe evidência estatística sobre associação entre as
variáveis (i.e., aceitámos H0) ou se Valor-p < α=0,05 devemos concluir que pela existência de
evidência estatística sobre a associação entre as variáveis (i.e., rejeitámos H0);
Resposta para avaliar a frequência relativamente à distribuição Normal ou concretizar comparações (i.e.,
equipamento, técnico, etc.)
1. Os resultados devem estar organizados numa tabela a 2 colunas (item e contagem real) e numa 3ª
coluna ficam os valores esperados (i.e., o valor médio);
2. Recorrer aos intervalos dos dados reais e esperados e à função =TESTE.CHIQ(intervalo real;
Intervalo esperado)
3. Se o Valor-p > α=0,05 devemos concluir que não existe evidência estatística para rejeitar a H0 (i.e.,
as duas variáveis são independentes, pois não existe diferença entre valores reais e os esperados) ou
se Valor-p < α=0,05 devemos concluir que pela existência de evidência para rejeitar a H0 (i.e., as
duas variáveis seriam dependentes, pois existe diferença entre valores reais e os esperados)
Ordem e Percentil
Objetivo
Esta ferramenta da “Análise de Dados” pode ser utilizada para ordenar um conjunto de dados e para calcular
os valores dos percentis entre 0 e 100.
Existem funções directas que permitem ordenar os dados e calcular o respectivo percentil (de acordo com o
valor pretendido), mas aqui obtém-se informação mais completa.
Exemplo
Se numa tabela do Excel estiverem as datas e os valores diários de pluviosidade numa determinada estação
meteorológica temos na tabela uma coluna com as datas e noutra os valores da pluviosidade (em L/m2), como
temos 365 resultados poderá ser moroso ordenar identificar os dias em que o valor medido foi 120 ou 130.
No exemplo desenvolvido no Excel temos os valores médios da concentração de um composto A expressa em
µg/L em amostras de água obtidos entre Janeiro 2019 e Setembro 2020.
Etapas Excel (ver ficheiro Excel: Ordem e Percentil Excel 2022):
1. Após ter numa coluna os dados da amostra (i.e., mês da realização da análise e valor da concentração)
em duas colunas (identificadas no topo).
2. No menu “Análise de Dados” escolher “Ordem e Percentil”; Indicar para “Dados de Entrada” a coluna
com os valores da pluviosidade; Indicar se a coluna está identificada ou não (título da coluna com os
dados); Indicar localização para o output.
3. Obtém o seguinte output
Ponto Coluna1 Ordem Percentagem
19 220 1 100%
20 198 2 95%
14 194 3 85%
18 194 3 85%
11 194 5 80%
7 191 6 75%
21 182 7 70%
8 172 8 65%
2 169 9 55%
6 169 9 55%
17 168 11 50%
16 162 12 45%
9 158 13 40%
5 146 14 35%
4 141 15 30%
10 125 16 25%
13 123 17 20%
15 120 18 15%
1 107 19 10%
3 104 20 5%
12 100 21 0%
Na coluna “Ponto” temos a posição do valor mais elevado na tabela desordenada. Na “Coluna 1” temos os
valores da concentração ordenados desde o mais elevado. Na coluna “Ordem” temos a respectiva ordenação
1º, 2º, …, 21º. Na coluna “Percentagem” temos os valores dos percentis, estando os mais comuns assinalados
a vermelho. Assim, 125, 168 e 191 µg/L corresponde ao Percentil 25, 50 e 75, respectivamente. Ou seja, o valor
correspondente do percentil 25: 125 µg/L significa que 24% das amostra têm um valor inferior, ou que, 75%
das amostras de água têm um valor superior.
Regressão
Objectivo
Em geral, é suficiente realizar a representação dos pontos experimentais eixo dos xx´s (i.e., variável
independente) e eixo dos yy´s (i.e., variável dependente – medição experimental) num gráfico tipo dispersão
xy (i.e., ambos os eixos apresentam escalas ajustadas e só são representados os pontos experimentais) e
depois adicionar uma linha de tendência linear para obter a equação de uma recta através do método dos
mínimos quadrados e o quadrado do coeficiente de correlação, que concretiza uma avaliação limitada da
qualidade do processo estatístico, ou seja, a aproximação dos pontos experimentais e pontos calculados. Este
processo é recorrentemente utilizado para obter curvas de calibração em processos analíticos (p.e., relação
entre a concentração de um corante e cor da solução).

Porém, este processo é viável quando os valores experimentais são limitados e a avaliação através do
coeficiente de correlação é suficiente apesar de uma limitação fundamental: a possibilidade do afastamento
entre pontos calculados e experimentais positivos e negativos se compensarem e obtermos uma valor elevado
do coeficiente de correlação elevado para uma relação linear reduzida.
Quando o número de pontos experimentais é muito elevado e se pretende obter uma estimativa da quantidade
de toxina em função da pluviosidade (ver Exemplo) e nada deste processo é uma verdadeira previsão. Pois, o
processo só teve como objectivo “forçar” a equação de uma recta a ter uma boa aproximação dos pontos
experimentais. No gráfico anterior é possível constatar que os pontos experimentais afastam-se (por excesso
ou defeito da equação) da linha de tendência.
A utilização da ferramenta “Regressão” do pacote “Análise de Dados” não requer que a identificação
cuidadosa das variáveis nos eixos, ou seja, no caso de se pretender obter uma curva de calibração podemos
usar a opção “adicionar linha de tendência” no gráfico, identificando correctamente as variáveis nos eixos.
Notar que no exemplo a pluviosidade e a concentração de toxina resultam ambas de medições experimentais,
assim, a selecção dos eixos pode variar entre ambas as variáveis (i.e., pluviosidade e concentração de toxina).
Exemplos
Uma empresa farmacêutica decidiu estudar uma planta que permite a extracção de uma toxina utilizada pelos
índios da amazónia para impregnar as setas que utilizam na caça. Após terem verificado que a quantidade de
toxina obtida por uma técnica de extracção específica variava, decidiram estudar o efeito da pluviosidade na
quantidade de toxina produzida pela planta. Os resultados obtidos estão no ficheiro Excel.
Etapas Excel (ver ficheiro Excel: Regressão Excel 2022):

Estatística de regressão
R múltiplo 0.8687
Quadrado de R 0.7547
Quadrado de R ajustado 0.7240
Erro-padrão 2.1601
Observações 10
Nesta tabela temos também a indicação de R2 (notar que o valor igual ao obtido através da regressão linear).
Os valores de R podem variar entre 0 (i.e., conjunto de pontos aleatório) e 1 (i.e., corresponde a um ajuste
perfeito entre os pontos experimentais e a recta). O valor ajustado do R2 é considerado mais apropriado para
avaliar a regressão.

ANOVA
gl SQ MQ F F de significância
Regressão 1 114.8417913 114.8417913 24.6130 0.0011
Residual 8 37.32720866 4.665901083
Total 9 152.169

Na tabela anterior temos muita informação estatística sobre a regressão. A hipótese nula analisada é que
entre a população plantas na selva não existe uma relação entre as duas variáveis. Como “F de significância”
corresponde ao valo-P e tem um valor muito pequeno (igual a 0,0011 ou 0,11%) e como tal corresponde a um
nível de significância elevado, ou seja, rejeita-se a hipótese nula com um nível de certeza de 100% – 0,11% =
99,89%.

Coeficientes Erro-padrão Stat t valor P


Interceptar 10.57 1.9611 5.3895 0.001
Chuva 6.726 1.3557 4.9611 0.001

Na última tabela temos os valores da ordenada na origem (i.e., 10.57, notar que está de acordo com o valor
obtido pela adição de tendência no gráfico) e do declive (i.e., 6,726, também igual ao obtido através da linha
de tendência) e dos respectivos erros-padrão (i.e., valor do desvio padrão dividido pela raiz quadrada do
número de pontos, ou seja, valores de desvio padrão de 6,201 e 4,287, respectivamente) relativos à avaliação
das previsões que possam ser realizadas através da equação da recta.
A análise de resíduos é uma etapa importante da avaliação do tratamento, pois os resíduos correspondem à
diferença entre o valor observado (eixo dos yy´s) e o valor previsto pela equação. Assim, idealmente não
devem existir diferenças, ou seja, os resíduos deveriam ser 0, ou ter valores próximos e uma distribuição
uniforme. No exemplo em análise temos:

RESULTADO RESIDUAL
Observaçã Previsto Residuais
o Toxina
1 19.313 -1.213
2 25.905 2.695
3 18.035 -2.135
4 15.547 3.653
5 19.448 -0.148
6 14.000 0.800
7 21.062 0.638
8 19.448 -2.948
9 24.358 -0.558
10 19.784 -0.784

A análise do gráfico com a representação dos resíduos permite identificar se estes estão dispersos
aleatoriamente em torno de zero, indicando o comportamento esperado para distribuição dos erros sem
vícios (i.e., dispersão aleatória), ou seja, as variâncias não apresentam diferenças significativas entre si. O
gráfico que relaciona os percentis relativos à quantidade de toxina com os valores observado considerando
uma distribuição normal (i.e., para analisar a variação da dispersão dos resíduos) deve ser linear.
Teste Z: duas amostras para médias
Objectivo
O teste Z permite testar estatisticamente a diferença entre as médias de 2 amostras pertencentes a 2
populações das quais conhecemos as respectivas variâncias (i.e., é necessário conhecer ou estimar as
variâncias das populações).
Notar que o teste Z distingue-se do teste t pela necessidade do conhecimento (ou, em alternativa terá de ser
realizada uma estimativa) das variâncias das populações enquanto para a realização do teste t podemos ou
não conhecer as variâncias das amostras.
Exemplo
No exemplo apresentado no âmbito do controlo da água de uma albufeira em 2 locais distintos A e B
recorrendo à determinação do N-Total (i.e., expressa em mg N/L). A variância das populações A e B é
conhecida (ou deverá ser estimada) e apresentada. Assim vamos analisar se a diferença entre as médias das
amostras é estatisticamente significativa (p.e., para nível de significância α=0.05 ou seja 5%, o qual
corresponde a um nível de certeza de 95%).
Etapas Excel (ver ficheiro Excel: Teste Z Excel 2022):
1. Os dados devem ser organizados em 2 colunas, a primeira relativa aos resultados com as amostras
obtidas no local A e a 2ª no local B. Os valores de variância de cada população podem também ser
indicados em células à parte.
2. Seleccionar no menu “Análise de Dados” a opção “Teste Z: duas amostras para médias”;
3. Introduzir os dados da variável1 (local A) e da variável2 (local B); Indicar o valor para a hipótese da
diferença da média indicar 0, pois estamos a testar a H0 para médias iguais; Indicar se as colunas da
variável 1 e 2 estão identificadas, assinalando os rótulos; Introduzir os valores das variâncias das
populações relativas ao local a e B; Introduzir o valor de α, em geral 0,05 (i.e., 5%, corresponde a um
nível de confiança de 95%); Indicar a localização pretendida para o output;
4. Análise do output

Teste z: duas amostras para médias

Local A Local B
Média 1.55 1.54
Variância conhecida 0.65 0.58
Observações 11 11
Hipótese de diferença de média 0
z 0.035
P(Z<=z) uni-caudal 0.486
z crítico uni-caudal 1.645
P(Z<=z) bi-caudal 0.972
z crítico bi-caudal 1.960

Em linha com as análises estatísticas realizadas recorrendo ao Teste t podemos concluir pela ausência de
diferença com significado estatístico entre ambas as médias, pois Zcrítico (“z crítico bi-caudal” = 1,960) >
Zcalculado (“Z” = 0,035) e também P(Z<=z) bi-caudal = 0,972 >>>> α=0,05.

Você também pode gostar