Você está na página 1de 7

GLOSSRIO DE ESTATSCA

TERMOS ESTATSTICOS MAIS UTILIZADOS



Populao: Toda questo de pesquisa define um universo de objetos aos quais os
resultados do estudo devero ser aplicados. A populao alvo, tambm, chamada
populao estudada, composta de elementos distintos possuindo certo nmero de
caractersticas comuns (pelo menos uma). Essa caracterstica comum deve delimitar
inequivocamente quais os elementos que pertencem populao e quais os que no
pertencem. Estes elementos, chamados de unidades populacionais, so as unidades de
anlise sobre as quais sero recolhidas informaes. No nosso exemplo: todos os alunos de
graduao que esto matriculados em alguma disciplina de Estatstica, na Universidade
Estadual de Santa Cruz, durante o ano de 1999.
N tamanho da populao
Amostra: Uma amostra um subconjunto de indivduos da populao alvo. Existem dois
tipos de amostras, as probabilsticas, baseadas nas leis de probabilidades, e as amostras
no probabilsticas, que tentam reproduzir o mais fielmente possvel a populao alvo.
Entretanto, somente as amostras probabilsticas podem, por definio, originar uma
generalizao estatstica, apoiada no clculo de probabilidades e permitir a utilizao da
potente ferramenta que a inferncia estatstica.
n tamanho da amostra
Varivel: uma caracterstica da populao. Toda questo de pesquisa define um nmero
de construes tericas que o pesquisador quer associar. O grau de operacionalizao
destas construes no faz parte de um consenso. Por essa razo, a seo que trata das
definies das variveis deve permitir ao leitor avaliar a adequao dos instrumentos
utilizados, as variveis escolhidas e as construes tericas descritas no quadro conceitual.
Varivel dependente (VD): Mede o fenmeno que se estuda e que se quer explicar. So
aquelas cujos efeitos so esperados de acordo com as causas. Elas se situam,
habitualmente, no fim do processo causal e so sempre definidas na hiptese ou na questo
de pesquisa. No nosso exemplo: desempenho em estatstica e atitudes em relao
Estatstica.
Varivel independente (VI): So aquelas variveis candidatas a explicar a(s) varivel(eis)
dependente(s), cujos efeitos queremos medir. Aqui devemos ter cuidado, pois mesmo
encontrando relao entre as variveis isto, no necessariamente, significa relao causal.
Varivel qualitativa (ou categrica) nominal: So aquelas cujas respostas podem ser
encaixadas em categorias, sendo que cada categoria independente, sem nenhuma relao
com as outras: sexo (masculino, feminino), raa (branco, preto, outro), etc.
Varivel qualitativa (ou categrica) ordinal: So aquelas cujas categorias mantm uma
relao de ordem com as outras, que podem ser regulares ou no (existe uma ordem natural
nas categorias): classe social (alta, mdia, baixa), auto-percepo de desempenho em
Matemtica (pssimo, ruim, regular, bom , timo), etc.
A rigor, no tratamento estatstico das variveis categricas, no existe diferena se ela for
nominal ou ordinal, a nica observao que quando voc est lidando com uma varivel
ordinal, aconselhvel manter a ordem natural das categorias, de menor para maior, na
hora da apresentao, seja em tabela ou em grficos.
Varivel quantitativa discreta: So aquelas resultantes de contagens, constituem um
conjunto finito de valores: nmero de filhos, nmero de reprovaes em matemtica, idade
em anos completos, etc.
Varivel quantitativa contnua: Resultados de mensuraes, podem tomar infinitos
valores: pontuao na escala de atitude, nota na prova de matemtica, pontuao no
vestibular, etc.
Descrio das variveis: A varivel constitui um primeiro nvel de operacionalizao de
uma construo terica e, para cada uma, se deve dar, em seguida, uma descrio
operacional. Para algumas variveis a descrio simples, porm, em outros casos, essa
definio mais complexa. Uma varivel contnua pode ser transformada em discreta e
depois em categrica ordinal, por exemplo, idade (como diferena entre a data atual e data
de nascimento, anos completos, faixas de idade). recomendvel tomar o valor bruto e
depois categoriz-lo, isso d mais flexibilidade ao pesquisador.
Varivel aleatria: uma varivel cujo valor numrico atual determinado por
probabilidades. Por exemplo, X: pontuao na escala de atitudes em relao Estatstica,
Y: nmero de disciplinas reprovadas em Estatstica, etc. Observe que o resultado depende
do aluno selecionado. A varivel aleatria tem uma distribuio de probabilidades
associada, o que nos permite calcular a probabilidade de ocorrncia de certos valores.
Parmetro: uma medida usada para descrever, de forma resumida, uma caracterstica da
populao, Por exemplo, a mdia populacional (), a proporo populacional (t), a
varincia populacional (o), o coeficiente de correlao (), etc. Os parmetros, via de
regra, so valores desconhecidos e desejamos estimar, ou testar, a partir dos dados de uma
amostra.
Mdia populacional (): o valor que representa um conjunto de valores da populao.
Definida como a soma de todos os valores da populao dividido pelo nmero de
observaes. Por exemplo: renda per capita de um pas, esperana de vida, renda familiar
mdia, pontuao mdia na escala de atitudes em relao Estatstica, etc.
Proporo populacional (t): um valor resultante do cociente entre o nmero de casos
favorveis e o nmero de casos possveis na populao. Por exemplo: proporo de
eleitores que votaro no candidato XYZ nas prximas eleies.
Varincia populacional (o
2
): um valor que mede o grau de disperso dos valores da
varivel, na populao, em relao mdia populacional. Definida como a soma dos
quadrados dos desvios dos valores da varivel em relao a sua mdia, divido pelo nmero
de observaes: Soma[(X
i
mdia)
2
]/N
Covarincia populacional C(X,Y): um valor que mede o grau de disperso simultnea
de duas variveis quantitativas em relao as suas mdias. a soma dos produtos dos
desvios das variveis em relao a sua mdia, dividido pelo nmero de observaes: Soma
[(X
i
mdia X)*(Y
i
mdia Y)]/N. o numerador do coeficiente de correlao.
Correlao populacional (): um valor que mede o grau de relao linear entre duas
variveis quantitativas. igual a covarincia dividida pelo desvio padro de cada uma das
variveis.
Estatstica ou estimador: uma funo dos valores da amostra, ou seja, uma varivel
aleatria, pois seu resultado depende dos elementos selecionados naquela amostra. So
utilizados para estimar os parmetros populacionais, para isto preciso conhecer sua
distribuio de probabilidades, que, via de regra, pressupe normalidade ou amostras
grandes. Por exemplo: a mdia amostral, a proporo amostral, a varincia amostral, etc.
Mdia amostral: (X, se l X barra), uma varivel aleatria, funo dos valores da
amostra, definida como a soma de todos os valores da amostra dividido pelo nmero de
observaes da amostra. Serve para estimar a mdia populacional.
Proporo amostral: (p se l p barra), serve para estimar a proporo populacional.
Varincia amostral (s
2
): Serve para estimar a varincia populacional.
Correlao amostral (r): Serve para estimar a correlao linear populacional.
Estimativa (ou Estimativa pontual): o valor que a estatstica ou estimador toma em
uma amostra determinada.
Erro de estimao: a diferena entre o verdadeiro valor do parmetro e o valor
calculado a partir dos dados de uma amostra. Este depende diretamente do grau de
disperso (variabilidade) da varivel em estudo e inversamente ao tamanho da amostra.
Intervalo de confiana: um intervalo centrado na estimava pontual, cuja probabilidade
de conter o verdadeiro valor do parmetro igual ao nvel de confiana.
o: a probabilidade de erro na estimao por intervalo.
(1 o) Nvel de confiana: a probabilidade de que o Intervalo de Confiana contenha o
verdadeiro valor do parmetro.
Hiptese: Uma hiptese um enunciado formal das relaes esperadas entre pelo menos
uma varivel independente e uma varivel dependente. Nas pesquisas exploratrias, as
hipteses podem se tornar questes de pesquisa. Estas questes pela sua especificidade
devem dar testemunho do trabalho conceitual efetuado pelo pesquisador e, pela sua
clareza, permitir uma resposta interpretvel.
Hiptese alternativa (H
1
): As hipteses de uma pesquisa devem enunciar-se por propostas
to claras e especficas quanto possvel
,
via de regra, o que voc quer mostrar, por
exemplo: as atitudes em relao Matemtica interferem diretamente na formao das
atitudes em relao Estatstica.
Hiptese nula (H
o
): A hiptese nula a negao da hiptese alternativa, por isso, via de
regra, voc sempre torce para que ela seja rejeitada, como no caso seguinte: as atitudes
em relao a Matemtica no interferem na formao das atitudes em relao
Estatstica. Est a hiptese que esta sendo testada por qualquer teste estatstico.
A se tomar uma deciso estatstica, existem duas possibilidades de erro: o Erro de tipo I:
rejeitar a hiptese nula (H
o
), quando ela verdadeira e, o Erro de tipo II: aceitar a
hiptese nula (H
o
), quando ela falsa. Infelizmente, quando a probabilidade de cometer
um diminui, a probabilidade de cometer o outro aumenta. Assim, os testes estatsticos
foram delineados para controlar o erro de tipo I, chamado de nvel de significncia.
Nvel de significncia (o): definida como a probabilidade de cometer o erro de tipo I, ou
seja, rejeitar a hiptese nula (H
o
), quando ela verdadeira. Por exemplo:
H
o
: As atitudes em relao Matemtica no interferem na formao das atitudes em
relao Estatstica (
xy
= 0)
H
1
: As atitudes em relao Matemtica interferem na formao das atitudes em relao
Estatstica. (
xy
= 0)
o = a probabilidade de Rejeitar H
o
, quando ela verdadeira. Neste caso, seria a
probabilidade de afirmar que as atitudes em relao Matemtica interferem na formao
das atitudes em relao Estatstica, quando na realidade no existe nenhuma relao.
Este erro controlado pelo pesquisador, e ele que define a margem de erro que est
disposto a correr. Existem vrios fatores que influenciam na escolha do nvel de
significncia. Em pesquisas, como nas cincias exatas, biolgicas, agronmicas, onde as
variveis so mais fceis de mensurar, onde os instrumentos de medida so confiveis,
onde o controle de fatores intervenientes razovel, o conhecimento da rea maior, a
gravidade das consequncias do erro menor, entre outros, permitem um maior rigor e,
portanto, pode-se ser mais exigente, diminuindo o nvel de significncia. Contudo, em
pesquisas, nas cincias humanas, que lida com pessoas, com construtos polmicos,
instrumentos ainda no testados, as consequncias do erro no so to graves, entre outros,
pode-se ser mais flexvel. Via de regra, usa-se o nvel de 5%.
p-valor: a probabilidade de cometer o erro de tipo I (rejeitar H
o
quando ela
verdadeira), com os dados de uma amostra especfica. Este valor dado pelo pacote
estatstico, assim o comparamos com o nvel de significncia escolhido e tomamos a
deciso. Se o p-valor for menor que o nvel de significncia escolhido rejeitamos H
o
, caso
contrrio, aceitamos H
o.

Normal: Uma varivel quantitativa segue uma distribuio normal, se sua distribuio de
frequncias tem o formato similar ao de um sino, ou seja, a maioria dos valores se
concentra em torno da mdia e, a medida que se afasta do centro as observaes so cada
vez mais raras. Essa distribuio simtrica. Muitas variveis tm essa distribuio, tais
como altura das pessoas adultas do sexo masculino, coeficiente de inteligncia, etc. Para
examinar visualmente, voc pode fazer o histograma com a curva ajustada, o SPSS faz
isso. O teste que checa a normalidade de uma varivel o teste de Lilliefors, que se
encontra no comando EXPLORE do SPSS. A hiptese nula que a varivel segue uma
distribuio normal, por isso voc espera aceitar H
o,
e espera que o p-valor seja maior do
que o nvel de significncia especificado por voc.
O pressuposto de normalidade chave para toda a estatstica paramtrica, por essa
razo voc sempre deve checar a validade do mesmo. Contudo, quando sua amostra for
suficientemente grande (n > 30), dependendo do formato da distribuio, o Teorema
Central do Limite garante a convergncia da mdia amostral para a normalidade, veja a
pgina 197 do livro de Estatstica Bsica de Moretin e Bussab.
O pressuposto de independncia chave para a maioria das estatsticas. Isto significa que
o resultado de uma observao no interfere no resultado de outra observao. Por
exemplo, a nota de um aluno no interfere na nota de um outro aluno. J esse pressuposto
quebrado para amostras relacionadas como, por exemplo, passar uma prova antes de uma
interveno e a mesma prova (ou outra) depois da interveno; essas duas medidas so
correlacionadas, uma vez que os sujeitos so os mesmos. Neste caso, deve-se utilizar o
teste para dados emparelhados, ou ANOVA com medidas repetidas. Logo, cuidado com os
estudos longitudinais, em que se acompanham os mesmos sujeitos em vrios momentos.
Homocedasticidade ou igualdade de varincias: Este pressuposto exige que o nvel de
disperso da varivel dentro dos grupos seja similar. O SPSS automaticamente testa esta
hiptese: H
o
: o
1
= o
2
= o
3
= o
4,
atravs do teste de Levene.
Matriz de covarincia: uma matriz quadrada, simtrica, cuja diagonal contm a
varincia da varivel e em cada interseo linha (i) coluna (j) a covarincia das variveis
Xi e Xj.
Matriz de correlao: uma matriz quadrada, simtrica, cuja diagonal formada pela
unidade, pois trata-se da correlao da varivel com ela mesma, e em cada interseo linha
(i) coluna (j) a correlao das variveis Xi e Xj.
Esfericidade: O teste de esfericidade checa se a matriz de correlao igual a matriz
identidade, ou seja, na diagonal formados por uns e zero fora da diagonal.
Multicolinearidade. Este um pressuposto importante na anlise regresso mltipla, pois
se uma varivel independente for uma combinao linear de outras variveis
independentes, coloca em risco toda a anlise. No adianta tentar modelar uma varivel em
funo de vrias variveis correlacionadas, essas no incrementam o poder explicativo do
modelo. Neste caso, use o modelo de regresso stepwise, backward ou foreward.
Graus de liberdade um conceito ligado ao nmero de dados disponveis (livres) para o
clculo da estatstica. Por exemplo, ao estimarmos a mdia populacional com a mdia
amostral perdemos um grau de liberdade. Assim, a estatstica t-student ter n-1 graus de
liberdade. No caso da Tabela de ANOVA, os graus de liberdade do grupo ser igual ao
nmero de grupos menos 1, os graus de liberdade total ser igual a n-1 e os graus de
liberdade do resduo, a diferena entre esses dois.






Clulas, quando utilizamos modelos mais complexos com duas ou mais variveis
independentes, como no caso de ANOVA com dois fatores:
rea de
conhecimento (i)
Gnero (j) Mdia
linha

11
= mdia da clula 11, ou seja, da rea
de exatas do gnero masculino,

1.
= mdia da linha 1, ou seja, da rea de
exatas

.1
= mdia da coluna 1, ou seja, do gnero
masculino, e assim por diante.

..
= mdia geral
Masculino Feminino

Exatas

11

12

1.


Humanas

21



22

2.


Biolgicas

31



32

3.


Mdia coluna

.1


.
2

..

Outliers, so valores que superam em uma vez e meia a amplitude interquartlica (quartil 3
menos quartil 1). Valores extremos quando superam trs vezes essa amplitude.
Coeficiente de determinao (R
2
): o quadrado do coeficiente de correlao de Pearson
e expresso em porcentagem. o percentual explicado da variao da varivel dependente
pela reta de regresso (modelo). O restante explicado pelo erro, que pode ser devido a
ausncia de outras variveis, erros de mensurao das variveis e ao erro aleatrio.
Coeficiente angular ou inclinao (da reta de regresso: Y = a + b * X): a variao de
Y por cada variao de X.
Intercepto (da reta de regresso: Y = a + b * X): o valor de Y, quando X = 0. A maioria
das vezes no faz sentido interpretar este valor.
Tabela 7 Resultados da ANOVA dois fatores, com interao, para a pontuao na escala de
atitudes em relao Estatstica, em funo da rea de conhecimento e gnero.
Fonte de variao Soma de
Quadrados
Graus de
liberdade
Quadrados
Mdios
F p valor

Efeitos principais
rea 1907,86 2 953,93 9,454 ,000
Gnero 226,45 1 226,45 2,244 ,141

Interaes 2-way 475,36 2 237,68 2,355 ,107
rea Gnero 475,36 2 237,68 2,355 ,107

Explicado 3068,22 5 613,64 6,081 ,000
Resduo 4338,93 43 100,91

Total 7407,16 48 154,32

Tabela 8. Resultados da ANCOVA para o desempenho no ps-teste, em funo do pr-
teste e do grupo
Fonte de
variao
Soma de
Quadrados
graus de
liberdade
Quadrados Mdios F p valor
Covariavel 18,064 1 18,064 32,263 ,000
PRETESTE 18,064 1 18,064 32,263 ,000
Efeitos
principais
11,783 1 11,783 21,044 ,000
GRUPO 11,783 1 11,783 21,044 ,000
Explicado 31,029 2 15,514 27,708 ,000
Resduo 13,998 25 ,560

Total 45,027 27 1,668

Você também pode gostar