Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística e
Desenvolvimentos
Computacionais em R
Aplicações na área da Educação
Este trabalho pretende ser uma aplicação dos conhecimentos adquiridos ao longo da disciplina de
Computação Estatística I. Pretende demonstrar a importância da linguagem R, a sua utilidade e as suas
vantagens através de várias aplicações na área da educação. Serão feitas vários tipos de análise de
dados, desde representações gráficas a vários tipos de análises comparativas.
1 INTRODUÇÃO
Hoje em dia já existem muitos softwares estatísticos que disponibilizam um vasto leque de
ferramentas que permitem ao investigador o tratamento e análise dos dados de uma forma
mais simples e muito menos morosa. Softwares como o Excel, o SPSS, o R, o Minitab, o
Statistica, o Stata, entre outros, apresentam aplicativos estatísticos capazes de importar
ficheiros de dados gravados noutras aplicações, escolher o tratamento de análise adequado
para os dados, desde estatísticas descritivas a vários tipos de gráficos, seleccionar as variáveis
de interesse para cada estudo, entre outros.
Neste estudo pretende-se realçar a importância da computação, nomeadamente o software R,
nas diversas vertentes da Estatística. Pretende ainda reconhecer o seu contributo para o
desenvolvimento na área da Educação, salientando a sua utilidade em fenómenos
pedagógicos.
Anualmente, o Gabinete de Estudos e Planeamento do Ministério da Educação e Ensino
Superior, publica o Anuário Estatístico da Educação com a finalidade de divulgar os dados e
as informações do sector. Este anuário informa sobre as estatísticas oficiais do sistema
educativo nacional, nomeadamente alunos, professores, escolas, turmas, acção social escolar,
alfabetização e educação de adultos, bolsas de estudo, administração, cooperação entre o
MEES e os seus respectivos Parceiros e afectação de recursos financeiros. É por isso de
grande interesse para a população em geral um estudo mais aprofundado dos seus dados.
O último Anuário publicado é referente ao ano de 2008/2009 e é com base neste que irão ser
feitas diversas análises com o intuito de conhecer mais informações sobre o Sistema
Educativo Cabo-verdiano. Assim, irão ser apresentadas situações concretas da aplicação do
software R na área da Educação.
Nesta aplicação pretende-se fazer uma análise descritiva e uma representação gráfica dos
dados relativos ao nº de alunos que frequentam as instituições de ensino superior no ano de
2008/2009.
Uma tabela com os dados relativos a este estudo é obtida recorrendo à importação dos dados:
> alunos=read.table('c:/Users/Helga/Desktop/alunosano.txt',header=T,sep=';',dec='.')
> alunos
4 282 0 91 0 0 0 0 0 0 0
5 198 0 23 0 44 0 0 0 0 0
Através do comando summary obtém-se o resumo das principais medidas descritivas dos
dados, tal como a média, mediana, quartis e o valor máximo e mínimo dos dados. (anexo 1)
> summary(alunos)
Verifica-se que é na Uni-CV que a média para o nº de alunos é mais elevada sendo a média da
Uni-Piaget a que mais se aproxima desses valores. As outras instituições apresentam médias
mais baixas, esta diferença deve-se essencialmente ao facto destas instituições terem iniciado
as suas actividades recentemente e, na maioria dos casos, apresentarem menor oferta
formativa.
A representação gráfica dos dados é um recurso muito importante para ajudar a conhecer
melhor os dados. Existem vários tipos de gráficos que podem ser usados para os diversos
tipos de variáveis. Neste caso, a variável em estudo é o nº de alunos que frequentam as
instituições de ensino superior no ano lectivo de 2008/2009, e como tal é uma variável do tipo
quantitativa. O boxplot dos dados é obtido através dos seguintes comandos:
A representação gráfica do nº de alunos por instituição e por ano é feita através do gráfico de
barras pelo comando:
> barplot(as.matrix(alunos),main="Alunos por instituição e por ano",ylab="nº de
alunos",beside=TRUE,col=rainbow(5))
>legend("topleft",c("1ºano","2ºano","3ºano","4ºano","5ºano"),cex=0.6,bty="n",fill=rainbow(5))
Figura 2 – Gráfico de barras para o nº de alunos por instituição superior e por ano de curso
Estes gráficos sugerem que na maioria das instituições é no primeiro ano que existe maior
concentração de alunos e verifica-se uma diminuição à medida que o ano do curso
aumenta. No caso da INIDA, apenas existem alunos a frequentar o 5º ano pois esta
instituição apenas dá formação a uma turma por ano.
O gráfico circular é um gráfico de fácil leitura e que nos permite facilmente verificar a
instituição com o maior nº de estudantes.
> nºalunos
> colors<-c("yellow","green","red","blue","pink","orange","gray","purple","brown","violet")
> nºalunos_labels<-round(nºalunos/sum(nºalunos)*100,1)
> nºalunos_labels<-paste(nºalunos_labels,"%",sep="")
>legend(1.5,0.5,c("Uni.cv","Uni.Piaget","IESIG","ISCEE","INIDA","ISCJS","M_EIA","LUSO","UNICA","
US"),cex=0.8,fill=colors)
Verifica-se facilmente que a maior “fatia” do gráfico circular representa a Uni-cv, sendo
também a Uni-Piaget a instituição com maior nº de estudantes. As restantes instituições
superiores representam menos de 50% do nº de alunos no ano de 2008/2009.
3 ANÁLISE DA VARIÂNCIA NO R- 2 º APLICAÇÃO
Nesta aplicação, foram recolhidos os dados referentes aos 3 primeiros anos dos cursos
leccionados em algumas instituições do ensino superior no ano lectivo de 2008/2009. Foram
apenas consideradas as instituições superiores que já funcionavam nos 3 anos imediatamente
anteriores ao ano a que se referem estes dados. Assim sendo, as instituições a que se refere o
estudo são: Universidade Pública de Cabo Verde (Uni-Cv), Universidade Jean Piaget (Jean
Piaget), Instituto de Estudos Superiores Isidoro da Graça (IESIG), Instituto de Ciências
Económicas e Empresariais (ISCEE), Instituto Superior de Ciências Jurídicas e Sociais
(ISCJS).
Pretende-se verificar se o nº de alunos nas instituições de ensino superior varia
significativamente relativamente ao ano do curso que frequentam.
Uma tabela com os dados relativos a este estudo é obtida recorrendo à importação dos dados:
> valores=read.table('c:/Users/Helga/Desktop/valores.txt',header=T,sep=';',dec='.')
> valores
A1 A2 A3
As médias e o desvio-padrão para o nº de alunos por cada ano são dadas por:
> attach(valores)
> mean(valores)
A1 A2 A3
> sd(valores)
A1 A2 A3
>boxplot(valores,xlab="Ano do curso",ylab="Alunos",col=c("yellow","green","red"))
1 1166 A1
2 1045 A1
3 259 A1
.. ….
14 167 A3
15 126 A3
> modelo=lm(values~ind,data=amostra)
> residuos=resid(modelo)
Através da análise dos gráficos dos resíduos (Figura 6) verifica-se no painel dos resíduos vs
valores ajustados, que o modelo não indicia violação dos pressupostos pois repara-se que as
observações encontram-se empilhadas em 3 colunas apesar de existirem observações que
estão mais dispersas.
> par(mfrow=c(2,2))
> plot(modelo)
No entanto, será conveniente aplicar um teste para a igualdade das variâncias. Neste caso foi
utilizado o teste de Bartlett. Este teste permite investigar o nível de significância das
diferenças entre as variâncias das g populações, admitindo a sua normalidade e
independência.
> bartlett.test(values~ind,data=amostra)
O teste de Bartlett, indica a não rejeição de H0 pois o valor da estatística de teste (1.9944) é
significativo para o p-value 0.3689,
ao nível de significância de 5%, ou seja, o pressuposto de que as variâncias são iguais em
cada nível do factor, é válido.
Verificando o gráfico Normal Q-Q (Figura 6), conclui-se que os pontos, na sua maioria,
tendem a aproximar-se da recta de 45º mas verifica-se que alguns valores positivos dos
resíduos (extremos) deveriam ser menores. Ainda assim, este gráfico não é grosseiramente
não normal. No entanto, poderá ser aplicado um teste de ajustamento para verificar se de facto
os resíduos têm distribuição normal. O teste de normalidade de Shapiro-Wilk é uma
alternativa ao teste do qui-quadrado, quando se pretende ajustamento apenas a uma normal.
Este teste tem-se revelado um dos mais potentes, em condições gerais e pode ser utilizado
mesmo quando a dimensão, n, da amostra é pequena, não necessitando que seja feito
agrupamento dos dados, sendo mais potente do que o teste de Kolmogorov-Smirnov para
amostras de dimensão inferior a 30.
> shapiro.test(residuos)
data: residuos
Uma vez válidos os pressupostos da ANOVA, poderá ser feita a análise da variância:
>anova(modelo)
Response: values
Verifica-se que a estatística de teste (1.4458) cujo p-value associado é 0.2738, é significativa
para um nível de significância de 5%, ou seja, a hipótese inicial da igualdade das médias do nº
de alunos nos 3 primeiros anos do curso é aceite. Estatisticamente, as diferenças entre os 3
anos do curso não são significativas.
4 TESTES NÃO PARAMÉTRICOS NO R - 3 ª APLICAÇÃO
> professores=read.table('c:/Users/Helga/Desktop/professores.txt',header=T,sep=';',dec='.')
>boxplot(professores,xlab="Nível de formação",ylab="Professores",col=c("yellow","green","red"))
Através da análise dos gráficos dos resíduos (Figura 9) verifica-se que o modelo indicia
violação do pressuposto para a igualdade da variância, pois no 1º gráfico dos resíduos vs
valores esperados, verifica-se que os resíduos tendem a crescer ficando mais dispersos.
> par(mfrow=c(2,2))
> plot(modelo)
> bartlett.test(values~ind,data=amostra)
Neste caso, o teste de Bartlett indica a rejeição de H0, pois a estatística de teste (11.4046), é
significativa com o p-value 0.003338, ao nível de significância de 5%. Assim, conclui-se que
o pressuposto para a igualdade das variâncias não é válido.
Verificando o gráfico Normal Q-Q (Figura 9), e apesar dos pontos extremos se afastarem
mais da recta, conclui-se que no geral, os pontos tendem a aproximar-se da recta de 45º o que
conduz à normalidade dos erros.
> shapiro.test(residuos)
data: residuos
A normalidade dos erros também aqui é provada pelo teste de Shapiro-Wilk pois a estatística
de teste (0.963), cujo p-value associado é de 0.7448, é significativa para o nível de
significância de 5%, ou seja, a hipótese nula de que os erros provêm de uma distribuição
normal é aceite.
Assim sendo, e uma vez que o pressuposto da igualdade das variâncias não é válido, será
usado o teste não paramétrico de Kruskal-Wallis como alternativa à ANOVA. Este teste tem
como objectivo verificar se k amostras aleatórias independentes podem ou não ser
consideradas como provenientes de populações com a mesma distribuição. Assim, as
hipóteses a serem formuladas são: : as k amostras possuem a mesma distribuição vs
Pelo menos uma das amostras tem distribuição diferente das restantes, dando origem a
valores tendencialmente superiores.
> kruskal.test(values~ind,data=amostra)
Pretende-se agora determinar se existem grandes diferenças entre os sexos dos alunos nas
diferentes instituições.
Considerando agora a matriz com os vectores para o nº de alunos do sexo feminino e para o nº
de alunos do sexo masculinos temos que:
x<-
matrix(c(1672,1573,1176,953,474,275,689,345,18,26,318,219,8,11,159,107,61,46,188,147),n
row=10,byrow=TRUE,dimnames=list(1:10,c("fem","masc")))
>x
fem masc
1 1672 1573
2 1176 953
3 474 275
4 689 345
5 18 26
6 318 219
7 8 11
8 159 107
9 61 46
10 188 147
Por não sabermos as distribuições das amostras e uma vez que se tratam de amostras
dependentes pois ambas estão a ser analisadas nas mesmas instituições, o teste mais adequado
poderá ser o teste de Friedman com . Este teste é uma alternativa não paramétrica à
análise dupla da variância, referindo-se os dados a uma escala pelo menos ordinal. Pode
considerar-se que o teste de Friedman é uma extensão do teste dos sinais/Wilcoxon,
utilizando-se para comparar k amostras dependentes ou correlacionadas.
> friedman.test(x)
Friedman rank sum test
data: x
Friedman chi-squared = 3.6, df = 1, p-value = 0.05778
Como o valor de p> 0,05 então aceita-se a hipótese nula. Assim, estatisticamente não há
diferenças entre os sexos nas diferentes instituições.
Para testar se o nº de alunos dos institutos superiores em Cabo Verde provém de uma
distribuição normal, será neste caso mais adequado aplicar o teste de normalidade de
Lilliefors uma vez que a amostra é pequena n=10 e não são conhecidos . O teste de
Lilliefors, pode ser utilizado quando se pretende efectuar um ajustamento de uma distribuição
normal, sem especificar o valor dos parâmetros e .
[1] 846.5
> sd(nºalunos)
[1] 1054.740
> lillie.test(rnorm(10,846.5,1054.740))
A análise descritiva bem como a representação dos gráficos são ferramentas fundamentais
para conhecer melhor as características dos dados de uma investigação. Na Educação, os
investigadores procuram a cada dia encontrar relações entre diversos grupos com
determinadas características, avaliar percepções e atitudes de alunos e professores de forma a
encontrar métodos que ajudem a compreender e ultrapassar as limitações que surgem nesta
área. Existem assim inúmeras investigações realizadas na área da Educação nas quais é
necessário o recurso a métodos computacionais. O uso do Software R neste trabalho veio
demonstrar a importância desta ferramenta neste tipo de análise. Tanto as medidas descritivas
como os vários tipos de gráficos foram obtidos de uma forma simples e muito menos morosa
que os métodos tradicionais. Foram feitas várias análises, comparando grupos, testando
hipóteses de uma maneira mais rápida e mais eficiente.
O software R dispõe assim, de um vasto leque de aplicações estatísticas capazes de fazer
diversos tipos de análises tornando a sua utilização bastante útil nas mais diversas áreas do
conhecimento. Sendo este software gratuito, torna-se uma poderosa ferramenta não só para
estatísticos como também para outros investigadores que pretendam obter resultados fiáveis,
menos morosos e com menor custo.
REFERÊNCIAS
REIS, E., Melo, P., Andrade, R., Calapez, T. (2007): Estatística aplicada. Vol I e II, Edições Sílabo. 1ª Edição.
http://finzi.psych.upenn.edu/R/
http://www.harding.edu/fmccown/r/
http://leg.ufpr.br/~paulojus/embrapa/Rembrapa/Rembrapase9.html
http://ecologia.ib.usp.br/bie5782/doku.php?id=bie5782:02_tutoriais:tut5
http://cran.r-project.org/doc/contrib/Beasley-BioestatisticaUsandoR.pdf
http://lib.stat.cmu.edu/R/CRAN/doc/contrib/Lam-IntroductionToR_LHL.pdf
http://www.minedu.gov.cv/index.php?option=com_docman&Itemid=32
ANEXO 1
> summary(alunos)
Min. : 198 Min. : 0.0 Min. : 23.0 Min. : 0.0 Min. : 0.0
1st Qu.: 282 1st Qu.: 0.0 1st Qu.: 91.0 1st Qu.: 0.0 1st Qu.: 0.0
Median : 591 Median : 374.0 Median :147.0 Median :167.0 Median : 0.0
Mean : 649 Mean : 425.8 Mean :149.8 Mean :206.8 Mean : 8.8
3rd Qu.:1008 3rd Qu.: 710.0 3rd Qu.:229.0 3rd Qu.:323.0 3rd Qu.: 0.0
Max. :1166 Max. :1045.0 Max. :259.0 Max. :544.0 Max. :44.0
1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0.0 1st Qu.: 0
3rd Qu.:169.0 3rd Qu.: 0.0 3rd Qu.:105.0 3rd Qu.: 0.0 3rd Qu.: 0
Max. :242.0 Max. :19.0 Max. :161.0 Max. :107.0 Max. :335