Escolar Documentos
Profissional Documentos
Cultura Documentos
Resumo: Este estudo apresenta uma análise descritiva dos dados provenientes do curso
“Comunidade de Estatística e Ciência de Dados” realizado de forma online, utilizando a
linguagem de programação R como ferramenta de análise estatística. O artigo constitui um
estudo de caso, explorando os dados coletados do referido curso. A pesquisa inicia-se
contextualizando o cenário do curso e destacando a importância da análise descritiva na
compreensão dos padrões e tendências dos dados. A metodologia adotada abrange a
coleta de dados, seguida pela preparação e organização das variáveis para análise na
linguagem de programação R e a IDE R Studio. A aplicação do software R Studio permite
uma análise detalhada e visualização eficaz dos dados, contribuindo para uma
compreensão abrangente do comportamento dos participantes. As conclusões do estudo
fornecem uma compreensão do cenário dos alunos que adquirem o curso de capacitação
profissional online, além de destacar possíveis áreas de melhoria e otimização. Este artigo
contribui para a literatura acadêmica ao demonstrar a eficácia da análise descritiva
utilizando a linguagem R na interpretação de dados de cursos online, oferecendo insights
valiosos para instrutores, pesquisadores e profissionais envolvidos no desenvolvimento e
aprimoramento de cursos de capacitação profissional.
1 INTRODUÇÃO
A Educação foi um dos setores mais afetados, sobretudo com o avanço das
chamadas Tecnologias da Informação e Comunicação (TICS). Em relação a
regulamentações, houve a transformação da Educação a Distância (EaD) no Brasil em
modalidade formal de ensino com o Decreto 5.622 em 2005, sob a premissa da
necessidade de formação de profissionais para atuar na educação básica (SANTOS;
ASSUMPÇÃO; CASTRO, 2019). Por outro lado, da iniciativa privada, houve o boom da
criação de conteúdo online, marcado principalmente pela disponibilização de aulas
gravadas e/ou ao vivo dos mais variados tipos de conteúdo. Atualmente, ainda se vive esse
momento, de forma mais intensa do que nunca, com professores buscando diversas
técnicas para atrair visualizações, curtidas e compartilhamentos na rede.
O objetivo deste artigo é realizar uma análise descritiva dos dados ligados ao produto
Comunidade de Estatística e Ciência de Dados (CECD), obtidos através da plataforma
Hotmart, na qual ele é comercializado, utilizando a linguagem de programação R e a IDE R
Studio. O foco será direcionado para tópicos como a demanda de alunos inscritos,
faturamento, o perfil dos alunos e os tipos de pagamentos oferecidos. Tópicos como análise
de gênero, da formação original e de idade dos alunos também serão analisados, com vista
a avaliar se as ações sociais do curso têm sido efetivas. O estudo pode ser identificado
como um estudo de caso, uma vez que o seu objeto de análise é uma empresa específica.
2 REVISÃO BIBLIOGRÁFICA
A Estatística é uma ciência antiga, com raízes na antiguidade, quando era usada
para coletar dados populacionais, registros de colheitas, cheias do rio Nilo, entre outros
aspectos ligados à fenômenos naturais, o que a caracterizava como auxiliar da
administração pública (CALVO, 2004).
De acordo com Cunha (1968 apud Diehl, Souza e Domingos, 2007), a palavra
estatística foi usada pela primeira vez no século XIV, com o significado de “ciência das
coisas do estado”, com fins descritivos. A análise de dados que a Estatística realiza permite
a busca por padrões, relações entre variáveis e aplicação de testes de hipóteses para
comprovar (ou não) suposições acerca de determinados fenômenos.
Atualmente, tornou-se possível coletar muito mais dados do que em qualquer outro
momento da história. De acordo com Noveli, Heller e Noveli (2018), isso tem ocorrido por,
ao menos, duas razões: uma tecnológica e outra humana. Os autores argumentam que a
dimensão tecnológica está ligada ao uso de smartphones e sensores, o que permite coletar-
se um alto volume de dados em tempo real, além dos avanços em telecomunicações, que
ampliou o volume e a velocidade de tais dados. Já a dimensão humana é caracterizada
pela geração voluntária das pessoas de dados em massa de si mesmas por meio da
apropriação de tais tecnologias (NOVELI; HELLER; NOVELI, 2018).
O termo big data tem sido utilizado para descrever o fato de que a quantidade de
dados disponíveis em empresas para análise possui alto volume, alta variedade e alta
velocidade (DHAR, 2013). A grande questão é transformar todo esse enorme volume de
dados em informação de forma a gerar valor para as empresas na forma de vantagem
competitiva (ERICKSON; ROTHBERG, 2014). De acordo com o estudo de Al-Ammary
(2014), cada vez mais o conhecimento tem sido percebido como um dos ativos mais
valiosos em decorrência dele permitir formular estratégias que levem a construção de
vantagens competitivas sustentáveis.
Com todos esses avanços, houve um forte aumento na demanda por profissionais
que tenham conhecimentos estatísticos, matemáticos e de programação para trabalhar na
área que hoje é conhecida como Ciência de Dados (ou data science). De acordo com
Watson (2014, p. 1248): “As empresas estão reconhecendo o valor potencial desses dados
e estão implementando tecnologias, pessoas e processos para aproveitar as
oportunidades.” Uma definição para o termo Ciência de Dados é a de Dhar (2013, p. 64):
“o estudo da extração generalizada de conhecimento a partir de dados.”
3 MATERIAIS E MÉTODOS
Este artigo possui caráter quantitativo, uma vez que faz uso de dados numéricos e
recorre a métodos estatísticos para se realizar afirmações. Por outro lado, ao se abordar
uma pessoa jurídica, uma empresa, ele se caracteriza como um estudo de caso. De acordo
com Goode e Hatt (1975, apud LAZZARINI 1995, p.17), a técnica é “um modo de organizar
os dados em termos de uma determinada unidade escolhida”.
Neste estudo foi aplicada a análise descritiva no banco de dados da Comunidade de
Estatística e Ciência de Dados do Prof.Thiago Marques. As variáveis foram retiradas da
plataforma Hotmart e analisadas com a utilização da linguagem de programação R que é
“amplamente utilizada, pois fornece uma vasta coleção de pacotes de software que
abrangem uma ampla gama de técnicas de análise de dados para realizar desde análises
estatísticas simples até as mais complexas” segundo Shimizu e Ferreira (2023).
A análise feita tem como objetivo expor o perfil dos alunos de acordo com gênero,
idade, formação, entre outros aspectos, além de investigar aspectos financeiros do produto,
como renda, meios de pagamentos e quantidade de alunos. Há, contudo, também a busca
por relacionar os dados obtidos com questões relevantes no contexto social, principalmente
quanto à presença das mulheres no campo da ciência e tecnologia. Uma pergunta
norteadora neste sentido seria: “Como o perfil dos alunos do curso Comunidade de
Estatística do Prof. Thiago Marques se relaciona com o perfil nacional dos estudantes?”
A partir desse momento, a investigação foi dividida em duas etapas, que delimitaram
o método sistemático da pesquisa: i) busca na base de dados e ii) análise descritiva.
A base A, que engloba os dados dos alunos, continha dezenove (19) variáveis, das
quais os autores decidiram extrair dez (10) para elaborar as análises da subseção 4.1. Tais
variáveis, juntamente com uma breve descrição e do tipo de cada uma delas, podem ser
observadas na Tabela 1.
4 RESULTADOS E DISCUSSÕES
dados
dados
(1)
onde
1 2
e = 1 −
1 2
(2)
Uma vez que o Z calculado foi de 0,999, sendo menor do que 1,96 (Z crítico para
nível de significância de 5%), decide-se pela aceitação da hipótese nula, ou seja, a
proporção de mulheres no curso está dentro da proporção esperado para as áreas inscritas,
segundo dados de proporção do IBGE. No entanto, este resultado demonstra que as
iniciativas de atração de mulheres, por meio de descontos no valor dos cursos para este
grupo, não têm sido suficientes para atrair este perfil de alunos. Torna-se necessário, então,
repensar novas estratégias para alcançar ainda mais esse público-alvo.
Por meio das Figuras 4 e 5, é possível perceber que a maior parte das pessoas que
se inscrevem no curso têm idades entre 26 e 41 anos (63,3%) e já possuíam algum
conhecimento em R (69,5%). Já a Figura 6 demonstra que a maioria dos alunos inscritos
conheceu o curso por meio do Linkedin e do Youtube, plataformas nas quais o canal do
curso possui, em relação a quantidade de inscritos, respectivamente, 34.207 e 33.500.
Estes dados indicam que, provavelmente, o público do curso é majoritariamente de
profissionais já atuantes na área, que desejam aprimorar seus conhecimentos e não de
profissionais que estão buscando uma nova formação.
Figura 4 - Distribuição de alunos por faixa etária.
Figura 10 - Evolução detalhada por data de inscrição, da quantidade de alunos por data.
REFERÊNCIAS
DHAR, V. Data science and prediction. Communications of the ACM, v. 56, n. 12, p. 64-
73, dez. 2013.
FALCÃO, M. Falta interesse por formação em ciências exatas. Valor Investe, 14 out. 2019.
Disponível em: https://valorinveste.globo.com/objetivo/empreenda-
se/noticia/2019/10/14/falta-interesse-por-formacao-em-ciencias-exatas.ghtml. Acesso em:
03 dez. 2023.
SILVA, D. B.; SILVA, R. M.; BARRETO, Maria de Lourdes Gomes. O Reflexo da Terceira
Revolução Industrial na Sociedade. In: XXII Encontro Nacional de Engenharia de Produção,
2002, Curitiba. Anais. Porto Alegre. Disponível em:
https://abepro.org.br/biblioteca/enegep2002_tr82_0267.pdf. Acesso em: 1 dez. 2023.