Você está na página 1de 2

Otávio Alves

Lista 1 - Introdução à Ciência de Dados

1. A Ciência de Dados difere do BI e da Estatística. Enumere algumas destas


diferenças.

Existem diversas diferenças entre essas três áreas. Enquanto o BI não é um tipo de
Ciência de Dados ou um campo científico, a ciência de dados e a estatística o são. A
primeira se ocupa majoritariamente de dados estruturados e sem necessidade de uma
análise profunda dos dados, gerando na maior parte do tempo insights e visualizações para
a tomada de decisões, embora não se preocupe com a criação de produtos de dados (como
modelos). Já as duas últimas se valem de técnicas mais profundas e complexas de análise
de dados, preocupando-se em gerar modelos a partir da manipulação desses dados. A
estatística, contudo, diferencia-se da ciência de dados a partir de alguns dos seus
pressupostos, sendo um domínio próprio. Enquanto ela é orientada a modelos, a ciência de
dados, especificamente por meio das técnicas de machine learning, orienta-se por meio dos
dados. Nesse sentido, alguns dos pressupostos da estatística não são exigidos em modelos
de machine learning. Como exemplo, podemos citar a necessidade de visualização da
distribuição das variáveis na primeira e a não obrigatoriedade delas na na segunda. Por fim,
a estatística também não funciona tão bem com conjuntos de dados de dados enormes,
enquanto a ciência de dados possui ferramentas próprias para lidar com grande volume.

2. Big Data possui características principais conhecidas como os Vs de Big Data.


Enumere essas características e conceitue-as brevemente com suas palavras.

Volume - O big data se refere ao universo dos terabytes. Nesse sentido, a


quantidade de dados é enorme, inclusive crescendo exponencialmente anualmente, o que
implica a necessidade da criação de ferramentas específicas para lidar com esses
conjuntos enormes de dados. O volume, portanto, é uma característica fundamental do Big
Data, afinal, se os dados não fossem volumosos não se poderia dizer que se trata de big
data.
Velocidade - Como já referido, o crescimento do big data se dá de forma exponencial
em um curto período de tempo. Nesse sentido, a velocidade é uma característica importante
do big data, visto que é possível que os dados variem bastante em pouco tempo, o que
implica a atualização e manutenção dos modelos constantemente.
Variedade - As fontes de dado no universo do big data são variadas. Os dados
podem ser estruturados ou não, relacionais ou não, podem ser oriundos de uma API ou de
um banco de dados, etc, o que cria um desafio para a criação de modelos adequados que
levem em consideração essa variedade dos dados.
Veracidade - De nada adianta um grande fluxo de dados ou uma grande variedade
de dados se não se pode confiar nesses dados para a geração de modelos. Nesse sentido,
considerando a variedade dos dados e as diferentes formas de ingestão desses dados, é
importante que eles estejam validados e que sejam confiáveis para que se possa gerar
modelos adequados.
3. Você considera Machine Learning diferente de Inteligência Artificial? Justifique sua
resposta.

O Machine Learning (ML) é uma subárea da Inteligência Artificial (IA), o que significa
que nem toda IA é Machine Learning, embora toda ML seja uma parte da Inteligência
Artificial. Sendo assim, não são a mesma coisa, já que a IA compreende um universo maior
do que o Machine Learning, embora se possa dizer que quando aplico um modelo de
machine learning, estou me utilizando de inteligência artificial.

4. Quais são os três principais estágios do processo de Ciência de Dados? Fale


resumidamente sobre eles.

Os três principais estágios são engenharia de dados, modelagem de dados e


extração das informações. No primeiro, temos acesso aos dados, realizamos as requisições
aos bancos e preparamos e limpamos os dados para que eles possam ser modelados, em
um segundo momento. Na modelagem, criamos um modelo a partir dos dados extraídos,
gerando informações, previsões, agrupamentos etc. Já no terceiro momento, fornecemos as
informações obtidas, seja por meio de visualizações e entrega de relatórios, seja por meio
de uma API que será incorporada ao sistema.

5) É verdade que o Cientista de Dados é um profissional capaz de extrair informações


de dados sem qualquer qualidade desde que estes tenham alto volume, como
acontece com Big Data? Fale sobre isso.

É falsa tal afirmação. A entrega dos produtos da ciência de dados depende


fundamentalmente da qualidade dos dados, independentemente do volume.

Você também pode gostar