Ciencia de Dados

Machine Translated by Google
Entrevista de ciência de dados
Questões
Para ver a versão ao vivo do

página, clique aqui.
© Copyright por Interviewbit

Conteúdo
Perguntas de entrevista sobre ciência de dados para calouros

1. O que se entende pelo termo Data Science?
2. Qual é a diferença entre análise de dados e ciência de dados?
3. Quais são algumas das técnicas usadas para amostragem? Qual é a principal vantagem
de amostragem?
4. Liste as condições para Overfitting e Underfitting.
5. Diferencie os dados de formato longo e largo.
6. O que são autovetores e autovalores?
7. O que significa quando os valores-p são altos e baixos?
8. Quando é feita a reamostragem?
9. O que você entende por Dados Desequilibrados?
10. Existem diferenças entre o valor esperado e o valor médio?
11. O que você entende por Viés de Sobrevivência?
12. Defina os termos KPI, li, ajuste do modelo, robustez e DOE.
13. Defina variáveis de confusão.
Perguntas de entrevista de ciência de dados para experientes

14. Como os problemas de séries temporais são diferentes de outros problemas de regressão?
15. Suponha que haja um conjunto de dados com variáveis com valores ausentes de mais de
30%, como você lidará com esse conjunto de dados?
16. O que é validação cruzada?
17. Quais são as diferenças entre correlação e covariância?
18. Como você aborda a solução de qualquer projeto baseado em análise de dados?
Página 1 © Copyright por Interviewbit

Perguntas da entrevista sobre ciência de dados
Perguntas de entrevista de ciência de dados para

Com experiência (.....Contínuo)
19. Por que precisamos de viés de seleção?
20. Por que a limpeza de dados é crucial? Como você limpa os dados?
21. Quais são os métodos de seleção de recursos disponíveis para selecionar as variáveis corretas
para construir modelos preditivos eficientes?
22. O tratamento de variáveis categóricas como variáveis contínuas resultará em um modelo

preditivo melhor?
23. Como você tratará os valores ausentes durante a análise de dados?
24. O que representa a Curva ROC e como criá-la?
25. Quais são as diferenças entre univariado, bivariado e multivariado

análise?
26. Qual é a diferença entre o conjunto de teste e o conjunto de validação?
27. O que você entende por truque do kernel?
28. Diferencie box plot de histograma.
29. Como você equilibrará/corrigirá dados desbalanceados?
30. O que é melhor - floresta aleatória ou árvores de decisão múltiplas?
31. Considere um caso em que você sabe que a probabilidade de encontrar pelo menos uma estrela
cadente em um intervalo de 15 minutos é de 30%. Avalie a probabilidade de encontrar pelo
menos uma estrela cadente em uma hora?
32. Jogue a moeda selecionada 10 vezes de uma jarra com 1.000 moedas. De 1000 moedas, 999
moedas são honestas e 1 moeda tem duas caras, suponha que você veja 10 caras.
Estime a probabilidade de obter cara no próximo lançamento da moeda.
33. Quais são alguns exemplos em que o falso positivo provou ser mais importante do que o falso
negativo?
34. Dê um exemplo em que tanto os falsos positivos quanto os falsos negativos são importantes
igualmente?
35. É bom fazer redução de dimensionalidade antes de ajustar um modelo de vetor de suporte?
36. Quais são as várias suposições usadas na regressão linear? O que aconteceria se eles fossem
violados?
Machine
37.
Como Translated
Como feitabya Google
vocêé identifica
seleção
se umademoeda
atributos pelo método de regularização? © Copyright
é viciada? by Page 2 38.
Interviewbit
Perguntas de entrevista de ciência de dados para

Com experiência (.....Contínuo)
39. Qual é a importância da redução de dimensionalidade?
40. Como o parâmetro de pesquisa de grade é diferente do ajuste de pesquisa aleatória

estratégia?

Vamos começar
Introdução:
A ciência de dados é um campo interdisciplinar que extrai dados brutos, analisa-os e cria
padrões que são usados para extrair insights valiosos deles. Estatística, ciência da
computação, aprendizado de máquina, aprendizado profundo, análise de dados, visualização
de dados e várias outras tecnologias formam a base principal da ciência de dados.

Ao longo dos anos, a ciência de dados ganhou importância generalizada devido à

importância dos dados. Os dados são considerados o novo petróleo do futuro que, quando
analisados e aproveitados adequadamente, podem ser muito benéficos para as partes interessadas.
Além disso, um cientista de dados obtém a exposição para trabalhar em diversos domínios,
resolvendo problemas práticos da vida real, tudo fazendo uso de tecnologias da moda. O
aplicativo em tempo real mais comum é a entrega rápida de comida em aplicativos como o Uber
Eats, ajudando o entregador a mostrar a rota mais rápida possível para chegar ao destino a partir
do restaurante. Data Science também é usado em sistemas de recomendação de itens em sites de
comércio eletrônico como Amazon, Flipkart, etc., que recomendam ao usuário qual item ele pode
comprar com base em seu histórico de pesquisa. Não apenas sistemas de recomendação, Data
Science está se tornando cada vez mais popular em aplicativos de detecção de fraude para detectar
qualquer fraude envolvida em aplicativos financeiros baseados em crédito. Um cientista de dados
bem-sucedido pode interpretar dados, realizar inovações e trazer criatividade ao resolver problemas
que ajudam a impulsionar os negócios e os objetivos estratégicos. Isso o torna o trabalho mais
lucrativo do século XXI. Saber mais.
Neste artigo, exploraremos quais são as perguntas de entrevista mais comuns que ajudarão cientistas
de dados aspirantes e experientes.
Perguntas de entrevista sobre ciência de dados para calouros
1. O que se entende pelo termo Data Science?

Um campo interdisciplinar que constitui vários processos científicos, algoritmos, ferramentas e
técnicas de aprendizado de máquina que trabalham para ajudar a encontrar padrões comuns e
reunir insights sensatos a partir dos dados de entrada brutos fornecidos usando análises
estatísticas e matemáticas é chamado de Data Science.
A figura a seguir representa o ciclo de vida da ciência de dados.

Começa com a coleta dos requisitos de negócios e dados relevantes.

Depois que os dados são adquiridos, eles são mantidos por meio da limpeza de dados,
armazenamento de dados, preparação de dados e arquitetura de dados.
O processamento de dados faz a tarefa de explorar os dados, minerá-los, analisá-los que podem ser
finalmente usados para gerar o resumo dos insights extraídos dos dados.
Depois que as etapas exploratórias são concluídas, os dados limpos são submetidos a vários
algoritmos, como análise preditiva, regressão, mineração de texto, padrões de reconhecimento etc.,
dependendo dos requisitos.
Na etapa final, os resultados são comunicados ao negócio de forma visualmente atraente. É
aqui que a habilidade de visualização de dados, relatórios e diferentes ferramentas de inteligência
de negócios entram em cena.
2. Qual é a diferença entre análise de dados e dados

Ciência?

A ciência de dados envolve a tarefa de transformar dados usando vários métodos de análise
técnica para extrair insights significativos que um analista de dados pode aplicar a seus
cenários de negócios.
A análise de dados lida com a verificação das hipóteses e informações existentes e responde
a perguntas para uma tomada de decisão melhor e eficaz relacionada aos negócios
processo.
A ciência de dados impulsiona a inovação respondendo a perguntas que criam conexões e
respostas para problemas futuristas. A análise de dados se concentra em obter o significado
atual do contexto histórico existente, enquanto a ciência de dados se concentra na modelagem
preditiva.
A ciência de dados pode ser considerada como um assunto amplo que faz uso de várias
ferramentas e algoritmos matemáticos e científicos para resolver problemas complexos,
enquanto a análise de dados pode ser considerada como um campo específico que lida com
problemas concentrados específicos usando menos ferramentas de estatísticas e visualização.
O diagrama de Venn a seguir descreve claramente a diferença entre ciência de dados e
análise:
3. Quais são algumas das técnicas usadas para amostragem? O que é

a principal vantagem da amostragem?
página 7 © Copyright por Interviewbit

A análise de dados não pode ser feita em um volume inteiro de dados de uma só vez, especialmente
quando envolve conjuntos de dados maiores. Torna-se crucial obter algumas amostras de dados que
possam ser usadas para representar toda a população e, em seguida, realizar análises sobre ela. Ao fazer
isso, é muito necessário retirar cuidadosamente os dados de amostra dos enormes dados que realmente
representam todo o conjunto de dados.
Existem principalmente duas categorias de técnicas de amostragem baseadas no uso de estatísticas,

são elas:
Técnicas de Amostragem Probabilística: Amostragem Agrupada, Amostragem Aleatória

Simples, Amostragem Estratificada.
Técnicas de amostragem não probabilística: amostragem por cota, amostragem por
conveniência, amostragem por bola de neve, etc.
4. Liste as condições para Overfitting e Underfitting.

Overfitting: o modelo funciona bem apenas para os dados de treinamento de amostra. Se algum novo
dado for fornecido como entrada para o modelo, ele não fornecerá nenhum resultado. Essas condições
ocorrem devido ao baixo viés e alta variância no modelo. Árvores de decisão são mais propensas a
overfitting.

Underfitting: Aqui, o modelo é tão simples que não é capaz de identificar a relação correta
nos dados e, portanto, não funciona bem mesmo nos dados de teste.
Isso pode acontecer devido ao alto viés e baixa variância. A regressão linear é mais
propensa a Underfitting.

5. Diferencie os dados de formato longo e largo.
Dados de formato longo Dados em grande formato
Aqui, cada linha dos dados

representa as informações únicas Aqui, as respostas
de um assunto. Cada sujeito teria seus repetidas de um sujeito fazem
dados em linhas diferentes/múltiplas. parte de colunas separadas.
Os dados podem ser

Os dados podem ser reconhecidos
reconhecidos considerando as
considerando as linhas como grupos.
colunas como grupos.
Esse formato de dados raramente

Esse formato de dados é mais é usado em análises de R e mais
comumente usado em análises de R e comumente usado em pacotes
para gravar em arquivos de log após de estatísticas para ANOVAs de
cada tentativa. medidas repetidas.
A imagem a seguir mostra a representação de dados de formato largo e longo:

6. O que são autovetores e autovalores?

Autovetores são vetores coluna ou vetores unitários cujo comprimento/magnitude é igual a
1. Eles também são chamados de vetores retos. Autovalores são coeficientes aplicados em
autovetores que dão a esses vetores diferentes valores de comprimento ou magnitude.

Uma matriz pode ser decomposta em autovetores e autovalores e este processo é chamado de decomposição
autonoma. Estes são eventualmente usados em métodos de aprendizado de máquina como PCA (Análise
de Componentes Principais) para coletar informações valiosas da matriz fornecida.
7. O que significa quando os valores-p são altos e baixos?

Um p-valor é a medida da probabilidade de obter resultados iguais ou superiores aos resultados obtidos sob
uma hipótese específica assumindo que a hipótese nula está correta. Isso representa a probabilidade de que a
diferença observada ocorreu aleatoriamente por acaso.
Valor p baixo, que significa valores ÿ 0,05, significa que a hipótese nula pode ser rejeitada e os dados
são improváveis com nulo verdadeiro.
Valor p alto, ou seja, valores ÿ 0,05 indica a força a favor da hipótese nula. Isso significa que
os dados são como verdadeiro nulo. p-valor = 0,05 significa que a hipótese pode ir de
qualquer maneira.
8. Quando é feita a reamostragem?

A reamostragem é uma metodologia usada para amostrar dados para melhorar a precisão e quantificar
a incerteza dos parâmetros populacionais. Isso é feito para garantir que o modelo seja bom o suficiente,
treinando o modelo em diferentes padrões de um conjunto de dados para garantir que as variações sejam
tratadas. Isso também é feito nos casos em que os modelos precisam ser validados usando subconjuntos
aleatórios ou ao substituir rótulos em pontos de dados durante a execução de testes.
9. O que você entende por Dados Desequilibrados?

Os dados são considerados altamente desequilibrados se forem distribuídos de forma desigual em
diferentes categorias. Esses conjuntos de dados resultam em um erro no desempenho do modelo e
resultam em imprecisão.
10. Existem diferenças entre o valor esperado e

valor médio?

Não há muitas diferenças entre esses dois, mas deve-se notar que eles são usados em
contextos diferentes. O valor médio geralmente se refere à distribuição de probabilidade,
enquanto o valor esperado é referido nos contextos envolvendo variáveis aleatórias.
11. O que você entende por Viés de Sobrevivência?

Esse viés se refere ao erro lógico ao focar em aspectos que sobreviveram a algum
processo e deixar de lado aqueles que não funcionaram por falta de destaque. Esse viés pode
levar a conclusões erradas.
12. Defina os termos KPI, li, ajuste do modelo, robustez e

CORÇA.
KPI: KPI significa Key Performance Indicator que mede o quão bem o negócio
atinge seus objetivos.
Li: Esta é uma medida de desempenho do modelo de destino medido em relação a
um modelo de escolha aleatória. Li indica o quão bom o modelo é na previsão versus se
não houvesse modelo.
Ajuste do modelo: indica o quão bem o modelo em consideração se ajusta a
determinadas observações.
Robustez: Isso representa a capacidade do sistema de lidar com diferenças e variações
de forma eficaz.
DOE: representa o design de experimentos, que representa o design de tarefas com
o objetivo de descrever e explicar a variação de informações sob condições hipotéticas
para refletir variáveis.
13. Defina variáveis de confusão.

As variáveis de confusão também são conhecidas como confundidoras. Essas variáveis são
um tipo de variáveis estranhas que influenciam as variáveis independentes e dependentes,
causando associação espúria e relações matemáticas entre as variáveis que estão associadas,
mas não estão casualmente relacionadas umas com as outras.
Perguntas de entrevista de ciência de dados para experientes

14. Como os problemas de séries temporais são diferentes de outros

problemas de regressão?
Os dados de séries temporais podem ser pensados como uma extensão da regressão linear que
usa termos como autocorrelação, movimento de médias para resumir dados históricos de variáveis
do eixo y para prever um futuro melhor.
Previsão e previsão é o principal objetivo dos problemas de séries temporais, onde previsões
precisas podem ser feitas, mas às vezes as razões subjacentes podem não ser conhecidas.
Ter Tempo no problema não significa necessariamente que ele se torne um problema de série
temporal. Deve haver uma relação entre o alvo e o tempo para que um problema se torne um
problema de série temporal.
Espera-se que as observações próximas umas das outras no tempo sejam semelhantes às distantes,
o que fornece responsabilidade pela sazonalidade. Por exemplo, o clima de hoje seria semelhante ao
clima de amanhã, mas não semelhante ao clima daqui a 4 meses. Assim, a previsão do tempo com
base em dados passados torna-se um problema de séries temporais.
15. Suponha que haja um conjunto de dados com variáveis com valores
ausentes de mais de 30%, como você lidará com esse conjunto de
dados?
Dependendo do tamanho do conjunto de dados, seguimos as formas abaixo:
Caso os conjuntos de dados sejam pequenos, os valores ausentes são substituídos pela média ou
média dos dados restantes. Em pandas, isso pode ser feito usando mean = df.mean() onde df
representa o dataframe do pandas representando o conjunto de dados e mean() calcula a média dos
dados. Para substituir os valores ausentes pela média calculada, podemos usar df.fillna(mean) .
Para conjuntos de dados maiores, as linhas com valores ausentes podem ser removidas e
os dados restantes podem ser usados para previsão de dados.
16. O que é validação cruzada?

A validação cruzada é uma técnica estatística usada para melhorar o desempenho de um modelo.
Aqui, o modelo será treinado e testado com rotação usando diferentes amostras do conjunto de dados
de treinamento para garantir que o modelo funcione bem para dados desconhecidos. Os dados de
treinamento serão divididos em vários grupos e o modelo será executado e validado em relação a esses
grupos em rotação.
As técnicas mais utilizadas são:
Método K-Fold
Deixar o método p-out
Método de deixar um de fora
Método de retenção
17. Quais são as diferenças entre correlação e covariância?
Embora esses dois termos sejam usados para estabelecer uma relação e dependência entre quaisquer
duas variáveis aleatórias, as seguintes são as diferenças entre elas:

Correlação: Esta técnica é usada para medir e estimar a relação quantitativa entre duas
variáveis e é medida em termos de quão fortes são as variáveis relacionadas.
Covariância: Representa a extensão em que as variáveis mudam juntas em um ciclo. Isso

explica a relação sistemática entre pares de variáveis onde as mudanças em uma afetam as
mudanças em outra variável.
Matematicamente, considere 2 variáveis aleatórias, X e Y onde as médias são
representadas como ÿX e ÿY respectivamente e os desvios padrão são representados por ÿX e ÿY
respectivamente e E representa o operador de valor esperado, então:
covariânciaXY = E[(X-ÿX),(Y-ÿY)]
correlaçãoXY = E[(X-ÿX),(Y-ÿY)]/(ÿXÿY) de
modo que
correlação(X,Y) = covariância(X,Y)/(covariância(X) covariância(Y))
Com base na fórmula acima, podemos deduzir que a correlação é adimensional enquanto a
covariância é representada em unidades que são obtidas a partir da multiplicação de unidades de
duas variáveis.
A imagem a seguir mostra graficamente a diferença entre correlação e covariância:

18. Como você aborda a resolução de qualquer análise de dados com base
projeto?
Geralmente, seguimos os passos abaixo:
A primeira etapa é entender completamente o requisito/problema de negócios. Em

seguida, explore os dados fornecidos e analise-os cuidadosamente. Se você encontrar algum
dado ausente, obtenha os requisitos esclarecidos da empresa.
A etapa de limpeza e preparação de dados deve ser realizada a seguir, que é então usada
para modelagem. Aqui, os valores ausentes são encontrados e as variáveis são
transformadas.
Execute seu modelo em relação aos dados, crie visualizações significativas e analise os
resultados para obter insights significativos.
Libere a implementação do modelo, acompanhe os resultados e o desempenho durante um
período especificado para analisar a utilidade.
Execute a validação cruzada do modelo.

19. Por que precisamos de viés de seleção?
O viés de seleção ocorre nos casos em que não há randomização

especificamente alcançada ao selecionar uma parte do conjunto de dados para
análise. Esse viés diz que a amostra analisada não representa toda a população a ser analisa
Por exemplo, na imagem abaixo, podemos ver que a amostra que selecionamos
não representa totalmente toda a população que temos. Isso nos ajuda a
questionar se selecionamos os dados certos para análise ou não.

20. Por que a limpeza de dados é crucial? Como você limpa os dados?
Ao executar um algoritmo em qualquer dado, para obter informações adequadas, é muito

necessário ter dados corretos e limpos que contenham apenas informações relevantes.
Dados sujos geralmente resultam em percepções e previsões ruins ou incorretas que podem
ter efeitos prejudiciais.
Por exemplo, ao lançar qualquer grande campanha para comercializar um produto, se

nossa análise de dados nos disser para direcionar um produto que na realidade não tem
demanda e se a campanha for lançada, ela certamente falhará. Isso resulta em uma perda de
receita da empresa. É aqui que entra em cena a importância de ter dados adequados e limpos.

A limpeza de dados provenientes de diferentes fontes ajuda na transformação

de dados e resulta nos dados em que os cientistas de dados podem trabalhar.
Dados devidamente limpos aumentam a precisão do modelo e fornecem previsões
muito boas.
Se o conjunto de dados for muito grande, torna-se complicado executar dados nele. A
etapa de limpeza de dados leva muito tempo (cerca de 80% do tempo) se os dados
forem grandes. Não pode ser incorporado à execução do modelo. Portanto, limpar os
dados antes de executar o modelo resulta em maior velocidade e eficiência do modelo.
A limpeza de dados ajuda a identificar e corrigir quaisquer problemas estruturais nos

dados. Também ajuda na remoção de duplicatas e ajuda a manter a consistência dos
dados.
O diagrama a seguir representa as vantagens da limpeza de dados:
21. Quais são os métodos de seleção de recursos disponíveis para

selecionando as variáveis certas para construir modelos preditivos
eficientes?

Ao usar um conjunto de dados em ciência de dados ou algoritmos de aprendizado de máquina,

acontece que nem todas as variáveis são necessárias e úteis para construir um modelo. Métodos de
seleção de recursos mais inteligentes são necessários para evitar modelos redundantes e aumentar a
eficiência do nosso modelo. A seguir estão os três métodos principais na seleção de recursos:
Métodos de filtro:
Esses métodos pegam apenas as propriedades intrínsecas dos recursos que são
medidos por meio de estatísticas univariadas e não por desempenho de validação cruzada.
Eles são diretos e geralmente mais rápidos e requerem menos recursos
computacionais quando comparados aos métodos wrapper.
Existem vários métodos de filtro, como o teste qui-quadrado, método de pontuação de
Fisher, coeficiente de correlação, limiar de variância, método de diferença média absoluta
(MAD), razões de dispersão, etc.

Métodos Wrapper:
Esses métodos precisam de algum tipo de método para pesquisar avidamente em todos os
subconjuntos de recursos possíveis, acessar sua qualidade aprendendo e avaliando um
classificador com o recurso.
A técnica de seleção é construída sobre o algoritmo de aprendizado de máquina no qual o

conjunto de dados fornecido precisa se encaixar.
Existem três tipos de métodos wrapper, são eles:
Seleção direta: Aqui, um recurso é testado por vez e novos recursos são
adicionados até que um bom ajuste seja obtido.
Seleção Reversa: Aqui, todos os recursos são testados e os que não se encaixam
são eliminados um a um para ver ao verificar qual funciona melhor.
Eliminação recursiva de recursos: os recursos são verificados recursivamente e

avaliados quanto ao seu desempenho.
Esses métodos geralmente são computacionalmente intensivos e requerem recursos

avançados para análise. Mas esses métodos geralmente levam a melhores modelos preditivos
com maior precisão do que os métodos de filtro.

Métodos embutidos:
Os métodos incorporados constituem as vantagens dos métodos de filtro e wrapper,

incluindo interações de recursos, mantendo custos computacionais razoáveis.
Esses métodos são iterativos, pois pegam cada iteração do modelo e extraem
cuidadosamente os recursos que contribuem para a maior parte do treinamento nessa iteração.
Exemplos de métodos embarcados: LASSO Regularization (L1), Random Forest
Importance.
22. O tratamento de variáveis categóricas como variáveis contínuas

resultará em um modelo preditivo melhor?
Sim! Uma variável categórica é uma variável que pode ser atribuída a duas ou mais
categorias sem ordenação de categoria definida. As variáveis ordinais são semelhantes às
variáveis categóricas com definições de ordenação adequadas e claras. Portanto, se a variável
for ordinal, tratar o valor categórico como uma variável contínua resultará em modelos preditivos
melhores.
23. Como você tratará os valores ausentes durante a análise de dados?

O impacto dos valores omissos pode ser conhecido após a identificação de que tipo de variáveis
possuem os valores omissos.
Se o analista de dados encontrar algum padrão nesses valores ausentes, haverá

chances de encontrar insights significativos.
No caso de padrões não serem encontrados, esses valores ausentes podem ser
ignorados ou substituídos por valores padrão, como valores médios, mínimos, máximos
ou medianos.
Se os valores ausentes pertencerem a variáveis categóricas, eles serão atribuídos com valores
padrão. Se os dados tiverem uma distribuição normal, os valores médios serão atribuídos aos
valores ausentes.
Se faltarem 80% dos valores, então depende do analista substituí-los por valores padrão ou
descartar as variáveis.
24. O que representa a Curva ROC e como criá-la?

A curva ROC (Receiver Operating Characteristic) é uma representação gráfica do contraste entre
taxas de falsos positivos e taxas de verdadeiros positivos em diferentes limiares.
A curva é usada como proxy para um trade-off entre sensibilidade e especificidade.
A curva ROC é criada traçando valores de taxas de verdadeiros positivos (TPR ou sensibilidade)
contra taxas de falsos positivos (FPR ou (especificidade 1)). TPR representa a proporção de
observações corretamente previstas como positivas de observações positivas gerais. O FPR
representa a proporção de observações incorretamente previstas de observações negativas gerais.
Considere o exemplo de testes médicos, o TPR representa a taxa na qual as pessoas são
corretamente testadas como positivas para uma determinada doença.

25. Quais são as diferenças entre análise univariada,

bivariada e multivariada?
As análises estatísticas são classificadas com base no número de variáveis processadas em um
determinado momento.

análise univariada análise bivariada Análise multivariada
Esta análise trata do Esta análise trata da

Esta análise lida com
estudo estatístico de análise estatística de
a solução de apenas
duas variáveis em um mais de duas variáveis e
uma variável por vez.
determinado momento. estuda as respostas.
Exemplo: Estudo da
relação entre os hábitos
de mídia social do ser
Exemplo: humano e sua auto-estima,
Exemplo: gráficos de gráfico de dispersão que depende de vários
pizza de vendas com base de vendas e estudo fatores, como idade,
no território. de análise de volume número de horas gastas,
de gastos. status de emprego, status
de relacionamento, etc.
26. Qual é a diferença entre o conjunto de teste e a validação

definir?
O conjunto de teste é usado para testar ou avaliar o desempenho do modelo treinado. Avalia o
poder preditivo do modelo.
O conjunto de validação faz parte do conjunto de treinamento usado para selecionar parâmetros
para evitar o overfitting do modelo.
27. O que você entende por truque do kernel?

As funções de kernel são funções de produto escalar generalizadas usadas para calcular o
produto escalar dos vetores xx e yy em um espaço de recursos de alta dimensão. O método de
truque de Kernal é usado para resolver um problema não linear usando um classificador linear,
transformando dados linearmente inseparáveis em separáveis em dimensões superiores.
28. Diferencie box plot de histograma.

Gráficos de caixa e histogramas são visualizações usadas para mostrar distribuições de dados para
comunicação eficiente de informações.
Histogramas são a representação em gráfico de barras de informações que representam a
frequência de valores de variáveis numéricas que são úteis para estimar distribuição de
probabilidade, variações e outliers.
Boxplots são usados para comunicar diferentes aspectos da distribuição de dados onde a forma da
distribuição não é vista, mas ainda assim as percepções podem ser coletadas. Eles são úteis para
comparar vários gráficos ao mesmo tempo, pois ocupam menos espaço quando comparados aos
histogramas.
29. Como você equilibrará/corrigirá dados desbalanceados?

Existem diferentes técnicas para corrigir/balancear dados desbalanceados. Isso pode ser feito
aumentando os números da amostra para classes minoritárias. O número de amostras pode ser
diminuído para aquelas classes com pontos de dados extremamente altos. A seguir estão algumas
abordagens seguidas para balancear os dados:
Use as métricas de avaliação corretas: em casos de dados desequilibrados, é

muito importante usar as métricas de avaliação corretas que fornecem informações
valiosas.
Especificidade/Precisão: Indica o número de instâncias selecionadas que são

relevantes.
Sensibilidade: indica o número de instâncias relevantes selecionadas.
Pontuação F1: Representa a média harmônica de precisão e sensibilidade.
MCC (coeficiente de correlação de Matthews): representa o coeficiente de
correlação entre classificações binárias observadas e previstas.
AUC (Área sob a curva): representa uma relação entre as taxas de verdadeiros
positivos e as taxas de falsos positivos.
Por exemplo, considere o gráfico abaixo que ilustra os dados de treinamento:
Aqui, se medirmos a precisão do modelo em termos de obtenção de "0"s, a precisão do

modelo seria muito alta -> 99,9%, mas o modelo não garante nenhuma informação valiosa.
Nesses casos, podemos aplicar diferentes métricas de avaliação conforme indicado acima.

Reamostragem do conjunto de treinamento: também é possível equilibrar os dados

trabalhando na obtenção de diferentes conjuntos de dados e isso pode ser obtido por meio da
reamostragem. Existem duas abordagens seguidas de subamostragem que são usadas com base
no caso de uso e nos requisitos:
Subamostragem Isso equilibra os dados reduzindo o tamanho da classe
abundante e é usado quando a quantidade de dados é suficiente. Ao fazer isso,
um novo conjunto de dados balanceado pode ser recuperado e usado para modelagem
posterior.
Over-sampling É usado quando a quantidade de dados não é suficiente. Este método
equilibra o conjunto de dados tentando aumentar o tamanho das amostras. Em vez de se
livrar de amostras extras, novas amostras são geradas e introduzidas empregando os métodos
de repetição, bootstrap, etc.
Realize a validação cruzada K-fold corretamente: A validação cruzada precisa ser
aplicada corretamente ao usar a sobreamostragem. A validação cruzada deve ser feita antes da
sobreamostragem, porque se for feita depois, seria como sobreajustar o modelo para obter um
resultado específico. Para evitar isso, a reamostragem dos dados é feita repetidamente com
diferentes proporções.
30. O que é melhor - floresta aleatória ou árvores de decisão múltiplas?

A floresta aleatória é melhor do que várias árvores de decisão, pois as florestas aleatórias são muito mais robustas, precisas
e menos propensas a superajuste, pois é um método de conjunto que garante que várias árvores de decisão fracas aprendam
fortemente.
31. Considere um caso em que você sabe que a probabilidade de encontrar

pelo menos uma estrela cadente em um intervalo de 15 minutos é de 30%.
Avalie a probabilidade de encontrar pelo menos uma estrela cadente
em uma hora?
Sabemos que,
Probabilidade de encontrar pelo menos 1 estrela cadente em 15 min = P(avistar em 15min) = 30% = Portanto,
Probabilidade de não avistar nenhuma estrela cadente em 15 min = 1-P(avistar em 15min) = 1-0,3 = 0,7
Probabilidade de não encontrar estrela cadente em 1 hora =

0,7^4 = 0,1372
Probabilidade de encontrar pelo menos

1 estrela cadente em 1 hora = 1-0,1372 =
0,8628
Então a probabilidade é 0,8628 = 86,28%
32. Jogue a moeda selecionada 10 vezes de uma jarra com 1.000 moedas.
De 1000 moedas, 999 moedas são honestas e 1 moeda tem duas caras,
suponha que você veja 10 caras. Estime a probabilidade de obter cara
no próximo lançamento da moeda.
Sabemos que existem dois tipos de moedas - justas e de duas cabeças. Portanto, existem duas maneiras possíveis de escolher
uma moeda. A primeira é escolher uma moeda honesta e a segunda é escolher uma moeda com 2 caras.
P(selecionando moeda honesta) = 999/1000 = 0,999
P(selecionando moeda de duas cabeças) = 1/1000 = 0,001
Usando a regra de Bayes,

P(selecionando 10 caras em linha) = P(selecionando moeda honesta)* Obtendo 10 caras + P(selecionando d

P(selecionando 10 caras em linha) = P(A)+P(B)
P (A) = 0,999 * (1/2)^10 = 0,999 *

(1/1024) = 0,000976
0,001 P(P (B)
A / =(A +
B) ) = 0,000976 / (0,000976 +
* 1 = 0,001
0,001)
= 0,4939
P( B / (A + B)) = 0,001 / 0,001976 = 0,5061
P(selecionando cara no
próximo lance) = P(A/A+B) * 0,5 + P(B/A+B) * = 0,4939 0,5 + 0,5061 = 0,7531 1
*
Portanto, a resposta é 0,7531 ou 75,3%.
33. Quais são alguns exemplos de falsos positivos comprovados

importante do que falso negativo?
Antes de citar exemplos, vamos entender o que são falsos positivos e falsos negativos.
Falsos positivos são aqueles casos que foram erroneamente identificados como um evento, mesmo
que não fossem. Eles são chamados de erros do tipo I.
Os Falsos Negativos são aqueles casos que foram erroneamente identificados como não-eventos,
apesar de serem um evento. Eles são chamados de erros do tipo II.
Alguns exemplos em que os falsos positivos foram mais importantes do que os falsos negativos são:

Na área médica: considere que um relatório de laboratório previu câncer para um paciente,
mesmo que ele não tivesse câncer. Este é um exemplo de um erro falso positivo. É perigoso
iniciar a quimioterapia para esse paciente, pois ele não tem câncer, pois iniciar a quimioterapia
causaria danos às células saudáveis e poderia até mesmo levar ao câncer.
No campo do e-commerce: Suponha que uma empresa decida iniciar uma campanha em que
oferece vouchers de $ 100 gi para a compra de itens no valor de $ 10.000 sem nenhuma
condição mínima de compra. Eles assumem que isso resultaria em pelo menos 20% de lucro
para itens vendidos acima de $ 10.000. E se os vouchers forem dados aos clientes que não
compraram nada, mas foram marcados erroneamente como aqueles que compraram $ 10.000
em produtos? É o caso do erro falso positivo.
34. Dê um exemplo em que tanto os falsos positivos quanto os

falsos negativos são igualmente importantes.
Nos campos bancários: Os empréstimos concedidos são as principais fontes de receita dos bancos.
Mas se a taxa de reembolso não for boa, existe o risco de grandes perdas em vez de lucros.
Portanto, conceder empréstimos a clientes é uma aposta, pois os bancos não podem correr o risco
de perder bons clientes, mas, ao mesmo tempo, não podem se dar ao luxo de adquirir clientes
ruins. Este caso é um exemplo clássico de igual importância em cenários de falso positivo e falso
negativo.
35. É bom fazer redução de dimensionalidade antes de ajustar um

modelo de vetor de suporte?
Se o número de recursos for maior que as observações, a redução da dimensionalidade

melhora o SVM (Modelo de vetor de suporte).
36. Quais são as várias suposições usadas na regressão linear?

O que aconteceria se eles fossem violados?
A regressão linear é feita sob as seguintes suposições:

Os dados de amostra usados para modelagem representam toda a população.

Existe uma relação linear entre a variável do eixo X e a média da variável Y.
A variância residual é a mesma para quaisquer valores de X. Isso é chamado de

homocedasticidade. As observações são independentes umas das outras.
Y é distribuído normalmente para qualquer valor de X.
Violações extremas das suposições acima levam a resultados redundantes. Violações menores resultam
em maior variação ou viés das estimativas.
37. Como é realizada a seleção de recursos usando a regularização

método?
O método de regularização envolve a adição de penalidades a diferentes parâmetros no modelo

de aprendizado de máquina para reduzir a liberdade do modelo para evitar o problema de overfitting.
Existem vários métodos de regularização disponíveis, como regularização de modelo linear,

regularização Lasso/L1, etc. A regularização de modelo linear aplica penalidade sobre coeficientes que
multiplicam os preditores. A regularização Lasso/L1 tem a característica de reduzir alguns coeficientes a zero,
tornando-o elegível para ser removido do modelo.
38. Como você identifica se uma moeda é viciada?

Para identificar isso, realizamos um teste de hipótese conforme abaixo:
De acordo com a hipótese nula, a moeda não é viciada se a probabilidade de sair cara for 50%. De
acordo com a hipótese alternativa, a moeda é viciada e a probabilidade não é igual a 500. Execute as
etapas abaixo:
Jogue uma moeda 500

vezes Calcule o valor-p.
Compare o valor-p com o alfa -> resultado do teste bicaudal (0,05/2 = 0,025). Dois casos a seguir
podem ocorrer:
p-valor > alfa: Então a hipótese nula é válida e a moeda não é viciada. p-valor < alfa: Então a
hipótese nula é rejeitada e a moeda é viciada.

39. Qual é a importância da redução de dimensionalidade?
O processo de redução de dimensionalidade consiste em reduzir o número de características em um

conjunto de dados para evitar o overfitting e reduzir a variância. Existem principalmente 4 vantagens
deste processo:
Isso reduz o espaço de armazenamento e o tempo de execução do modelo.

Elimina o problema de multicolinearidade, melhorando assim a interpretação dos
parâmetros do modelo de ML.
Facilita a visualização dos dados quando as dimensões são reduzidas.
Evita a maldição da dimensionalidade aumentada.
40. Qual é a diferença entre o parâmetro de pesquisa em grade e a estratégia

de ajuste de pesquisa aleatória?
Estratégias de ajuste são usadas para encontrar o conjunto certo de hiperparâmetros. Hiperparâmetros
são aquelas propriedades que são fixas e específicas do modelo antes que o modelo seja testado ou
treinado no conjunto de dados. Tanto a busca em grade quanto as estratégias de ajuste de busca
aleatória são técnicas de otimização para encontrar hiperparâmetros eficientes.
Pesquisa de grade:
Aqui, todas as combinações de uma lista predefinida de hiperparâmetros são testadas e

avaliadas.
O padrão de pesquisa é semelhante à pesquisa em uma grade onde os valores estão em
uma matriz e uma pesquisa é executada. Cada conjunto de parâmetros é testado e sua
precisão é rastreada. Após cada combinação ser testada, o modelo com maior precisão é
escolhido como o melhor.
A principal desvantagem aqui é que, se o número de hiperparâmetros for aumentado,
a técnica será prejudicada. O número de avaliações pode aumentar exponencialmente
com cada aumento no hiperparâmetro. Isso é chamado de problema de dimensionalidade
em uma pesquisa em grade.

Pesquisa aleatória:
Nesta técnica, combinações aleatórias de conjuntos de hiperparâmetros são testadas

e avaliadas para encontrar a melhor solução. Para otimizar a busca, a função é testada
em configurações aleatórias no espaço de parâmetros conforme a imagem abaixo.
Nesse método, há maiores chances de encontrar parâmetros ótimos porque o padrão

seguido é aleatório. Há chances de que o modelo seja treinado em parâmetros otimizados
sem a necessidade de aliasing.
Essa pesquisa funciona melhor quando há um número menor de dimensões, pois leva
menos tempo para encontrar o conjunto certo.
Conclusão:
A ciência de dados é um campo muito vasto e abrange muitos tópicos, como mineração de
dados, análise de dados, visualização de dados, aprendizado de máquina, aprendizado profundo e, o
mais importante, baseia-se em conceitos matemáticos como álgebra linear e análise estatística. Como
existem muitos pré-requisitos para se tornar um bom Cientista de Dados profissional, as vantagens e
benefícios são muito grandes. O Cientista de Dados se tornou a função mais procurada atualmente.
Neste artigo, vimos as perguntas mais comuns em entrevistas sobre ciência de dados, tanto para
iniciantes quanto para experientes.
Recursos úteis:

Links para Mais Entrevista

Questões
C Perguntas da entrevista Perguntas da entrevista PHP C Sharp Perguntas da entrevista
Entrevista API Web Entrevista de hibernação Perguntas da entrevista do Node Js
Questões Questões
Perguntas da entrevista CPP Ops Perguntas da entrevista Perguntas da entrevista Devops
Entrevista de aprendizado de máquina Perguntas da entrevista do Docker Perguntas da entrevista do Mysql
Questões
Perguntas da entrevista sobre CSS Perguntas da entrevista do Laravel Perguntas da entrevista do Asp Net
Perguntas da entrevista do Django Perguntas da entrevista Dot Net Entrevista do Kubernetes

Questões
Entrevista do sistema operacional Reagir entrevista nativa Perguntas da entrevista de Aws
Questões Questões
Perguntas da entrevista do Git Perguntas da entrevista sobre Java 8 Entrevista do Mongodb

Questões
Dbms Perguntas da entrevista Spring Boot Entrevista Perguntas da entrevista do Power Bi
Questões
Perguntas da entrevista Pl Sql Entrevista do Tableau Perguntas da entrevista sobre Linux
Questões
Perguntas da entrevista do Ansible Perguntas da entrevista do Java Perguntas da entrevista de Jenkins

Ciencia de Dados

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Ciencia de Dados

Enviado por

Direitos autorais:

Formatos disponíveis

Machine Translated by Google

Entrevista de ciência de dados

Para ver a versão ao vivo do

© Copyright por Interviewbit

Perguntas de entrevista sobre ciência de dados para calouros

2. Qual é a diferença entre análise de dados e ciência de dados?

4. Liste as condições para Overfitting e Underfitting.

5. Diferencie os dados de formato longo e largo.

6. O que são autovetores e autovalores?

7. O que significa quando os valores-p são altos e baixos?

8. Quando é feita a reamostragem?

9. O que você entende por Dados Desequilibrados?

10. Existem diferenças entre o valor esperado e o valor médio?

11. O que você entende por Viés de Sobrevivência?

12. Defina os termos KPI, li, ajuste do modelo, robustez e DOE.

13. Defina variáveis de confusão.

Perguntas de entrevista de ciência de dados para experientes

16. O que é validação cruzada?

17. Quais são as diferenças entre correlação e covariância?

Página 1 © Copyright por Interviewbit

Perguntas da entrevista sobre ciência de dados

Perguntas de entrevista de ciência de dados para

19. Por que precisamos de viés de seleção?

22. O tratamento de variáveis categóricas como variáveis contínuas resultará em um modelo

23. Como você tratará os valores ausentes durante a análise de dados?

24. O que representa a Curva ROC e como criá-la?

25. Quais são as diferenças entre univariado, bivariado e multivariado

26. Qual é a diferença entre o conjunto de teste e o conjunto de validação?

27. O que você entende por truque do kernel?

28. Diferencie box plot de histograma.

29. Como você equilibrará/corrigirá dados desbalanceados?

30. O que é melhor - floresta aleatória ou árvores de decisão múltiplas?

Perguntas de entrevista de ciência de dados para

39. Qual é a importância da redução de dimensionalidade?

40. Como o parâmetro de pesquisa de grade é diferente do ajuste de pesquisa aleatória

Página 3 © Copyright por Interviewbit

Página 4 © Copyright por Interviewbit

Perguntas da entrevista sobre ciência de dados

Ao longo dos anos, a ciência de dados ganhou importância generalizada devido à

Perguntas de entrevista sobre ciência de dados para calouros

1. O que se entende pelo termo Data Science?

A figura a seguir representa o ciclo de vida da ciência de dados.

Página 5 © Copyright por Interviewbit

Perguntas da entrevista sobre ciência de dados

Começa com a coleta dos requisitos de negócios e dados relevantes.

2. Qual é a diferença entre análise de dados e dados

Página 6 © Copyright por Interviewbit

Perguntas da entrevista sobre ciência de dados

3. Quais são algumas das técnicas usadas para amostragem? O que é

página 7 © Copyright por Interviewbit

Perguntas da entrevista sobre ciência de dados

Existem principalmente duas categorias de técnicas de amostragem baseadas no uso de estatísticas,

Técnicas de Amostragem Probabilística: Amostragem Agrupada, Amostragem Aleatória

4. Liste as condições para Overfitting e Underfitting.

página 8 © Copyright por Interviewbit

Perguntas da entrevista sobre ciência de dados

Página 9 © Copyright por Interviewbit

Perguntas da entrevista sobre ciência de dados

5. Diferencie os dados de formato longo e largo.

Dados de formato longo Dados em grande formato

Aqui, cada linha dos dados

Os dados podem ser

Esse formato de dados raramente