Escolar Documentos
Profissional Documentos
Cultura Documentos
Questões
Conteúdo
3. Quais são algumas das técnicas usadas para amostragem? Qual é a principal vantagem
de amostragem?
15. Suponha que haja um conjunto de dados com variáveis com valores ausentes de mais de
30%, como você lidará com esse conjunto de dados?
18. Como você aborda a solução de qualquer projeto baseado em análise de dados?
20. Por que a limpeza de dados é crucial? Como você limpa os dados?
21. Quais são os métodos de seleção de recursos disponíveis para selecionar as variáveis corretas
para construir modelos preditivos eficientes?
31. Considere um caso em que você sabe que a probabilidade de encontrar pelo menos uma estrela
cadente em um intervalo de 15 minutos é de 30%. Avalie a probabilidade de encontrar pelo
menos uma estrela cadente em uma hora?
32. Jogue a moeda selecionada 10 vezes de uma jarra com 1.000 moedas. De 1000 moedas, 999
moedas são honestas e 1 moeda tem duas caras, suponha que você veja 10 caras.
Estime a probabilidade de obter cara no próximo lançamento da moeda.
33. Quais são alguns exemplos em que o falso positivo provou ser mais importante do que o falso
negativo?
34. Dê um exemplo em que tanto os falsos positivos quanto os falsos negativos são importantes
igualmente?
35. É bom fazer redução de dimensionalidade antes de ajustar um modelo de vetor de suporte?
36. Quais são as várias suposições usadas na regressão linear? O que aconteceria se eles fossem
violados?
Machine
37.
Como Translated
Como feitabya Google
vocêé identifica
seleção
se umademoeda
atributos pelo método de regularização? © Copyright
é viciada? by Page 2 38.
Interviewbit
Perguntas da entrevista sobre ciência de dados
Vamos começar
Introdução:
A ciência de dados é um campo interdisciplinar que extrai dados brutos, analisa-os e cria
padrões que são usados para extrair insights valiosos deles. Estatística, ciência da
computação, aprendizado de máquina, aprendizado profundo, análise de dados, visualização
de dados e várias outras tecnologias formam a base principal da ciência de dados.
Neste artigo, exploraremos quais são as perguntas de entrevista mais comuns que ajudarão cientistas
de dados aspirantes e experientes.
Depois que as etapas exploratórias são concluídas, os dados limpos são submetidos a vários
algoritmos, como análise preditiva, regressão, mineração de texto, padrões de reconhecimento etc.,
dependendo dos requisitos.
Na etapa final, os resultados são comunicados ao negócio de forma visualmente atraente. É
aqui que a habilidade de visualização de dados, relatórios e diferentes ferramentas de inteligência
de negócios entram em cena.
A ciência de dados envolve a tarefa de transformar dados usando vários métodos de análise
técnica para extrair insights significativos que um analista de dados pode aplicar a seus
cenários de negócios.
A análise de dados lida com a verificação das hipóteses e informações existentes e responde
a perguntas para uma tomada de decisão melhor e eficaz relacionada aos negócios
processo.
A ciência de dados impulsiona a inovação respondendo a perguntas que criam conexões e
respostas para problemas futuristas. A análise de dados se concentra em obter o significado
atual do contexto histórico existente, enquanto a ciência de dados se concentra na modelagem
preditiva.
A ciência de dados pode ser considerada como um assunto amplo que faz uso de várias
ferramentas e algoritmos matemáticos e científicos para resolver problemas complexos,
enquanto a análise de dados pode ser considerada como um campo específico que lida com
problemas concentrados específicos usando menos ferramentas de estatísticas e visualização.
O diagrama de Venn a seguir descreve claramente a diferença entre ciência de dados e
análise:
A análise de dados não pode ser feita em um volume inteiro de dados de uma só vez, especialmente
quando envolve conjuntos de dados maiores. Torna-se crucial obter algumas amostras de dados que
possam ser usadas para representar toda a população e, em seguida, realizar análises sobre ela. Ao fazer
isso, é muito necessário retirar cuidadosamente os dados de amostra dos enormes dados que realmente
representam todo o conjunto de dados.
Underfitting: Aqui, o modelo é tão simples que não é capaz de identificar a relação correta
nos dados e, portanto, não funciona bem mesmo nos dados de teste.
Isso pode acontecer devido ao alto viés e baixa variância. A regressão linear é mais
propensa a Underfitting.
Uma matriz pode ser decomposta em autovetores e autovalores e este processo é chamado de decomposição
autonoma. Estes são eventualmente usados em métodos de aprendizado de máquina como PCA (Análise
de Componentes Principais) para coletar informações valiosas da matriz fornecida.
Valor p baixo, que significa valores ÿ 0,05, significa que a hipótese nula pode ser rejeitada e os dados
são improváveis com nulo verdadeiro.
Valor p alto, ou seja, valores ÿ 0,05 indica a força a favor da hipótese nula. Isso significa que
os dados são como verdadeiro nulo. p-valor = 0,05 significa que a hipótese pode ir de
qualquer maneira.
Não há muitas diferenças entre esses dois, mas deve-se notar que eles são usados em
contextos diferentes. O valor médio geralmente se refere à distribuição de probabilidade,
enquanto o valor esperado é referido nos contextos envolvendo variáveis aleatórias.
KPI: KPI significa Key Performance Indicator que mede o quão bem o negócio
atinge seus objetivos.
Li: Esta é uma medida de desempenho do modelo de destino medido em relação a
um modelo de escolha aleatória. Li indica o quão bom o modelo é na previsão versus se
não houvesse modelo.
Ajuste do modelo: indica o quão bem o modelo em consideração se ajusta a
determinadas observações.
Robustez: Isso representa a capacidade do sistema de lidar com diferenças e variações
de forma eficaz.
DOE: representa o design de experimentos, que representa o design de tarefas com
o objetivo de descrever e explicar a variação de informações sob condições hipotéticas
para refletir variáveis.
Os dados de séries temporais podem ser pensados como uma extensão da regressão linear que
usa termos como autocorrelação, movimento de médias para resumir dados históricos de variáveis
do eixo y para prever um futuro melhor.
Previsão e previsão é o principal objetivo dos problemas de séries temporais, onde previsões
precisas podem ser feitas, mas às vezes as razões subjacentes podem não ser conhecidas.
Ter Tempo no problema não significa necessariamente que ele se torne um problema de série
temporal. Deve haver uma relação entre o alvo e o tempo para que um problema se torne um
problema de série temporal.
Espera-se que as observações próximas umas das outras no tempo sejam semelhantes às distantes,
o que fornece responsabilidade pela sazonalidade. Por exemplo, o clima de hoje seria semelhante ao
clima de amanhã, mas não semelhante ao clima daqui a 4 meses. Assim, a previsão do tempo com
base em dados passados torna-se um problema de séries temporais.
15. Suponha que haja um conjunto de dados com variáveis com valores
ausentes de mais de 30%, como você lidará com esse conjunto de
dados?
Caso os conjuntos de dados sejam pequenos, os valores ausentes são substituídos pela média ou
média dos dados restantes. Em pandas, isso pode ser feito usando mean = df.mean() onde df
representa o dataframe do pandas representando o conjunto de dados e mean() calcula a média dos
dados. Para substituir os valores ausentes pela média calculada, podemos usar df.fillna(mean) .
Para conjuntos de dados maiores, as linhas com valores ausentes podem ser removidas e
os dados restantes podem ser usados para previsão de dados.
A validação cruzada é uma técnica estatística usada para melhorar o desempenho de um modelo.
Aqui, o modelo será treinado e testado com rotação usando diferentes amostras do conjunto de dados
de treinamento para garantir que o modelo funcione bem para dados desconhecidos. Os dados de
treinamento serão divididos em vários grupos e o modelo será executado e validado em relação a esses
grupos em rotação.
Método K-Fold
Deixar o método p-out
Método de deixar um de fora
Método de retenção
Embora esses dois termos sejam usados para estabelecer uma relação e dependência entre quaisquer
duas variáveis aleatórias, as seguintes são as diferenças entre elas:
Correlação: Esta técnica é usada para medir e estimar a relação quantitativa entre duas
variáveis e é medida em termos de quão fortes são as variáveis relacionadas.
covariânciaXY = E[(X-ÿX),(Y-ÿY)]
correlaçãoXY = E[(X-ÿX),(Y-ÿY)]/(ÿXÿY) de
modo que
Com base na fórmula acima, podemos deduzir que a correlação é adimensional enquanto a
covariância é representada em unidades que são obtidas a partir da multiplicação de unidades de
duas variáveis.
18. Como você aborda a resolução de qualquer análise de dados com base
projeto?
Por exemplo, na imagem abaixo, podemos ver que a amostra que selecionamos
não representa totalmente toda a população que temos. Isso nos ajuda a
questionar se selecionamos os dados certos para análise ou não.
20. Por que a limpeza de dados é crucial? Como você limpa os dados?
Métodos de filtro:
Esses métodos pegam apenas as propriedades intrínsecas dos recursos que são
medidos por meio de estatísticas univariadas e não por desempenho de validação cruzada.
Eles são diretos e geralmente mais rápidos e requerem menos recursos
computacionais quando comparados aos métodos wrapper.
Existem vários métodos de filtro, como o teste qui-quadrado, método de pontuação de
Fisher, coeficiente de correlação, limiar de variância, método de diferença média absoluta
(MAD), razões de dispersão, etc.
Métodos Wrapper:
Esses métodos precisam de algum tipo de método para pesquisar avidamente em todos os
subconjuntos de recursos possíveis, acessar sua qualidade aprendendo e avaliando um
classificador com o recurso.
Métodos embutidos:
Esses métodos são iterativos, pois pegam cada iteração do modelo e extraem
cuidadosamente os recursos que contribuem para a maior parte do treinamento nessa iteração.
Exemplos de métodos embarcados: LASSO Regularization (L1), Random Forest
Importance.
O impacto dos valores omissos pode ser conhecido após a identificação de que tipo de variáveis
possuem os valores omissos.
A curva ROC é criada traçando valores de taxas de verdadeiros positivos (TPR ou sensibilidade)
contra taxas de falsos positivos (FPR ou (especificidade 1)). TPR representa a proporção de
observações corretamente previstas como positivas de observações positivas gerais. O FPR
representa a proporção de observações incorretamente previstas de observações negativas gerais.
Considere o exemplo de testes médicos, o TPR representa a taxa na qual as pessoas são
corretamente testadas como positivas para uma determinada doença.
Exemplo: Estudo da
relação entre os hábitos
de mídia social do ser
Exemplo: humano e sua auto-estima,
Exemplo: gráficos de gráfico de dispersão que depende de vários
pizza de vendas com base de vendas e estudo fatores, como idade,
no território. de análise de volume número de horas gastas,
de gastos. status de emprego, status
de relacionamento, etc.
O conjunto de teste é usado para testar ou avaliar o desempenho do modelo treinado. Avalia o
poder preditivo do modelo.
O conjunto de validação faz parte do conjunto de treinamento usado para selecionar parâmetros
para evitar o overfitting do modelo.
As funções de kernel são funções de produto escalar generalizadas usadas para calcular o
produto escalar dos vetores xx e yy em um espaço de recursos de alta dimensão. O método de
truque de Kernal é usado para resolver um problema não linear usando um classificador linear,
transformando dados linearmente inseparáveis em separáveis em dimensões superiores.
Existem diferentes técnicas para corrigir/balancear dados desbalanceados. Isso pode ser feito
aumentando os números da amostra para classes minoritárias. O número de amostras pode ser
diminuído para aquelas classes com pontos de dados extremamente altos. A seguir estão algumas
abordagens seguidas para balancear os dados:
A floresta aleatória é melhor do que várias árvores de decisão, pois as florestas aleatórias são muito mais robustas, precisas
e menos propensas a superajuste, pois é um método de conjunto que garante que várias árvores de decisão fracas aprendam
fortemente.
Sabemos que,
Probabilidade de encontrar pelo menos 1 estrela cadente em 15 min = P(avistar em 15min) = 30% = Portanto,
Probabilidade de não avistar nenhuma estrela cadente em 15 min = 1-P(avistar em 15min) = 1-0,3 = 0,7
32. Jogue a moeda selecionada 10 vezes de uma jarra com 1.000 moedas.
De 1000 moedas, 999 moedas são honestas e 1 moeda tem duas caras,
suponha que você veja 10 caras. Estime a probabilidade de obter cara
no próximo lançamento da moeda.
Sabemos que existem dois tipos de moedas - justas e de duas cabeças. Portanto, existem duas maneiras possíveis de escolher
uma moeda. A primeira é escolher uma moeda honesta e a segunda é escolher uma moeda com 2 caras.
Falsos positivos são aqueles casos que foram erroneamente identificados como um evento, mesmo
que não fossem. Eles são chamados de erros do tipo I.
Os Falsos Negativos são aqueles casos que foram erroneamente identificados como não-eventos,
apesar de serem um evento. Eles são chamados de erros do tipo II.
Alguns exemplos em que os falsos positivos foram mais importantes do que os falsos negativos são:
Na área médica: considere que um relatório de laboratório previu câncer para um paciente,
mesmo que ele não tivesse câncer. Este é um exemplo de um erro falso positivo. É perigoso
iniciar a quimioterapia para esse paciente, pois ele não tem câncer, pois iniciar a quimioterapia
causaria danos às células saudáveis e poderia até mesmo levar ao câncer.
No campo do e-commerce: Suponha que uma empresa decida iniciar uma campanha em que
oferece vouchers de $ 100 gi para a compra de itens no valor de $ 10.000 sem nenhuma
condição mínima de compra. Eles assumem que isso resultaria em pelo menos 20% de lucro
para itens vendidos acima de $ 10.000. E se os vouchers forem dados aos clientes que não
compraram nada, mas foram marcados erroneamente como aqueles que compraram $ 10.000
em produtos? É o caso do erro falso positivo.
Nos campos bancários: Os empréstimos concedidos são as principais fontes de receita dos bancos.
Mas se a taxa de reembolso não for boa, existe o risco de grandes perdas em vez de lucros.
Portanto, conceder empréstimos a clientes é uma aposta, pois os bancos não podem correr o risco
de perder bons clientes, mas, ao mesmo tempo, não podem se dar ao luxo de adquirir clientes
ruins. Este caso é um exemplo clássico de igual importância em cenários de falso positivo e falso
negativo.
Violações extremas das suposições acima levam a resultados redundantes. Violações menores resultam
em maior variação ou viés das estimativas.
p-valor > alfa: Então a hipótese nula é válida e a moeda não é viciada. p-valor < alfa: Então a
hipótese nula é rejeitada e a moeda é viciada.
Estratégias de ajuste são usadas para encontrar o conjunto certo de hiperparâmetros. Hiperparâmetros
são aquelas propriedades que são fixas e específicas do modelo antes que o modelo seja testado ou
treinado no conjunto de dados. Tanto a busca em grade quanto as estratégias de ajuste de busca
aleatória são técnicas de otimização para encontrar hiperparâmetros eficientes.
Pesquisa de grade:
Pesquisa aleatória:
Conclusão:
A ciência de dados é um campo muito vasto e abrange muitos tópicos, como mineração de
dados, análise de dados, visualização de dados, aprendizado de máquina, aprendizado profundo e, o
mais importante, baseia-se em conceitos matemáticos como álgebra linear e análise estatística. Como
existem muitos pré-requisitos para se tornar um bom Cientista de Dados profissional, as vantagens e
benefícios são muito grandes. O Cientista de Dados se tornou a função mais procurada atualmente.
Neste artigo, vimos as perguntas mais comuns em entrevistas sobre ciência de dados, tanto para
iniciantes quanto para experientes.
Recursos úteis:
Questões Questões
Questões
Perguntas da entrevista sobre CSS Perguntas da entrevista do Laravel Perguntas da entrevista do Asp Net
Questões Questões
Questões
Questões