20 perguntas mais populares da entrevista da ciência dos dados

20 perguntas mais populares da entrevista da ciência dos dados
Author

R Bhargav

Last updated May 22, 2018


  • 86323 Views

A Harvard Business Review referiu-se a ela como "O trabalho mais sexy do século 21". A Glassdoor a colocou na primeira posição na lista dos 25 Melhores Empregos na América. Segundo a IBM, a demanda por esse papel vai subir 28% até 2020.

Não é de surpreender que, na nova era do Big Data e do aprendizado de máquina , os cientistas de dados estejam se tornando estrelas do rock. As empresas capazes de alavancar grandes quantidades de dados para melhorar a maneira como atendem clientes, constroem produtos e administram suas operações estarão posicionadas para prosperar nessa economia.

É simplesmente impossível ignorar a importância dos dados e nossa capacidade de analisá-los, consolidá-los e contextualizá-los. Os cientistas de dados são confiáveis ​​para preencher essa necessidade, mas há uma grave escassez de candidatos qualificados em todo o mundo.

Se você está indo pelo caminho de ser um cientista de dados, precisa estar preparado para impressionar os possíveis empregadores com o seu conhecimento. Além de explicar por que a ciência de dados é tão importante, você precisará mostrar que é tecnicamente proficiente com conceitos, estruturas e aplicativos de Big Data.

Aqui está uma lista de 20 das perguntas mais populares que você pode esperar em uma entrevista e como enquadrar suas respostas.

1. O que são vetores de recursos?

Responda:

Um vetor de recurso é um vetor n-dimensional de recursos numéricos que representam algum objeto. Em aprendizado de máquina, vetores de características são usados ​​para representar características numéricas ou simbólicas, chamadas de recursos, de um objeto de uma maneira matemática, facilmente analisável.

2. Explique os passos em fazer uma árvore de decisão.

Responda:

  1. Pegue o conjunto de dados inteiro como entrada.
  2. Procure uma divisão que maximize a separação das classes. Uma divisão é qualquer teste que divide os dados em dois conjuntos.
  3. Aplique a divisão aos dados de entrada (etapa de divisão).
  4. Volte a aplicar os passos 1 a 2 aos dados divididos.
  5. Pare quando você atender a alguns critérios de parada.
  6. Essa etapa é chamada de poda. Limpe a árvore se você foi longe demais fazendo divisões.

3. O que é análise de causa raiz?

Responda:

A análise de causa raiz foi inicialmente desenvolvida para analisar acidentes industriais, mas agora é amplamente usada em outras áreas. É uma técnica de solução de problemas usada para isolar as causas de falhas ou problemas. Um fator é chamado de causa raiz, se a sua dedução da sequência de falha do problema evita que o evento indesejável final ocorra novamente.

4. O que é regressão logística?

Responda:

A regressão logística também é conhecida como o modelo logit. É uma técnica para prever o resultado binário a partir de uma combinação linear de variáveis ​​preditoras.

5. O que são sistemas de recomendação?

Responda:

Os sistemas de recomendação são uma subclasse de sistemas de filtragem de informações destinados a prever as preferências ou classificações que um usuário daria a um produto.

6. Explique a validação cruzada.

Responda:

É uma técnica de validação de modelo para avaliar como os resultados de uma análise estatística serão generalizados para um conjunto de dados independente. É usado principalmente em contextos nos quais o objetivo é previsto e se deseja estimar com que precisão um modelo será realizado na prática. O objetivo da validação cruzada é denominar um conjunto de dados para testar o modelo na fase de treinamento (ou seja, conjunto de dados de validação) para limitar problemas como ajuste excessivo e obter insight sobre como o modelo será generalizado para um conjunto de dados independente.

7. O que é Filtragem Colaborativa?

Responda:

O processo de filtragem usado pela maioria dos sistemas de recomendação para encontrar padrões e informações, colaborando perspectivas, várias fontes de dados e vários agentes.

8. Os métodos de gradiente descendente sempre convergem para um ponto similar?

Responda:

Não, eles não, porque em alguns casos eles atingem um mínimo local ou um ponto ótimo local. Você não alcançaria o ponto ótimo global. Isso é governado pelos dados e pelas condições iniciais.

9. Qual é o objetivo do teste A / B?

Responda:

Este é um teste de hipótese estatística para experimentos aleatórios com duas variáveis, A e B. O objetivo do teste A / B é detectar quaisquer alterações em uma página da Web para maximizar ou aumentar o resultado de uma estratégia.

10. Quais são os inconvenientes do modelo linear?

Responda:

Algumas desvantagens do modelo linear são:

  • A suposição de linearidade dos erros.
  • Não pode ser usado para resultados de contagem ou resultados binários
  • Há problemas de overfitting que não podem resolver

Nervoso sobre sua entrevista? Inscreva-se em nosso curso de Ciência de Dados e entre na sua próxima entrevista com confiança.

11. Qual é a lei de Grandes números?

Responda:

É um teorema que descreve o resultado de realizar o mesmo experimento um grande número de vezes. Este teorema forma a base do pensamento de estilo de frequência. Ele diz que a média da amostra, a variância da amostra e o desvio padrão da amostra convergem para o que eles estão tentando estimar.

12. O que são variáveis ​​confusas?

Responda:

Estas são variáveis ​​estranhas em um modelo estatístico que se correlacionam direta ou inversamente com a variável dependente e a independente. A estimativa não leva em conta o fator de confusão.

13. Explique o esquema em estrela.

Responda:

É um esquema de banco de dados tradicional com uma tabela central. As tabelas de satélite mapeiam IDs para nomes ou descrições físicas e podem ser conectadas à tabela de fatos central usando os campos de ID; Essas tabelas são conhecidas como tabelas de consulta e são úteis principalmente em aplicativos em tempo real, pois economizam muita memória. Às vezes, os esquemas em estrela envolvem várias camadas de sumarização para recuperar informações mais rapidamente.

14. Com que frequência um algoritmo deve ser atualizado?

Responda:

Você desejará atualizar um algoritmo quando:

  • Você quer que o modelo evolua como fluxos de dados através da infraestrutura
  • A fonte de dados subjacente está mudando
  • Existe um caso de não-estacionariedade

[Planejando a Certificação de Ciência de Dados em R - Programação? Aqui estão 100 questões de fundações da Data Science. Faça este teste prático gratuito para saber onde você está !]

15. O que são autovalores e autovetores?

Responda:

Autovetores são para entender transformações lineares. Na análise de dados, geralmente calculamos os autovetores para uma matriz de correlação ou covariância. Autovalores são as direções ao longo das quais uma transformação linear particular atua invertendo, comprimindo ou esticando.

16. Por que a reamostragem é feita?

Responda:

A reamostragem é feita em qualquer um destes casos:

  • Estimando a precisão das estatísticas de amostra usando subconjuntos de dados acessíveis ou desenhando aleatoriamente com a substituição de um conjunto de pontos de dados
  • Substituindo rótulos em pontos de dados ao realizar testes de significância
  • Validando modelos usando subconjuntos aleatórios (bootstrapping, cross validation)

17. Explique o viés seletivo.

Responda:

O viés de seleção, em geral, é uma situação problemática na qual o erro é introduzido devido a uma amostra populacional não aleatória.

18. Quais são os tipos de vieses que podem ocorrer durante a amostragem?

Responda:

  • Viés de seleção
  • Sob polarização de cobertura
  • Viés de sobrevivência

19. Explique o viés de sobrevivência.

Responda:

É o erro lógico de focalizar aspectos que suportam sobreviver a algum processo e negligenciar casualmente aqueles que não o fizeram por causa de sua falta de destaque. Isso pode levar a conclusões erradas em vários meios diferentes.

20. Como você trabalha em direção a uma floresta aleatória?

Responda:

O princípio subjacente desta técnica é que vários alunos fracos combinados para fornecer um aluno forte. Os passos envolvidos são

  • Construa várias árvores de decisão em amostras de dados de treinamento inicializadas
  • Em cada árvore, cada vez que uma divisão é considerada, uma amostra aleatória de preditores de mm é escolhida como candidatos divididos, dentre todos os preditores de pp
  • Regra de ouro: a cada divisão m = p√m = p
  • Previsões: Na regra da maioria

Para os cientistas de dados, o trabalho não é fácil, mas é gratificante e há muitas vagas disponíveis por aí. Certifique-se de preparar-se para os rigores da entrevista e ficar em forma com as porcas e parafusos da ciência de dados.

Aqui estão 50 dados da ciência com perguntas do exame de Python. Faça este teste prático gratuito para saber onde você está!

Find our Data Science Certification Training - R Programming Online Classroom training classes in top cities:

Name Date Place
Data Science Certification Training - R Programming 6 Oct -4 Nov 2018, Weekend batch Your City View Details
Data Science Certification Training - R Programming 15 Oct -31 Oct 2018, Weekdays batch Your City View Details
Data Science Certification Training - R Programming 27 Oct -25 Nov 2018, Weekend batch Your City View Details

About the Author

An experienced process analyst at Simplilearn, the author specializes in adapting current quality management best practices to the needs of fast-paced digital businesses. An MS in MechEng with over eight years of professional experience in various domains, Bhargav was previously associated with Paradox Interactive, The Creative Assembly, and Mott MacDonald LLC.


{{detail.h1_tag}}

{{detail.display_name}}
{{author.author_name}} {{author.author_name}}

{{author.author_name}}

{{detail.full_name}}

Published on {{detail.created_at| date}} {{detail.duration}}

  • {{detail.date}}
  • Views {{detail.downloads}}
  • {{detail.time}} {{detail.time_zone_code}}

Registrants:{{detail.downloads}}

Downloaded:{{detail.downloads}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Webinar'}}

Hosted By

Profile

{{author.author_name}}

{{author.author_name}}

{{author.about_author}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook' }}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook' }}

View {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

Webcast

Register Now!

Download the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook'}}!

First Name*
Last Name*
Email*
Company*
Phone Number*

View {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

Webcast

Register Now!

{{detail.about_title && detail.about_title != null ? detail.about_title : 'Webinar'}} Expired

Download the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook'}}

Email
{{ queryPhoneCode }}
Phone Number

Show full article video

Name Date Place
{{classRoomData.Date}} {{classRoomData.Place}} View Details

About the Author

{{detail.author_biography}}

About the Author

{{author.about_author}}