Os 10 engenheiros de aprendizado de máquina de algoritmos precisam saber

Os 10 engenheiros de aprendizado de máquina de algoritmos precisam saber
Author

Simon Tavasoli

Last updated April 10, 2018


  • 15220 Views

Em um mundo onde quase todas as tarefas manuais estão sendo automatizadas, a definição de manual está mudando. Os algoritmos de Aprendizado de Máquina podem ajudar os computadores a jogar xadrez, realizar cirurgias e ficar mais inteligentes e pessoais.

Estamos vivendo uma era de constante progresso tecnológico e, olhando como a computação avançou ao longo dos anos, podemos prever o que está por vir nos próximos dias.

Uma das principais características desta revolução que se destaca é como as ferramentas e técnicas de computação foram democratizadas. Nos últimos cinco anos, os cientistas de dados construíram sofisticadas máquinas de processamento de dados, executando com perfeição técnicas avançadas. Os resultados foram surpreendentes.

Como aprender esses algoritmos vitais pode aprimorar suas habilidades em Aprendizado de Máquina

Se você é um cientista de dados ou um entusiasta de aprendizado de máquina, pode usar essas técnicas para criar projetos funcionais de Aprendizado de Máquina:

Existem 3 tipos de técnicas de Aprendizado de Máquina:

técnicas para usar

Todas as 3 técnicas são usadas nesta lista de 10 Algoritmos de Aprendizado de Máquina comuns:

1. Regressão Linear

Para entender a funcionalidade de trabalho desse algoritmo, imagine como você organizaria logs aleatórios de madeira em ordem crescente de seu peso. Há um problema, no entanto - você não pode realmente pesar cada registro. Você tem que adivinhar seu peso apenas olhando para a altura e perímetro do log (análise visual) e organizá-los usando uma combinação desses parâmetros visíveis. É assim que a regressão linear é.

Nesse processo, uma relação é estabelecida entre variáveis ​​independentes e dependentes, ajustando-as a uma linha. Esta linha é conhecida como linha de regressão e representada por uma equação linear Y = a * X + b.

Nesta equação:

  • Y - Variável Dependente
  • a - Inclinação
  • X - variável independente
  • b - Interceptar

Os coeficientes a & b são derivados minimizando a soma da diferença quadrática da distância entre os pontos de dados e a linha de regressão.

algoritmos de aprendizado de máquina

2. Regressão Logística

A regressão logística é usada para estimar valores discretos (geralmente valores binários como 0/1) de um conjunto de variáveis ​​independentes. Isso ajuda a prever a probabilidade de um evento ajustando dados a uma função logit. Também é chamado de regressão logit.

Estes métodos listados abaixo são freqüentemente usados ​​para ajudar a melhorar os modelos de regressão logística:

  • incluir termos de interação
  • eliminar recursos
  • regularizar técnicas
  • Use um modelo não linear

3 Árvore de Decisão

Um dos mais populares algoritmos de aprendizado de máquina atualmente em uso, este é um algoritmo de aprendizado supervisionado que é usado para classificar problemas. Funciona bem classificando para variáveis ​​dependentes categóricas e contínuas. Neste algoritmo, dividimos a população em dois ou mais conjuntos homogêneos com base nos atributos mais significativos / variáveis ​​independentes.

Interessado em dar uma olhada no Curso de Aprendizado de Máquina? Clique para assistir a visualização do curso aqui

4. SVM (3.Support Vector Machine)

O SVM é um método de classificação no qual você grava dados brutos como pontos em um espaço n-dimensional (onde n é o número de recursos que você possui). O valor de cada recurso é então vinculado a uma determinada coordenada, facilitando a classificação dos dados. Linhas chamadas classificadores podem ser usadas para dividir os dados e plotá-los em um gráfico.

5. Naive Bayes

Um classificador Naive Bayes assume que a presença de um recurso específico em uma classe não está relacionada à presença de nenhum outro recurso.

Mesmo se esses recursos estiverem relacionados entre si, um classificador Naive Bayes consideraria todas essas propriedades independentemente ao calcular a probabilidade de um determinado resultado.

Um modelo Naive Bayesiano é fácil de construir e útil para conjuntos de dados massivos. É simples e é conhecido por superar até mesmo métodos de classificação altamente sofisticados

6. KNN (K - vizinhos mais próximos)

Esse algoritmo pode ser aplicado a problemas de classificação e regressão. Aparentemente, dentro da indústria de Data Science, é mais amplamente usado para resolver problemas de classificação. É um algoritmo simples que armazena todos os casos disponíveis e classifica quaisquer novos casos, tomando uma votação majoritária de seus vizinhos k. O caso é então atribuído à classe com a qual ele tem mais em comum. Uma função de distância executa esta medição.

O KNN pode ser facilmente entendido comparando-o com a vida real. Por exemplo, se você quiser informações sobre uma pessoa, faz sentido conversar com seus amigos e colegas!

Coisas a considerar antes de selecionar KNN:

  • KNN é computacionalmente caro
  • As variáveis ​​devem ser normalizadas, ou então variáveis ​​de intervalo mais altas podem influenciar o algoritmo
  • Os dados ainda precisam ser pré-processados.

7. K-médias

Este é um algoritmo não supervisionado que resolve problemas de cluster. Conjuntos de dados são classificados em um determinado número de clusters (vamos chamar esse número K) de tal forma que todos os pontos de dados dentro de um cluster são homogêneos e heterogêneos dos dados em outros clusters.

Como K-significa clusters de formulários:

  • O algoritmo K-means seleciona k número de pontos, chamados centróides, para cada cluster
  • Cada ponto de dados forma um cluster com os centróides mais próximos, isto é, k clusters.
  • Ele agora cria novos centróides, com base nos membros de cluster existentes.
  • Com esses novos centróides, a distância mais próxima para cada ponto de dados é determinada. Este processo é repetido até que os centróides não mudem.

8. Floresta Aleatória

Um coletivo de árvores de decisão é chamado de Floresta Aleatória. Para classificar um novo objeto com base em seus atributos, cada árvore é classificada e a árvore “vota” para essa classe. A floresta escolhe a classificação com mais votos (sobre todas as árvores da floresta).

Cada árvore é plantada e crescida da seguinte forma:

  • Se o número de casos no conjunto de treinamento for N, então uma amostra de N casos é tomada aleatoriamente. Esta amostra será ser o conjunto de treinamento para o crescimento da árvore.
  • Se houver variáveis ​​de entrada M, um número m << M é especificado de tal forma que em cada nó, m variáveis ​​são selecionadas aleatoriamente fora do M e a melhor divisão nesses m é usada para dividir o nó. O valor de m é mantido constante durante este processo.
  • Cada árvore é cultivada na maior extensão possível. Não há poda.

9. Algoritmos de Redução de Dimensionalidade

No mundo de hoje, grandes quantidades de dados estão sendo armazenados e analisados ​​por empresas, agências governamentais e organizações de pesquisa. Como cientista de dados, você sabe que esses dados brutos contêm muitas informações - o desafio é identificar padrões e variáveis ​​significativos.

Algoritmos de redução de dimensionalidade como Árvore de Decisão, Análise Fatorial, Taxa de Valor Ausente e Floresta Aleatória podem ajudá-lo a encontrar detalhes relevantes.

10. Reforço de Gradiente e AdaBoost

Estes são impulsionando algoritmos usados ​​quando cargas massivas de dados precisam ser manipuladas para fazer previsões com alta precisão. O Boosting é um algoritmo de aprendizado conjunto que combina o poder preditivo de vários estimadores de base para melhorar a robustez.

Em suma, combina vários preditores fracos ou médios para um preditor forte de construção. Esses algoritmos de aprimoramento sempre funcionam bem em competições de ciência de dados como Kaggle, AV Hackathon, CrowdAnalytix. Esses são os algoritmos de aprendizado de máquina mais preferidos atualmente. Use-os junto com os códigos Python e R para obter resultados precisos.

Conclusão

Se você quiser Para construir uma carreira em aprendizado de máquina , comece imediatamente. O campo está crescendo rapidamente e, quanto mais cedo você entender o escopo das ferramentas de aprendizado de máquina, mais cedo poderá fornecer soluções para problemas complexos de trabalho.

Confira nosso curso sobre Aprendizado de Máquina Introdução

Find our Machine Learning Online Classroom training classes in top cities:

Name Date Place
Machine Learning 29 Sep -27 Oct 2018, Weekend batch Your City View Details
Machine Learning 6 Oct -3 Nov 2018, Weekend batch Your City View Details
Machine Learning 13 Oct -10 Nov 2018, Weekend batch Your City View Details

About the Author

Simon Tavasoli is a Business Analytics Lead with more than 12 years of hands-on and leadership experience in various industries. He has led the development of many analytic projects that drive product and marketing initiatives. He has more than 10 years of experience teaching Data Science, Data Visualization, Predictive Analytics, and Statistics.


{{detail.h1_tag}}

{{detail.display_name}}
{{author.author_name}} {{author.author_name}}

{{author.author_name}}

{{detail.full_name}}

Published on {{detail.created_at| date}} {{detail.duration}}

  • {{detail.date}}
  • Views {{detail.downloads}}
  • {{detail.time}} {{detail.time_zone_code}}

Registrants:{{detail.downloads}}

Downloaded:{{detail.downloads}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Webinar'}}

Hosted By

Profile

{{author.author_name}}

{{author.author_name}}

{{author.about_author}}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook' }}

About the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook' }}

View {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

Webcast

Register Now!

Download the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook'}}!

First Name*
Last Name*
Email*
Company*
Phone Number*

View {{detail.about_title && detail.about_title != null ? detail.about_title : 'On-Demand Webinar'}}

Webcast

Register Now!

{{detail.about_title && detail.about_title != null ? detail.about_title : 'Webinar'}} Expired

Download the {{detail.about_title && detail.about_title != null ? detail.about_title : 'Ebook'}}

Email
{{ queryPhoneCode }}
Phone Number

Show full article video

Name Date Place
{{classRoomData.Date}} {{classRoomData.Place}} View Details

About the Author

{{detail.author_biography}}

About the Author

{{author.about_author}}