wikipediaillustrated

tutoriales

[2021] Algoritmo de aprendizaje automático del vecino más cercano (KNN) {DH}

k nearest neighbor algorithm for machine learning

  • El vecino más cercano K es uno de los algoritmos de aprendizaje automático más simples basado en la técnica de aprendizaje supervisado.
  • El algoritmo K-NN asume la similitud entre el nuevo caso/datos y los casos disponibles y coloca el nuevo caso en la categoría que más se parece a las categorías disponibles.
  • El algoritmo K-NN almacena todos los datos disponibles y clasifica un nuevo punto de datos en función de la similitud. Esto significa que cuando aparecen nuevos datos, se pueden colocar fácilmente en una categoría bien definida utilizando el algoritmo K-NN.
  • El algoritmo K-NN se puede usar tanto para la regresión como para la clasificación, pero se usa principalmente para problemas de clasificación.
  • ANA es una Algoritmo no paramétricolo que significa que no se hacen suposiciones sobre los datos subyacentes.
  • También llamado algoritmo de aprendizaje perezoso ya que no aprende del conjunto de entrenamiento inmediatamente, sino que almacena el conjunto de datos y realiza una acción en el conjunto de datos en el momento de la clasificación.
  • El algoritmo ANN simplemente almacena el conjunto de datos en la fase de entrenamiento y cuando recibe nuevos datos, clasifica esos datos en una categoría que es muy similar a los nuevos datos.
  • Ejemplo: Supongamos que tenemos una imagen de una criatura que parece un gato y un perro, pero queremos saber si es un gato o un perro. Entonces para esta identificación podemos usar el algoritmo KNN ya que trabaja con una medida de similitud. Nuestro modelo ANN encuentra las características similares a las imágenes de perros y gatos en el nuevo conjunto de datos y las asigna a la categoría de gato o perro en función de las características más similares.

Algoritmo de aprendizaje automático del vecino más cercano (KNN)

¿Por qué necesitamos un algoritmo K-NN?

Supongamos que hay dos categorías, es decir, la categoría A y la categoría B y tenemos un nuevo punto de datos x1, por lo que este punto de datos pertenecerá a cuál de estas categorías. Para resolver este tipo de problemas necesitamos un algoritmo K-NN. Con la ayuda de K-NN, podemos identificar fácilmente la categoría o clase de un registro en particular. Considere el siguiente diagrama:

Algoritmo de aprendizaje automático del vecino más cercano (KNN)

¿Cómo funciona K-NN?

El funcionamiento de K-NN se puede explicar mediante el siguiente algoritmo:

  • Paso 1: Seleccione el número K de vecinos
  • Paso 2: Calcular la distancia euclidiana K número de vecinos
  • Paso 3: Tome los K vecinos más cercanos en función de la distancia euclidiana calculada.
  • Paso 4: Entre estos k vecinos, cuente el número de puntos de datos en cada categoría.
  • Paso 5: Asigne los nuevos puntos de datos a la categoría para la cual el número de vecinos es máximo.
  • Paso 6: Nuestro modelo está listo.

Supongamos que tenemos un nuevo punto de datos y necesitamos clasificarlo en la categoría requerida. Considere la siguiente imagen:

Algoritmo de aprendizaje automático del vecino más cercano (KNN)

  • Primero elegimos el número de vecinos, entonces elegimos k = 5.
  • A continuación calculamos el distancia euclidiana entre los puntos de datos. La distancia euclidiana es la distancia entre dos puntos, que ya hemos estudiado en geometría. Se puede calcular de la siguiente manera:

Algoritmo de aprendizaje automático del vecino más cercano (KNN)

  • Al calcular la distancia euclidiana, obtenemos los vecinos más cercanos, p. B. Tres vecinos más cercanos en la categoría A y dos vecinos más cercanos en la categoría B. Considere la siguiente imagen:

Algoritmo de aprendizaje automático del vecino más cercano (KNN)

  • Como podemos ver, los 3 vecinos más cercanos pertenecen a la categoría A, por lo que este nuevo punto de datos debe pertenecer a la categoría A.

¿Cómo elegir el valor de K en el algoritmo K-NN?

Aquí hay algunos puntos a considerar al elegir el valor de K en el algoritmo K-NN:

  • No existe una forma específica de determinar el mejor valor para «K», por lo que tendremos que probar algunos valores para encontrar el mejor. El valor más preferido para K es 5.
  • Un valor muy bajo de K, como B. K = 1 o K = 2, puede ser ruidoso y causar efectos de fuga en el modelo.
  • Los valores altos de K son buenos, pero puede encontrar algunas dificultades.

Ventajas del algoritmo ANN:

  • Es fácil de implementar.
  • Es resistente a los datos de entrenamiento ruidosos.
  • Puede ser más eficiente cuando los datos de entrenamiento son grandes.

Desventajas del algoritmo KNN:

  • Siempre es necesario determinar el valor de K, que puede ser complejo en algún punto.
  • El esfuerzo de cálculo es alto debido al cálculo de la distancia entre los puntos de datos para todos los patrones de entrenamiento.

Implementación de Python del algoritmo KNN

Para realizar la implementación de Python del algoritmo K-NN, usamos el mismo problema y conjunto de datos que usamos en la regresión logística. Pero aquí vamos a mejorar el rendimiento del modelo. A continuación se muestra la descripción del problema:

Problema para el algoritmo K-NN: Hay un fabricante de automóviles que ha construido un nuevo automóvil SUV. La compañía quiere difundir los anuncios a los usuarios interesados ​​en comprar este SUV. Entonces, para este problema, tenemos un conjunto de datos que contiene información de múltiples usuarios de la red social. El registro contiene mucha información, pero el salario estimado Y Años Consideramos para la variable independiente y la variable comprada es para la variable dependiente. A continuación se muestra el conjunto de…

. Referencia:

leer mas: [2021] Algoritmo de aprendizaje automático del vecino más cercano (KNN) {DH}

Puede que también te guste...

Deja una respuesta

Tu dirección de correo electrónico no será publicada.