¿Qué son las redes neuronales convolucionales?


Existen diferentes tipos de redes neuronales convolucionales, incluidas las CNN tradicionales, las redes neuronales recurrentes, las redes convolucionales completas y las redes de transformación espacial, entre otras.

CNN tradicionales

Las CNN tradicionales, también conocidas como CNN “vainilla”, consisten en una serie de capas convolucionales y de agrupación, seguidas de una o más capas completamente conectadas. Como se mencionó anteriormente, cada capa convolucional de esta red realiza una serie de convoluciones con una colección de filtros que se pueden aprender para extraer características de la imagen de entrada.

La arquitectura Lenet-5, una de las primeras CNN eficaces para el reconocimiento de dígitos escritos a mano, ejemplifica una CNN tradicional. Tiene dos conjuntos de capas de convolución y agrupación que siguen a dos capas completamente conectadas. La eficiencia de CNN en el reconocimiento de imágenes ha sido probada por la arquitectura Lenet-5, que también la ha hecho más utilizada en tareas de visión por computadora.

Una arquitectura del modelo Lenet 5

Redes neuronales recurrentes

Las redes neuronales recurrentes (RNN) son un tipo de redes neuronales que pueden procesar datos secuenciales rastreando el contexto de entradas anteriores. Las redes neuronales repetitivas pueden procesar entradas de diferentes longitudes y producir salidas que dependen de las entradas anteriores, a diferencia de las redes neuronales de avance típicas, que solo procesan los datos de entrada en un orden fijo.

Por ejemplo, los RNN se pueden usar en actividades de PNL, como la generación de texto o la traducción de idiomas. Se puede entrenar una red neuronal recurrente sobre pares de oraciones en dos idiomas diferentes para aprender a traducir entre los dos.

Una arquitectura de una red neuronal recurrente

La RNN procesa los registros uno por uno y en cada paso produce un registro de salida dependiendo del registro de entrada y la salida anterior. La RNN puede producir traducciones correctas incluso para textos complejos porque rastrea entradas y salidas pasadas.

Redes completamente plegadas

Las redes totalmente convolucionales (FCN) son un tipo de arquitectura de red neuronal comúnmente utilizada en tareas de visión artificial, como la segmentación de imágenes, la detección de objetos y la clasificación de imágenes. Los FCN se pueden entrenar continuamente mediante la retropropagación para categorizar o segmentar imágenes.

Backpropagation es un algoritmo de entrenamiento que calcula los gradientes de la función de pérdida en términos de los pesos de una red neuronal. La capacidad de un modelo de aprendizaje automático para predecir el resultado esperado para una entrada determinada se mide mediante una función de pérdida.

Las FCN se basan únicamente en capas convolucionales, ya que no tienen capas completamente conectadas, lo que las hace más adaptables y computacionalmente eficientes que las redes neuronales convolucionales tradicionales. Una red que acepta una imagen de entrada y genera la ubicación y clasificación de objetos dentro de la imagen es un ejemplo de una FCN.

Red de transformador espacial

Una red de transformadores espaciales (STN) se utiliza en tareas de visión por computadora para mejorar la invariancia espacial de las características aprendidas de la red. La capacidad de una red neuronal para reconocer patrones u objetos en una imagen independientemente de su ubicación geográfica, orientación o tamaño se denomina invariancia espacial.

Una red que aplica una transformación espacial aprendida a una imagen de entrada antes del procesamiento posterior es un ejemplo de una STN. La transformación podría usarse para alinear objetos en la imagen, corregir distorsiones de perspectiva o realizar otros cambios espaciales para mejorar el rendimiento de la red en un trabajo específico.

Una transformación se refiere a cualquier operación que cambia una imagen de alguna manera, como B. rotar, escalar o recortar. La alineación se refiere al proceso de asegurar que los objetos en una imagen estén centrados, alineados o posicionados de manera consistente y significativa.

La distorsión de perspectiva se produce cuando los objetos de una imagen aparecen deformados o distorsionados debido al ángulo o la distancia desde la que se tomó la imagen. Aplicar múltiples transformaciones matemáticas a la imagen, como B. Las transformaciones afines se pueden utilizar para corregir la distorsión de la perspectiva. Las transformaciones afines conservan las líneas paralelas y las relaciones de distancia entre puntos para corregir las distorsiones de perspectiva u otros cambios espaciales en una imagen.

Los cambios espaciales se refieren a cualquier cambio en la estructura espacial de una imagen, como B. Voltear, rotar o mover la imagen. Estos cambios pueden aumentar los datos de entrenamiento o abordar desafíos específicos en la tarea, como: B. variaciones de iluminación, contraste o fondo.



Sé el primero en comentar

Dejar una contestacion

Tu dirección de correo electrónico no será publicada.


*