Affiner la DETR (Détection d’objets avec Transformers) sur TensorFlow – Le Tutoriel
Introduction
Depuis la publication de l’article Attention is all you need en 2017, le paysage du traitement automatique du langage naturel (TAL, ou NLP en anglais) se tourne complètement vers des architectures basées sur des transformers.
En 2020, la plupart des modèles de vision par ordinateur (computer vision) reposaient encore entièrement sur les réseaux neuronaux convolutifs pour détecter et segmenter des images. Selon nos prévisions, 2021 sera une étape importante pour les algorithmes de détection et de segmentation. La combinaison convolution-transformers deviendra le choix par défaut de la plupart des utilisateurs.
En attendant cette nouvelle année, nous avions décidé de réaliser l’implémentation d’un DETR (Détection d’objet avec Transformers) en open-source sur TensorFlow avec du code pour l’inférence, de l’affinage et de l’entraînement !
- Référentiel TensorFlow : https://github.com/Visual-Behavior/detr-tensorflow
- Article sur le DETR https://arxiv.org/abs/2005.12872