Vantaggi dei modelli di trasformatore per il rilevamento di oggetti nelle applicazioni di visione artificiale

Nelle applicazioni di visione artificiale come la guida autonoma, la produzione intelligente e la sorveglianza, il rilevamento accurato degli oggetti è fondamentale. Nel corso degli anni sono stati sviluppati vari modelli di intelligenza artificiale, tra cui YOLO, Faster R-CNN, Mask R-CNN, RetinaNet e altri, per rilevare e interpretare oggetti in immagini o video. Tuttavia, i modelli di trasformatori si sono rivelati soluzioni più efficaci per il rilevamento degli oggetti.

Il sistema visivo umano può identificare rapidamente gli oggetti in base alle loro dimensioni, colore e profondità, filtrando i dettagli dello sfondo irrilevanti. Allo stesso modo, un modello di intelligenza artificiale dovrebbe essere in grado di concentrarsi su oggetti importanti, filtrare lo sfondo e classificarli accuratamente. Ciò richiede l'acquisizione degli oggetti target e l'esecuzione di previsioni basate sull'addestramento del modello.

I sistemi di visione artificiale oggi utilizzano sensori di immagine e lenti che alimentano un blocco specializzato di elaborazione del segnale di immagine (ISP). L'output di questo blocco viene quindi elaborato da acceleratori o CPU generiche per ulteriori analisi.

I requisiti di rilevamento degli oggetti variano a seconda dell'applicazione. Negli scenari di sorveglianza e di fabbrica, la visione artificiale può essere utilizzata per contare le persone o rilevare difetti nelle linee di produzione. Nelle applicazioni automobilistiche, la visione artificiale viene utilizzata per sistemi avanzati di assistenza alla guida (ADAS) come la frenata di emergenza automatica e l'assistenza al mantenimento della corsia.

I modelli Transformer, inclusi Oriented Object Detection with Transformer (O2DETR) e DEtection TRansformer (DETR), offrono numerosi vantaggi rispetto ai modelli tradizionali come Faster R-CNN. Hanno design più semplici e utilizzano un approccio di rilevamento degli oggetti end-to-end a passaggio singolo. DETR, ad esempio, utilizza la codifica e la decodifica del trasformatore, insieme a una serie di perdite di previsioni per rafforzare la corrispondenza tra previsioni e verità di base.

A differenza dei modelli tradizionali che si basano su scatole di ancoraggio e soppressione non massima, i modelli di trasformatore come DETR elaborano i dati in parallelo e possono gestire oggetti sovrapposti senza questi passaggi aggiuntivi. Ciò rende i modelli di trasformatore più efficienti e accurati per il rilevamento degli oggetti.

In conclusione, i modelli di trasformatori hanno rivoluzionato il rilevamento di oggetti nelle applicazioni di visione artificiale. La loro capacità di catturare oggetti importanti, filtrare i dettagli dello sfondo e classificare accuratamente gli oggetti li rende una scelta preferita rispetto ai modelli tradizionali. I progressi nello sviluppo di hardware e software stanno anche aprendo la strada a veicoli autonomi che si basano su input di sensori e capacità avanzate di visione artificiale.