Vantaggi dei modelli di trasformatore per il rilevamento di oggetti nelle applicazioni di visione artificiale
CasaCasa > Notizia > Vantaggi dei modelli di trasformatore per il rilevamento di oggetti nelle applicazioni di visione artificiale

Vantaggi dei modelli di trasformatore per il rilevamento di oggetti nelle applicazioni di visione artificiale

Jul 03, 2023

Nelle applicazioni di visione artificiale come la guida autonoma, la produzione intelligente e la sorveglianza, il rilevamento accurato degli oggetti è fondamentale. Nel corso degli anni sono stati sviluppati vari modelli di intelligenza artificiale, tra cui YOLO, Faster R-CNN, Mask R-CNN, RetinaNet e altri, per rilevare e interpretare oggetti in immagini o video. Tuttavia, i modelli di trasformatori si sono rivelati soluzioni più efficaci per il rilevamento degli oggetti.

Il sistema visivo umano può identificare rapidamente gli oggetti in base alle loro dimensioni, colore e profondità, filtrando i dettagli dello sfondo irrilevanti. Allo stesso modo, un modello di intelligenza artificiale dovrebbe essere in grado di concentrarsi su oggetti importanti, filtrare lo sfondo e classificarli accuratamente. Ciò richiede l'acquisizione degli oggetti target e l'esecuzione di previsioni basate sull'addestramento del modello.

I sistemi di visione artificiale oggi utilizzano sensori di immagine e lenti che alimentano un blocco specializzato di elaborazione del segnale di immagine (ISP). L'output di questo blocco viene quindi elaborato da acceleratori o CPU generiche per ulteriori analisi.

I requisiti di rilevamento degli oggetti variano a seconda dell'applicazione. Negli scenari di sorveglianza e di fabbrica, la visione artificiale può essere utilizzata per contare le persone o rilevare difetti nelle linee di produzione. Nelle applicazioni automobilistiche, la visione artificiale viene utilizzata per sistemi avanzati di assistenza alla guida (ADAS) come la frenata di emergenza automatica e l'assistenza al mantenimento della corsia.

I modelli Transformer, inclusi Oriented Object Detection with Transformer (O2DETR) e DEtection TRansformer (DETR), offrono numerosi vantaggi rispetto ai modelli tradizionali come Faster R-CNN. Hanno design più semplici e utilizzano un approccio di rilevamento degli oggetti end-to-end a passaggio singolo. DETR, ad esempio, utilizza la codifica e la decodifica del trasformatore, insieme a una serie di perdite di previsioni per rafforzare la corrispondenza tra previsioni e verità di base.

A differenza dei modelli tradizionali che si basano su scatole di ancoraggio e soppressione non massima, i modelli di trasformatore come DETR elaborano i dati in parallelo e possono gestire oggetti sovrapposti senza questi passaggi aggiuntivi. Ciò rende i modelli di trasformatore più efficienti e accurati per il rilevamento degli oggetti.

In conclusione, i modelli di trasformatori hanno rivoluzionato il rilevamento di oggetti nelle applicazioni di visione artificiale. La loro capacità di catturare oggetti importanti, filtrare i dettagli dello sfondo e classificare accuratamente gli oggetti li rende una scelta preferita rispetto ai modelli tradizionali. I progressi nello sviluppo di hardware e software stanno anche aprendo la strada a veicoli autonomi che si basano su input di sensori e capacità avanzate di visione artificiale.