Eye, Robot: una guida all’intelligenza artificiale per il riconoscimento delle immagini

Una mano robotica punta una proiezione, accanto a un robot con una faccia a matrice di punti.

E se ti dicessi che, oggi, ci sono macchine che possono vedere il mondo esterno in modo più dettagliato di te, un essere umano? È vero – siccome l’intelligenza artificiale ha ampliato la sua portata e capacità nel corso dell’ultimo secolo, siamo arrivati ad una fase in cui le macchine sono in grado di leggere le immagini e il mondo che le circonda come, se non meglio, di noi.

IA nel riconoscimento delle immagini: definizioni

Prima di tutto, cos’è l’IA per il riconoscimento delle immagini? Il modo in cui funziona è il seguente: attraverso l’uso di telecamere, algoritmi e programmi di apprendimento automatico, i computer possono “leggere” e riconoscere dati visivi, ad esempio immagini ed oggetti. L’obiettivo finale di questo processo è quello di dare alle macchine la possibilità di vedere il mondo come fanno gli esseri umani o vederlo in modo ancora più dettagliato. È un sottocampo di un’area molto più ampia di intelligenza artificiale chiamata computer vision, che include l’utilizzo dei computer per elaborare, classificare e ricostruire le immagini, tra le altre attività, tutte interconnesse. Il riconoscimento delle immagini è probabilmente una delle parti più importanti della computer vision, in quanto è la base su cui sono costruiti la maggior parte degli altri elementi. Alcuni esempi che potresti aver incontrato includono:

  • identificazione di targhe,
  • distinguere le copie di immagini dalla cosa reale,
  • diagnosi di malattie;[1]

Tutti questi elementi, e altri ancora, rendono il riconoscimento delle immagini una parte importante dello sviluppo dell’IA. Vediamo quindi come si è evoluto e qual è il suo significato oggi.

IA nel riconoscimento delle immagini: primi giorni

I primi anni 2000 videro la nascita di ciò che Oren Etzioni, Michele Banko e Michael Cafarella chiamavano “lettura automatica”. Nel 2006, hanno definito questa idea di comprensione non supervisionata del testo, che si sarebbe poi estesa a macchine in gradi di “leggere” oggetti e immagini. 

Ciò che noi consideriamo come riconoscimento di immagine ebbe inizio probabilmente nello stesso anno, quando Fei-Fei Li, iniziò il processo di creazione di Imagenet, un enorme database di immagini categorizzate che, in teoria, avrebbero permesso alle macchine di imparare le relazioni tra più oggetti. Entro il 2010, oltre 3 milioni di immagini erano disponibili su Imagenet, e il 2010 ha visto l’Imagenet Large Scale Visual Recognition Challenge, dove squadre di esperti di intelligenza artificiale si sono sfidate per vedere chi avrebbe potuto utilizzare al meglio il database.

Grafico che confronta il tasso di errore di Alexnet del 15,3% nel 2012 con la media del 25% nel 2012.

Nel 2012, l’evento è stato vinto da Alexnet, creato da un team dell’Università di Toronto, il cui tasso di errore è stato del 15,3%, rispetto a oltre il 25% per il resto dei partecipanti nel primo anno. [2]Questo notevole risultato ha probabilmente spianato la strada ad altri progressi, che esploreremo di seguito.

Nel 2012, Andrew Ng e Jeff Dean di Google hanno sviluppato una rete neurale in grado di rilevare immagini di gatti senza contesto di sfondo. L’anno successivo, la Carnegie Mellon University ha creato NEIL (Never Ending Image Learner), che si autodefinisce “un programma per computer che funziona 24 ore al giorno e 7 giorni alla settimana per estrarre automaticamente la conoscenza visiva dai dati di Internet”. [3][4]

Questo tipo di tecnologia si è diffusa in tutti i campi, da gruppi di energia rinnovabile agli strumenti per il controllo delle fototessere (Passport Photo Online fa uso di questa tecnologia per controllare le fototessere), il che la rende una forte aggiunta per lo sviluppo dell’IA. 

Oltre alla modifica delle fototessere, la capacità delle IA di leggere le immagini ha permesso a canali di social media come Facebook, YouTube e Instagram di censurare immagini e video inappropriati per il grande pubblico, come ad esempio contenuti cruenti o espliciti.

Il grafico mostra che l'intelligenza artificiale di YouTube ha rimosso il 70% dei video inappropriati prima che venissero visualizzati.

Nel primo trimestre del 2019, la sola IA di YouTube è riuscita a identificare e rimuovere oltre 6 milioni di video. Il 70% di questi è stato rimosso prima di ricevere anche una sola visualizzazione. [5]

Nella seconda metà del 2010, la lettura automatica ha assunto un ruolo maggiore in tutti i canali di social media. Dal 2015, Facebook ha utilizzato l’intelligenza artificiale per segnalare i post relativi a suicidi o autolesionismo per fornire aiuto e, nel 2017, YouTube ha iniziato a utilizzare l’intelligenza artificiale per segnalare i video relativi al terrorismo per bloccarne il caricamento.

Grafico che mostra come l'IA di YouTube abbia bloccato l'83% dei video estremisti prima che il team umano li vedesse.

Nel settembre di quell’anno, l’IA di YouTube ha bloccato l’83% dei video estremisti violenti prima che il team umano li vedesse. [6] Lo stesso mese in cui YouTube ha annunciato la sua iniziativa, Instagram ha iniziato a censurare i commenti più esplicitamente odiosi attraverso l’AI, espandendo in seguito la censura per chiedere agli utenti se fossero sicuri prima di inviare un commento potenzialmente offensivo. [7]

Inoltre, i sistemi diagnostici medici hanno beneficiato dei progressi in questo settore.

Grafico che mostra come l'IA di Etemadi abbia identificato correttamente il cancro al polmone in fase iniziale nel 94% dei casi.

Un sistema di intelligenza artificiale creato da Mozziyar Etemadi nel 2019 ha dato ottimi risultati identificando correttamente il cancro al polmone in fase iniziale nel 94% dei casi, un punteggio superiore a quello di 6 radiologi, tutti membri di lunga data del settore. Elizabeth Svoboda sottolinea l’importanza di questo progresso, citando il fatto che il 70% dei tumori polmonari viene diagnosticato troppo tardi per essere trattato. Dichiara che: “L’utilizzo dell’IA per individuare precocemente i tumori può effettivamente raddoppiare il tempo a disposizione degli oncologi per trattare un paziente”.[8]

IA nel riconoscimento delle immagini: una crescita rapida

Questi sistemi di lettura delle immagini si sono sviluppati gradualmente nei primi due decenni del 21º secolo.

Grafico che mostra l'aumento della precisione di identificazione degli oggetti dal 50% al 99%.

Il mondo ha visto un periodo di crescita particolarmente rapido, con un aumento dell’accuratezza dell’identificazione degli oggetti dal 50% al 99% in meno di un decennio.[9] Le nuove IA stanno beneficiando delle capacità di lettura delle immagini dei prodotti esistenti. NEIL è stato esplicitamente progettato per essere una risorsa in continua crescita che gli informatici possono utilizzare per sviluppare i propri esempi di riconoscimento delle immagini da parte delle IA. 

Grafico che mostra come NEIL abbia studiato 3 milioni di immagini e identificato 3000 relazioni in quattro mesi.

Tra il suo lancio nel luglio 2013 e il novembre dello stesso anno, NEIL è stato in grado di studiare 3 milioni di immagini e, attraverso l’analisi del contenuto, ha appreso 3000 relazioni (ad esempio, “la zebra si trova nella Savana”).[10]

Grafico che mostra l’accuratezza relativa di Google Vision, Amazon Rekognition e Microsoft Azure.

Uno studio condotto da Perficient Digital su quattro delle principali IA per il riconoscimento delle immagini ha testato la loro capacità di riconoscere i tag delle immagini, rivelando che, nel 2019, molte IA si stanno avvicinando ai livelli di abilità umana. Google Vision, ad esempio, ha ottenuto un punteggio di accuratezza dell’81,7% nel suo test, con un ritardo di solo il 6% rispetto al controllo umano. Vision non è un’eccezione: anche Amazon Rekognition e Microsoft Azure hanno ottenuto un punteggio elevato (rispettivamente 77,7% e 75,8%).[11]

Il riconoscimento delle immagini nell’intelligenza artificiale: il futuro

Anche con tutti questi progressi, siamo ancora agli inizi di ciò che la tecnologia IA di riconoscimento delle immagini sarà in grado di fare.

Grafico che mostra la crescita potenziale del mercato della computer vision da 8,4 miliardi di dollari a 150,6 miliardi di dollari.

Secondo una ricerca di Market Watch, nel 2021 il mercato globale dell’intelligenza artificiale per la computer vision è stato valutato a 8,4 miliardi di dollari. Si prevede che raggiungerà i 150,6 miliardi di dollari entro il 2030. Si tratta di un aumento del 1792,86%, un incremento davvero enorme.[12] Verified Market Research ottiene un risultato simile, prevedendo che le dimensioni del mercato globale della computer vision passeranno da 7,04 miliardi di dollari nel 2020 a 144,46 miliardi di dollari nel 2028.[13] Allied Market Research è ancora più ottimista, prevedendo che le dimensioni del mercato aumenteranno a 207,09 dollari entro il 2030.[14]

Le ragioni di questo aumento sono molteplici. Scrivendo per Forbes, Naveen Joshi, fondatore e CEO della società di ingegneria Allerin, afferma che: “Non solo le tecnologie di computer vision saranno più facili da addestrare, ma saranno anche in grado di discernere dalle immagini più di quanto non facciano ora”[15] Facciolo sostiene che l’innovazione futura “si basa su [algoritmi] di deep learning… [che] funzionano… costruendo reti neurali profonde che simulano il meccanismo del cervello umano e poi interpretano e analizzano i dati, come immagini, video e testi”. “Sathish B, nel frattempo, prevede che sarà proprio l’adozione diffusa degli strumenti di riconoscimento facciale a portarne un nuovo successo in futuro, spinto dal “crescente utilizzo di dispositivi mobili e dalla richiesta di un forte rilevamento e prevenzione delle frodi”.[17]

Avendo visto la velocità con cui NEIL ha sviluppato le sue conoscenze, è logico aspettarsi che insieme ad altri database simili contribuisca ad aumentare il tasso di avanzamento dell’IA. Gli ingegneri e gli informatici che hanno creato l’IA per il riconoscimento delle immagini sono partiti da zero, ma i progettisti di oggi hanno una grande quantità di conoscenze pregresse a cui attingere quando creano le loro IA. Dopo tutto, abbiamo già visto che NEIL è stato originariamente progettato per essere utilizzato come risorsa in questo modo. 

Poiché l’IA in generale è destinata a espandersi nei prossimi anni, è probabile che l’IA per il riconoscimento delle immagini possa trarne vantaggio. Steyn cita un sondaggio di Forrester secondo cui oltre l’80% delle organizzazioni prevede un aumento dei casi di utilizzo dell’IA, che secondo lui comprenderanno in gran parte la computer vision.[18] Possiamo vedere il potenziale di sviluppo combinando l’IA della computer vision con altre forme di IA. Al di fuori del mondo degli affari, Joshi suggerisce che il software di riconoscimento delle immagini potrebbe essere utilizzato, insieme al software di elaborazione del linguaggio naturale, per aiutare le persone ipovedenti interpretando l’ambiente circostante.[19]

Quando gli è stata chiesta la sua opinione sul futuro dell’IA per il riconoscimento delle immagini, il nostro responsabile SEO, Leszek Dudkiewicz, ha dichiarato: “La capacità dell’IA di riconoscere gli oggetti in una foto apre il potenziale per un’ampia gamma di applicazioni diverse. In particolare, il settore medico trarrà enormi benefici dall’integrazione dell’IA, ad esempio la creazione di applicazioni mediche in grado di riconoscere le alterazioni della pelle, ad esempio per individuare il melanoma nelle fasi iniziali”. 

A proposito di come il riconoscimento delle immagini da parte dell’IA influirebbe su Passport Photo Online, ha aggiunto: “Al momento utilizziamo l’IA quando analizziamo le foto caricate, ma alla fine vorremmo fornire un’esperienza più interattiva in cui possiamo dare suggerimenti nella fase di scatto della foto, cioè l’IA avrebbe la capacità di analizzare, in tempo reale, il modo in cui l’utente si posiziona nella foto”.

AI per il riconoscimento delle immagini: conclusioni

22 anni sono un lasso di tempo relativamente breve, ma in questi due decenni abbiamo assistito a enormi progressi nella tecnologia di riconoscimento delle immagini. Con l’aiuto di database come NEIL e Imagenet, gli scienziati informatici hanno creato una base da cui è possibile costruire e sviluppare ogni futuro sistema di IA per il riconoscimento delle immagini. I più grandi pensatori dell’IA sono passati da IA semplicistiche in grado di identificare gli oggetti e le relazioni tra di essi a strumenti più complessi in grado di identificare i contenuti dei video che dovrebbero essere bloccati. 

Chi può sapere come evolverà il riconoscimento delle immagini in futuro? Le possibilità sono molteplici, il cielo è davvero il limite. Noi di Passport Photo Online, ovviamente, siamo molto grati ai nostri verificatori di foto AI, che ci permettono di darvi le migliori possibilità di ottenere l’approvazione delle vostre richieste.

POTRESTI ESSERE INTERESSATO A:

[1] H. Bhardwaj et al., ‘Principles and Foundations of Artificial Intelligence and Internet of Things Technology’, in G. Kaur et al. (eds.), ‘Artificial Intelligence to Solve Pervasive Internet of Things Issues’ (2021), pp. 377-392.

[2] ‘Image recognition: from the early days of technology to endless business applications today.’, Trendskout, https://trendskout.com/en/solutions-en/image-recognition-technology/ (Accessed: 26 April 2022).

[3] M. Rangaiah, ‘History of Artificial Intelligence’, Analytic Steps (2021), https://www.analyticssteps.com/blogs/history-artificial-intelligence-ai (Accessed: 21 April 2022).

[4] D. Ardila et al., ‘End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography’, Nature Magazine (2019), 25, pp. 954–961.

[5] K. Kaur, ‘The Politics of YouTube’s AI’, Towards Data Science (2019), https://towardsdatascience.com/the-politics-of-youtubes-ai-289148c14e38 (Accessed: 28 April 2022). 

[6] R. Bharadwaj, ‘AI for Social Media Censorship – How it Works at Facebook, YouTube, and Twitter’, Emerj (2019), https://emerj.com/ai-sector-overviews/ai-social-media-censorship-works-facebook-youtube-twitter/ (Accessed: 26 April 2022).

[7] K. Hao, ‘Instagram is using AI to stop people from posting abusive comments’, MIT Technology Review (2019), https://www.technologyreview.com/2019/07/09/65590/instagram-is-using-ai-to-stop-people-posting-abusive-comments/ (Accessed: 26 April 2022).

[8] E. Svoboda, ‘Artificial intelligence is improving the detection of lung cancer’, Nature.com (2020), https://www.nature.com/articles/d41586-020-03157-9 (Accessed: 25 April 2022) 

[9] ‘Computer Vision: What it is and why it matters’, SAS (2022), https://www.sas.com/en_in/insights/analytics/computer-vision.html (Accessed: 25 April 2022).

[10] Huffington Post UK Writers, ‘NEIL Never Ending Image Learner Computer Is Learning Common Sense’, Huffington Post (2013), https://www.huffingtonpost.co.uk/2013/11/26/neil-never-ending-image-learner-computer_n_4342688.html (Accessed: 26 April 2022).

[11] E. Enge, ‘Image Recognition Accuracy Study’, Perficient (2019), https://www.perficient.com/insights/research-hub/image-recognition-accuracy-study (Accessed: 25 April 2022).

[12] ‘AI in Computer Vision Market Revenue, Price, Growth Rate, Forecast To 2030’, Market Watch (2022), https://www.marketwatch.com/press-release/ai-in-computer-vision-market-revenue-price-growth-rate-forecast-to-2030-2022-04-13?mod=search_headline (Accessed: 26 April 2022).

[13] Verified Market Research, ‘AI in Computer Vision Market size worth $ 144.46 Billion, Globally, by 2028 at 45.64% CAGR: Verified Market Research®’, Verified Market Research (2021), https://www.globenewswire.com/news-release/2021/08/19/2283644/0/en/AI-in-Computer-Vision-Market-size-worth-144-46-Billion-Globally-by-2028-at-45-64-CAGR-Verified-Market-Research.html (Accessed: 27 April 2022).

[14] A. Savekar and V. Kumar, ‘AI in Computer Vision Market By Component (Hardware and Software), Function (Training and Interference), and Application (Industrial and Non-industrial), and End Use (Automotive, Consumer Electronics, Healthcare, Agriculture, Transportation & Logistics, Retail, Security & Surveillance, Manufacturing, and Others): Global Opportunity Analysis and Industry Forecast, 2021–2030’, Allied Market Research (2021), https://www.alliedmarketresearch.com/ai-in-computer-vision-market-A13113 (Accessed: 27 April 2022).

[15] N. Joshi, ‘The Present and Future of Computer Vision’, Forbes (2019), https://www.forbes.com/sites/cognitiveworld/2019/06/26/the-present-and-future-of-computer-vision/?sh=5813a00e517d (Accessed: 26 April 2022).

[16] C. Facciolo, ‘The future of image recognition technology is deep learning’, Technical.ly (2019), https://technical.ly/software-development/image-recognition-technology-artificial-intelligence/ (Accessed: 27 April 2022).

[17] S. B, “Future Impacts of AI on Image Recognition”, Tech Affinity (2021), https://techaffinity.com/blog/impact-of-ai-on-image-recognition/ (Accessed: 27 April 2022)

[18] N. Steyn, ‘The Future Is Computer Vision – Real-Time Situational Awareness, Better Quality and Faster Insights’, CIO (2022), https://www.cio.com/article/305671/the-future-is-computer-vision-real-time-situational-awareness-better-quality-and-faster-insights.html (Accessed: 26 April 2022).[19] N. Joshi, ‘The Present and Future of Computer Vision’, Forbes (2019), https://www.forbes.com/sites/cognitiveworld/2019/06/26/the-present-and-future-of-computer-vision/?sh=5813a00e517d (Accessed: 26 April 2022).

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.