Eye, Robot : Un guide de l’IA pour la reconnaissance d’images

Eye, Robot : Un guide de l'IA pour la reconnaissance d'images

Et si je vous disais qu’aujourd’hui, il existe des machines capables de voir le monde extérieur avec plus de détails que vous, un humain ? C’est vrai – à mesure que l’intelligence artificielle a étendu son champ d’action et ses compétences au cours du siècle dernier, elle nous a amenés à un stade où les machines peuvent lire les images et le monde qui les entoure aussi bien, sinon mieux, que nous.

L’IA en reconnaissance d’images : définitions

Tout d’abord, qu’est-ce que l’IA pour la reconnaissance d’images ? Le principe de fonctionnement est le suivant : grâce à l’utilisation de caméras, d’algorithmes et de programmes d’apprentissage automatique, les ordinateurs peuvent “lire” et reconnaître des données visuelles, par exemple des images et des objets. Le but ultime de ce processus est de donner aux machines la capacité de voir le monde comme les humains ou de le voir avec encore plus de détails. Il s’agit d’un sous-domaine d’un domaine beaucoup plus vaste de l’intelligence artificielle appelé vision par ordinateur, qui comprend l’utilisation d’ordinateurs pour traiter, classer et reconstruire des images, entre autres tâches, toutes liées entre elles. La reconnaissance d’images est sans doute l’une des parties les plus importantes de la vision par ordinateur, car elle constitue la base sur laquelle la plupart des autres éléments sont construits. Voici quelques exemples que vous avez peut-être déjà rencontrés :

  • L’identification de plaques d’immatriculation,
  • distinguer des copies d’images de la réalité,
  • le diagnostic de maladies ; [1]

Tous ces éléments, et bien d’autres encore, font de la reconnaissance d’images une partie importante du développement de l’IA. Plongeons donc dans l’évolution de cette technologie et dans son importance actuelle.

Articles similaires :

L’IA en reconnaissance d’images : les débuts

Le début des années 2000 a vu l’essor de ce qu’Oren Etzioni, Michele Banko et Michael Cafarella ont appelé la “lecture automatique”. En 2006, ils ont défini cette idée de compréhension de texte non supervisée, qui allait finalement s’étendre à la “lecture” d’objets et d’images par des machines.

Ce que nous reconnaissons comme la reconnaissance d’images a sans doute commencé la même année, lorsque Fei-Fei Li a entamé le processus de création d’Imagenet, une énorme base de données d’images catégorisées qui, en théorie, permettrait aux machines d’apprendre les relations entre plusieurs objets. En 2010, plus de 3 millions d’images étaient conservées dans Imagenet, et 2010 a vu l’Imagenet Large Scale Visual Recognition Challenge, où des équipes d’experts en IA s’affrontaient pour voir quel travail pouvait faire le meilleur usage de la base de données.

Graphique comparant le taux d'erreur de 15,3% d'Alexnet en 2012 avec la moyenne de 25% en 2012

En 2012, l’épreuve a été remportée par Alexnet, créé par une équipe de l’Université de Toronto, dont le taux d’erreur était de 15,3 %, contre plus de 25 % pour le reste des participants de la première année. [2] Cet exploit remarquable a sans doute ouvert la voie à d’autres avancées, que nous allons explorer ci-dessous.

En 2012, Andrew Ng et Jeff Dean, chez Google, ont développé un réseau neuronal capable de détecter des images de chats sans contexte d’arrière-plan. L’année suivante, l’université Carnegie Mellon a créé NEIL (Never Ending Image Learner), qui se présente comme “[un] programme informatique qui fonctionne 24 heures sur 24 et 7 jours sur 7 pour extraire automatiquement des connaissances visuelles à partir de données Internet”[3][4].

Ce type de technologie a maintenant trouvé des foyers dans le monde entier, partout, des groupes d’énergie renouvelable aux outils de vérification des photos d’identité (Passport Photo Online utilise une telle technologie pour vérifier vos photos d’identité), ce qui en fait un ajout solide au développement de l’IA.

Outre la modification des photos d’identité, la capacité des IA à lire les images a permis aux chaînes de médias sociaux comme Facebook, YouTube et Instagram de censurer les images et les vidéos inappropriées pour le grand public, par exemple les contenus gores ou explicites.

Graphique montrant que l'IA de YouTube a supprimé 70 % des vidéos inappropriées avant qu'elles ne soient vues une seule fois

Au premier trimestre 2019, l’IA de YouTube a réussi à elle seule à identifier et à supprimer plus de 6 millions de vidéos. 70 % d’entre elles ont été supprimées avant même de recevoir une seule vue[5].

Dans la seconde moitié des années 2010, la lecture automatique a pris des rôles plus importants sur tous les canaux de médias sociaux. Depuis 2015, Facebook utilise l’IA pour signaler les publications liées au suicide ou à l’automutilation afin de fournir de l’aide et, en 2017, YouTube a commencé à utiliser l’IA pour signaler les vidéos liées au terrorisme afin de les empêcher d’être téléchargées.

Graphique montrant que l'IA de YouTube a bloqué 83 % des vidéos extrémistes avant que l'équipe humaine ne les voie

En septembre de la même année, l’IA de YouTube a bloqué 83 % des vidéos extrémistes violentes avant même que l’équipe humaine ne les voie[6]. Le même mois où YouTube a annoncé son initiative, Instagram a commencé à censurer les commentaires les plus explicitement haineux par le biais de l’IA, puis a étendu cette mesure pour demander aux utilisateurs s’ils sont sûrs avant de soumettre un commentaire potentiellement abusif [7].

En outre, les diagnostics médicaux ont bénéficié des avancées dans ce domaine.

Graphique montrant que l'IA d'Etemadi a correctement identifié le cancer du poumon à un stade précoce dans 94 % des cas

Un système d’IA créé par Mozziyar Etemadi en 2019 a fait ses preuves en identifiant correctement le cancer du poumon à un stade précoce dans 94 % des cas, un score supérieur à celui de 6 radiologues, tous membres de longue date du domaine. Elizabeth Svoboda note l’importance de cette avancée, citant le fait que 70 % des cancers du poumon sont diagnostiqués trop tard pour être traités. Elle déclare que : “L’utilisation de l’IA pour trouver des tumeurs à un stade précoce peut effectivement doubler le temps dont disposent les oncologues pour traiter un patient”[8].

L’IA dans la reconnaissance d’images : un essor rapide

Ces systèmes de lecture d’images se sont développés progressivement au cours des deux premières décennies du 21e siècle.

Graphique montrant l'augmentation de la précision de l'identification des objets de 50 % à 99 %

Le monde a connu une période de croissance particulièrement rapide, la précision de l’identification des objets étant passée de 50 % à 99 % en moins d’une décennie[9]. Les nouvelles IA profitent des capacités de lecture d’images des produits existants. NEIL a été explicitement conçu pour être une ressource en croissance continue que les informaticiens peuvent utiliser pour développer leurs propres exemples de reconnaissance d’images par l’IA.

Graphique montrant que NEIL a étudié 3 millions d'images et identifié 3000 relations en quatre mois

Entre son lancement en juillet 2013 et novembre de la même année, NEIL a pu étudier 3 millions d’images et, grâce à l’analyse du contenu, a appris 3000 relations (par exemple, “on trouve le zèbre dans la savane”)[10].

Graphique montrant la précision relative de Google Vision, Amazon Rekognition et Microsoft Azure

Une étude menée par Perficient Digital sur quatre IA de reconnaissance d’images de premier plan a testé leur capacité à reconnaître les balises d’images, révélant qu’en 2019, de nombreuses IA se rapprochent des niveaux de compétences humaines. Google Vision, par exemple, a obtenu une précision de 81,7 % lors de son test, soit seulement 6 % de moins que le contrôle humain. Vision n’est pas non plus une simple aberration, puisque Amazon Rekognition et Microsoft Azure ont également obtenu des scores élevés (77,7 % et 75,8 %, respectivement)[11].

La reconnaissance d’images dans l’IA : l’avenir

Même avec toutes ces avancées, nous ne faisons qu’effleurer la surface de ce que la technologie de reconnaissance d’images en IA sera capable de faire.

Graphique montrant la croissance potentielle du marché de la vision par ordinateur de 8,4 milliards de dollars à 150,6 milliards de dollars.

Selon une étude de Market Watch, le marché mondial de l’IA de la vision par ordinateur était évalué en 2021 à 8,4 milliards de dollars. Ils prévoient qu’il atteindra 150,6 milliards de dollars d’ici 2030. Cela représente une augmentation de 1792,86 %, une hausse vraiment énorme. [12] Verified Market Research obtient un résultat similaire, prédisant que la taille du marché mondial de la vision par ordinateur passera de 7,04 milliards de dollars en 2020 à 144,46 milliards de dollars en 2028. [13] Allied Market Research est encore plus optimiste, prédisant que la taille du marché passera à 207,09 dollars d’ici 2030. [14]

Il y a plusieurs raisons potentielles à cette augmentation. Écrivant pour Forbes, Naveen Joshi, fondateur et PDG de la société d’ingénierie Allerin, déclare que : “Non seulement les technologies de vision par ordinateur seront plus faciles à former, mais elles seront également capables de discerner davantage d’images qu’aujourd’hui.”[15] Facciolo affirme que l’innovation future “repose sur les [algorithmes] d’apprentissage profond… [qui] fonctionnent… en construisant des réseaux neuronaux profonds qui simulent le mécanisme du cerveau humain, puis en interprétant et en analysant des données, telles que des images, des vidéos et des textes. “[16] Sathish B, quant à lui, prédit que c’est l’adoption généralisée des outils de reconnaissance faciale qui lui apportera un nouveau succès à l’avenir, sous l’impulsion de “l’utilisation croissante des appareils mobiles et de la demande d’une détection et d’une prévention fortes des fraudes”[17].

Après avoir vu la vitesse à laquelle NEIL a développé ses connaissances, il est logique de s’attendre à ce qu’elle (et des bases de données similaires) contribue à augmenter le taux de progression de l’IA. Les premiers ingénieurs et informaticiens qui ont commencé à créer des IA de reconnaissance d’images ont dû partir de rien, mais les concepteurs d’aujourd’hui disposent d’une mine de connaissances préalables sur lesquelles ils peuvent s’appuyer pour créer leurs propres IA. Après tout, nous avons déjà vu que NEIL a été conçu à l’origine pour être utilisé comme une ressource de cette manière.

L’IA en général étant susceptible d’étendre son champ d’action au cours des prochaines années, il est probable que les IA de reconnaissance d’images pourront en profiter. Steyn cite une étude de Forrester selon laquelle plus de 80 % des entreprises s’attendent à ce que leurs cas d’utilisation de l’IA augmentent, ce qui, selon lui, inclura en grande partie la vision par ordinateur[18]. En dehors du monde de l’entreprise, M. Joshi suggère que les logiciels de reconnaissance d’images pourraient être utilisés, aux côtés des logiciels de traitement du langage naturel, pour aider les personnes malvoyantes en interprétant leur environnement pour elles[19].

Lorsqu’on lui a demandé son avis sur l’avenir de l’IA par reconnaissance d’image, notre responsable du référencement, Leszek Dudkiewicz, a déclaré : “La capacité de l’IA à reconnaître des objets sur une photo ouvre la voie à un large éventail d’applications différentes. En particulier, le domaine médical bénéficiera énormément de l’intégration de l’IA, par exemple la création d’applications médicales capables de reconnaître les modifications de la peau, par exemple pour repérer un mélanome à un stade précoce.”

En ce qui concerne l’impact de la reconnaissance d’images par l’IA sur Passport Photo Online, il ajoute : “Pour l’instant, nous utilisons l’IA lorsque nous analysons les photos téléchargées, mais à terme, nous aimerions offrir une expérience plus interactive où nous pourrions donner des indications au moment de prendre la photo, c’est-à-dire que l’IA aurait la capacité d’analyser, en temps réel, la façon dont l’utilisateur se positionne sur la photo.”

L’IA pour la reconnaissance d’images : conclusion

22 ans, c’est un laps de temps relativement court, mais nous avons assisté à d’énormes bonds en avant dans la technologie de la reconnaissance d’images au cours de ces deux décennies. Grâce à des bases de données comme NEIL et Imagenet, les informaticiens ont créé une base à partir de laquelle tout futur système d’IA pour la reconnaissance d’images peut être construit et développé. Les plus grands penseurs de l’IA sont passés d’IA simplistes capables d’identifier des objets et les relations entre eux, à des outils plus complexes capables d’identifier le contenu des vidéos qui signifie qu’elles doivent être bloquées.

Qui sait où ira la reconnaissance d’images à l’avenir ? Il existe un certain nombre de possibilités, mais vraiment, le ciel est la limite. Chez Passport Photo Online, nous sommes bien sûr très reconnaissants envers nos vérificateurs de photos IA – c’est ce qui nous permet de vous donner les meilleures chances de voir vos demandes approuvées.

Sources

[1] H. Bhardwaj et al., ‘Principles and Foundations of Artificial Intelligence and Internet of Things Technology’, in G. Kaur et al. (eds.), ‘Artificial Intelligence to Solve Pervasive Internet of Things Issues’ (2021), pp. 377-392.

[2] ‘Image recognition: from the early days of technology to endless business applications today.’, Trendskout, https://trendskout.com/en/solutions-en/image-recognition-technology/ (Accessed: 26 April 2022).

[3] M. Rangaiah, ‘History of Artificial Intelligence’, Analytic Steps (2021), https://www.analyticssteps.com/blogs/history-artificial-intelligence-ai (Accessed: 21 April 2022).

[4] D. Ardila et al., ‘End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography’, Nature Magazine (2019), 25, pp. 954–961.

[5] K. Kaur, ‘The Politics of YouTube’s AI’, Towards Data Science (2019), https://towardsdatascience.com/the-politics-of-youtubes-ai-289148c14e38 (Accessed: 28 April 2022). 

[6] R. Bharadwaj, ‘AI for Social Media Censorship – How it Works at Facebook, YouTube, and Twitter’, Emerj (2019), https://emerj.com/ai-sector-overviews/ai-social-media-censorship-works-facebook-youtube-twitter/ (Accessed: 26 April 2022).

[7] K. Hao, ‘Instagram is using AI to stop people from posting abusive comments’, MIT Technology Review (2019), https://www.technologyreview.com/2019/07/09/65590/instagram-is-using-ai-to-stop-people-posting-abusive-comments/ (Accessed: 26 April 2022).

[8] E. Svoboda, ‘Artificial intelligence is improving the detection of lung cancer’, Nature.com (2020), https://www.nature.com/articles/d41586-020-03157-9 (Accessed: 25 April 2022) 

[9] ‘Computer Vision: What it is and why it matters’, SAS (2022), https://www.sas.com/en_in/insights/analytics/computer-vision.html (Accessed: 25 April 2022).

[10] Huffington Post UK Writers, ‘NEIL Never Ending Image Learner Computer Is Learning Common Sense’, Huffington Post (2013), https://www.huffingtonpost.co.uk/2013/11/26/neil-never-ending-image-learner-computer_n_4342688.html (Accessed: 26 April 2022).

[11] E. Enge, ‘Image Recognition Accuracy Study’, Perficient (2019), https://www.perficient.com/insights/research-hub/image-recognition-accuracy-study (Accessed: 25 April 2022).

[12] ‘AI in Computer Vision Market Revenue, Price, Growth Rate, Forecast To 2030’, Market Watch (2022), https://www.marketwatch.com/press-release/ai-in-computer-vision-market-revenue-price-growth-rate-forecast-to-2030-2022-04-13?mod=search_headline (Accessed: 26 April 2022).

[13] Verified Market Research, ‘AI in Computer Vision Market size worth $ 144.46 Billion, Globally, by 2028 at 45.64% CAGR: Verified Market Research®’, Verified Market Research (2021), https://www.globenewswire.com/news-release/2021/08/19/2283644/0/en/AI-in-Computer-Vision-Market-size-worth-144-46-Billion-Globally-by-2028-at-45-64-CAGR-Verified-Market-Research.html (Accessed: 27 April 2022).

[14] A. Savekar and V. Kumar, ‘AI in Computer Vision Market By Component (Hardware and Software), Function (Training and Interference), and Application (Industrial and Non-industrial), and End Use (Automotive, Consumer Electronics, Healthcare, Agriculture, Transportation & Logistics, Retail, Security & Surveillance, Manufacturing, and Others): Global Opportunity Analysis and Industry Forecast, 2021–2030’, Allied Market Research (2021), https://www.alliedmarketresearch.com/ai-in-computer-vision-market-A13113 (Accessed: 27 April 2022).

[15] N. Joshi, ‘The Present and Future of Computer Vision’, Forbes (2019), https://www.forbes.com/sites/cognitiveworld/2019/06/26/the-present-and-future-of-computer-vision/?sh=5813a00e517d (Accessed: 26 April 2022).

[16] C. Facciolo, ‘The future of image recognition technology is deep learning’, Technical.ly (2019), https://technical.ly/software-development/image-recognition-technology-artificial-intelligence/ (Accessed: 27 April 2022).

[17] S. B, “Future Impacts of AI on Image Recognition”, Tech Affinity (2021), https://techaffinity.com/blog/impact-of-ai-on-image-recognition/ (Accessed: 27 April 2022)

[18] N. Steyn, ‘The Future Is Computer Vision – Real-Time Situational Awareness, Better Quality and Faster Insights’, CIO (2022), https://www.cio.com/article/305671/the-future-is-computer-vision-real-time-situational-awareness-better-quality-and-faster-insights.html (Accessed: 26 April 2022).[19] N. Joshi, ‘The Present and Future of Computer Vision’, Forbes (2019), https://www.forbes.com/sites/cognitiveworld/2019/06/26/the-present-and-future-of-computer-vision/?sh=5813a00e517d (Accessed: 26 April 2022).

Leave a Reply

Your email address will not be published. Required fields are marked *