Ein Guide zur KI-Bilderkennug

Die Hand eines Roboters zeigt auf eine Projektion, daneben ist ein Roboter mit einem Dotmatrix-Gesicht zu sehen.

Was wenn ich Ihnen sagen würde, dass es heutzutage Maschinen gibt, die die Welt detailreicher sehen können als Sie, ein Mensch? Und es gibt sie wirklich – im letzten Jahrhundert hat sich die künstliche Intelligenz so stark weiterentwickelt, dass Maschinen mittlerweile dazu in der Lage sind Bilder und unsere Umwelt genauso gut zu lesen wie wir, wenn nicht sogar besser.

KI-Bilderkennung: Definition

Zunächst einmal: Was ist die KI-Bilderkennung eigentlich? Das Ganze funktioniert so, dass Computer mit Hilfe von Kameras, Algorithmen und maschinellen Lernprogrammen visuelle Daten, z. B. Bilder und Objekte, „lesen“ und erkennen können. Das Ziel dabei ist es, die Maschinen so zu trainieren, dass sie die Welt auf dieselbe Weise wie wir Menschen betrachten können oder sogar noch detailreicher. Es handelt sich dabei um ein Teilfeld eines viel größeren Gebiets der künstlichen Intelligenz, welches Computer Vision genannt wird. Hier kommen Computer u.a. zur Verarbeitung, Klassifizierung und Neuanordnung von Bildern zum Einsatz, wobei all diese Vorgänge miteinander verknüpft sind. Die Bilderkennung ist vermutlich der wichtigste Aspekt der Computer Vision, da es den Grundstein für viele weitere Elemente bildet. Einigen Beispielen sind Sie vielleicht schon selbst begegnet:

  • Erkennung von KFZ-Kennzeichen,
  • Unterscheidung zwischen Kopien und originalen Bildern,
  • Diagnose von Krankheiten;[1]

Diese und viele weitere Funktionen machen die Bilderkennung so wichtig für die Entwicklung von KI. Also, lassen Sie uns einen genaueren Blick darauf werfen, wie sie sich entwickelt hat und welche Bedeutung sie heute für uns hat.

KI-Bilderkennung: Anfangsphase

In den frühen 2000er Jahren entstand das, was Oren Etzioni, Michele Banko und Michael Cafarella als „maschinelles Lesen“ bezeichneten. Im Jahr 2006 entwickelten sie eine Form des automatischen Textverständnisses, was schließlich darauf erweitert wurde, dass Maschinen Objekte und Bilder “lesen” konnten. 

Das was wir heute als Bilderkennung kennen, begann vermutlich im selben Jahr, als Fei-Fei Li Imagenet ins Leben gerufen hat. Dabei handelt es sich um eine riesige Datenbank, in der Bilder in Kategorien gespeichert werden, sodass Maschinen die Beziehungen zwischen verschiedenen Objekten erlernen können. Im Jahr 2010 waren über 3 Millionen Bilder bei Imagenet hinterlegt und noch im selben Jahr fand die Imagenet Large Scale Visual Recognition Challenge statt, bei der verschiedene Teams von KI-Experten gegeneinander antraten, um zu sehen, wer die Datenbank am besten nutzen konnte.

Grafik, in der die Fehlerrate von Alexnet aus dem Jahr 2012 mit der anderer Teilnehmer aus dem Jahr 2010 verglichen wir.

2012 gewann ein Team der University of Toronto (Alexnet) die Challenge. Ihre Fehlerquote lag bei 15,3 %, während die der restlichen Teilnehmer bei über 25 % lag. [2]Diese bemerkenswerte Errungenschaft ebnete sicherlich den Weg für weitere Innovationen auf diesem Gebiet, welche wir im Folgenden näher betrachten möchten.

Im Jahr 2012 entwickelten Andrew Ng und Jeff Dean von Google ein neuronales Netzwerk, das Katzenbilder ohne Hintergrundkontext erkennen konnte. Im darauffolgenden Jahr stellte die Carnegie Mellon University „NEIL“ (Never Ending Image Learner) vor. Dieses wurde als Computerpgrogramm bezeichnet, welches “24 Stunden, 7 Tage die Woche aktiv ist, um visuelle Informationen aus Internet-Daten zu extrahieren.”.[3][4]

Von Konzernen für erneuerbare Energien bis hin zu Tools zur Überprüfung von Passfotos (wir bei Passport Photo Online nutzen genau diese Technologie zur Überprüfung der Passbilder), wird diese Art von Technologie inzwischen überall auf der Welt angewandt. Dies macht sie zu einem wichtigen Grundstein der KI-Entwicklung. 

Dank den Fortschritten auf diesem Gebiet können soziale Netzwerke wie Facebook, YouTube oder Instagram diese Technologie nutzen, um Bilder oder Videos mit unangebrachten oder verstörenden Inhalten zu filtern, die nicht für die Allgemeinheit verfügbar sein sollten.

Graphik die zeigt, dass die KI von YouTube 70 % potenziell schädlicher Videos finden konnte, bevor sie angesehen wurden.

Im ersten Quartal des Jahres 2019 konnte allein YouTube mit Hilfe einer derartigen KI-Technologie über 6 Millionen Videos finden und entfernen. Ganze 70 % dieser Videos waren bereits wieder offline, bevor auch nur eine einzige Person diese anklicken und sehen konnte.[5]

In der zweiten Hälfte der 2010er Jahre, übernahm künstliche Intelligenz eine noch größere Rolle innerhalb der verschiedenen sozialen Netzwerke. Seit 2015 nutzt Facebook KI, um Posts zu identifizieren, die mit Suizid oder Selbstverletzung zu tun haben und kann so Hilfe bieten. Und seit 2017 kommt KI bei YouTube zum Einsatz, um terroristische Inhalte zu finden und zu blockieren, noch bevor sie online gehen können.

Grafik die zeigt, dass die KI von YouTube 83 % der Videos mit extremistischen Inhalten löschen konnte, bevor menschliche Mitarbeiter sie überhaupt sahen.

Im September desselben Jahres filterte die KI-Technologie von YouTube 83 % der Videos, in denen gewalttätige extremistische Inhalte zu sehen waren, noch bevor die menschlichen Mitarbeiter diese bearbeiten mussten.[6] Im selben Monat, in dem YouTube diese Initiative verkündete, begann Instagram damit, explizite Hasskommentare mit Hilfe von KI zu zensieren. Als Erweiterung dessen folgte eine Funktion, durch die Nutzer vor der Veröffentlichung eines Kommentars gefragt werden, ob sie dieses wirklich veröffentlichen möchten. Auch in diesem Fall kommt künstliche Intelligenz zum Einsatz.[7]

Auch die medizinische Diagnostik hat von den Fortschritten auf diesem Bereich profitiert.

Grafik, die zeigt, dass Etemadis KI in 94 % der Fällen Lungenkrebs im Fühstadium erkennen kann.

Mozziyar Etemadi hat 2019 ein KI-System entwickelt, welches mit einer Erfolgsrate von 94 % Lungenkrebs im Frühstadium erkennen kann. Das System war somit effizienter als sechs Radiologen, die alle seit langem in diesem Forschungsfeld tätig sind. Für Elizabeth Svoboda ist dies ein wichtiger Fortschritt, denn 70 % der Lungenkrebs-Fälle werden zu spät für eine erfolgreiche Behandlung entdeckt. Sie sagt dazu: “Der Einsatz von künstlicher Intelligenz zur frühen Identifizierung von Tumoren kann die Zeit, die Onkologen zur Behandlung eines Patientens haben, effektiv verdoppeln.”[8]

Ähnliche Artikel:

KI-Bilderkennung: Eine schneller Anstieg

Diese Systeme zur Bilderkennung haben sich in den ersten zwei Jahrzehnten des 21. Jahrhunderts stetig weiterentwickelt.

Grafik, die zeigt, dass die Genauigkeit, mit der Objekte identifiziert werden können, von 50 % auf 90 % anstieg.

In weniger als zehn Jahren wurden rasante Fortschritte verbucht, wodurch in dieser Zeit die Genauigkeit, mit der Objekte identifiziert werden konnten, von 50% auf 99% anstieg.[9] Neue Technologien, die auf KI basieren, profitieren von den Bilderkennungsfähigkeiten bereits existierender Produkte. Schließlich wurde NEIL eigens aus dem Grund ins Leben, um Informatikern als stetig wachsende Datenbank zu dienen, mit der sie ihre eigenen KI-gestützten Bilderkennungstechnologien entwickeln können.

Grafik, die zeigt, dass NEIL in 4 Monaten 3 Millionen Bilder identifizieren und 3000 Zusammenhängen erstellen konnte.

Ab der Veröffentlichung im Juli 2013 bis zum November desselben Jahres, hatte NEIL 3 Millionen Bilder analysiert und konnte so 3000 Zusammenhänge erlernen (z.B. “Zebras können in der Savanne gefunden werden”).[10]

Grafik, die die relative Genauigkeit von Google Vision, Amazon Rekognition und Microsoft Azure zeigt.

Eine Studie, die 2019 von Perficient Digital durchgeführt wurde und in der vier führende KI-Systeme zur Bilderkennung getestet wurden, zeigte, dass viele KI-gestützte Technologien den menschlichen Fähigkeiten sehr nahe kommen. Google Vision zum Beispiel erreichte eine Genauigkeit von 81,7 % und lag damit nur 6 % hinter der menschlichen Kontrollgruppe. Aber nicht nur Google Vision kann eine solche Erfolgsquote darlegen, auch Amazon Rekognition and Microsoft Azure zeigen eine hohe Genauigkeit (77,7 % und 75,8 %).[11]

KI-Bilderkennung: die Zukunft

Und selbst mit all diesen Fortschritten, kratzen wir noch immer nur an der Oberfläche von dem, zu was die KI-Bilderkennung im Stande sein wird.

Grafik, die den potenziellen Marktzuwachs von Computer Vision von $8,4 Mrd. auf  $150,6 Mrd zeigt.

Entsprechend Untersuchungen von Market Watch belief sich der Weltmarkt von Computer Vision im Jahr 2021 auf 8,4 Milliarden USD. Bis 2030 wird diese Summe  voraussichtlich auf 150,6 Mrd. USD anwachsen. Dies entspricht einem wahrhaft enormen Anstieg von 1792,86 %.[12] Verified Market Research kommt zu einem ähnlichen Ergebnis und prognostiziert, dass der weltweite Markt für Computer Vision von 7,04 Mrd. USD im Jahr 2020 auf 144,46 Mrd. USD im Jahr 2028 ansteigen wird.[13] Allied Market Research ist sogar noch optimistischer und erwartet, dass das Volumen bis 2030 eine Summe von 207,09 Mrd. USD erreichen wird.[14]

Für diesen Anstieg können verschiedene Faktoren verantwortlich sein. Naveen Joshi, Gründer und CEO des Maschinenbauers Allerin, schrieb für Forbes: “Auf Computer Vision basierende Technologien werden nicht nur leichter zu trainieren sein, sondern auch mehr aus Bildern herauslesen können als heute.”[15] Facciolo ist der Ansicht, dass künftige Innovationen „auf Deep Learning [Algorithmen] beruhen werden… [die] mit Hilfe von tiefen neuronalen Netzen funktionieren, die den Funktionsablauf des menschlichen Gehirns simulieren und so Daten wie Bilder, Videos sowie Texte interpretieren und analysieren können.“[16] Sathish B. prognostiziert hingegen, dass die weit verbreitete Nutzung von Gesichtserkennungs-Tools in Zukunft zu neuem Erfolg führen wird, da die “zunehmende Nutzung von Mobilgeräten nach starken Maßnahmen zur Erkennung und dem Vorbeugen von Betrug verlangt.”.[17]

In Anbetracht dessen, wie schnell NEIL an Ressourcen erweitert wurde, ist es nur logisch zu erwarten, dass diese Datenbank (und auch andere) dazu beitragen werden, die Fortschritte der künstlichen Intelligenz weiter voran zu treiben. Die ursprünglichen Ingenieure und Informatiker, die erstmalig an der KI-Bilderkennung arbeiteten, hatten nichts, worauf sie aufbauen konnten. Die heutigen Forscher aber haben das Glück, dass sie sich auf vorheriges Wissen stützen und an ihren eigenen KI-Technologien arbeiten können. Denn wie wir bereits wissen, wurde NEIL aus genau diesem Grund entwickelt.

In den nächsten Jahren wird sich die künstliche Intelligenz noch stärker weiterentwickeln, wovon auch sicherlich die Bilderkennung profitieren wird. Steyn erwähnt hier eine Umfrage von Forrester, in der sich herausgestellt hat, dass über 80 % der Unternehmen damit rechnen, KI in Zukunft stärker zu nutzen. Er geht davon aus, dass Computer Vision da eine große Rolle spielen wird.[18] Wir sehen weitreichendes Potenzial in der Kombination verschiedener Formen der KI-Technologien. Abgesehen von der Business-Welt deutet Joshi darauf hin, dass eine Software zur Bilderkennung mit einer anderen Software zur Erkennung von Sprache kombiniert werden könnte, um so sehbehinderten Menschen dabei zu helfen, ihre Umgebung zu interpretieren.[18]

Nachdem er zu seiner Meinung über die Zukunft von einer KI-gestützten Bilderkennung befragt wurde, sagte Leszek Dudkiewicz, Head of SEO bei Passport Photo Online,: “Die Fähigkeiten von künstlicher Intelligenz auf dem Gebiet der Bilderkennung eröffnet weitreichende Möglichkeiten für verschiedene Anwendungen. Insbesondere die Medizin wird von der KI-Integration profitieren können, indem zum Beispiel medizinische Anwendungen entwickelt werden, mit denen Hautveränderungen wie bspw. Melanome frühzeitig erkannt werden können.” 

Und auf die Frage, wie die KI-Bilderkennung Passport Photo Online beeinflussen würde, antwortete er: “Im Moment nutzen wir KI zur Analyse der hochgeladenen Bilder. Aber langfristig gesehen möchten wir interaktive Funktionen einbauen, durch die es möglich wird, bereits bei der Aufnahme des Bildes Hinweise zu geben. So könnte durch künstliche Intelligenz in Echtzeit kommentiert werden, wie der Nutzer bspw. seinen Kopf für das Bild zu drehen hat.”

KI-Bilderkennung: Zusammenfassung

Auch wenn 22 Jahre eine relativ kurze Zeitspanne sind, so sind in diesen zwei Jahrzehnten doch riesige Fortschritte auf dem Gebiet der Bilderkennung gemacht worden. Mit Datenbanken wie NEIL und Imagenet haben Informatiker Grundlagen geschaffen, auf den auch zukünftige KI-gestützte Bilderkennungssysteme aufbauen und sich weiterentwickeln können. Die führenden Köpfe auf diesem Gebiet haben sich von einfachen KI-Technologien, die Objekte und deren Beziehung zueinander erkennen können, zu komplexeren Tools vorgearbeitet, die ungeeignete Inhalte in Videos erkennen können, sodass diese rechtzeitig gesperrt werden können. 

Wer weiß, was die Zukunft der Bilderkennung bringt? Es gibt zahlreiche Möglichkeiten, aber wenn wir ehrlich sind, ist nur der Himmel die Grenze. Wir bei Passport Photo Online sind natürlich mehr als dankbar, dass es unsere KI-gestützte Überprüfung für Fotos gibt – denn so können wir sicherstellen, dass Ihre Dokumente auch garantiert akzeptiert werden.

Quellen

[1] H. Bhardwaj et al., ‘Principles and Foundations of Artificial Intelligence and Internet of Things Technology’, in G. Kaur et al. (eds.), ‘Artificial Intelligence to Solve Pervasive Internet of Things Issues’ (2021), pp. 377-392.

[2] ‘Image recognition: from the early days of technology to endless business applications today.’, Trendskout, https://trendskout.com/en/solutions-en/image-recognition-technology/ (Accessed: 26 April 2022).

[3] M. Rangaiah, ‘History of Artificial Intelligence’, Analytic Steps (2021), https://www.analyticssteps.com/blogs/history-artificial-intelligence-ai (Accessed: 21 April 2022).

[4] D. Ardila et al., ‘End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography’, Nature Magazine (2019), 25, pp. 954–961.

[5] K. Kaur, ‘The Politics of YouTube’s AI’, Towards Data Science (2019), https://towardsdatascience.com/the-politics-of-youtubes-ai-289148c14e38 (Accessed: 28 April 2022). 

[6] R. Bharadwaj, ‘AI for Social Media Censorship – How it Works at Facebook, YouTube, and Twitter’, Emerj (2019), https://emerj.com/ai-sector-overviews/ai-social-media-censorship-works-facebook-youtube-twitter/ (Accessed: 26 April 2022).

[7] K. Hao, ‘Instagram is using AI to stop people from posting abusive comments’, MIT Technology Review (2019), https://www.technologyreview.com/2019/07/09/65590/instagram-is-using-ai-to-stop-people-posting-abusive-comments/ (Accessed: 26 April 2022).

[8] E. Svoboda, ‘Artificial intelligence is improving the detection of lung cancer’, Nature.com (2020), https://www.nature.com/articles/d41586-020-03157-9 (Accessed: 25 April 2022) 

[9] ‘Computer Vision: What it is and why it matters’, SAS (2022), https://www.sas.com/en_in/insights/analytics/computer-vision.html (Accessed: 25 April 2022).

[10] Huffington Post UK Writers, ‘NEIL Never Ending Image Learner Computer Is Learning Common Sense’, Huffington Post (2013), https://www.huffingtonpost.co.uk/2013/11/26/neil-never-ending-image-learner-computer_n_4342688.html (Accessed: 26 April 2022).

[11] E. Enge, ‘Image Recognition Accuracy Study’, Perficient (2019), https://www.perficient.com/insights/research-hub/image-recognition-accuracy-study (Accessed: 25 April 2022).

[12] ‘AI in Computer Vision Market Revenue, Price, Growth Rate, Forecast To 2030’, Market Watch (2022), https://www.marketwatch.com/press-release/ai-in-computer-vision-market-revenue-price-growth-rate-forecast-to-2030-2022-04-13?mod=search_headline (Accessed: 26 April 2022).

[13] Verified Market Research, ‘AI in Computer Vision Market size worth $ 144.46 Billion, Globally, by 2028 at 45.64% CAGR: Verified Market Research®’, Verified Market Research (2021), https://www.globenewswire.com/news-release/2021/08/19/2283644/0/en/AI-in-Computer-Vision-Market-size-worth-144-46-Billion-Globally-by-2028-at-45-64-CAGR-Verified-Market-Research.html (Accessed: 27 April 2022).

[14] A. Savekar and V. Kumar, ‘AI in Computer Vision Market By Component (Hardware and Software), Function (Training and Interference), and Application (Industrial and Non-industrial), and End Use (Automotive, Consumer Electronics, Healthcare, Agriculture, Transportation & Logistics, Retail, Security & Surveillance, Manufacturing, and Others): Global Opportunity Analysis and Industry Forecast, 2021–2030’, Allied Market Research (2021), https://www.alliedmarketresearch.com/ai-in-computer-vision-market-A13113 (Accessed: 27 April 2022).

[15] N. Joshi, ‘The Present and Future of Computer Vision’, Forbes (2019), https://www.forbes.com/sites/cognitiveworld/2019/06/26/the-present-and-future-of-computer-vision/?sh=5813a00e517d (Accessed: 26 April 2022).

[16] C. Facciolo, ‘The future of image recognition technology is deep learning’, Technical.ly (2019), https://technical.ly/software-development/image-recognition-technology-artificial-intelligence/ (Accessed: 27 April 2022).

[17] S. B, “Future Impacts of AI on Image Recognition”, Tech Affinity (2021), https://techaffinity.com/blog/impact-of-ai-on-image-recognition/ (Accessed: 27 April 2022)

[18] N. Steyn, ‘The Future Is Computer Vision – Real-Time Situational Awareness, Better Quality and Faster Insights’, CIO (2022), https://www.cio.com/article/305671/the-future-is-computer-vision-real-time-situational-awareness-better-quality-and-faster-insights.html (Accessed: 26 April 2022).[19] N. Joshi, ‘The Present and Future of Computer Vision’, Forbes (2019), https://www.forbes.com/sites/cognitiveworld/2019/06/26/the-present-and-future-of-computer-vision/?sh=5813a00e517d (Accessed: 26 April 2022).