Jak AI rozpoznaje obrazy?

Jak AI rozpoznaje obrazy?

A gdyby tak ktoś Ci powiedział, że istnieją maszyny, które potrafią postrzegać otaczający nas świat bardziej wnikliwie od Ciebie, człowieka? To prawda! W ciągu ostatniego stulecia sztuczna inteligencja (AI) rozwinęła zasięg swoich możliwości do tego stopnia, że maszyny mogą postrzegać obraz i otaczający je świat równie dobrze, jeśli nie lepiej od nas.

Sztuczna inteligencja a rozpoznawanie obrazów – jak to działa?

Przede wszystkim, na czym polega rozpoznawanie obrazów przez sztuczną inteligencję? Działa to w ten sposób, że dzięki wykorzystaniu kamer, algorytmów i oprogramowania uczenia maszynowego, maszyny mogą „czytać” i rozpoznawać dane wizualne, np. obrazy i obiekty. Ostatecznym celem tego procesu jest umożliwienie maszynom postrzeganie świata w ten sam sposób co ludzie lub jeszcze bardziej szczegółowo. Jest to podgrupa o wiele szerszej kategorii sztucznej inteligencji, zwanej widzeniem komputerowym, która obejmuje m.in. wykorzystywanie komputerów do przetwarzania, klasyfikowania i rekonstruowania obrazów, przy czym wszystkie te zadania są ze sobą powiązane. Rozpoznawanie obrazów jest prawdopodobnie jedną z najważniejszych części widzenia komputerowego, ponieważ stanowi podstawę, na której opiera się większość pozostałych elementów. Przykładami, z którymi można się zetknąć, są m.in:

  • identyfikacja tablic rejestracyjnych,
  • odróżnianie kopii obrazu od oryginału,
  • diagnozowanie chorób; [1]

Wszystkie te elementy, a także wiele innych, są dowodem, że rozpoznawanie obrazów jest ważną częścią rozwoju sztucznej inteligencji. Przyjrzyjmy się zatem, jak ewoluowało to narzędzie i jakie jest jego znaczenie w dzisiejszych czasach.

Rozpoznawanie obrazów przez AI: początki

Na początku XXI wieku pojawiło się coś, co Oren Etzioni, Michele Banko oraz Michael Cafarella nazwali „czytaniem maszynowym”. W 2006 r. opracowali oni koncept zdolności rozumienia tekstu w oparciu o uczenie nienadzorowane, który ostatecznie przerodził się w maszyny „czytające” obiekty i obrazy.

To, co dzisiaj znamy jako rozpoznawanie obrazów, zaczęło się prawdopodobnie w tym samym roku, kiedy Fei-Fei Li rozpoczął proces tworzenia ogromnej internetowej bazy danych Imagenet, zawierającej skategoryzowane obrazy, która teoretycznie pozwalała maszynom na rozpoznanie zależności między poszczególnymi obiektami. Do 2010 r. na Imagenet zgromadzono ponad 3 miliony obrazów, a w 2010 r. zorganizowano konkurs pod nazwą Imagenet Large Scale Visual Recognition Challenge, w którym zespoły ekspertów AI rywalizowały o to, kto najlepiej wykorzysta bazę danych.

Wykres porównujący współczynnik błędu Alexnet 15,3% w 2012 r. ze średnią 25% w 2012 r.

W 2012 r. konkurs wygrał Alexnet, stworzony przez zespół z Uniwersytetu w Toronto, którego współczynnik błędu wyniósł 15,3%, w porównaniu do ponad 25% w przypadku pozostałych uczestników w pierwszej edycji konkursu. [2] To niezwykłe osiągnięcie prawdopodobnie utorowało drogę kolejnym odkryciom, które omówimy poniżej.

W 2012 r. Andrew Ng i Jeff Dean z firmy Google opracowali sieć neuronową potrafiącą rozpoznać zdjęcia i obrazy kotów bez tła. Rok później Uniwersytet Carnegie Mellon stworzył NEIL (Never Ending Image Learner), określany jako „program komputerowy działający 24 godziny na dobę i 7 dni w tygodniu, który automatycznie wyodrębnia dane wizualne z wszystkich danych dostępnych w Internecie”. [3][4]

Tego typu technologia znalazła już zastosowanie na całym świecie, od zespołów zajmujących się energią odnawialną po narzędzia do weryfikacji zdjęć paszportowych (Passport Photo Online wykorzystuje taką technologię do weryfikacji zdjęć paszportowych), co sprawia, że stanowi ona istotny wkład w rozwój sztucznej inteligencji.

Oprócz edycji zdjęć paszportowych, umiejętność odczytywania obrazów przez AI pozwoliła portalom społecznościowym, takim jak Facebook, YouTube i Instagram, na cenzurowanie zdjęć i filmów, które są nieodpowiednie dla ogółu odbiorców, np. zawierających wulgarne lub drastyczne treści.

Wykres pokazuje, że AI wykorzystywana przez YouTube usunęła 70% nieodpowiednich filmów przed zebraniem choćby jednej odsłony.

W pierwszym kwartale 2019 r. tylko AI wykorzystywanej przez YouTube udało się zidentyfikować i usunąć ponad 6 milionów filmów. 70% z nich zostało usuniętych przed zebraniem choćby jednej odsłony. [5]

W drugiej połowie 2010 r. czytanie maszynowe zaczęło odgrywać jeszcze większą rolę na wszystkich portalach społecznościowych. W 2015 r. Facebook zaczął wykorzystywać AI do wykrywania postów zawierających informacje o samobójstwach lub samookaleczeniach, aby nieść pomoc, a w 2017 r. YouTube zaczął używać AI do oznaczania filmów o treściach promujących terroryzm, aby zablokować możliwość ich opublikowania.

Wykres pokazuje, że AI YouTube zablokowała 83% filmów zawierających ekstremistyczne treści, zanim zobaczył je zespół specjalistów.

We wrześniu tego samego roku AI wykorzystywana przez YouTube zablokowała 83% filmów zawierających brutalne ekstremistyczne treści, zanim jeszcze zobaczył je zespół specjalistów. [6] W tym samym miesiącu, w którym YouTube ogłosił swoją inicjatywę, Instagram za pomocą AI zaczął cenzurować najbardziej wulgarne komentarze, a następnie rozbudował tę funkcję pozwalając AI wysyłać użytkownikom komunikat ostrzegający przed opublikowaniem potencjalnie obraźliwego komentarza. [7]

Z postępów w tej dziedzinie skorzystała również diagnostyka medyczna.

Wykres pokazuje, że AI Etemadi w 94% przypadków prawidłowo rozpoznała wczesne stadium raka płuc.

System AI stworzony przez Mozziyar Etemadi w 2019 r. potwierdził swoją skuteczność prawidłowo rozpoznając wczesne stadium raka płuc w 94% przypadków, co stanowi lepszy wynik niż rezultat osiągnięty przez 6 radiologów od dawna zajmujących się tą dziedziną. Elizabeth Svoboda zwraca szczególną uwagę na znaczenie tego postępu, powołując się na fakt, że 70% zachorowań na raka płuc jest diagnozowana zbyt późno, aby można było podjąć leczenie. Jak przyznała: „Wykorzystanie AI do wczesnego wykrywania nowotworów może skutecznie podwoić ilość czasu, jaki onkolodzy mają na leczenie pacjenta”. [8]

Rozpoznawanie obrazów przez AI: szybki rozwój

Systemy odczytu obrazów rozwijały się stopniowo przez pierwsze dwie dekady XXI wieku.

Wykres przedstawiający wzrost dokładności rozpoznawania obiektów z 50% do 99%.

Wkrótce potem na świecie nastąpił szczególnie szybki okres wzrostu. W ciągu niespełna dekady dokładność rozpoznawania obiektów wzrosła z 50% do 99%. [9] Nowe AI korzystają z mechanizmów odczytywania obrazów dostępnych już urządzeń. NEIL został celowo zaprojektowany jako stale rosnący zasób dla informatyków, którzy mogą go wykorzystywać do tworzenia własnych systemów rozpoznawania obrazów.

Graphic showing that NEIL studied 3 million images and identified 3000 relationships in four months.

Od momentu uruchomienia w lipcu 2013 r. do listopada tego samego roku, NEIL zdążył przebadać 3 miliony zdjęć i dzięki tej analizie treści poznał ok. 3000 zależności (np. „zebra może występować na terenie Sawanny”). [10]

Wykres przedstawiający względną dokładność Google Vision, Amazon Rekognition i Microsoft Azure.

Badanie przeprowadzone przez Perficient Digital na czterech wiodących AI w rozpoznawaniu obrazów, testowało ich zdolność rozpoznawania tagów graficznych, wykazując, że w 2019 r. wiele AI zbliżyło się swoim poziomem do poziomu umiejętności człowieka. Na przykład Google Vision uzyskał w swoim teście 81,7% dokładności, co stanowiło wynik tylko o 6% gorszy od wyniku uzyskanego przez człowieka. Co więcej, Vision nie stanowi w tej kwestii wyjątku, ponieważ Amazon Rekognition i Microsoft Azure również uzyskały wysokie wyniki (odpowiednio 77,7% i 75,8%). [11]

Rozpoznawanie obrazów przez AI: przyszłość

Mimo wszystkich dotychczasowych odkryć nadal nie wiemy, co technologia rozpoznawania obrazów sztucznej inteligencji będzie w stanie zrobić w przyszłości.

Wykres przedstawiający potencjalny wzrost wartości rynku widzenia komputerowego z 8,4 mld $ do 150,6 mld $.

Według badań przeprowadzonych przez firmę Market Watch, wartość światowego rynku AI opartej na widzeniu komputerowym, w 2021 r. wyniosła 8,4 mld dolarów. Szacuje się, że do 2030 r. wartość ta osiągnie 150,6 mld dolarów. Jest to wzrost o 1792,86% i jest to naprawdę ogromny postęp. [12] Verified Market Research uzyskał podobny wynik, szacując, że wielkość globalnego rynku widzenia komputerowego wzrośnie z 7,04 mld dolarów w 2020 r. do 144,46 mld dolarów w 2028 r. [13] Allied Market Research wskazuje na jeszcze bardziej optymistyczne prognozy, przewidując, że wielkość rynku wzrośnie do 207,09 dolarów do 2030 r. [14]

Jest kilka potencjalnych przyczyn tego wzrostu. Naveen Joshi, założyciel i dyrektor naczelny firmy inżynierskiej Allerin, pisze dla Forbes w następujący sposób: „Technologie widzenia komputerowego będą nie tylko łatwiejsze do wyszkolenia, ale także będą w stanie dostrzec więcej z obrazów niż są w stanie wykryć obecnie”. [15] Facciolo przekonuje, że przyszłe innowacje „będą opierać się na pogłębionej nauce [algorytmów]… działających…w oparciu o tworzenie rozbudowanych sieci neuronowych imitujących mechanizm działania ludzkiego mózgu, a następnie będą interpretować i analizować dane, takie jak obrazy, wideo i tekst”. [16] Sathish B przewiduje natomiast, że to właśnie powszechne stosowanie narzędzi do rozpoznawania twarzy przyczyni się do kolejnych odkryć w przyszłości, napędzanych „rosnącym wykorzystywaniem urządzeń mobilnych oraz zapotrzebowaniem na sprawne wykrywanie i zapobieganie oszustwom”. [17]

Zważywszy na tempo, w jakim NEIL rozwinął swoją bazę danych, można z dużą pewnością oczekiwać, że przyczyni się on (i inne podobne bazy danych) do zwiększenia tempa rozwoju AI. Pierwsi inżynierowie i informatycy, którzy zaczęli tworzyć AI rozpoznające obraz, musieli zaczynać od zera, ale dzisiejsi twórcy dysponują bogatą wiedzą, z której mogą czerpać przy tworzeniu własnych AI. Wspomnieliśmy już, że NEIL został zaprojektowany w taki sposób, aby mógł być później wykorzystywany jako źródło wiedzy.

Biorąc pod uwagę to, że w ciągu najbliższych kilku lat AI może ogólnie rozwinąć swoje możliwości, wysoce prawdopodobnym jest to, że AI odpowiedzialne za rozpoznawanie obrazów również na tym skorzysta. Steyn powołuje się na badanie przeprowadzone przez firmę Forrester, według którego ponad 80% organizacji spodziewa się wzrostu liczby zastosowań AI, do których – jak twierdzi – w niemałym stopniu należeć będzie widzenie komputerowe. [18] Potencjał rozwoju można dostrzec dzięki połączeniu widzenia komputerowego AI z innymi formami AI. Oprócz zastosowań w świecie biznesu, Joshi sugeruje, że oprogramowanie do rozpoznawania obrazów mogłoby być używane wraz z oprogramowaniem do przetwarzania języka naturalnego, aby pomóc osobom niedowidzącym interpretować dla nich otoczenie. [19]

Zapytany o opinię na temat przyszłości AI w zakresie rozpoznawania obrazów, dyrektor działu SEO w Passport Photo Online, Leszek Dudkiewicz, stwierdził: „Zdolność AI do rozpoznawania obiektów na zdjęciu otwiera potencjał dla szerokiej gamy różnych zastosowań. W szczególności medycyna odniesie ogromne korzyści z zastosowania AI, np. przy tworzeniu aplikacji medycznych, które potrafią rozpoznawać zmiany skórne, np. w celu wykrycia czerniaka we wczesnym stadium.”

Jeśli chodzi o to, w jaki sposób AI mogłaby wpłynąć na Passport Photo Online, dodał: „Obecnie wykorzystujemy AI do analizy przesłanych zdjęć, ale docelowo chcielibyśmy zapewnić bardziej interaktywne doświadczenie, dzięki któremu moglibyśmy udzielać wskazówek na etapie robienia zdjęcia, tzn. że AI mogłaby analizować w czasie rzeczywistym sposób, w jaki użytkownik ustawia się do zdjęcia.”

Rozpoznawanie obrazów przez AI – podsumowanie

22 lata to stosunkowo krótki okres czasu, ale w ciągu tych dwóch dekad byliśmy świadkami ogromnego postępu technologii rozpoznawania obrazów. Dzięki bazom danych, takim jak NEIL i Imagenet, informatycy stworzyli fundament, na którym można zbudować i rozwinąć każdy następny system AI do rozpoznawania obrazów. Najwięksi twórcy sztucznej inteligencji przeszli drogę od uproszczonych AI, które potrafią rozpoznawać obiekty i zależności między nimi, do bardziej złożonych narzędzi, które potrafią identyfikować w filmach treści, które powinny zostać zablokowane.

Oczywiście, w Passport Photo Online jesteśmy szczególnie wdzięczni za technologię AI odpowiedzialną za weryfikację zdjęć – to właśnie dzięki niej możemy zagwarantować użytkownikom największe szanse na zatwierdzenie ich wniosków.

Biblografia

[1] H. Bhardwaj i in., ‘Principles and Foundations of Artificial Intelligence and Internet of Things Technology’, w G. Kaur in in. (ed.), ‘Artificial Intelligence to Solve Pervasive Internet of Things Issues’ (2021), s. 377-392.

[2] ‘Image recognition: from the early days of technology to endless business applications today.’, Trendskout, https://trendskout.com/en/solutions-en/image-recognition-technology/ (Data dostępu: 26 April 2022).

[3] M. Rangaiah, ‘History of Artificial Intelligence’, Analytic Steps (2021), https://www.analyticssteps.com/blogs/history-artificial-intelligence-ai (Data dostępu: 21 April 2022).

[4] D. Ardila i in., ‘End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography’, Nature Magazine (2019), 25, s. 954–961.

[5] K. Kaur, ‘The Politics of YouTube’s AI’, Towards Data Science (2019), https://towardsdatascience.com/the-politics-of-youtubes-ai-289148c14e38 (Data dostępu: 28 April 2022). 

[6] R. Bharadwaj, ‘AI for Social Media Censorship – How it Works at Facebook, YouTube, and Twitter’, Emerj (2019), https://emerj.com/ai-sector-overviews/ai-social-media-censorship-works-facebook-youtube-twitter/ (Data dostępu: 26 April 2022).

[7] K. Hao, ‘Instagram is using AI to stop people from posting abusive comments’, MIT Technology Review (2019), https://www.technologyreview.com/2019/07/09/65590/instagram-is-using-ai-to-stop-people-posting-abusive-comments/ (Data dostępu: 26 April 2022).

[8] E. Svoboda, ‘Artificial intelligence is improving the detection of lung cancer’, Nature.com (2020), https://www.nature.com/articles/d41586-020-03157-9 (Data dostępu: 25 April 2022) 

[9] ‘Computer Vision: What it is and why it matters’, SAS (2022), https://www.sas.com/en_in/insights/analytics/computer-vision.html (Data dostępu: 25 April 2022).

[10] Huffington Post UK Writers, ‘NEIL Never Ending Image Learner Computer Is Learning Common Sense’, Huffington Post (2013), https://www.huffingtonpost.co.uk/2013/11/26/neil-never-ending-image-learner-computer_n_4342688.html (Data dostępu: 26 April 2022).

[11] E. Enge, ‘Image Recognition Accuracy Study’, Perficient (2019), https://www.perficient.com/insights/research-hub/image-recognition-accuracy-study (Data dostępu: 25 April 2022).

[12] ‘AI in Computer Vision Market Revenue, Price, Growth Rate, Forecast To 2030’, Market Watch (2022), https://www.marketwatch.com/press-release/ai-in-computer-vision-market-revenue-price-growth-rate-forecast-to-2030-2022-04-13?mod=search_headline (Data dostępu: 26 April 2022).

[13] Verified Market Research, ‘AI in Computer Vision Market size worth $ 144.46 Billion, Globally, by 2028 at 45.64% CAGR: Verified Market Research®’, Verified Market Research (2021), https://www.globenewswire.com/news-release/2021/08/19/2283644/0/en/AI-in-Computer-Vision-Market-size-worth-144-46-Billion-Globally-by-2028-at-45-64-CAGR-Verified-Market-Research.html (Data dostępu: 27 April 2022).

[14] A. Savekar and V. Kumar, ‘AI in Computer Vision Market By Component (Hardware and Software), Function (Training and Interference), and Application (Industrial and Non-industrial), and End Use (Automotive, Consumer Electronics, Healthcare, Agriculture, Transportation & Logistics, Retail, Security & Surveillance, Manufacturing, and Others): Global Opportunity Analysis and Industry Forecast, 2021–2030’, Allied Market Research (2021), https://www.alliedmarketresearch.com/ai-in-computer-vision-market-A13113 (Data dostępu: 27 April 2022).

[15] N. Joshi, ‘The Present and Future of Computer Vision’, Forbes (2019), https://www.forbes.com/sites/cognitiveworld/2019/06/26/the-present-and-future-of-computer-vision/?sh=5813a00e517d (Data dostępu: 26 April 2022).

[16] C. Facciolo, ‘The future of image recognition technology is deep learning’, Technical.ly (2019), https://technical.ly/software-development/image-recognition-technology-artificial-intelligence/ (Data dostępu: 27 April 2022).

[17] S. B, “Future Impacts of AI on Image Recognition”, Tech Affinity (2021), https://techaffinity.com/blog/impact-of-ai-on-image-recognition/ (Data dostępu: 27 April 2022)

[18] N. Steyn, ‘The Future Is Computer Vision – Real-Time Situational Awareness, Better Quality and Faster Insights’, CIO (2022), https://www.cio.com/article/305671/the-future-is-computer-vision-real-time-situational-awareness-better-quality-and-faster-insights.html (Data dostępu: 26 April 2022).[19] N. Joshi, ‘The Present and Future of Computer Vision’, Forbes (2019), https://www.forbes.com/sites/cognitiveworld/2019/06/26/the-present-and-future-of-computer-vision/?sh=5813a00e517d (Data dostępu: 26 April 2022).

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *