Inteligencia Artificial: Reconocimiento de Imágenes

Inteligencia Artificial: Reconocimiento de Imágenes

¿Me creerías si te digo que, hoy en día, hay máquinas que pueden ver el mundo con más detalle que tú, un ser humano? Es verdad: a lo largo del último siglo la inteligencia artificial ha ido ampliando su alcance y sus capacidades, nos ha llevado a una fase en la que las máquinas pueden leer las imágenes y el mundo que les rodea igual de bien, si no mejor, que nosotros. 

Inteligencia artificial para el reconocimiento de imágenes: definiciones 

En primer lugar, ¿qué es la IA para el reconocimiento de imágenes?  Funciona es que, mediante el uso de cámaras, algoritmos y programas de aprendizaje automático, los ordenadores pueden «leer» y reconocer datos visuales, por ejemplo, imágenes y objetos. El objetivo de este proceso es proveer a las máquinas la capacidad de ver el mundo como lo hacen los humanos o de verlo con mayor detalle. Es un subcampo de un área mucho más amplia de la inteligencia artificial llamada visión por computadora o visión artificial, que incluye el uso de ordenadores para procesar, clasificar y reconstruir imágenes, entre otras tareas, todas ellas interrelacionadas. El reconocimiento de imágenes es posiblemente una de las partes más importantes de la visión artificial, ya que es la base sobre la que se construyen la mayoría de los demás elementos. Algunos ejemplos con los que te habrás encontrado son:

  • Identificación de matrículas,
  • distinguir copias de imágenes de las reales,
  • diagnosticar enfermedades;[1]

Todas estas, y muchas más, hacen que el reconocimiento de imágenes sea una parte importante del desarrollo de la IA. Ahora, veamos cómo ha evolucionado, y cuál es su importancia hoy en día.

Artículos similares:

Inteligencia Artificial para el reconocimiento de imágenes: primeros días  

A principios de la década del 2000 surgió lo que Oren Etzioni, Michele Banko, y Michael Cafarella llamaron «lectura automática». En 2006, definieron esta idea de comprensión de textos sin supervisión, que acabaría ampliándose a la «lectura» de objetos e imágenes por parte de las máquinas. 

Lo que reconocemos como reconocimiento de imágenes comenzó probablemente ese mismo año, cuando Fei-Fei Li, inició el proceso de creación de Imagenet, una enorme base de datos de imágenes categorizadas que, en teoría, permitiría a las máquinas aprender las relaciones entre múltiples objetos. Para 2010, Imagenet contaba con más de 3 millones de imágenes, y en ese año se celebró el Desafío de Reconocimiento Visual a Gran Escala de Imagenet, en el que equipos de expertos en IA competían para ver quién podía hacer el mejor trabajo usando la base de datos.

Gráfico que compara el 15,3% de error de Alexnet en 2012 con la media del 25% en 2012.

En 2012, el evento fue ganado por Alexnet, creado por un equipo de la Universidad de Toronto, cuya tasa de error fue del 15,3%, comparado con más del 25% de error del resto de los participantes en el primer año. [2]Se puede decir que este notable logro abrió el camino para otros avances, que exploraremos a continuación.

En 2012, Andrew Ng y Jeff Dean en Google desarrollaron una red neuronal que podía detectar imágenes de gatos sin contexto de fondo. El siguiente año, la Universidad Carnegie Mellon creó NEIL (Never Ending Image Learner), que se presenta como «un programa computarizado que funciona 24 horas al día y 7 días a la semana para extraer automáticamente el conocimiento visual de la información en Internet»[3][4].

Este tipo de tecnología ha encontrado su hogar en todo el mundo, desde grupos de energía renovable hasta herramientas de comprobación de fotos de pasaportes (Passport Photo Online hace uso de esta tecnología para comprobar las fotos de los pasaportes), lo que la convierte en una fuerte adición al desarrollo de la IA. 

Además de editar las fotos de los pasaportes, la capacidad de las IA para leer imágenes ha permitido a canales de redes sociales como Facebook, YouTube e Instagram censurar imágenes y vídeos inapropiados para el público en general, por ejemplo, de contenido sangriento o explícito. 

Gráfico que muestra que la IA de YouTube eliminó el 70% de los vídeos inapropiados antes de que tuvieran una sola visualización.

En el primer trimestre de 2019, solo la IA de YouTube logró identificar y eliminar más de 6 millones de vídeos. El 70% de estos fueron eliminados antes de recibir una sola vista[5].

En la segunda mitad de la década de 2010, la lectura automática ha asumido mayores funciones en todos los canales de las redes sociales. Desde 2015, Facebook ha utilizado la IA para marcar las publicaciones relacionadas con el suicidio o las autolesiones para proporcionar ayuda y, en 2017, YouTube comenzó a utilizar la IA para marcar los vídeos relacionados con el terrorismo para bloquearlos e impedir que sean subidos. 

Gráfico que muestra que la IA de YouTube bloqueó el 83% de los vídeos extremistas antes de que los viera el equipo humano.

En Septiembre de ese año, la IA de YouTube bloqueó el 83% de vídeos extremistas violentos antes de que el equipo humano los viera.[6] El mismo mes en que YouTube anunció su iniciativa, Instagram comenzó a censurar los comentarios más explícitamente odiosos a través de la IA, ampliando posteriormente esa medida para preguntar a los usuarios si estaban seguros antes de enviar un comentario potencialmente abusivo.[7]

In addition, medical diagnostics have benefited from advances in this area. 

Gráfico que muestra que la IA de Etemadi identificó correctamente el cáncer de pulmón en fase inicial el 94% de las veces.

Un sistema de IA creado por Mozziyar Etemadi en 2019 demostró ser capaz de identificar correctamente el cáncer de pulmón en fase inicial el 94% de veces, una puntuación superior a la de 6 radiólogos, todos ellos con una larga trayectoria en este campo. Elizabeth Svoboda señala la importancia de este avance, citando el hecho de que el 70% de los cánceres de pulmón se diagnostican demasiado tarde para el tratamiento. Declara que: «El uso de la IA para detectar tumores en una fase temprana puede duplicar efectivamente el tiempo que tienen los oncólogos para tratar a un paciente»[8].

Inteligencia artificial para el reconocimiento de imágenes: un rápido ascenso

Estos sistemas de lectura de imágenes se han ido desarrollando gradualmente a lo largo de las dos primeras décadas del siglo XXI. 

Gráfico que muestra el aumento de la precisión en la identificación de objetos del 50% al 99%.

El mundo ha visto un periodo de crecimiento particularmente rápido, con un aumento en la precisión en la identificación de objetos del 50% al 99%. [9] Las nuevas IA se benefician de las capacidades de lectura de imágenes de los productos existentes. NEIL se diseñó explícitamente para que fuera un recurso en continuo crecimiento que losexpertos pudieran utilizar para desarrollar sus propios ejemplos de reconocimiento de imágenes de IA.

Gráfico que muestra que NEIL estudió 3 millones de imágenes e identificó 3000 relaciones en cuatro meses.

Entre su lanzamiento en julio de 2013 y noviembre de ese mismo año, NEIL fue capaz de estudiar 3 millones de imágenes y, mediante el análisis del contenido, identificó 3000 relaciones (por ejemplo, «la cebra se puede encontrar en la Sabana»)[10].

Gráfico que muestra la precisión relativa de Google Vision, Amazon Rekognition y Microsoft Azure.

Un estudio realizado por Perficient Digital sobre cuatro de las principales IAs de reconocimiento de imágenes puso a prueba su capacidad para reconocer etiquetas de imágenes, revelando que, en 2019, muchas IAs se están acercando a los niveles de habilidad humana. Google Vision, por ejemplo, obtuvo un 81,7% de precisión en su prueba, lo que supone solo un 6% menos que el control humano. Vision tampoco es un mero caso atípico, ya que Amazon Rekognition y Microsoft Azure también obtuvieron una alta puntuación (77,7% y 75,8%, respectivamente)[11].

Reconocimiento de Imágenes con IA: el futuro

A pesar de todos estos grandes avances, sólo estamos raspando la superficie de lo que la tecnología de reconocimiento de imágenes de la IA será capaz de hacer. 

Gráfico que muestra el potencial del crecimiento del mercado de la visión computerizada de 8.400 a 150.600 millones de dólares.

Según una investigación de Market Watch, en el 2021 el mercado mundial de la IA de visión computarizada se valoró en 8.400 millones de dólares. Predicen que alcanzará los 150.600 millones de dólares en 2030. Esto supone un aumento del 1792,86%, una subida realmente enorme.[12] Verified Market Research obtiene un resultado similar, al predecir que el tamaño del mercado mundial de la visión computarizada se expandirá de 7.040 millones de dólares en 2020 a 144.460 millones de dólares en 2028.[13] Allied Market Research es aún más optimista, al predecir que el tamaño del mercado aumentará a 207,09 dólares en 2030.[14]

Hay varias razones posibles para este aumento. En su artículo para Forbes, Naveen Joshi, fundador y director general de la empresa de ingeniería Allerin, afirma que: «Las tecnologías de visión computarizada no sólo serán más fáciles de entrenar, sino que también podrán discernir más de las imágenes que ahora»[15] Facciolo sostiene que la innovación futura «se basa en [algoritmos] de aprendizaje profundo… [que] funcionan… construyendo redes neuronales profundas que simulan el mecanismo del cerebro humano y luego interpretan y analizan los datos, como la imagen, el vídeo y el texto. «[16] Sathish B, por su parte, predice que es la adopción generalizada de herramientas de reconocimiento facial lo que le reportará un nuevo éxito en el futuro, impulsado por «el creciente uso de dispositivos móviles y la demanda de una fuerte detección y prevención del fraude»[17].

Habiendo visto el ritmo al que NEIL ha desarrollado sus conocimientos, es lógico esperar que ésta (y otras bases de datos similares) ayude a aumentar el ritmo de avance de la Inteligencia Artificial. Los ingenieros e informáticos que empezaron a crear IA de reconocimiento de imágenes tuvieron que comenzar desde cero, pero los diseñadores de hoy en día tienen una gran cantidad de conocimientos previos a los que recurrir para crear sus propias IA. Al fin y al cabo, ya hemos visto que NEIL se diseñó originalmente para ser utilizado como un recurso de este tipo.

Dado que es probable que la inteligencia artificial en general amplíe su alcance en los próximos años, es probable que las IA de reconocimiento de imágenes puedan beneficiarse de ello. Steyn cita una encuesta de Forrester en la que se afirma que más del 80% de las organizaciones esperan que sus casos de uso de la inteligencia artificial aumenten, lo que, según él, incluirá en gran medida la visión por ordenador o visión artificial[18]. Fuera del mundo de la empresa, Joshi sugiere que el software de reconocimiento de imágenes podría utilizarse, junto con el software de procesamiento del lenguaje natural, para ayudar a las personas con discapacidad visual, interpretando su entorno por ellas[19].

Al preguntarle su opinión sobre el futuro de la IA de reconocimiento de imágenes, nuestro jefe de SEO, Leszek Dudkiewicz, dijo «La capacidad de la IA para reconocer objetos en una foto abre el abanico de posibles aplicaciones. En particular, el ámbito médico se beneficiará enormemente de la integración de la IA, por ejemplo, la creación de aplicaciones médicas que puedan reconocer cambios en la piel, con usos como detectar un melanoma en sus primeras fases». 

 En el tema de cómo afectaría el reconocimiento de imágenes por IA a Passport Photo Online, añadió: «De momento, utilizamos la IA cuando analizamos las fotos subidas, pero en última instancia nos gustaría ofrecer una experiencia más interactiva en la que podamos dar pistas en el momento de hacer la foto, es decir, la IA tendría la capacidad de analizar, en tiempo real, la forma en que el usuario se está posicionando en la foto».

Inteligencia artificial para el reconocimiento de imágenes: conclusión

22 años es un espacio de tiempo relativamente corto, pero en esas dos décadas hemos dado enormes saltos en la tecnología de reconocimiento de imágenes. Con la ayuda de bases de datos como NEIL e Imagenet, los expertos han creado una base a partir de la cual se pueden construir y desarrollar todos los futuros sistemas de IA de reconocimiento de imágenes. Los principales pensadores de la IA han pasado de las Inteligencias Artificiales simplistas que pueden identificar objetos, y las relaciones entre ellos, a herramientas más complejas que pueden identificar el contenido de los vídeos y así distinguir los que deben ser bloqueados. 

¿Quién sabe hacia dónde irá el reconocimiento de imágenes en el futuro? Hay muchas posibilidades, pero realmente, el cielo es el límite. En Passport Photo Online, por supuesto, estamos muy agradecidos por nuestros verificadores de fotos con IA: eso es lo que nos permite darle la mejor oportunidad de que sus solicitudes sean aprobadas.

TAMBIÉN TE PUEDE INTERESAR:

[1] H. Bhardwaj y otros, ‘Principles and Foundations of Artificial Intelligence and Internet of Things Technology’, en G. Kaur y otros (eds.), ‘Artificial Intelligence to Solve Pervasive Internet of Things Issues’ (2021), pp. 377-392.

[2] ‘Reconocimiento de imágenes: desde los primeros días de la tecnología hasta las infinitas aplicaciones empresariales actuales’, Trendskout, https://trendskout.com/en/solutions-en/image-recognition-technology/ (consultado el 26 de abril de 2022).

[3] M. Rangaiah, ‘History of Artificial Intelligence’, Analytic Steps (2021), https://www.analyticssteps.com/blogs/history-artificial-intelligence-ai (consultado: 21 de abril de 2022).

[4] D. Ardila y otros, ‘End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography’, Revista Nature (2019), 25, pp. 954-961.

[5] K. Kaur, ‘The Politics of YouTube’s AI’, Towards Data Science (2019), https://towardsdatascience.com/the-politics-of-youtubes-ai-289148c14e38 (consultado: 28 de abril de 2022). 

[6] R. Bharadwaj, ‘AI for Social Media Censorship – How it Works at Facebook, YouTube, and Twitter’, Emerj (2019), https://emerj.com/ai-sector-overviews/ai-social-media-censorship-works-facebook-youtube-twitter/ (Consultado: 26 de abril de 2022).

[7] K. Hao, ‘Instagram is using AI to stop people from posting abusive comments’, MIT Technology Review (2019), https://www.technologyreview.com/2019/07/09/65590/instagram-is-using-ai-to-stop-people-posting-abusive-comments/ (Consultado: 26 de abril de 2022).

[8] E. Svoboda, ‘Artificial intelligence is improving the detection of lung cancer’, Nature.com (2020), https://www.nature.com/articles/d41586-020-03157-9 (Consultado: 25 de abril de 2022) 

[9] «Visión por ordenador: What it is and why it matters’, SAS (2022), https://www.sas.com/en_in/insights/analytics/computer-vision.html (Consultado: 25 de abril de 2022).

[10] Escritores del Huffington Post UK, ‘NEIL Never Ending Image Learner Computer Is Learning Common Sense’, Huffington Post (2013), https://www.huffingtonpost.co.uk/2013/11/26/neil-never-ending-image-learner-computer_n_4342688.html (Consultado: 26 de abril de 2022).

[11] E. Enge, ‘Image Recognition Accuracy Study’, Perficient (2019), https://www.perficient.com/insights/research-hub/image-recognition-accuracy-study (consultado: 25 de abril de 2022).

[12] ‘AI in Computer Vision Market Revenue, Price, Growth Rate, Forecast To 2030’, Market Watch (2022), https://www.marketwatch.com/press-release/ai-in-computer-vision-market-revenue-price-growth-rate-forecast-to-2030-2022-04-13?mod=search_headline (consultado: 26 de abril de 2022).

[13] Verified Market Research, «AI in Computer Vision Market size worth $ 144.46 Billion, Globally, by 2028 at 45.64% CAGR: Verified Market Research®», Verified Market Research (2021), https://www.globenewswire.com/news-release/2021/08/19/2283644/0/en/AI-in-Computer-Vision-Market-size-worth-144-46-Billion-Globally-by-2028-at-45-64-CAGR-Verified-Market-Research.html (Consultado: 27 de abril de 2022).

[14] A. Savekar y V. Kumar, ‘AI in Computer Vision Market By Component (Hardware and Software), Function (Training and Interference), and Application (Industrial and Non-industrial), and End Use (Automotive, Consumer Electronics, Healthcare, Agriculture, Transportation & Logistics, Retail, Security & Surveillance, Manufacturing, and Others): Global Opportunity Analysis and Industry Forecast, 2021-2030’, Allied Market Research (2021), https://www.alliedmarketresearch.com/ai-in-computer-vision-market-A13113 (consultado: 27 de abril de 2022).

[15] N. Joshi, ‘The Present and Future of Computer Vision’, Forbes (2019), https://www.forbes.com/sites/cognitiveworld/2019/06/26/the-present-and-future-of-computer-vision/?sh=5813a00e517d (consultado: 26 de abril de 2022).

[16] C. Facciolo, «El futuro de la tecnología de reconocimiento de imágenes es el aprendizaje profundo», Technical.ly (2019), https://technical.ly/software-development/image-recognition-technology-artificial-intelligence/ (Consultado: 27 de abril de 2022).

[17] S. B, «Future Impacts of AI on Image Recognition», Tech Affinity (2021), https://techaffinity.com/blog/impact-of-ai-on-image-recognition/ (consultado: 27 de abril de 2022)

[18] N. Steyn, «The Future Is Computer Vision – Real-Time Situational Awareness, Better Quality and Faster Insights», CIO (2022), https://www.cio.com/article/305671/the-future-is-computer-vision-real-time-situational-awareness-better-quality-and-faster-insights.html (consultado: 26 de abril de 2022).

[19] N. Joshi, «The Present and Future of Computer Vision», Forbes (2019), https://www.forbes.com/sites/cognitiveworld/2019/06/26/the-present-and-future-of-computer-vision/?sh=5813a00e517d (consultado: 26 de abril de 2022).

Deja una respuesta

Tu dirección de correo electrónico no será publicada.