¿Existe sesgo implícito en los sistemas de reconocimiento?

El sesgo implícito en los sistemas de reconocimiento podría alargar la vida del trabajo humano en programación, edición y desarrollo

Y eso es… ¿bueno? ¿Y malo, a la vez? Resulta que, por mucho que avance la tecnología y el conocimiento en el terreno digital, a las máquinas seguimos teniendo que enseñarles nosotros primero. Conforme se van implementando actualizaciones en IA, se van realizando cada vez más observaciones sobre la precisión con la que determinados softwares y programas realizan el trabajo para el que fueron diseñados. Y, lo que estamos viendo, de momento, es que sí: hay sesgo implícito en los sistemas de reconocimiento. Y es preocupante.

No es ninguna sorpresa: un sesgo es un peso o favor desproporcionado hacia un elemento en comparación con otro. Un sesgo implícito, es decantarnos por un lado de la balanza sin darnos cuenta. Por ejemplo, cuando la persona firmante de un libro científico utiliza sus iniciales en lugar de nombre completo, lo más común es que automáticamente demos por hecho que la identidad bajo esa firma es la de un hombre.

Eso es un sesgo implícito. Es el más difícil de detectar, precisamente porque muchas veces no somos conscientes de él. Ese es justamente el problema: que prácticamente todos y todas estamos sesgados en cuestiones idiomáticas, de raza, género y clase. Y las personas que desarrollan softwares de PNL, reconocimiento y procesamiento de datos no son diferentes.

En las últimas décadas la carrera tecnológica ha vivido un crecimiento exponencial probablemente impensable para generaciones anteriores. Hemos desarrollado sistemas, programas, máquinas y algoritmos que son capaces de hacer prácticamente cualquier cosa por nosotros. Y, sin embargo, hay aspectos básicos con respecto a la igualdad entre seres humanos que todavía nos quedan como asignatura pendiente. Uno de ellos es revisar la noción de diversidad de usuarios.

Cuando la tecnología va por delante

Los algoritmos de reconocimiento facial, de voz, o de Procesamiento de Lenguajes Naturales, favorecen en un porcentaje bastante alto a un sector demográfico en concreto: hombres blancos de la costa oeste de Estados Unidos. Es decir, que la odiada frase de Perdona, no te he entendido suena mucho más en los dispositivos de cualquier persona que se salga de ese perfil.

No creemos que sea intencionado, pero tampoco es casualidad: son, precisamente, hombres blancos de la costa oeste de Estados Unidos los que han diseñado, programado y desarrollado este tipo de tecnología.

Esto no es una suposición ni una conclusión apresurada: es el resultado de un estudio llevado a cabo por un grupo de científicos de la Universidad de Míchigan, que concluye que la media de errores por palabra (veces que el dispositivo no te entiende o entiende otra cosa) es del 19% en hablantes caucásicos y del 35% en hablantes negros.

Rachael Tatman, del Departamento de Lingüística de la Universidad de Washington, también ha concluido que los subtítulos automáticos de YouTube son un 13% más precisos subtitulando a hombres que a mujeres. Además de etnia y género, Tatman también ha encontrado graves divergencias con respecto a dialectos y sociolectos (las formas de hablar). Hablantes escoceses tienen una probabilidad 50-50 de que YouTube entienda lo que están diciendo, por ejemplo.

No se nos puede dejar solos

Es, básicamente, la conclusión del momento. Que tu teléfono llame a Fer en lugar de a Fede, o ponga en los altavoces a Carmen Miranda en lugar de a Lin-Manuel es molesto pero no peligroso.

El uso generalizado e institucionalizado de tecnología inteligente se está poniendo en entredicho como una alternativa viable en este momento y tiempo. Ya ha sido discutido en el Congreso de Estados Unidos por los sesgos raciales que demuestran tener los sistemas de reconocimiento.

Es así de triste: los sistemas que hemos diseñado no son capaces de distinguir a personas asiáticas, negras o latinas. No es lo mismo equivocarse de canción que de sospechoso. Ya ha ocurrido: Robert Williams (un ciudadano afroamericano) fue encarcelado porque un algoritmo lo reconoció como el ladrón de una tienda de relojes.

El Instituto Tecnológico de Massachussets determinó que los softwares de reconocimiento facial tienen una tasa de errores del 46% cuando se trata de identificar a personas de color. 46%. Una tasa de acierto del 54% es la que se obtiene lanzando una moneda al aire, para que nos hagamos una idea.

¿Significa la presencia de sesgo implícito en los sistemas de reconocimiento que los algoritmos necesitan supervisión?

Sí. De momento. Aunque, en realidad, somos nosotros los que necesitamos supervisión.

No es sólo una cuestión de asistentes virtuales y herramientas de policía. También se realizan exámenes de ciudadanía en los que un sistema de PLN puntúa la prueba de idioma. Varios sistemas de reconocimiento de voz son de vital importancia para personas discapacitadas, y otros tantos empiezan a realizar entrevistas de trabajo en el lugar que siempre ha ocupado el personal de RRHH.

Todas esas cosas, importantes de verdad, ya se están intentado realizar con una IA que, en la mayoría de los casos, aún no está preparada. O sí está preparada, pero solo para un sector demográfico muy específico de la población. Por cierto, según The Guardian, tan solo un 12% de las investigaciones sobre IA son llevadas a cabo por mujeres.

Y aún no hemos hablado de la parte cultural. Twitter, que no reconoce la cara negra de Barack Obama, MSN.com que tiene que retractarse porque su algoritmo pone a la cantante mestiza equivocada en portada, portales de información favoreciendo por defecto a autores masculinos como figuras de autoridad… La lista es larga.

¿Y qué hacemos?

Son meteduras de pata como estas las que hacen aún necesaria la presencia de personas físicas, sintientes y pensantes, detrás de las pantallas de ordenador, corrigiendo, editando, desarrollando y prototipando. La IA todavía no desarrollado sentido de la vergüenza.

En UX Matters nos cuentan que uno de los problemas a largo plazo de todo esto es que si los sistemas de reconocimiento sólo reconocen a hombres blancos californianos, estos terminarán sobrerrepresentados (más todavía) en los datos.

Vamos a hacernos eco de los consejos de Sarah Pagliaccio: si los datos disponibles no reflejan la realidad, busca otros. ¿Que necesitas tirar de Big Data? Busca los servicios de agencias que puedan hacer un estudio demográfico en condiciones. Si eres programadora, matemática o desarrolladora de IA, trata de identificar tus propios sesgos implícitos antes de ponerte a inventar. Si eres, simplemente, usuario de Internet, ten en cuenta que lo que vas a ver en tu pantalla no es resultado de la inteligencia artificial suprema.

Los sistemas de reconocimiento pueden ser una herramienta maravillosa. Nos ayudan a detectar enfermedades, encontrar niños perdidos, y nos permiten comunicarnos con personas que hasta hace nada estaban condenadas a una vida en silencio. Pero es, también, el reflejo de los defectos de los humanos que han escrito todos esos ceros y unos.

Todas las imágenes que ilustran este artículo han sido extraídas de Unsplash.com

¿Existe sesgo implícito en los sistemas de reconocimiento? (Spoiler Alert: sí, existe)

Un artículo de Onion Studio

El sesgo implícito en los sistemas de reconocimiento podría alargar la vida del trabajo humano en programación, edición y desarrollo

Cuando la tecnología va por delante

No se nos puede dejar solos

¿Significa la presencia de sesgo implícito en los sistemas de reconocimiento que los algoritmos necesitan supervisión?

¿Y qué hacemos?