6 septiembre, 2025

Creación del mayor conjunto de datos de lenguas indígenas en África

Por redacción puntocomunica
Share

Investigadores africanos han desarrollado lo que se considera el mayor conjunto de datos de lenguas indígenas del continente, con el objetivo de asegurar que millones de personas no queden excluidas de los avances en inteligencia artificial, como los chatbots.

África alberga más de una cuarta parte de las lenguas del mundo, pero la mayoría de ellas no están representadas en el desarrollo de la inteligencia artificial. Las herramientas como ChatGPT se entrenan principalmente con inglés, idiomas europeos y chino, que se benefician de la gran cantidad de texto disponible en línea.

Sin embargo, muchas lenguas africanas se hablan más que se escriben, lo que deja poco material para entrenar a los sistemas de IA y limita su utilidad para los hablantes en todo el continente.

El profesor Vukosi Marivate, de la Universidad de Pretoria, comentó: «Pensamos en nuestros propios idiomas, soñamos con ellos e interpretamos el mundo a través de ellos. Si la tecnología no refleja eso, todo un grupo corre el riesgo de quedar rezagado. Estamos viviendo esta revolución de la IA, imaginando todo lo que se puede hacer con ella. Ahora imaginemos que hay una parte de la población que simplemente no tiene ese acceso porque toda la información está en inglés».

El proyecto African Next Voices reunió a lingüistas e informáticos para desarrollar conjuntos de datos compatibles con IA en 18 idiomas africanos, con planes de expansión en el futuro. Durante dos años, el equipo registró 9 mil horas de habla en Kenia, Nigeria y Sudáfrica, abarcando escenarios de agricultura, salud y educación.

La recopilación incluyó kikuyu y dholuo en Kenia, hausa y yoruba en Nigeria, e isizulú y tshivenda en Sudáfrica. El profesor Marivate añadió: «Se necesita una base sólida para empezar, y eso es lo que es African Next Voices. A partir de ahí, la gente construirá y añadirá sus propias innovaciones».

La lingüista computacional keniana Lilian Wanzare afirmó: «Recopilamos voces de diferentes regiones, edades y orígenes para que sea lo más inclusivo posible. Las grandes tecnológicas no siempre pueden ver esos matices».

El proyecto recibió una subvención de 2.2 millones de dólares, aproximadamente 1.6 millones de libras, de la Fundación Gates. Los datos serán de libre acceso, lo que permitirá a los desarrolladores crear herramientas que traduzcan, transcriban y respondan en idiomas africanos.

Para el agricultor Kelebogile Mosime, quien gestiona un huerto de 21 hectáreas en Rustenburg, Sudáfrica, la IA en idiomas locales ya está marcando la diferencia. Utiliza AI-Farmer, una aplicación que reconoce sesotho, isiZulu y afrikáans, para ayudar con los problemas de los cultivos. Dijo: «A diario, veo los beneficios de poder usar mi lengua materna, el setswana, en la aplicación. Cuando tengo problemas en la granja, pregunto cualquier cosa y obtengo una respuesta útil. Para alguien que vive en zonas rurales como yo y no está expuesto a la tecnología, es útil. Puedo preguntar sobre diferentes opciones para el control de insectos; también me ha sido útil para diagnosticar plantas enfermas».

Pelomoni Moila, directora ejecutiva de la startup sudafricana Lelapa AI, también comentó: «El inglés es el idioma de las oportunidades. Para muchos sudafricanos que no lo hablan, no solo es un inconveniente, sino que puede significar la pérdida de servicios esenciales como la atención médica, la banca o incluso el apoyo del gobierno. El idioma puede ser una gran barrera. Nosotros decimos que no debería serlo».

La profesora Marivate concluyó: «El idioma es el acceso a la imaginación. No se trata solo de palabras: es historia, cultura, conocimiento. Si no se incluyen las lenguas indígenas, perdemos más que datos; perdemos maneras de ver y comprender el mundo».