Investigación sobre herramientas avanzadas de anotación de datos.
Los datos de alta calidad son la piedra angular en la que se basa la IA. Pero el proceso de generación de datos necesita mucha intervención humana, lo que provoca problemas de inconsistencia, errores humanos, altos costos en tiempo y dinero. También es difícil encontrar herramientas que puedan proporcionar datos con las siguientes características: alta calidad, que cumplan con las normativas, generados de forma segura, escalables y rápidos, asequibles, flexibles, coherentes, con una representación equilibrada del dominio que intentan representar y precisa en términos de anotación.
El objetivo del proyecto HADA es diseñar un conjunto de herramientas de anotación de datos para las fuentes de datos más utilizadas para IA: Voz, Texto e Imagen. Esto permitirá a Sigma tener un entorno de herramientas de anotación avanzado que aumentará y acelerará sus servicios en torno a la anotación de datos y allanará el camino para la comercialización de herramientas de anotación.
El proyecto investigará y abordará las etapas del ciclo de vida del aprendizaje automático:
Esta solución conseguirá un entorno de anotación de datos avanzado aplicando técnicas de Inteligencia Artificial y Human-in-the-Loop (HITL AI)
Las herramientas en desarrollo respaldan todo el proceso de anotación de datos e incluyen:
Aprendizaje activo: Investigación e implementación de modelos híbridos no supervisados y semisupervisados para reducir la necesidad de grandes conjuntos de datos etiquetados.
Anonimización de datos: Aplicación de la anonimización sobre los algoritmos utilizados para la selección de datos, soporte de anotaciones y control de calidad. Eliminación automática de distractores mediante modelado de IA y mejora de datos.
Reducción de decisiones: Modelo de IA para ayudar en la reducción inteligente de las opciones de etiquetado proporcionadas al anotador, atendiendo a problemas de clasificación binaria.
Anotación múltiple: Algoritmos inteligentes de agrupación de datos que permiten la anotación simultánea de más de una muestra a la vez.
Detección automática de errores: Detección automática de errores de anotación mediante técnicas de aprendizaje no supervisadas.
El proyecto comenzó a finales de 2022 y se espera que esté terminado a mediados de 2024.
El proyecto 2021/C005/00146323 está financiado por EU Next Generation a través de la entidad pública empresarial adscrita al Ministerio de Asuntos Económicos y Transformación.
El proyecto será desarrollado íntegramente por Sigma Cognition, con el apoyo de dos grupos especializados del PUniversidad Politécnica de Madrid (UPM) y Universidad Carlos III.
Tráiganos sus desafíos más difíciles e ideas ambiciosas; estamos entusiasmados de darles vida.