HADA

Investigación sobre herramientas avanzadas de anotación de datos.

Desafío

Los datos de alta calidad son la piedra angular en la que se basa la IA. Pero el proceso de generación de datos necesita mucha intervención humana, lo que provoca problemas de inconsistencia, fallas humanas, altos costos en tiempo y dinero. También es difícil encontrar herramientas que puedan proporcionar datos con las siguientes características: alta calidad, que cumplan con las normativas, generados de forma segura, escalables y rápidos, asequibles, flexibles, coherentes, representación equilibrada del dominio que intentan representar y precisa en términos de anotación.

El objetivo del proyecto HADA es diseñar un conjunto de herramientas de anotación de datos para las entradas de datos más utilizadas para IA: Voz, Texto e Imagen. Esto permitirá a Sigma tener un marco de herramientas de anotación avanzado que aumentará y acelerará sus servicios en torno a la anotación de datos y allanará el camino para la comercialización de herramientas de anotación.

El proyecto investigará y abordará las etapas del ciclo de vida del aprendizaje automático:

Preparación y selección de datos: Los datos que se consideren más relevantes para la mejora de los modelos de IA se seleccionarán y prepararán de forma que se facilite la anotación manual.
Anotación: Desarrollar tecnologías que simplifiquen la actividad de los anotadores para acelerar el proceso y mejorar la calidad.
Control de calidad: Establezca soluciones que ayuden a detectar y corregir errores mientras aumentan la coherencia entre los diferentes anotadores.

Esta solución será un marco de anotación científica de Inteligencia Artificial Human-in-the-Loop (HITL AI)

Solución

HADA, o Investigación de Herramientas de Anotación de Datos Avanzadas, es un proyecto de investigación industrial individual que respalda la oferta continua de servicios de anotación de datos de Sigma. La solución propuesta optimizará las tareas de anotación para obtener datos de calidad, de forma más rápida y precisa que las herramientas existentes. Las herramientas HADA están diseñadas para que puedan funcionar en combinación con la mayoría de las herramientas de anotación existentes.

Estas herramientas avanzadas:

Reduzca el tiempo necesario para la anotación de datos humanos a través de nuevos algoritmos que automatizan tareas repetitivas y redirigen el esfuerzo humano a tareas de mayor valor agregado.
Evalúe y seleccione los datos que se van a anotar en función de la calidad que ofrecen los datos para mejorar el rendimiento de los modelos y minimizar los sesgos.
Establecer mecanismos para asegurar la calidad de los datos.
Velar por el cumplimiento de la normativa de protección de datos.

Las herramientas en desarrollo respaldan todo el proceso de anotación de datos e incluyen:

Aprendizaje activo: Investigación e implementación de modelos híbridos no supervisados y semisupervisados para reducir la necesidad de grandes conjuntos de datos etiquetados.

Anonimización de datos: Aplicación de la anonimización sobre los algoritmos utilizados para la selección de datos, soporte de anotaciones y control de calidad. Eliminación automática de distractores mediante modelado de IA y mejora de datos.

Reducción de decisiones: Modelo de IA para ayudar en la reducción inteligente de las opciones de etiquetado proporcionadas al anotador, atendiendo a problemas de clasificación binaria.

Anotación múltiple: Algoritmos inteligentes de agrupación de datos que permiten la anotación simultánea de más de una muestra a la vez.

Detección automática de errores: Detección automática de errores de anotación mediante técnicas de aprendizaje no supervisadas.

Resultados

El proyecto comenzó a finales de 2022 y se espera que esté terminado a mediados de 2024.

Fondos

El proyecto 2021/C005/00146323 está financiado por EU Next Generation a través de la entidad pública empresarial adscrita al Ministerio de Asuntos Económicos y Transformación.

Socios

El proyecto será desarrollado íntegramente por Sigma Cognition, con el apoyo de dos grupos especializados del PUniversidad Politécnica de Madrid (UPM) y Universidad Carlos III.

Noticias y eventos del proyecto

14 de junio de 2024: Sesión especial sobre "Investigación sobre herramientas avanzadas de anotación de datos basadas en IA"como parte de la Conferencia Internacional sobre Aplicaciones e Innovaciones de la Inteligencia Artificial.
Del 26 al 28 de junio de 2024: DCAI Salamanca. Únase a nosotros en una sesión especial sobre "Herramientas avanzadas de anotación de datos basadas en IA", como parte de la 21ª Conferencia Internacional sobre Computación Distribuida e Inteligencia Artificial 2024.

Publicaciones

Anotación de datos para analítica de conversaciones (White Paper)
Preparación de datos para proyectos de Visión por Computador (White paper)
TRIPTICO_HADA_VF.pdf
Llerena, J. P., Patricio, M. A., Molina, J. M., Mora-Sánchez, A. & Rodríguez-Jiménez, S. (2024). Innovative Quality Metrics for Enhanced Interpretation of Instance Segmentation in Complex Image Scenarios. Distributed Computing and Artificial Intelligence, Special Session on Advanced AI-based Data Annotation Tools (AI-DAT), 21st International Conference. DCAI 2024.
Gutiérrez-Navarro, J. , Mora-Sánchez, A., Rodríguez-Jiménez, S. & Blanco-Murillo, J. L. (2024). AI-Boosted Video Annotation: Exploring Pre-Labeling with Cross-Modalities. Distributed Computing and Artificial Intelligence,Special Session on Advanced AI-based Data Annotation Tools (AI-DAT), 21st International Conference. DCAI 2024.
Fernández-Castañón, R., Espinoza-Cuadros, F. M., Perero-Codosero, J. M., Sancho-Lozano, E. & Hernández-Gómez, L. A. (2024). Can Large Sound Event Detection models be accurately adapted to specific acoustic scenarios?. Distributed Computing and Artificial Intelligence, Special Session on Advanced AI-based Data Annotation Tools (AI-DAT), 21st International Conference. DCAI 2024.
Espinoza-Cuadros, F. M., Ginard-Aguilera, R. & Perero-Codosero, J. M. (2024). How Does Speech Quality Impact the Data Transcription Process? Distributed Computing and Artificial Intelligence, Special Session on Advanced AI-based Data Annotation Tools (AI-DAT), 21st International Conference. DCAI 2024.
Cortón-González, J., Mora-Sánchez, A. & Rodríguez-Jiménez, S. (2024). Enhancing Image Annotation Through Attention Mining: A Grounded SAM Approach. Distributed Computing and Artificial Intelligence, Special Session on Advanced AI-based Data Annotation Tools (AI-DAT), 21st International Conference. DCAI 2024.

Publicaciones

Anotación de datos para analítica de conversaciones (White Paper)
Preparación de datos para proyectos de Visión por Computador (White paper)
TRIPTICO_HADA_VF.pdf
Llerena, J. P., Patricio, M. A., Molina, J. M., Mora-Sánchez, A. & Rodríguez-Jiménez, S. (2024). Innovative Quality Metrics for Enhanced Interpretation of Instance Segmentation in Complex Image Scenarios. Distributed Computing and Artificial Intelligence, Special Session on Advanced AI-based Data Annotation Tools (AI-DAT), 21st International Conference. DCAI 2024.
Gutiérrez-Navarro, J. , Mora-Sánchez, A., Rodríguez-Jiménez, S. & Blanco-Murillo, J. L. (2024). AI-Boosted Video Annotation: Exploring Pre-Labeling with Cross-Modalities. Distributed Computing and Artificial Intelligence,Special Session on Advanced AI-based Data Annotation Tools (AI-DAT), 21st International Conference. DCAI 2024.
Fernández-Castañón, R., Espinoza-Cuadros, F. M., Perero-Codosero, J. M., Sancho-Lozano, E. & Hernández-Gómez, L. A. (2024). Can Large Sound Event Detection models be accurately adapted to specific acoustic scenarios?. Distributed Computing and Artificial Intelligence, Special Session on Advanced AI-based Data Annotation Tools (AI-DAT), 21st International Conference. DCAI 2024.
Espinoza-Cuadros, F. M., Ginard-Aguilera, R. & Perero-Codosero, J. M. (2024). How Does Speech Quality Impact the Data Transcription Process? Distributed Computing and Artificial Intelligence, Special Session on Advanced AI-based Data Annotation Tools (AI-DAT), 21st International Conference. DCAI 2024.
Cortón-González, J., Mora-Sánchez, A. & Rodríguez-Jiménez, S. (2024). Enhancing Image Annotation Through Attention Mining: A Grounded SAM Approach. Distributed Computing and Artificial Intelligence, Special Session on Advanced AI-based Data Annotation Tools (AI-DAT), 21st International Conference. DCAI 2024.

HADA

Desafío

Solución

Resultados

Fondos

Socios

Noticias y eventos del proyecto

Publicaciones

Publicaciones

Explore lo que la IA puede hacer por su negocio

Servicios

Proyectos

Plataformas

Compañía