HADA

Investigación sobre herramientas avanzadas de anotación de datos.

Desafío

Los datos de alta calidad son la piedra angular en la que se basa la IA. Pero el proceso de generación de datos necesita mucha intervención humana, lo que provoca problemas de inconsistencia, fallas humanas, altos costos en tiempo y dinero. También es difícil encontrar herramientas que puedan proporcionar datos con las siguientes características: alta calidad, que cumplan con las normativas, generados de forma segura, escalables y rápidos, asequibles, flexibles, coherentes, representación equilibrada del dominio que intentan representar y precisa en términos de anotación. 

El objetivo del proyecto HADA es diseñar un conjunto de herramientas de anotación de datos para las entradas de datos más utilizadas para IA: Voz, Texto e Imagen. Esto permitirá a Sigma tener un marco de herramientas de anotación avanzado que aumentará y acelerará sus servicios en torno a la anotación de datos y allanará el camino para la comercialización de herramientas de anotación.

El proyecto investigará y abordará las etapas del ciclo de vida del aprendizaje automático:

  1. Preparación y selección de datos: Los datos que se consideren más relevantes para la mejora de los modelos de IA se seleccionarán y prepararán de forma que se facilite la anotación manual.
  2. Anotación:  Desarrollar tecnologías que simplifiquen la actividad de los anotadores para acelerar el proceso y mejorar la calidad.
  3. Control de calidad: Establezca soluciones que ayuden a detectar y corregir errores mientras aumentan la coherencia entre los diferentes anotadores.

 

Esta solución será un marco de anotación científica de Inteligencia Artificial Human-in-the-Loop (HITL AI)

Solución

HADA, or the Investigación de Herramientas de Anotación de Datos Avanzadas(Investigation of Advanced Data Annotation Tools) is an individual industrial research project, which supports Sigma’s continued offering of data annotation services. The proposed solution will optimize annotation tasks to obtain quality data, faster and more accurately than existing tools. The HADA tools are designed so they can work in combination with most existing annotation tools.

 

These advanced tools will:
  • Reduce the time required for human data annotation through new algorithms that automate repetitive tasks and redirect human effort to higher value-added tasks.
  • Assess and select the data to be annotated based on the quality the data offers to improve the models’ performance and minimize biases.
  • Establish mechanisms to ensure the quality of the data.
  •  Ensure compliance with data protection regulations.

The tools under development support the entire data annotation process and include:

Active Learning: Research and implementation of hybrid unsupervised and semi-supervised models to reduce the need for large labeled data sets.

Data Anonymization: Application of anonymization on the algorithms used for data selection, annotation support and quality control. Automatic Distractors Removal through AI modeling and data enhancement.

Decision Reduction: AI model to assist in the intelligent reduction of labelling options provided to the annotator, tending to binary classification problems.

Multiple Annotation: Intelligent data clustering algorithms that allow simultaneous annotation of more than one sample at a time.

Automatic Error Detection: Automatic annotation error detection using unsupervised learning techniques.

Resultados

El proyecto comenzó a finales de 2022 y se espera que esté terminado a mediados de 2024.

 

Fondos

El proyecto 2021/C005/00146323 está financiado por EU Next Generation a través de la entidad pública empresarial adscrita al Ministerio de Asuntos Económicos y Transformación.

       

 

Socios

El proyecto será desarrollado íntegramente por Sigma Cognition, con el apoyo de dos grupos especializados del PUniversidad Politécnica de Madrid (UPM) y Universidad Carlos III. 

ES