Crisis en la disponibilidad de datos: los sitios web restringen fuertemente el acceso

  • Diese Einschränkungen gefährden die Verfügbarkeit von qualitativ hochwertigen Trainingsdaten. Estas restricciones ponen en peligro la disponibilidad de datos de entrenamiento de alta calidad.
  • Fuentes web importantes restringen fuertemente el uso de sus datos para el desarrollo de modelos de IA.

Eulerpool News·

Los constructores de sistemas de inteligencia artificial de alto rendimiento se han basado durante años en enormes cantidades de textos, imágenes y vídeos de Internet para entrenar sus modelos. Sin embargo, actualmente estas fuentes de datos se están agotando. Un estudio reciente de la Data Provenance Initiative, dirigido por un grupo de investigación del renombrado M.I.T., muestra que muchas de las principales fuentes web utilizadas para el desarrollo de modelos de IA han restringido considerablemente el uso de sus datos en el último año. Esta observación fue respaldada por el análisis de 14.000 dominios web incluidos en tres conjuntos de datos de entrenamiento de IA comúnmente utilizados. El estudio reveló una "crisis emergente en el ámbito del consentimiento", ya que editores y plataformas en línea están tomando cada vez más medidas para evitar la extracción de sus datos. Los investigadores estiman que en los tres conjuntos de datos – C4, RefinedWeb y Dolma – aproximadamente el 5 por ciento de todos los datos y el 25 por ciento de los datos de las fuentes de mayor calidad están restringidos. Estas restricciones se implementan mediante el Protocolo de Exclusión de Robots, un método utilizado desde hace décadas por los propietarios de sitios web para evitar que los bots automáticos exploren sus páginas. En concreto, esto se lleva a cabo a través de un archivo llamado robots.txt. Como complicación adicional, hasta un 45 por ciento de los datos en el conjunto de datos C4 se han restringido debido a los términos y condiciones generales de los sitios web. Shayne Longpre, autor principal del estudio, enfatiza en una entrevista: "Estamos presenciando un rápido declive en el consentimiento para el uso de datos en toda la web. Esto tendrá consecuencias de gran alcance no solo para las empresas de IA, sino también para investigadores, científicos y actores no comerciales".
EULERPOOL DATA & ANALYTICS

Make smarter decisions faster with the world's premier financial data

Eulerpool Data & Analytics