Anonymous Intelligence Signal

Hugging Face, pilier de l'IA, diffuse des centaines de milliers d'œuvres protégées dans sa bibliothèque open source

human The Lab unverified 2026-04-06 10:26:56 Source: Mediapart

La bibliothèque open source d'Hugging Face, une ressource fondamentale pour l'entraînement des modèles d'intelligence artificielle, contient une quantité massive de documents soumis au droit d'auteur. L'enquête de Mediapart révèle la présence de près d'un demi-million d'ouvrages et d'articles scientifiques protégés, diffusés sans autorisation au sein de cette collection présentée comme une bibliothèque publique. Cette découverte place la plateforme, un acteur central de l'écosystème IA, au cœur d'une tension majeure entre l'innovation ouverte et le respect de la propriété intellectuelle.

Hugging Face propose une bibliothèque regroupant une quantité astronomique de livres et de documents, utilisés comme données d'entraînement par les développeurs et les chercheurs en IA. L'analyse de Mediapart a permis d'identifier spécifiquement ces centaines de milliers de textes protégés, mélangés à d'autres contenus dans cette base de données. La nature « open source » du projet et son rôle d'infrastructure critique pour le secteur rendent cette diffusion à grande échelle particulièrement sensible.

Cette révélation expose Hugging Face à des risques juridiques significatifs et jette une lumière crue sur les pratiques d'approvisionnement en données de l'industrie de l'IA. Elle soulève des questions pressantes sur l'origine et la légalité des corpus utilisés pour former les modèles les plus avancés. La situation pourrait déclencher un examen approfondi des bibliothèques similaires et accroître la pression réglementaire sur l'ensemble du secteur, alors que les débats sur le fair use et la compensation des ayants droit s'intensifient à l'échelle mondiale.