Comment documenter les ensembles de données ?

La documentation doit inclure : origine des données, composition, processus de collecte, méthodologie de prétraitement, et résultats des validations. Un modèle de documentation est disponible sur le site de la CNIL (cnil.fr/article-10-ai-act).

Quelles sont les bonnes pratiques pour les PME ?

Les PME doivent : 1) Auditer leurs processus de collecte de données, 2) Mettre en place un système de documentation centralisé, 3) Former les équipes au RGPD et à l'AI Act, 4) Utiliser des outils de gestion de données conformes à l'ISO 42001.

Où trouver de l'aide pour la mise en conformité ?

Les PME peuvent : 1) Consulter le service desk européen (ai-act-service-desk.ec.europa.eu), 2) S'inscrire aux formations de la CNIL (cnil.fr/formation), 3) Utiliser les modèles de documentation ISO 42001, 4) Demander un audit gratuit auprès d'organismes de certification.

Article 10 AI Act : gouvernance des données train/validation/test pour les PME

Q: Quels ensembles de données sont concernés par l'Article 10 ?

L'Article 10 concerne trois ensembles : 1) Données d'entraînement (base d'apprentissage), 2) Données de validation (évaluation intermédiaire), 3) Données de test (validation finale). Chacun doit être documenté et conservé pendant 30 ans minimum.

Q: Quelles sont les sanctions pour non-conformité ?

Les sanctions peuvent atteindre 7% du chiffre d'affaires annuel mondial ou 35 millions d'euros (art. 83). En cas de récidive, les sanctions peuvent être doublées. La CNIL peut également imposer des mesures correctives.

Note de fiabilité éditoriale. Plusieurs éléments du brief de cadrage transmis pour cet article comportent des imprécisions ou des références non vérifiables (numéros d'articles, durées de conservation, URLs CNIL et EUR-Lex, montants de sanctions). Cet article rectifie ces données à partir du texte officiel du Règlement (UE) 2024/1689 publié au Journal officiel de l'Union européenne le 12 juillet 2024. Les passages corrigés sont signalés par [corrigé]. Lorsque la vérification n'est pas concluante, la mention [à vérifier] est conservée.

L'essentiel en 30 secondes

L'Article 10 du Règlement (UE) 2024/1689 impose des exigences strictes de gouvernance des jeux de données d'entraînement, de validation et de test pour les systèmes d'IA à haut risque.
Le champ d'application repose sur l'Article 6 du Règlement, qui définit la qualification des systèmes à haut risque (et non l'Art. 6(2) seul comme indiqué dans certaines sources de vulgarisation).
La durée de conservation de dix ans s'applique à la documentation technique et aux journaux (Art. 11, Art. 18, Art. 19) — la mention de « 30 ans » circulant dans certains résumés est erronée [corrigé].
Les sanctions maximales atteignent 35 millions d'euros ou 7 % du chiffre d'affaires annuel mondial pour les infractions les plus graves, encadrées par l'Article 99 du Règlement (et non l'Art. 83) [corrigé].
Les obligations applicables aux systèmes à haut risque entrent pleinement en application le 2 août 2026 (Art. 113), avec une entrée échelonnée depuis le 1er août 2024.
La CNIL publie des fiches pratiques IA et l'AI Office européen anime un service desk gratuit ouvert aux PME.

1. Contexte réglementaire : ce que dit vraiment l'Article 10

Le Règlement (UE) 2024/1689, dit « AI Act », a été publié au Journal officiel de l'Union européenne le 12 juillet 2024. Il est entré en vigueur le 1er août 2024. Son entrée en application est échelonnée jusqu'au 2 août 2027 selon les catégories de systèmes (Art. 113).

L'Article 10 du Règlement (UE) 2024/1689 — intitulé « Data and data governance » — s'applique exclusivement aux systèmes d'IA à haut risque au sens de l'Article 6 et de l'Annexe III. Il ne s'applique pas aux systèmes à risque limité, aux systèmes à risque minimal, ni aux modèles d'IA à usage général (encadrés séparément par les Articles 51 à 56).

L'Article 10 impose au fournisseur d'un système à haut risque d'utiliser des jeux de données qui répondent à des critères de qualité documentés : pertinence, représentativité, exactitude, complétude relative à la finalité visée. Le texte exige également des choix de conception en matière de collecte, d'annotation, d'agrégation et d'examen des biais potentiels.

Élément	Référence dans l'AI Act	Portée
Qualification haut risque	Art. 6 + Annexe III	Détermine si l'Art. 10 s'applique
Gouvernance des données	Art. 10	Train / validation / test
Documentation technique	Art. 11 + Annexe IV	Doit inclure la description des données
Conservation des logs	Art. 19	6 mois minimum, sauf autre disposition
Conservation documentation	Art. 18	10 ans après mise sur le marché
Sanctions	Art. 99	Jusqu'à 35 M€ ou 7 % du CA mondial

Pourquoi cet article concerne-t-il les PME françaises ?

Une PME est concernée par l'Article 10 dès lors qu'elle agit comme fournisseur (provider) d'un système d'IA à haut risque au sens de l'Art. 3(3) — c'est-à-dire qu'elle développe ou fait développer un tel système et le met sur le marché ou en service sous son nom. Une PME purement utilisatrice (deployer, Art. 3(4)) est soumise à d'autres obligations (Art. 26), plus légères, mais distinctes.

Les cas typiques où une PME française devient « fournisseur de haut risque » :

développement d'un outil de tri de CV ou d'évaluation de candidats (Annexe III, point 4) ;
système de notation de crédit ou de scoring d'éligibilité à une assurance vie (Annexe III, point 5) ;
composant de sécurité d'un dispositif médical relevant du règlement (UE) 2017/745 (Annexe I) ;
système biométrique d'identification à distance (Annexe III, point 1).

Notre article pillar sur l'AI Act pour les PME françaises détaille la grille de qualification.

2. Train, validation, test : trois jeux de données, trois finalités

L'Article 10(2) impose que la conception, la collecte et la préparation des données obéissent à des pratiques de gouvernance « appropriées à la finalité visée ». Le texte distingue explicitement trois jeux dans l'Art. 10(3) : training data sets, validation data sets et testing data sets.

Jeu de données	Finalité	Exigences spécifiques Art. 10
Entraînement (training)	Apprentissage des paramètres du modèle	Représentativité, qualité, examen des biais
Validation (validation)	Sélection des hyperparamètres et arrêt précoce	Indépendance vis-à-vis du training
Test (testing)	Évaluation finale des performances	Indépendance vis-à-vis du training et de la validation

L'Article 10(3) exige que ces jeux soient « pertinents, suffisamment représentatifs, et dans toute la mesure du possible exempts d'erreurs et complets au regard de la finalité visée ». La formulation « dans toute la mesure du possible » est importante : le législateur reconnaît qu'aucun jeu n'est parfait, mais exige une démarche structurée et documentée.

Cas des modèles n'utilisant pas de techniques d'apprentissage

L'Article 10(6) précise que les exigences relatives aux jeux d'entraînement, de validation et de test ne s'appliquent qu'aux systèmes à haut risque qui « utilisent des techniques impliquant l'entraînement de modèles à partir de données ». Un système expert à base de règles n'utilisant pas d'apprentissage n'est donc soumis qu'aux autres dispositions de l'Article 10, notamment celles relatives à la qualité et à la traçabilité.

3. Documentation : que faut-il produire et conserver ?

L'Article 10(2) liste les choix de conception à documenter. Ils ne sont pas optionnels : ils constituent le socle de la documentation technique exigée par l'Article 11 et l'Annexe IV.

La documentation doit couvrir :

les choix de conception pertinents ;
les processus de collecte de données et l'origine ;
les opérations de préparation et de prétraitement (annotation, étiquetage, nettoyage, mise à jour, enrichissement, agrégation) ;
la formulation des hypothèses sur ce que les données sont censées mesurer et représenter ;
une évaluation de la disponibilité, quantité et adéquation des jeux de données ;
un examen des biais possibles susceptibles d'affecter la santé, la sécurité ou les droits fondamentaux, ou de produire des discriminations interdites ;
les mesures appropriées pour détecter, prévenir et atténuer ces biais ;
l'identification de lacunes ou insuffisances des données et la manière dont elles peuvent être corrigées.

Durée de conservation : la vérité sur les « 30 ans »

L'allégation selon laquelle les jeux de données seraient à conserver « 30 ans » est inexacte [corrigé]. Le Règlement prévoit en réalité :

Objet	Durée	Référence
Documentation technique (Annexe IV)	10 ans après mise sur le marché / mise en service	Art. 18(1)
Déclaration UE de conformité	10 ans	Art. 47(1)
Logs générés automatiquement	au moins 6 mois sauf droit applicable plus exigeant	Art. 19(1)
Documentation du déployeur	au moins 6 mois	Art. 26(6)

Les jeux de données eux-mêmes ne font pas l'objet d'une durée minimale unique fixée par l'AI Act : c'est leur description dans la documentation technique qui est soumise au régime des 10 ans. La conservation des données personnelles relève par ailleurs du RGPD et du principe de limitation (Art. 5(1)(e) RGPD).

4. Données personnelles : l'articulation avec le RGPD

L'Article 10(5) du Règlement (UE) 2024/1689 introduit une dérogation encadrée. Il autorise, « dans la mesure strictement nécessaire » à la détection et à la correction des biais, le traitement de catégories particulières de données au sens de l'Art. 9(1) du RGPD (origine raciale ou ethnique, opinions politiques, convictions religieuses, données de santé, orientation sexuelle, etc.).

Cette dérogation est strictement conditionnée :

traitement uniquement pour la correction des biais ;
impossibilité d'atteindre l'objectif par des données anonymisées, synthétiques ou pseudonymisées ;
mesures techniques et organisationnelles appropriées (restrictions d'accès, journalisation, sécurité) ;
non-transmission, non-transfert et non-accès des données à des tiers ;
suppression dès que le biais est corrigé ou que la durée nécessaire est atteinte.

La CNIL a publié plusieurs recommandations sur l'usage des données personnelles pour l'entraînement d'IA. Elles distinguent base légale, finalité, durée et droits des personnes. Consultez le glossaire regulia pour les définitions des termes « fournisseur », « déployeur » et « finalité visée ».

Vous développez un système d'IA susceptible d'être classé à haut risque ?

regulia propose un pack documentaire Article 10 incluant le registre des jeux de données, le rapport de biais et la trame de documentation technique alignée Annexe IV.

Demander une présentation du pack

5. Risques de non-conformité : ce qu'encourt réellement une PME

Le régime des sanctions est codifié à l'Article 99 du Règlement (UE) 2024/1689 — et non à l'« Article 83 » mentionné dans certains résumés [corrigé]. L'Article 99 distingue trois plafonds.

Infraction	Plafond le plus élevé entre
Pratiques interdites (Art. 5)	35 000 000 € ou 7 % du CA annuel mondial total
Non-conformité à d'autres obligations (dont Art. 10)	15 000 000 € ou 3 % du CA annuel mondial total
Fourniture d'informations incorrectes aux autorités	7 500 000 € ou 1 % du CA annuel mondial total

L'affirmation selon laquelle une violation de l'Article 10 serait punie de 35 M€ ou 7 % du CA est donc inexacte au regard du texte [corrigé] : l'Article 10 relève du second palier (15 M€ ou 3 %). Le plafond le plus sévère est réservé aux pratiques interdites de l'Article 5 (manipulation, scoring social, reconnaissance des émotions au travail, etc.).

Plafonds spécifiques aux PME

L'Article 99(6) prévoit un mécanisme protecteur pour les PME et les start-up : lorsque l'auteur de l'infraction est une PME, le plafond applicable est le plus bas des deux montants (montant absolu OU pourcentage du CA), et non le plus élevé. Pour une PME française avec un CA modeste, l'exposition reste donc significative mais bornée par le pourcentage.

Au-delà des amendes, les conséquences opérationnelles incluent :

retrait du système du marché (Art. 79) ;
inscription dans la base de données EU des systèmes à haut risque (Art. 71) ;
responsabilité civile renforcée vis-à-vis des personnes affectées ;
impact réputationnel et défiance des clients B2B.

Notre dossier sanctions et amendes pour PME détaille la grille complète et propose un calculateur d'exposition.

6. Bonnes pratiques opérationnelles pour une PME

Une PME peut structurer sa mise en conformité en quatre chantiers parallèles. L'objectif n'est pas la perfection au premier jour, mais une trace écrite défendable devant l'autorité de surveillance du marché (en France : la DGCCRF et les autorités sectorielles, sous coordination de la CNIL pour les aspects données personnelles).

Cartographier les jeux de données utilisés en entraînement, validation et test. Inclure l'origine (interne, open data, fournisseur tiers, scraping), le volume, le périmètre temporel et géographique.
Tracer le prétraitement : chaque transformation (nettoyage, normalisation, étiquetage, augmentation) doit être versionnée. Un dépôt Git ou un système de gestion de pipelines (DVC, MLflow) sert de preuve.
Documenter l'examen des biais : statistiques de distribution par variable sensible, métriques d'équité retenues, mesures correctives appliquées.
Tenir un registre central aligné sur l'Annexe IV. Ce registre alimente directement la documentation technique exigée par l'Art. 11.

Référentiels utiles

Référentiel	Apport pour l'Article 10
ISO/IEC 42001:2023	Système de management de l'IA, contrôle des données
ISO/IEC 23894:2023	Risk management, méthodologie d'évaluation des risques
ISO/IEC 5259 (série)	Qualité des données pour analytique et apprentissage
ISO/IEC 27001:2022	Sécurité de l'information, contrôle d'accès aux jeux

Notre guide ISO 42001 pour les PME explique comment articuler la norme avec l'Article 10.

7. Cas pratique : une PME française qui prédit ses ventes

Prenons une PME française de 50 salariés, éditrice d'un outil SaaS de prévision de ventes pour le retail. Le modèle prédit le volume hebdomadaire par produit à partir de l'historique commercial et de variables exogènes (météo, calendrier promotionnel).

Étape 0 — qualification. L'outil entre-t-il dans l'Annexe III ? Une prévision de ventes B2B sans impact sur l'accès à des services essentiels, sans biométrie, sans tri de personnes, sans scoring de crédit, sans contexte d'éducation ni d'emploi : la réponse est non. L'outil n'est pas à haut risque. L'Article 10 ne s'applique pas en tant qu'obligation contraignante.

Mais. Le client B2B (une enseigne de la grande distribution) peut exiger contractuellement le respect des principes de l'Article 10 dans son cahier des charges. La PME a alors intérêt à appliquer volontairement la grille.

Étape	Action concrète	Livrable
1	Inventorier les jeux : ventes, météo, calendrier	Registre v1
2	Documenter origine, fraîcheur, fréquence de mise à jour	Fiche dataset par source
3	Tracer le split train / validation / test (ex : 70/15/15)	Script versionné
4	Examiner les biais (saisonnalité, magasins sous-représentés)	Rapport de biais
5	Évaluer les performances avec métriques par segment	Rapport de performance
6	Centraliser dans une documentation technique	Dossier Annexe IV
7	Réviser annuellement	PV de revue

Étape 8 — bascule en haut risque. Si la même PME pivote vers un produit d'évaluation de la performance des employés du retail à partir des prévisions, le système bascule potentiellement en Annexe III, point 4 (emploi). L'Article 10 devient alors pleinement contraignant. La documentation préparée dès l'étape 1 facilite la transition.

8. Échéances et plan d'action

Le calendrier d'application de l'AI Act est fixé par l'Article 113. Les dates clés pour les systèmes à haut risque relevant de l'Annexe III :

Date	Événement
1er août 2024	Entrée en vigueur du Règlement
2 février 2025	Interdictions de l'Art. 5 applicables, obligations de littératie (Art. 4)
2 août 2025	Obligations sur modèles à usage général, gouvernance, sanctions
2 août 2026	Application générale, y compris obligations Article 10 pour haut risque Annexe III
2 août 2027	Application aux systèmes haut risque relevant de l'Annexe I (produits régulés)

Pour une PME-fournisseur d'un système d'Annexe III, l'horizon utile de mise en conformité de l'Article 10 est le 2 août 2026. Cela laisse — au moment de la rédaction de cet article — un délai opérationnel qui se réduit à quelques trimestres. Les six chantiers prioritaires :

Qualification du système (haut risque ou non) — sous 30 jours.
Cartographie des jeux de données existants — sous 60 jours.
Mise en place du registre Annexe IV — sous 90 jours.
Premier rapport de biais — sous 120 jours.
Audit interne ou tiers — avant le 1er trimestre 2026.
Déclaration UE de conformité et marquage CE le cas échéant — avant le 2 août 2026.

L'AI Office européen anime un service desk public qui répond aux questions des PME. La CNIL publie progressivement ses fiches pratiques IA. Ces deux canaux sont gratuits et constituent une ressource de référence.

Besoin d'un appui structuré pour votre Article 10 ?

regulia accompagne les PME françaises dans la production d'un registre de gouvernance des données conforme à l'Annexe IV. Demandez une démonstration personnalisée du pack.

Réserver un échange de 30 minutes

FAQ

Quels ensembles de données sont concernés par l'Article 10 ?

L'Article 10(3) cite explicitement trois jeux : entraînement (training), validation (validation) et test (testing). Chacun doit être pertinent, suffisamment représentatif et, dans la mesure du possible, exempt d'erreurs au regard de la finalité visée. L'Article 10(6) limite ces exigences aux systèmes qui utilisent réellement des techniques d'apprentissage à partir de données.

Quelles sont les sanctions pour non-conformité ?

Pour un manquement à l'Article 10, l'Article 99(4) du Règlement (UE) 2024/1689 prévoit jusqu'à 15 millions d'euros ou 3 % du chiffre d'affaires annuel mondial [corrigé — le plafond de 35 M€ / 7 % concerne uniquement les pratiques interdites de l'Article 5]. Pour une PME, l'Article 99(6) retient le plus bas des deux montants, ce qui plafonne l'exposition au pourcentage du CA pour les très petites structures.

Combien de temps faut-il conserver la documentation ?

La documentation technique (incluant la description des jeux de données) se conserve dix ans après la mise sur le marché ou la mise en service du système (Art. 18). Les logs générés automatiquement par le système se conservent au moins six mois (Art. 19). La mention « 30 ans » présente dans certains résumés ne correspond pas au texte du Règlement [corrigé].

Une PME purement utilisatrice d'IA est-elle soumise à l'Article 10 ?

Non. L'Article 10 s'adresse au fournisseur d'un système à haut risque. Le déployeur (utilisateur professionnel) est soumis à l'Article 26, qui impose notamment de suivre la notice d'utilisation, de superviser, de tenir certains logs et d'informer les personnes affectées. Une PME doit donc d'abord qualifier son rôle (fournisseur ou déployeur) avant de mobiliser l'Article 10.

Où trouver de l'aide officielle et gratuite ?

Trois canaux gratuits : l'AI Office service desk de la Commission européenne, qui répond aux questions de mise en conformité ; les fiches pratiques IA de la CNIL, qui couvrent les aspects RGPD-IA ; et la base d'orientation publiée par l'AI Office sur la qualification des systèmes. Voir la section Sources officielles ci-dessous.

Sources officielles

Règlement (UE) 2024/1689 du Parlement européen et du Conseil du 13 juin 2024 — texte intégral sur EUR-Lex [URL canonique ELI ; les références EUR-Lex spécifiques de type CELEX peuvent varier — à vérifier sur le portail]
Version consolidée et navigable du texte sur artificialintelligenceact.eu
AI Office européen et service desk : ai-act-service-desk.ec.europa.eu [à vérifier — URL exacte susceptible d'évoluer ; point d'entrée actuel via digital-strategy.ec.europa.eu/en/policies/ai-office]
Commission européenne, page de référence AI Act : digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai
CNIL, fiches pratiques IA : cnil.fr/fr/intelligence-artificielle [corrigé — la page /article-10-ai-act mentionnée dans le brief n'existe pas en tant que telle sur le site de la CNIL ; le hub officiel est la rubrique IA générale]
Norme ISO/IEC 42001:2023, Information technology — Artificial intelligence — Management system
Norme ISO/IEC 23894:2023, Information technology — Artificial intelligence — Guidance on risk management

Disclaimer. Cet article fournit des informations générales sur l'EU AI Act applicables aux PME françaises. Il ne constitue pas un conseil juridique. Pour toute décision opérationnelle, faites valider votre démarche par votre DPO ou conseil juridique. regulia décline toute responsabilité quant à l'usage qui peut être fait de ces informations.