LMi-MAG27 Sept - Flipbook - Page 49
© DR
L’essor des données synthétiques
A
IBM et Red Hat avancent dans cette voie avec InstructLab
partir de ses versions V3 et R1, DeepSeek
qui est capable de générer systématiquement des
serait massivement entraîné avec des
données synthétiques à grande échelle pour assimiler
données synthétiques, elles même générées
de nouvelles connaissances et capacités dans le modèle
par d’autres LLM, fait savoir Stéphane Roder,
de base, sans écraser ce que le modèle a déjà appris.
dirigeant de AI Builders, qui souligne la croissance des
Cette méthode est moins coûteuse grâce à l’usage de
données synthétiques à venir. Selon le cabinet d’études
données synthétiques, le gain de temps est significatif
Gartner, d’ici à 2026, 75 % des entreprises utiliseront
et le résultat bien meilleur. Même son de cloche chez
l’IA générative pour créer des données synthétiques.
Snowflake, Jennifer Bellissent, principal data strategist,
Ces données permettront aux entreprises de tester
assure que sa plateforme peut générer
des scénarios, de renforcer les modèles
des données synthétiques à partir d’une
prédictifs et de sécuriser les données
BIG DATA – APPLIANCES BI
table source. « Par exemple, vous pouvez
sensibles en limitant leur exposition
Cahier des charges
utiliser des données synthétiques pour
réelle. « Dans la définition technique
partager ou tester des données trop
d’une pièce pour le secteur aéronautique,
sensibles, confidentielles ou soumises à
les données synthétiques peuvent servir
d’autres restrictions pour être partagées
à interpréter des résultats, notamment
avec d’autres personnes. » Les cas
pour mesurer l’impact des vibrations »,
d’usages de l’exploitation des données
donne en exemple Nicolas Maillard,
tinyurl.com/appli-serveurs-bi
synthétiques semblent se multiplier
AVP technical general manager field
comme OpenFold, un consortium de recherche en IA
engineering pour la région SEMEA chez Databricks.
pour la biologie et la découverte de médicament (dans
Autre exemple, dans le secteur financier avec JP Morgan,
lequel Dassault Systèmes est membre) où les données
qui exploite déjà la génération de données synthétiques
synthétiques permettent aujourd’hui de construire des
pour créer plus d’exemples de transactions frauduleuses
bras de contrôle en se passant des patients. Dans ce cas,
améliorant ainsi l’entraînement des modèles. Et pour
la vraie valeur est d’accélérer le cycle d’innovation, car au
cause, la banque privée a constaté qu’il était difficile
lieu de créer des cohortes de patients, avec les données
d’entraîner efficacement des modèles alimentés par l’IA
synthétiques, on peut en déduire drastiquement le
pour la détection des fraudes en raison du manque de cas
nombre, l’impact est énorme.
frauduleux par rapport aux cas non frauduleux.
49