HephIA, projet issu de la recherche dans notre université, figure parmi les 4 lauréats de cette 2e édition du concours Zeugma et représente ainsi le Pépite CréaJ IDF !
Le concours Zeugma
Créé par le réseau Pépite, ce concours s’adresse aux étudiants-entrepreneurs et/ou doctorants ou docteurs d’un des huit Pépite franciliens, qui portent un projet de création d’entreprise ou d’activité incluant une composante de recherche, quel que soit le domaine. Notre université est représentée par le Pépite CréaJ IDF.
Le concours finance la réalisation d’une preuve de concept ou d’une phase d’expérimentation ou de faisabilité dans le cadre d’une future création d’activité, réalisée en lien avec un laboratoire de recherche du périmètre des Pépite franciliens.
HephIA, projet récompensé par le concours Zeugma
Le concours récompense l’innovation de HephIA, le projet de Gaël Beck et de son équipe. Ce projet, issu de la recherche de pointe en IA non supervisée du groupe de Mustapha Lebbah, offre une solution innovante rendant les données massives lisibles et exploitables par les métiers à moindre effort.
Interview avec Gaël Beck, Anthony Coutant, et Yann Girard
Pouvez-vous vous présenter ? Comment en êtes-vous arrivés à vous associer pour monter ce projet ?
Gaël : « J’ai eu la chance de faire mon premier stage en master d’ingénierie avec Mustapha, sur des problématiques de recherche de visualisation d’algorithmes de clustering. Ça s’est très bien passé et j’ai rempilé une deuxième fois l’année suivante avec lui. Cette fois nous nous sommes vraiment attaqués au clustering, au passage à l’échelle d’un algorithme spécifique, dans un langage qui s’appelle Scala avec un framework distribué, c’est-à-dire qui permet de faire tourner des algorithmes sur plusieurs machines en même temps. Le but est vraiment de réduire la complexité, de faire en sorte que les calculs qui pouvaient durer des millions d’années – dans certaines conditions – ne durent plus que quelques heures voire quelques minutes. Ça a abouti sur un premier papier qui m’a permis de commencer ma thèse. Donc mon maître de stage est devenu mon maître de thèse, et finalement mon associé avec la création d’HephIA. »
Anthony : « Personnellement j’avais déjà ma thèse quand j’ai rejoint HephIA. J’ai fait deux post-doctorats, et le deuxième post-doctorat était encadré par Mustapha, sur les données massives de Renault et des problématiques autour de la conduite autonome. Ça m’a beaucoup plu, j’ai vu qu’il y avait pas mal de choses à faire. Je voyais que Mustapha faisait depuis longtemps des choses en lien avec des organisations partenaires, donc très appliquées, très réutilisables aussi … Et nous avons vu avec Gaël et Mustapha qu’il y avait un produit à développer pour valoriser l’ensemble des choses qui avaient été faites et aller plus loin sur le plan des outils, alors que l’on ne connait souvent ces techniques que de manière très parcellaire dans les différentes organisations avec un appui très faible des logiciels. En plus, l’idée d’avoir une entité qui peut pérenniser davantage et s’accorder aussi la responsabilité d’un produit, avec toutes les relations contractuelles que ça amène, peut rassurer, comme on le constate sur le terrain. Yann nous a rejoint un peu après.”
Yann : “De mon côté, je ne suis pas un universitaire. Je fais du machine learning comme Mustapha, mais plutôt dans un cadre industriel. J’ai un parcours davantage terrain que mes collaborateurs. Au départ, je faisais toujours un peu de recherche à côté de mon travail de lead data en entreprise et j’avais croisé Gaël dans une conférence. Quand il a monté sa boite, j’ai commencé à les aider, et de fil en aiguille j’ai rejoint HephIA, principalement sur la dimension de lead produit et l’industrialisation. »
Comment avez-vous été accompagnés dans votre projet par l’Incub’Sorbonne Paris Nord ?
Anthony : « Quand nous sommes arrivés à l’incubateur en avril 2022, nous avions déjà créé la boite depuis un an. Nous avons eu un budget de maturation de la SATT Erganeo qui nous a permis de démarrer le projet. Mais nous n’avions pas connaissance de tout l’écosystème. Mustapha nous a mis en relation avec l’incubateur. Grâce à l’incubateur, nous avons eu accès à une documentation, des choses dont nous n’étions pas conscients parce qu’au départ, nous venions plutôt du « labo ». Et avec l’équipe qui grossit et les besoins non Tech qui eux-aussi grossissent mécaniquement, il était temps pour nous de développer davantage l’entreprise sur le plan business ! L’incubateur nous y a beaucoup aidé, et ils ont beaucoup de partenaires. C’est eux qui nous ont également parlé de Zeugma … Ça se fait de proche en proche, en fait. Nous aimons développer notre réseau via des personnes de confiance. On fonctionne beaucoup comme ça. »
Qu’est-ce que ce prix de 10 000 € représente pour vous ? Quelles sont les prochaines étapes pour votre projet ?
Anthony : « Nous sommes en fin de maturation de notre solution, et les budgets que nous avions obtenus jusqu’ici étaient très orientés Tech. Nous ne pouvions pas les utiliser pour autre chose que du développement technique. Or, quand on monte une boite, on a besoin de plein d’autres choses. Avec Zeugma, l’idée était de payer quelques fonctions support liées à notre produit, par exemple pour de la propriété intellectuelle et le peaufinage de nos contrats. Nous n’avions pas forcément la capacité de le faire avec les budgets que nous avions. La prochaine étape, c’est d’arriver sur un produit maturé qui va être davantage commercialisé, avec beaucoup plus de partenaires. Nous sommes également en phase de levée de fonds, pour pouvoir étoffer nos équipes et dynamiser ce nouveau cycle … »
En quoi HephIA est-il un produit innovant ?
Yann : « Nos algorithmes permettent de résumer et de cartographier des gros volumes de données pour permettre de les appréhender simplement, c’est-à-dire par exemple que 100 millions d’enregistrements vont se résumer en une centaine de graphes. Ces graphes vont être rangés et décrire l’archétype, c’est-à-dire la donnée type, des segments de données regroupées par l’algorithme, tout en permettant en même temps d’exhiber les données atypiques présentes. Aujourd’hui, beaucoup d’argent est investi dans la data mais la mise en production reste difficile pour de nombreux secteurs qui ont pourtant énormément de données. Par exemple dans l’industrie, ils ont besoin de comprendre leurs données dans la globalité pour mener à bien des projets data en toute confiance et les amener avec succès en production. Pour suivre une démarche de qualité dans la mise en production, Ils ne peuvent pas se permettre de se limiter à un échantillon, vu l’impact que peut avoir un échec de l’IA, ils doivent cartographier l’intégralité de la donnée. De plus cette cartographie permet de drastiquement réduire le temps d’exploration et d’essai erreur des projets data qui représentent 70% du temps passé sur ces projets.
Ce n’est pas un problème nouveau pour nous, car il y a eu de nombreuses collaboration recherche-industrie, souvent par le biais de thèses CIFRE sous la direction de Mustapha, mais il y a une sorte de limite à ce modèle en pure collaboration de recherche quand il s’agit d’assurer la continuité du travail après la fin de la thèse. Inversement, même pour une collaboration de recherche, l’outil HephIA permet une accélération du travail.
Un produit et une entreprise permettent en plus d’adresser durablement un marché d’ingénieurs et data scientist au service de cas métiers concret. D’ailleurs, les industriels ont vite adhéré à cette démarche de mise en produit de la recherche industrielle. Ils nous ont soutenu dès le début, parce qu’ils ont vu l’opportunité d’avoir des équipes qui vont pouvoir maintenir cette technologie, être un partenaire business sur la durée.
L’importance de ce projet, c’est qu’aujourd’hui ce n’est plus optionnel. Tous les problèmes liés à la consommation énergique, à la cybersécurité ou encore la résilience sont adressés aujourd’hui et urgemment à des secteurs entiers de l’industrie ou de la finance. La résolution de ces problèmes passe par une optimisation fine des usages. Or cette optimisation fine ne peut découler que d’une analyse de nombreuses données.
Les algorithmes dédiés à l’émergence d’une structure dans la donnée existent, mais ce qui manque dans l’écosystème, c’est le passage à l’échelle. Dès qu’il y avait trop de données, on ne pouvait plus cartographier, ça prenait trop de temps de calcul. Tout le travail de recherche de Mustapha a été motivé par ce besoin de l’industrie de cartographie de la donnée massive et il s’est attaqué à la réduction de la complexité de ces algorithmes. C’est un outil essentiel pour les data scientists des entreprises. Comme je le dis souvent « on ne fait pas la grue mais on fait le roulement à bille », et il y a plein de trucs qui ne peuvent fonctionner correctement sans le roulement à bille. »
Gaël : « Aussi, l’IA que l’on a développée fait de l’apprentissage non supervisé, et c’est important pour l’aspect descriptif. Quand on a des centaines de millions de données, on ne va pas les regarder à la main. Avec HephIA on va les décrire, et on va les résumer en une centaine de points qu’un expert métier va pouvoir comprendre. Et cet aspect descriptif, il vient en complément de l’apprentissage supervisé à vocation majoritairement prédictive. Si on prédit mais que l’on a appris sur des mauvais résultats, l’IA va donner une réponse mais ça ne sera pas la bonne, alors qu’avec l’apprentissage non supervisé, cette description va permettre de comprendre s’il est possible de prédire sur ces données, ou seulement sur certaines parties. »
Pour l’instant votre solution est donc avant tout adaptée à des experts métiers dans le domaine de l’industrie ?
Anthony : « HephIA, c’est fondamentalement agnostique à un secteur. Tout dépend des natures de données que l’on doit manipuler, mais il n’y a pas de raison de se limiter à un secteur. Nous nous sommes focalisés à court terme sur l’industrie 4.0, parce que ce sont des données et des partenaires que nous connaissons. Nous cherchons en revanche à nous ouvrir sur d’autres secteurs, notamment en énergie, dans la mobilité, la smart city, la banque et l’assurance. Nous avons une approche vraiment progressive. »
Yann : « En fait, on ne peut pas s’attaquer à tous les marchés d’un coup. Ce n’est pas une stratégie business viable de « tout » faire. Les secteurs qui ont à notre sens le plus de données massives et le plus grand besoin de les comprendre, ce sont la grosse industrie avec des données basées sur des enregistrement d’usage et/ou de jumeaux numérique , les problématiques de smart city ou encore de la finance. »
Comment adapter l’interface aux diverses expertises métiers : ingénieurs, commerciaux, etc. ?
Yann : « Il y a un énorme travail sur ce qu’on appelle les visualisations, parce que sur ces données de masse, il ne s’agit pas simplement d’appliquer des algorithmes qui les trient, les rangent, etc. C’est déjà un énorme tour de force technologique, mais il y a aussi tout un travail sur comment on restitue le résultat des algorithmes de façon visuelle et interactive. »
Une dernière question : pourquoi ce nom « HephIA » ?
Yann : « C’est une référence à Héphaïstos. »
Anthony : « C’est le premier créateur de robots, avec les robots d’or. En quelque sorte il a créé les premières IA. C’est un petit clin d’œil mythologique. »