Commun numérique des sciences en français
1,25 million de documents scientifiques francophones, ouverts et structurés — pour que la science en français soit enfin découvrable.
Dans un paysage scientifique mondial dominé par l'anglais, les publications francophones restent largement sous-représentées dans les corpus d'entraînement des modèles de langue et les systèmes de recherche. Des décennies de savoir — thèses, articles, travaux de recherche — demeurent difficilement accessibles, mal référencées, voire invisibles.
French Science Commons change la donne. Publié à l'occasion de la Semaine de la langue française et de la francophonie, ce corpus ouvert et structuré est la plus grande collection de littérature scientifique ouverte en langue française, structurée et soigneusement préparée pour des usages IA.
Chaque document a été converti depuis son PDF source grâce à un pipeline de vision OCR avancé (dots.ocr), un modèle de vision-langage open source qui produit une sortie directement en Markdown. Le résultat préserve la structure d'origine — titres, sous-titres, tableaux, formules mathématiques, listes — et s'accompagne de métadonnées riches : auteur, DOI, discipline, licence, date de publication.
French Science Commons rassemble 1,25 million de documents scientifiques publiés entre 2007 et 2026 — articles de recherche et thèses doctorales — référencés dans trois bases majeures : HAL, theses.fr et OpenAlex.
Ce corpus s'inscrit dans une démarche de souveraineté linguistique et culturelle. Face à l'hégémonie de l'anglais dans les systèmes d'IA et les moteurs de recherche académiques, French Science Commons affirme que la science produite en français mérite ses propres ressources — ouvertes, traçables, transparentes.
Dans les prochains mois, il s'agira de bâtir une infrastructure partagée, au service de l'intégrité scientifique et de la diversité des savoirs au sein de la Francophonie.
French Science Commons est conçu pour servir une pluralité d'usages au bénéfice de la communauté scientifique et au-delà :
Développer des systèmes de recherche IA avec des données scientifiques francophones de qualité.
Socle d'entraînement pour des LLM dédiés aux tâches scientifiques en français.
Améliorer l'indexation et la découvrabilité des contenus scientifiques.
Naviguez dans un échantillon de dix mille documents du corpus, via des visualisations sémantiques interactives (créées avec Embedding Atlas). Les clusters peuvent être visualisés regroupés avec la classification Frascati — OECD Research Areas (catégories et supra-catégories) ou avec la division par disciplines des répertoires originaux.
French Science Commons a été constitué par la collaboration de ces institutions :