Maximiser la puissance des algorithmes
Au cours de la dernière décennie, la recherche collaborative entre chimistes, experts en chimiométrie, ingénieurs chimiques et data scientists a donné lieu à divers algorithmes capables de prédire des voies de synthèse complètes. Ces avancées ont été intégrées dans une gamme de logiciels, à la fois commerciaux et open-source, tels qu’IBM Rxn for Chemistry, ASKCOS, Chemairs, Synthia, Reaxis et SciFinderN. Ces outils sont désormais facilement accessibles à toute la communauté chimique. Bien qu’ils aient été principalement développés pour assister dans le développement de médicaments, ces outils prédictifs peuvent également améliorer la sélection des voies commerciales en augmentant la diversité des idées.
Une application notable de ces algorithmes a été dans la synthèse du Lotiglipron chez Pfizer. En utilisant ASKCOS, un outil de rétrosynthèse développé par le consortium Machine Learning for Pharmaceutical Discovery and Synthesis (MLPDS), les chercheurs ont intégré manuellement les voies prometteuses générées par le logiciel. ASKCOS permet aux utilisateurs de saisir une molécule cible et génère des voies de synthèse potentielles à l’aide de modèles d’apprentissage automatique entraînés sur diverses bases de données chimiques. Malgré la sophistication de ces outils, ils rencontrent souvent des difficultés avec des transformations complexes, telles que celles impliquant la formation d’hétérocycles ou la création d’espèces chirales souhaitées, courantes dans les applications pharmaceutiques. En conséquence, un effort manuel important est toujours nécessaire pour filtrer les suggestions peu pratiques.
Figure 1: Diversity of routes generated for a single target molecule
Dans le cas du Lotiglipron, les chercheurs ont proposé une méthode de traitement parallèle dans laquelle les idées synthétiques étaient collectées et filtrées séparément avant d’être fusionnées avec les contributions humaines à la fin d’un cycle. Cette approche visait à atténuer le bruit généré par les algorithmes prédictifs, qui peuvent submerger la créativité humaine et masquer les domaines d’intérêt.
Le principal défi pour affiner ces outils prédictifs réside dans la qualité des données d’entraînement disponibles. Les ensembles de données actuels, qui proviennent souvent de carnets de laboratoire électroniques, de brevets publics et de sources bibliographiques, sont biaisés en faveur des réactions réussies. Les chercheurs suggèrent que l’utilisation de données de meilleure qualité pourrait améliorer considérablement les performances des algorithmes.
Dans ce cas, le réseau intègre à la fois les idées générées par les humains et celles générées par les algorithmes, présentées de manière à faciliter l’identification des routes de synthèse individuelles. Les six routes de synthèse proposées par les humains et les six générées par le logiciel ont été enrichies avec des annotations et des données concernant les propriétés spécifiques de chaque route, ce qui a permis l’optimisation du processus de sélection. Ensuite, des requêtes pouvaient être effectuées pour trouver la route de synthèse la plus courte, depuis les molécules cibles jusqu’aux matériaux de départ, en utilisant l’algorithme de Dijkstra, qui minimise le nombre d’étapes impliquées.
Cependant, les résultats initiaux ont mis en évidence la nécessité de disposer d’informations plus complètes. Par exemple, certaines routes suggérées par l’algorithme impliquaient des matériaux de départ qui n’étaient pas disponibles commercialement, ce qui les rendait peu pratiques. Cela souligne l’importance d’inclure des informations sur la disponibilité et la complexité des matériaux de départ dans les modèles prédictifs.
En fin de compte, ces efforts représentent une avancée significative vers l’intégration de l’intelligence artificielle avec l’expérience humaine dans la synthèse chimique. L’amélioration continue des algorithmes prédictifs, combinée à des données d’entraînement de haute qualité, promet de révolutionner la manière dont les chimistes abordent la synthèse de molécules complexes, ouvrant la voie à des processus de développement de médicaments plus efficaces et innovants.
Notre plateforme offre un outil complet pour concevoir des routes synthétiques
Notre plateforme peut intégrer les résultats des principaux outils prédictifs (selon le plan d’abonnement), tels que IBM Rxn4Chemistry, ASKCOS, Synthia et Chemical.AI, offrant une solution complète pour la planification des voies de synthèse. En unifiant ces algorithmes avancés, nous offrons aux utilisateurs un accès à une large gamme de modèles prédictifs et de voies de synthèse. Notre plateforme excelle dans le filtrage des données, en utilisant de vastes bases de données et des retours en temps réel pour affiner les prédictions. Cette approche réduit considérablement le bruit, garantissant que seules les voies les plus viables et innovantes sont présentées. L’interface utilisateur est intuitive, facilitant la visualisation et l’exploration des voies, tout en favorisant une collaboration fluide entre les utilisateurs.
Figure 2: Data aggregation capabilities possible from RxnHub platform