Abstract

Generatoarele de structuri sunt utilizate pe scară largă în studiile de proiectare de novo și performanța lor influențează substanțial rezultatul. Abordările bazate pe modelele de învățare profundă și abordările convenționale bazate pe atomi pot duce la structuri nevalide și nu reușesc să abordeze problemele lor de fezabilitate sintetică. Pe de altă parte, abordările convenționale bazate pe reacții au ca rezultat compuși fezabili sintetic, dar noutatea și diversitatea compușilor generați pot fi limitate. Abordările bazate pe fragmente pot oferi atât o mai bună noutate, cât și o diversitate a compușilor generați, dar problema complexității sintetice a structurii generate nu a fost abordată în mod explicit înainte. Aici am dezvoltat un nou cadru de generare de structuri bazate pe fragmente care, prin proiectare, are ca rezultat structuri chimic valabile și oferă un control flexibil asupra diversității, noutății, complexității sintetice și chimiotipurilor compușilor generați. Cadrul a fost implementat ca un modul Python open-source și poate fi utilizat pentru a crea fluxuri de lucru personalizate pentru explorarea spațiului chimic.

crem

Introducere

Spațiul chimic asemănător drogurilor este foarte mare - dimensiunea sa estimează în

10 33 compuși [1]. În viitorul apropiat, va fi imposibil să enumerăm acest spațiu sau să efectuăm orice fel de căutare exhaustivă. Prin urmare, metodele și strategiile de explorare a acestui spațiu atrag în mod eficient un interes viu de cercetare. Una dintre strategiile populare este proiectarea de novo - generarea bazată pe modele de noi structuri chimice cu proprietăți anticipate promițătoare [2, 3]. Există două strategii majore de generare a structurilor: (i) generarea iterativă de structuri pentru a se potrivi predicțiilor modelului și (ii) generarea de structuri care au un set dorit de proprietăți direct prin modele de învățare automată (ML) (de exemplu QSAR invers sau rețele neuronale generative).

Prima strategie este utilizată pe scară largă și multe studii descriu diferite scheme de implementare [4,5,6,7,8,9]. Fluxul general de lucru include: (i) generarea sau selectarea structurilor inițiale, (ii) evaluarea structurilor generate de modelul (modelele) (QSAR, andocare, farmacofori etc.), (iii) selectarea celor mai promițători candidați, iv ) generarea de noi structuri bazate pe cele selectate și revenirea la pasul (ii). Această procedură se repetă până când sunt generați compuși cu proprietăți dorite. Etapele de generare a structurii și de estimare a proprietății sunt separate în acest caz. Deci, se poate utiliza orice combinație de abordări de generare a structurilor și modele in silico pentru a prezice proprietățile compușilor. Putem împărți abordările convenționale în trei grupuri: generatori de structuri bazate pe atomi, bazate pe fragmente și bazate pe reacții, fiecare având avantajele și problemele sale (Tabelul 1).

Abordările bazate pe atom reprezintă metode „ab initio” printre generatorii de structuri și utilizează reguli simple precum „adăugare/eliminare/înlocuire atom/legătură” pentru a modifica structurile de intrare și a genera altele noi [10]. Teoretic, ar trebui să fie posibil să se genereze fiecare structură posibilă folosind aceste reguli, ceea ce poate avea ca rezultat o noutate ridicată și o diversitate a structurilor enumerate. Cu toate acestea, vor fi necesari o mulțime de pași de generație, rezultând o explozie combinatorie. Prin urmare, abordările bazate pe atomi se potrivesc mai bine pentru explorarea sistematică a unui spațiu chimic local. Validitatea chimică trebuie controlată suplimentar în timpul generării structurii pentru a evita modificările structurale eronate. Cu toate acestea, problema principală a abordărilor bazate pe atomi este fezabilitatea sintetică, care nu poate fi controlată pe parcursul generației și poate duce la structuri sintetic mai puțin accesibile. Din câte știm, există o singură implementare a generatorului bazat pe atomi - Molpher [10].

Abordările bazate pe reacții generează compuși noi prin aplicarea regulilor dintr-o listă de transformări chimice codificate într-o bibliotecă de reactanți [7]. Întrucât este ușor de înțeles, abordările bazate pe reacții produc noutatea și diversitatea superioară în doar câțiva pași de generație în comparație cu abordările bazate pe atomi, care pot necesita mult mai mulți pași pentru a atinge același obiectiv. Abordările bazate pe reacții fac schimbări mari în structură în timpul generării compușilor și, prin urmare, par mai potrivite pentru explorarea dură a spațiului chimic. Cu o bibliotecă cuprinzătoare de reactanți, ar trebui, de asemenea, să se poată enumera analogii apropiați ai unui compus de referință pentru o explorare locală a spațiului chimic. Fezabilitatea sintetică a compușilor generați și o cale sintetică disponibilă sunt principalele avantaje ale abordărilor bazate pe reacție. Aplicabilitatea acestui tip de abordări a fost demonstrată în mai multe studii [7, 11,12,13]. Cu toate acestea, numărul limitat de reguli (în principal sunt luate în considerare numai reacțiile de cuplare) și dimensiunea limitată a bibliotecilor de reactanți pot împiedica acești algoritmi să exploreze spații chimice mai mari (pierzând astfel noutatea și diversitatea compușilor generați).

În ciuda succeselor recente în modele de rețea neuronală profundă generativă, abordările bazate pe fragmente par o alternativă atractivă, deoarece oferă o flexibilitate ridicată a explorării spațiului chimic cu eforturi rezonabile și pot fi cuplate cu orice abordare de modelare. De asemenea, pot aborda problema accesibilității sintetice, dar acest lucru nu a fost investigat până acum. În prezent, nu există software open-source care să implementeze diferite moduri de manipulare a fragmentelor (mutare, creștere și legătură) și oferă o interfață convenabilă de program pentru integrarea cu software terță parte pentru a dezvolta fluxuri de lucru personalizate de căutare. În acest studiu, am dezvoltat un cadru de enumerare a structurilor bazate pe fragmente, care oferă toate funcțiile de bază pentru manipularea fragmentelor și este ușor de integrat cu software-ul terților. Abordarea se bazează pe determinarea fragmentelor interschimbabile din bazele de date ale compușilor cunoscuți pentru a efectua mutații chimic rezonabile (CReM) ale structurilor de intrare. Generează structuri chimic valabile prin proiectare și permite controlul indirect al fezabilității sintetice a compușilor enumerați, precum și a chimiotipurilor acestora.

Implementare

Ideea fragmentelor interschimbabile - nucleul abordării dezvoltate - este direct legată de abordarea perechilor moleculare potrivite, având în vedere contextul lor local [33]. Fragmentele interschimbabile sunt fragmente care apar în același context chimic local în structurile compușilor cunoscuți (Fig. 1). Atomii dintr-o anumită rază în jurul punctelor de atașare ale unui fragment reprezintă acest context chimic local. Înlocuim un fragment cu altul având același context chimic, ceea ce ar trebui să conducă la o structură valabilă din punct de vedere chimic și fezabilă. Astfel, prin proiectare, valabilitatea chimică a structurilor generate este garantată. Intuitiv, se poate aștepta, de asemenea, că compușii generați sunt fezabili sintetic.