Login |
 
 

High Throughput Screening

Thorsten Meinl

Virtuelles High-Throughput Screening (vHTS) ähnelt stark dem traditionellen HTS in dem Hundertausende (oder mehr) chemische Substanzen auf ihre Wirksamkeit gegenüber einem Protein-Target hin getestet werden (ein oder mehrere Proteine sind für die meisten Krankheiten verantwortlich). Der große Unterschied ist allerdings, dass jede Substanz mit speziellen Verfahren im Computer getestet wird. In der Regel wird hierzu das sog. Docking verwendet, in dem durch Simulationen überprüft wird, wie gut ein Molekül in die aktive Bindetasche des Proteins passt. Weiterhin werden verschiedene Methoden zu Bestimmung von Ähnlichkeiten zwischen bekannt aktiven (oder inaktiven) und den zu testenden Substanzen eingesetzt.

Virtuelles Screening ist nicht nur wesentlich billiger als traditionalle Tests im Labor, es eröffnet auch die Möglichkeit, neue Moleküle zu untersuchen, die noch nicht in der Substanzbibliothek vorhanden sind, deren Struktur aber aus Katalogen der verschiedenen Anbieter bekannt ist. Das Hauptziel dieses Projekt ist es so auch, ein Verfahren zu entwickeln, dass bei der Auswahl einer bestimmten Anzahl von neu zu beschaffenden Molekülen hilft, die dann im traditionallen HTS getestet werden.

Dieser Prozess besteht auch mehreren Schritten, die im Folgenden näher beschrieben sind.

 

Erzeugen der Molekülmerkmale

Für alle folgenden Schritte ist es unabdingbar, dass genügend sinnvolle Merkmale für die zu untersuchenden Moleküle vorhanden sind. Dafür wird wie bereits erwähnt das Docken in verschiedene Konformationen der Zielproteine (mit oder ohne Nebenbedingungen) eingesetzt. Sofern möglich, werden in diesem Schritt auch verschiedene Bewertungsfunktionen verwendet. Auch die Frage der Einstellungen des Dockingprogramms ist hier von Interesse, um gute Ergebnisse in erträglicher Zeit zu erhalten. Andere Verfahren sind Vergleiche mit sog. Feature Trees und Pharmakophorsuchen mit bekannten aktiven Substanzen. Außerdem werden meistens auch einfache proteinunabhängige Molekülmerkmale berechnet.

Aktivitätsvorhersage

Der wichtigste Teil ist eine gute Vorhersage der zu erwartenden Aktivität. Diese ist allerdings sehr empfindlich gegenüber der Qualität der Daten aus dem vorhergehenden Schritt (und wird sehr wahrscheinlich auch nicht in allen Fällen zuverlässig funktionieren). Das größte Problem wird aber die sehr keine Menge an Vergleichsdaten (typischerweise 10 - 20 Moleküle), was das Erstellen von Vorhersagemodellen kompliziert. Deswegen werden verschiedene Strategien untersucht:

  • Vollständig automatisierte Auswahl der Merkmale und Erstellen eines Modells für ein Zielprotein.
  • Zusammenfassen von Informationen über verschieden Zielproteine (derselben Familie) und Einsatz von co-training oder ähnlichen Ansätzen.
  • Erstellen von einfachen Modellen (z.B. Regressionsbäume, polynomielle Regression, Maximum oder Minimum der verschiedenen Molekülbewertungen), so dass der Benutzer einfach den einzelnen Modellen verschiedene Gewichte zuweisen oder komplexere Bedingungen formulieren kann ("der Feature-Tree-Wert soll kleiner als 0,95 sein, weil das Vergleichsmolekül bereits patentiert ist"). Allerdings stellt sich hier die Frage, ob solche Bedingungen nicht besser im nächsten Schritt, der Diversitätsauswahl, behandelt werden sollten.
  • (Automatische) Modifizierung der Gewichte der einzelnen Merkmale, so dass das endgültige Modell ein gutes "Nachbarschaftsverhalten" hat (ähnliche Moleküle sollten sich ähnlich verhalten).

Auch die Kombination verschiedener Modelle wird untersucht.

Erstellen einer Rangliste

In diesem Schritt ist nicht viel zu tun, den er besteht einfach aus dem Sortieren der Substanzen basierende auf den Vorhersagen des Modells aus dem vorhergehenden Schritt.

Diversitätsauswahl

Die Motivation für die Diversitätsauswahl is, so viel aktive Molekülgruppen wie möglich zu bestellen. Oft sind die Vorhersagen (und auch die tatsächlichen Reaktionen) von Molekülen aus einer Gruppe sehr ähnlich und somit wird durch eine sehr einfach Strategie - Auswahl der ersten x Moleküle aus der Rangliste - wahrscheinlich sehr ähnliche Moleküle aus nur wenigen Strukturgruppen auswählen. Das muss nicht in allen Fällen zwangsläufig ein Nachteil sein, doch meistens erwarten die Chemiker so viele verschiedene Basisgerüste für die spätere Optimierung wie möglich.

Die Diversitätsauswahl kann einerseits auf der strukturellen Ähnlichkeit der Substanzen beruhen (für die zuerst noch eine sinnvolle Definition gefunden werden muss) oder an Hand ihrer berechneten Merkmale. Dabei stellt sich natürlich die Frage, welche Eigenschaften die besten für die Auswahl von diversen aber trotzdem noch aktiven Molekülen sind. Auch die Auswahlstrategie selber ist von großer Bedeutung, denn man möchte Verhindern, dass eben durch die Konzentration auf hohe Diversität nicht zu wenig aktive Moleküle selektiert werden. Dieser Schritt ist i.d.R. nur mit multikriteriellen Optimierungsverfahren durchzuführen, denn die beiden Hauptkriterien - Maximierung der Aktivität und Maximierung der Diversität - schließen sich gegenseitig aus.


Das Bild zeigt Anreicherungskurven von verschiedene Aktivitätsmodellen, die die Anzahl der gefundenen aktiven Moleküle (y- Achse) in Abhängigkeit von der Gesamtzahl aller untersuchten Moleküle (x- Achse) wiedergibt.



Dieses Bild zeigt die sog. Pareto-Front der multikriteriellen Optimierung. Das sind alle Lösungen (=Teilmengen von x ausgewählten Molekülen) die in der Kombination aus Aktivität und Diversität optimal sind. Das heißt, bei Austausch auch nur eines der ausgewählten Moleküle wird entweder die Aktivität oder die Diversität (oder beide) schlechter.