Benutzung der Strukturen für Downstream-Projekte

Für In-silico-Strukturmodellierung, Ligand Fitting oder generell Bioinformatik an dreidimensionalen Molekülen sind gute Ausgangsdaten eine Grundvoraussetzung. Wie immer in der Wissenschaft gilt auch hier “garbage in, garbage out”. Da wir viele Anfragen nach den ‘besten’ Strukturen bekommen, möchten wir im Folgenden einige Richtlinien zur Auswahl geben.

Die makromolekularen Strukturen aus Coronaviren in unserer Datenbank wurden mit drei experimentellen Methoden bestimmt: Röntgenkristallographie, Elektronen-Kryomikroskopie (Kryo-EM) und NMR in Lösung. (Mehr Information zu diesen Methoden unter https://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/methods-for-determining-structure )

‘Repräsentative Struktur’ ist dabei ein schwieriger Ausdruck: Die Auswahl eines geeigneten Strukturmodells für eine gegebene Berechnung hängt von der Fragestellung ab. Für eine Dynamikstudie eines großen Komplexes reicht womöglich eine 3.5 Å Kryo-EM-Struktur, aber für Ligandenbindung wäre diese Struktur ungeeignet, da die Bindetasche und Aminosäureseitenketten nicht oder nicht genau genug bestimmt wären.

Anhand der folgenden Kriterien kann man auch als Anfänger Strukturen beurteilen:

Ist alles da?

Sind alle Domänen, die für die Berechnung notwendig sind, in der Struktur vorhanden? Sind sie mutiert worden? Selbst wenn die Sequenz stimmt, ist möglicherweise nicht alles in der modellierten Struktur vorhanden: Falls die Person, die die experimentellen Daten mit dem Strukturmodell interpretiert hat, Atompositionen nicht bestimmen konnte (zum Beispiel weil eine Seitenkette, ein Loop oder ein Terminus flexibel oder fehlgeordnet waren), dann können die entsprechenden Atome entweder ganz fehlen oder ihre Besetzungszahl („Occupancy“) kann 0 sein. Achtung: Im letzten Fall sind die trotzdem vorhandenen Atomkoordinaten bedeutungslos.

Bei Kristallstrukturen gibt es noch eine zusätzliche Eigenheit: Die deponierten Koordinaten entsprechen der sogenannten asymmetrischen Einheit des Kristallgitters. Wenn der biologisch aktive Komplex eine innere Symmetrie hat, dann kann die asymmetrische Einheit nicht das ganze Protein enthalten. Oder die asymmetrische Einheit kann auch aus mehr als einem biologisch aktiven Komplex bestehen. Die Informationen hierzu sind aber in der Koordinatendatei enthalten.

Siehe auch: https://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/biological-assemblies

In einigen Fällen mit niedriger Auflösung in der PDB, allerdings nicht in den Strukturen in unserer Datenbank, sind nur Cα-Positionen in der Koordinatendatei angegeben. Wasserstoffatome werden in der makromolekularen Kristallographie grundsätzlich weggelassen und werden nach Bedarf in idealer Position hinzugefügt. Molprobity macht das während der Geometrieanalyse automatisch.

Gibt es zusätzliche Moleküle?

Sind im Protein ein Ligand oder Kofaktor gebunden? (Was ist die Besetzungszahl?) Gibt es außer Wasser noch andere Moleküle oder Ionen? Wurden diese korrekt identifiziert – was ist ihre chemische Umgebung, was ist ihr B-Faktor (siehe weiter unten)? In den Strukturen aus Coronavirus gab es unter anderem die folgenden Fehler: Wasser falsch als Magnesiumion identifiziert; Chlorid als Zink; Zink als Disulfidbrücke oder Polyethylenglykol. Es kann auch hilfreich sein, den pH und die chemischen Bedingungen, aus denen das Protein bestimmt wurde, zu bedenken – diese Informationen sind oft (aber leider nicht immer) Teil der PDB Deposition.

Molekülgeometrie

Abhängig von den verfügbaren experimentellen Daten wurde Information über die Molekülgeometrie verwendet, um die Struktur zu bauen. Wenn die Struktur ohne einen guten (chemischen) Grund von diesen sogenannten “Restraints” abweicht, ist das immer verdächtig. Andere Kriterien werden öfter in der Validierung verwendet, zum Beispiel Ramachandran-Ausreißer, andere Torsionswinkel oder Van-der-Waals-Zusammenstöße (sog. Clashes). Achtung: Ist der Ramachandran-Plot bei einer Auflösung schlechter als 2,5 Å, dann bedeutet dies möglicherweise, dass Hauptketten-Torsionswinkel im Bau der Struktur als Restraints oder sogar Constraints verwendet wurden und der Ramachandran-Plot kann nicht als Validierung herangezogen werden. Als ersten Hinweis kann man die Molprobity-Score, und bei schlechterer Auflösung, die % CaBLAM Ausreißer (am Besten unter 2%), verwenden. Molprobity-Ergebnisse werden auch als Perzentil angegeben, und setzen die Struktur so in Kontext mit anderen Strukturen, welche bei gleicher Auflösung (siehe unten) gemessen wurden. Auch sehr nützlich ist der Output von Whatcheck für kristallographische Strukturen, er enthält zusätzliche Plausibilitätsprüfungen. Eine Struktur, deren Molekülgeometrie in Ordnung ist, vermeidet ‚hot spots‘ in Molekulardynamik-Berechnungen und begrenzt die Veränderungen (r.m.s.d.) pro Frame. In unserer Datenbank kann man CaBLAM, Whatcheck und Molprobity Ergebnisse finden.

Die Auflösung: Wieviel experimentelle Information gibt es überhaupt?

Die Auflösung ist der am häufigsten verwendete Qualitätsindikator für strukturbiologische Daten, aber nicht der einzige. (Es sei an dieser Stelle empfohlen, sich hier etwas gründlicher in die fragliche experimentelle Methode und ihre Qualitätsindikatoren einzulesen, um sich eine eigene Meinung zu bilden.)

Je besser die Auflösung, desto mehr Informationen waren experimentell verfügbar und konnten genutzt werden, um die Struktur zu lösen. Für Kryo-EM-Strukturen, ist die Auflösung, die mittels Fourier-Shell Korrelation zwischen zwei halben Datensätzen berechnet wird, lokal variabel, auch wenn für die ganze Struktur nur eine (gemittelte) Zahl angegeben wird. Für NMR-Strukturen ist Auflösung unüblich. In der Kristallographie kann sie direkt anhand des Röntgendatensatzes ermittelt werden. Zusätzlich wird die Unsicherheit in der Position eines Atoms mit B-Faktoren angegeben. Je höher B, desto unsicherer die Position.

Kleine Unterschiede in der Auflösung (ca. 0,2 Ångström) sind vernachlässigbar bei der Wahl einer Struktur. Als eine generelle Richtlinie: Bei Auflösungen < 1.7 Å können individuelle Atompositionen (außer Wasserstoff) bestimmt werden und Abweichungen von idealen Bindungslängen und -winkeln sind oft chemisch bedeutsam. Fehlordnungen sind sichtbar und können als alternative Konformationen modelliert werden. Von 1,7 bis 2,6 Å sind Rotamere und Konformationen weitestgehend korrekt, aber viel Informationen zu idealen Bindungslängen und -winkeln ist verwendet worden und das Modell wird diesen größtenteils entsprechen. Fehlordnungen können immer noch modelliert werden, aber ihre Besetzungszahl kann nicht mehr verfeinert werden. Von 2,6 bis 3,7 Å ist die Faltung fast immer korrekt, aber Seitenketten und Peptidbindungen können falsch modelliert worden sein. Viele Rotamere werden in Positionen sein, die in Rotamerbibliotheken vorgegeben werden. Falls es bei dieser Auflösung keine höher aufgelösten homologen Strukturen gibt, besteht ein Risiko, das einige Regionen “out of register” sind, also dass Aminosäurereste um eine oder mehrere Positionen entlang der Hauptkette verschoben sind. Falls das Protein glykosiliert ist, sollte man die Zuckerkettenkonformationen kritisch betrachten – sind oft „auf dem Rücken“ (um 180° entlang der Asp-Zucker-Bindung gedreht). Zusammengefasst sollte eine Struktur in diesem Auflösungsbereich gründlich überprüft werden, bevor man sie für Docking oder Dynamiksimulationen verwendet. Bei Auflösungen > 3,7 Å sind einzelne Atompositionen bedeutungslos, aber die Gesamtfaltung kann vielleicht trotzdem bestimmt werden. In der Tabelle weiter unten sind die Auflösungen unserer Strukturen aufgelistet.

Siehe auch:

https://proteopedia.org/wiki/index.php/Resolution

https://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/resolution

r.m.s.d.: Präzision von NMR-Strukturen

In NMR kann man die NOE-Kupplungen als Constraints betrachten, welchen die Struktur gehorchen muss. Das Modell besteht konsequenterweise aus einer Vielzahl ähnlicher Strukturen statt einer einzigen. Aus diesen wird dann eine Konsensus-Struktur mit einer mittleren quadratischen Abweichung (root mean square deviation = r.m.s.d.) für die unterschiedlichen Koordinaten errechnet, aber es kann durchaus Sinn ergeben, das gesamte Strukturensemble anzuschauen. Regionen, die sehr variabel sind, sind entweder sehr mobil oder es gab nicht genug Daten für ihre Bestimmung. Im Allgemeinen sollte eine gut definierte NMR-Struktur, gemessen über den strukturierten Teil des Moleküls, einen Hauptketten-r.m.s.d-Wert von 0,5 Å und einen Nicht-Wasserstoffatom-Wert von < 1,0 Å haben. Für die Qualität der Struktur ebenfalls relevant ist die Anzahl der Restraints pro Aminosäure-Rest. Dieser sollte zwischen 10 und 18 liegen.

Mehr Informationen unter: https://febs.onlinelibrary.wiley.com/doi/10.1111/j.1742-4658.2011.08004.x

Der kristallographische R-Wert: Wie gut passen Modell und Daten zusammen?

Der R-Wert (Restwert, oder R-Faktor) misst den Unterschied zwischen Diffraktionsdaten und Modell. Je niedriger, desto besser. Da es einen Modellbias beim Bau der Strukturen gibt, wird zusätzlich der R(free)-wert verwendet, ein fast unabhängiges Kriterium. Er muss stets höher sein als der normale R-wert, R(work). Für 2-3Å Auflösung ist 24% oder 0,24 ein typischer R-wert. R-Werte sind generell je niedriger, je besser die Auflösung ist, aber es gibt ein paar Fallstricke: Sind die Kristalle verzwillingt und ein entsprechende Modell wurde in der Verfeinerung der Struktur eingesetzt, so kann es bessere Wert haben, da es mehr Parameter für das Modell gab, und dieses dementsprechend besser an die Messdaten angepasst werden konnte. Außerdem ist der R-Wert nur rein Maß für die Präzision, nicht die Richtigkeit der Struktur. Sie sollten mit Vorsicht gedeutet werden: Ein Modell mit schlechter Molekülgeometrie ist immer noch ein schlechtes Modell, auch wenn die R-Werte niedrig sind. R-Werte für unsere Strukturen sind unten in der Tabelle gegeben.

Siehe auch:

https://pdb101.rcsb.org/learn/guide-to-understanding-pdb-data/r-value-and-r-free

https://strucbio.biologie.uni-konstanz.de/ccp4wiki/index.php/R-factors

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4465431/

Sind experimentelle Daten verfügbar?

In den letzten Jahren sind in der Proteindatenbank (PDB) immer mehr prozessierte Daten (Rekonstruktionsdichten und Strukturfaktoren) für Kryo-EM und kristallographische Strukturen deponiert worden. Das erlaubt jedem, die Modelle mit den Dichtekarten zu vergleichen und die Modelle sogar selbst anhand dieser Daten zu verbessern. Ein Tool hierfür ist ISOLDE, welches bereits für viele Strukturen in unserer Datenbank verwendet wurde, um diese zu checken und wo nötig, zu korrigieren (siehe Verzeichnisse namens ‚isolde‘ in der Datenbank). Automatisierte Tools können viel bewirken, aber um wirklich sicher zu sein, muss man das Strukturmodell, Aminosäurerest für Aminosäurerest durchsehen. Falls hierzu die Zeit fehlt, so sollte man die Stellen, die in Molprobity oder Whatcheck als Ausreißer gelistet sind ansehen und solche mit hoher Relevanz für die geplanten Berechnungen – Ausreißer können sowohl „echt“ sein – und sind dann oft wichtig für die Funktion des Makromoleküls – oder es handelt sich um Modellierungsfehler, welche in Downstream-Projekten Probleme verursachen können.

Noch besser ist es, wenn die Rohdaten verfügbar sind. Dies ist oft ein Zeichen, dass die Autoren mit Methodenentwicklern zusammengearbeitet hat und um mögliche Probleme in der Datenprozessierung weiß. Auch diese Informationen sind in der Tabelle unten gelistet.

Zusätzliche Tips

Falls es mehrere Depositionen für das gleiche Makromolekül gibt, die für das Projekt in Frage kommen, können diese überlagert werden (zum Beispiel mit Coot, Pymol, Chimera or ChimeraX), um eine Vorstellung von Abweichung und innerer Flexibilität zu bekommen.
Die Methoden, mit denen wir Strukturen lösen und modellieren, ändern sich jedes Jahr. Aus diesem Grund kann es vorteilhaft sein, ein neueres Modell statt eines älteren zu wählen. PDB-REDO verfeinert aus genau diesem Grund jede Woche alle PDB-Einträge neu; diese Neu-Verfeinerungen sind ebenfalls Teil der Datenbank. Des Weiteren werden SARS-CoV-2-Strukturen zurzeit häufig verbessert (PDB „re-versioning“), es lohnt sich also, immer mal wieder nachzusehen.
Die PDBe Knowledgebase enthält eine Übersicht über die bekannten Ligandenbindungsstellen und Protein-Protein-Interaktionen für Coronavirus-Strukturen: https://www.ebi.ac.uk/pdbe/covid-19

Die Tabelle als Datei im JSON-Format:
https://github.com/thorn-lab/coronavirus_structural_task_force/blob/master/utils/stats.json