Wie man eine Struktur auswählt

Dies ist ein Leitfaden für Benutzer, welche mit den Feinheiten von Strukturbiologie-Daten nicht vertraut sind. Er soll ihnen helfen, das bestmögliche Strukturmodel für Ihr Projekt auszuwählen.

Auswahl zwischen mehreren Strukturen: generelle Qualitätsmerkmale

Es ist möglich, dass mehrere experimentell bestimmte Proteinstrukturen zur Auswahl stehen. Welche sollte man dann wählen? Ein gutes Startkriterium ist die Auflösung. Eine höhere Auflösung (niedrigere Zahl) liefert vermutlich die präzisere Struktur, da mehr experimentelle Informationen vorliegen, als bei einer niedrig aufgelösten Struktur. Generell sollte man ab einer Auflösung von 1,2 Å die Proteinhauptkette und die Seitenketten deutlich erkennen können, bei 2,5 Å können einige der Seitenketten schon etwas weniger gut definiert sein, bei 3,5 Å sind neben dem Rückgrat nur noch die massigen Seitenketten deutlich zu erkennen, und ab 5 Å oder geringerer ist die Hauptkette noch größtenteils klar, die meisten Seitenketten jedoch nicht. Letztlich hängt von Ihren Zielen ab, welche Auflösung Sie benötigen: Struktur-basiertes Arzneimittel-Design benötigt hochaufgelöste Seitenketten als Grundlage, während Studien, die sich mit der Dynamik ganzer Domänen beschäftigen, mit geringerer Auflösung auskommen.

Neben der Auflösung gibt es eine Reihe weiterer Parameter, auf die sie bei der Auswahl einer Struktur achten sollten. Wichtig sind unter anderem die kristallographischen R-Werte (R_work und R_free), welche suggerieren, wie gut das Strukturmodel zu den gemessenen Daten passt. Diese beiden Werte sollten so gering wie möglich sein, variieren jedoch basierend auf der Auflösung, verwendeter Software und Datenfehlern wie z.B. durch Verzwillingung. Der Abstand zwischen R_value und R_free sollte ebenfalls nicht zu groß sein, da ein großer Abstand auf Über-Verfeinerung hindeutet.

Überdies gibt es eine Reihe Validierungsparameter, welche wir für Strukturen in unserer Datenbank berechnen. Zum Beispiel Clash Scores, Ramachandranausreißern(eine Bewertung der Hauptkettentorsionswinkel, Seitenketten-ausreißer (ungünstige Rotamer-Konformationen) und Real Space R-value (RSR) Z Ausreißer (Passgenauigkeit von Daten und Modell im realen Raum). Diese werden in der PDB auf einem Slider angezeigt, mit Idealwerten im Vergleich zu anderen gespeicherten Strukturen mit ähnlicher Auflösung.

Eine Liste der Qualitätsmerkmale ist hier zu finden.

Sobald Sie ein Strukturmodel ausgewählt haben, empfehlen wir Ihnen in unserer Datenbank nach Strukturen zu suchen, die händisch verbessert wurden. Alle Strukturen in der Datenbank wurden automatisch evaluiert.

Überprüfen einer Struktur

Sobald Sie sich für ein Strukturmodel entschieden haben, oder falls Sie das Pech haben, dass für Ihr Projekt nur eine einzelne Struktur zur Verfügung steht, gibt es immer noch einige Dinge, die Sie überprüfen sollten: Erstens, Ihr Model könnte unvollständig sein. Vielleicht ist nur ein Teil der Struktur als Probe verwendet worden – z.B. sind Transmembrandomänen vielleicht aus dem genetischenCode entfernt worden, der zur Proteinherstellung für das Experiments benutzt wurde. In unserer Datenbank bieten wir Sequenzalignments für alle SARS-CoV und SARS-CoV-2 Proteine in der PDB. Diese können Ihnen helfen, die richtige Struktur auszuwählen und zu sehen, welche Strukturen sich ähneln. Ungeordnete Hauptketten-Schleifen, welche in der Elektronendichte nicht erkannt werden können, werden oft nicht modelliert. Einzelne Atome werden ebenfalls gelöscht, wenn es keine experimentellen Hinweise in der Elektronendichtekarte auf ihre Position gibt. Aus dem gleichen Grund können Atome eine Besetzung von 0 haben. Ein einfacher Blick auf die Seitenkette in einem Programm wie Pymol kann irreführend sein, da es nicht offensichtlich ist, dass die Positionen und Konformationen die diese Atome einnehmen, nicht durch die experimentellen Daten geschützt sind. Das Gleiche gilt für Atome mit sehr hohem B-Faktor im Vergleich zu umliegenden Atomen: auch hier gibt es wenig experimentellen Beweis für ihre Position.

Aufbau des „Biological Assembly“

Zweitens ist zu berücksichtigen, dass wenn das im Fokus stehende Protein ein Dimer, Trimer, Tetramer, etc. ist, nicht notwendigerweise die Gesamtstruktur in der PDB Datei vorhanden wurde. Die PDB-Datei beinhaltet alle Information, mit der die repepetetive Einheit eines Proteinkristalls bestimmt wurde (die sogenannte asymmetrische Einheit, ASU). Wenn also, z.B. bei einem Dimer das zweite Molekül symmetrisch vom Kristallgitter gebildet wird, muss es erst generiert werden, um die „biological assembly“ zu erhalten. In Pymol können Sie dies über die Operation „generating symmetry mates“ und anschließendes Abspeichern der Moleküle in einer einzelnen Datei bewerkstelligen.

„Readme.md“ in der Datenbank

Um es Ihnen leichter zu machen, eine Struktur auszuwählen haben wir Informationen zu jeder Struktur in readme.md Dateien zusammengestellt, welche in den Ordnern für die jeweiligen PDB Einträge in unserer Datenbank zu finden sind. In diesen Dateien finden sie eine kurze Beschreibung der Struktur und warum sie aufgeklärt wurde, zusammen mit einem Bild und einigen Qualitätsmerkmalen. Falls Sie sich jedoch immer noch unsicher sind, können Sie uns sehr gerne eine E-Mail schreiben: insidecorona@uni-wuerzburg.de.