Lösungsblatt zu Übungen Bioinformatik im Rahmen des Methodenpraktikum Bachelor
Biologie KIT
Erster Teil Alignments, Phylogenie, 3D Struktur
Sommersemester 2020
Name: Leonie Lazaro Garcia
Matrikel-Nr. 2230531
Name: Lea Langlotz
Matrikel-Nr. 2214364
Datum: 28.04.20
Übung 1
Was sind die Kriterien einer FASTA Datei? Für DNA und Protein beschreiben:
Das FASTA-Format ist ein textbasiertes Format, die der Darstellung und Speicherung der
Primärstruktur von Nukleinsäuren und Proteinen dient. Diese werden in einem One letter
code dargestellt und jede Zeile der Datei soll maximal 80 Zeichen erhalten. Die Datei
beginnt mit einer Kopfzeile, die einen Namen sowie eine Beschreibung der jeweiligen
Sequenz beinhaltet, sie steht den Sequenzdaten voran und beginnt mit einem „>“ Zeichen.
Übung 2
Wie gehen Sie vor, wenn Sie eine Textkonsole starten und darin Clustal Omega starten?
Bitte die Schritte erklären:
Powershell öffnen
Befehl cd .. eingeben
Erneut cd ..
,Jetzt befindet man sich in der Festplatte C und gibt cd Clustalo ein um in den clustalo
Ordner zu gelangen
Anschließend clustalo eingeben und mit der Tab-Taste autoausfüllen lassen -> wird zur exe
Datei vervollständigt
Danach kann man den gewünschten Befehl eingeben, z.B. um ein Alignment zu erstellen:
C:\clustalo> .\clustalo.exe -i .\Name der Fasta Datei -o .\Name der neuen Fasta Datei
Die neue Fasta Datei ist das hergestellte Alignment.
Um sich diese anzuschauen cat.\Name der neuen Fasta Datei
Übung 3, Zugang zur PDB Protein Data Bank
Inhalt der Fasta Datei
>3L0F:A|PDBID|CHAIN|SEQUENCE
MKTPITEAIAAADTQGRFLSNTELQAVDGRFKRAVASMEAARALTNNAQSLIDGAAQAVYQKFPYTTTMQGSQYASTPEG
KAKCARDIGYYLRMVTYCLVAGGTGPMDEYLIAGLSEINSTFDLSPSWYIEALKYIKANHGLTGQAAVEANAYIDYAINA
LS
PDB ID: 3L0F
Name des Proteins: C-Phycocyanin
Artname: Thermosynechococcus elongatus BP-1
Länge des Proteins (AS): 162
Wenige Worte zur Funktion: akzessorisches Pigment bei der Photosynthese von
Cyanobakterien, gehört zu den Phycobilinen
Übung 4, Protein und DNA Sequenzen auf NCBI Server
Länge des Proteins: 162 AS
Länge der DNA: 458 bp
FASTA Sequenz des Proteins:
>P50032.1 RecName: Full=C-phycocyanin alpha chain [Thermosynechococcus elongatus BP-1]
MKTPITEAIAAADTQGRFLSNTELQAVDGRFKRAVASMEAARALTNNAQSLIDGAAQAVYQKFPYTTTMQGSQYASTPE
KAKCARDIGYYLRMVTYCLVAGGTGPMDEYLIAGLSEINSTFDLSPSWYIEALKYIKANHGLTGQAAVEANAYIDYAIN
LS
,FASTA Sequenz der DNA:
>BA000039.2:2042263-2042748 Thermosynechococcus elongatus BP-1 DNA, complete genome
ATGAAAACGCCGATTACTGAAGCTATTGCCGCCGCCGATACCCAAGGTCGTTTCCTGAGCAACACCGAACTGCAAGCGGT
GGATGGTCGCTTCAAGCGCGCTGTGGCCAGCATGGAAGCTGCTCGCGCCCTGACCAACAACGCCCAGAGCTTGATTGAC
GGCGCAGCCCAAGCGGTGTATCAAAAATTCCCCTACACCACGACCATGCAAGGCTCTCAGTATGCCTCGACCCCCGAAGG
CAAAGCCAAGTGCGCCCGTGACATCGGCTACTACCTGCGGATGGTGACCTACTGCCTCGTGGCGGGGGGCACCGGTCCG
ATGGACGAGTACCTGATTGCCGGCTTGTCCGAAATCAACAGCACCTTTGATCTATCGCCAAGCTGGTATATCGAAGCTCTG
AAATACATCAAAGCCAACCATGGCTTGACCGGTCAAGCTGCGGTGGAAGCCAACGCCTACATCGACTACGCCATTAACGC
CCTCAGC
Übung 5, Suche nach einem homologen Protein
Inhalt der FASTA Datei von Protein 2:
>sp|P85868.1|PHCA_APHFL RecName: Full=C-phycocyanin alpha chain
MKTPITEAIASADTQGRFLSNTELQAVDGRRAAASMEAARAQKLIDGATSAVYSKFPYTTSTPGNQYASDARGKRDVGHYLRKA
NHGLSGQAANEANTYIDYAINALS
Name des Protein2: Phycocyanin Alpha-Untereinheit
Organismus (Artname) und Gruppe (z.B. Grünalge): Aphanizomenon flos-aquae (Grüne
Spanalge), Aphanizomenon
Länge des Protein2 (AS): 108
Übereinstimmung mit Protein1 (AS): 82/162
Identität Protein1 und Protein2 (%): 51
Kurze Beschreibung, wie Protein2 gefunden wurde:
In NCBI Blast P die Sequenz des Protein 1 im Fasta Format eintragen, den eigenen
Organismus von der Suche ausgeschlossen und die algorithmischen Parameter auf 10000
gelistete Proteine erhöhen, um ein Protein mit 50-55% Identität aufzufinden.
Bild des Homologie Modells:
, Übung 6, Dotplot
Beschreiben, was Sie gemacht haben.
Auf http://www.bioinformatics.nl/cgi-bin/emboss/dotmatcher beide Sequenzen in FASTA-
Format eingefügt und das Programm gestartet. Verschiedene Windowsize und Threshold
ausprobiert:
Windowsize: 15, 15, 30, 50, 100
Threshold: 11, 13, 20, 25, 45, 95
Bitte das Ergebnis der Analyse beschreiben:
Wir haben eine Windowsize von 30 und einen Threshold von 25 gewählt, da man mit diesen
Parametern in der Grafik am besten die Hauptdiagonale sieht, die leicht versetzt
übereinander liegt und dazu kommend außerhalb wenige Striche liegen, die von der Norm
abweichen. Bei 2 gleichen Proteinsequenzen würde sich ein komplett diagonaler Strich
ergeben. Dass unsere Proteine eine 51% Ähnlichkeit besitzen, sieht man daran dass die
Diagonale voneinander abweicht bzw. übereinander liegt.
Welche Parameter kann man ändern?
- Windowsize und Threshold