Wstęp do biologii obliczeniowej

Termin i miejsce

Wykład odbywa się w środy, w godz. 12:15 - 14:00, w sali 5070. Prowadzone są trzy grupy laboratoryjne:

  1. środa, godz. 14:15 - 16:00, sala 3042, prowadzący: Aleksander Jankowski
  2. czwartek, godz. 10:15 - 12:00, sala 2045, prowadzący: Bartek Wilczyński
  3. wtorek, godz. 14:15 - 16:00, sala 2043, prowadzący: Bartek Wilczyński.

Prowadzący zajęcia

  • Anna Gambin (wykładowca), konsultacje: czwartek 14.30-16.00, pokój 5720
  • Aleksander Jankowski (lab. grupa 1), konsultacje: piątek, 14:15-15:45, pokój 5810
  • Bartek Wilczyński (lab. grupa 2 i 3), konsultacje: wtorek 13-14, czwartek 14-15, pokój 5770

Zasady zaliczania laboratorium

Zaliczenie stanowi napisanie własnego projektu. Nie będzie musiał on być bardzo duży, ale powinien swoim zakresem obejmować więcej niż jeden temat omawiany na zajęciach.

Więcej informacji o projektach zaliczeniowych.

Plan zajęć

1. Bazy danych informacji genomowych
2. Narzędzia programistyczne dla baz genomowych
  • Eksport danych ze strony Ensembla (link Export data po lewej u dołu). Wyciągnij sekwencje wybranego genu w formacie FASTA (DNA, białko). Formaty GFF, EMBL i  GENBANK.
  • BioMart – wybierz geny ludzkie z homologami u drożdży, które mają co najmniej 15 transkryptów. Różne metody otrzymania takiego samego wyniku (URL, XML, PERL), różne metody prezentacji wyniku (TSV, XLS, HTML), różne bazy (Ensembl, functional genomics, variations).
  • UCSC Table browserGalaxy – eksport z UCSC do Galaxy, narzędzia EMBOSS dostępne w Galaxy
  • Interfejs SQL do Ensembla – można zajrzeć do wnętrza bazy danych
  • Ensembl Perl API – instalacja, registry, współrzędne i iterowanie (slice'y i iteratory). Tutorial.
  • Zadanko: Znajdź wszystkie pojedyncze mutacje (SNPs) opisane w okolicach genu BRCA2 i uliniowienie tego genu z genomem danio pręgowanego przy pomocy Perl API i zweryfikuj swój wynik przy pomocy dostępu przez BioMart bądź Galaxy.
3. Bazy ontologii biologicznych
4. Narzędzia do automatycznego opisywania genomów
  • Zadanko 0. Pobrać z Ensembla sekwencje długości około 90kb (np. sekwencja DNA genu BRCA2 wraz z pewnym otoczeniem)
  • Mapowanie miejsc cięcia enzymami restrykcyjnymi: webcutter lub NEB cutter.
  • Zadanko 1. Wyszukać miejsca cięcia dowolnym enzymem (np. BclI) w danej sekwencji i utworzyć plik w formacie BED, który opisuje te miejsca we współrzędnych genomowych (a nie współrzędnych wewnątrz naszej sekwencji). Plik ten załadować na serwery Ensembla i wyświetlić jako dodatkową ścieżkę.
  • Zadanko 2. Możemy też wyszukać w naszej sekwencji otwartych ramek odczytu (potencjalni kandydaci na geny). Np. przy pomocy pakietu GENSCAN. Z uzyskanego wyniku, należy utworzyć plik w formacie GFF, i udostępnić go jako ścieżkę Ensembla poprzez URL (Manage your data -> Attach URL data)
  • Zadanko 3(*). Możemy też tworzyć ścieżki reprezentujące funkcje ciągłe od pozycji genomowej. Najlepszy jest do tego format wiggle. Można tak np. uzyskać wykres zawartości AT dla podsekwencji o określonej długości.
5. Wyszukiwanie sekwencji podobnych
  • Pobierz z Ensembla sekwencję ludzkiego genu HBA1 i jego ortologa u krowy.
  • Przy użyciu narzędzi EMBOSSGalaxy znajdź uliniowienia tych dwóch sekwencji algorytmami Needlemana-Wunscha i Smitha-Watermana.
  • Użyj narzędzi dotpath i dotmatcher dla tych sekwencji oraz dla genu BRCA2 i jego ortologu u krowy.
  • Wybierz długi egzon genu BRCA2 i przy użyciu BLATa i BLASTN z Ensembla znajdź sekwencje podobne w genomach makaka, myszy i muszki owocowej. Porównaj wyniki dla różnych wartości parametru Search sensitivity.
6. Uliniowienia wielu sekwencji
  • Narzędzia do uliniawiania wielu sekwencji: ClustalW2, T-Coffee, MUSCLE. Dla zainteresowanych: notatki sprzed kilku lat opisujące działanie CLUSTAL W i T-Coffee.
  • Zadanko 1. Testowy króciutki zestaw sekwencji aminokwasowych: seqs.fasta. Uliniowić go na piechotę. Porównać wynik z uliniowieniami uzyskanymi przy użyciu powyższych narzędzi. Użyć jalview do graficznego wyświetlenia wyników.
  • Zadanko 2. Zestaw sekwencji aminokwasowych kinaz: kinases.fasta. Uliniowić go przy użyciu trzech powyższych narzędzi. Porównać z uliniowieniem referencyjnym z bazy danych BAliBASE.
  • Zadanko 3. Poszukać rodziny Pfam zawierającej białka zbliżone do białek z tego zestawu.
  • Zadanko 4. Znaleźć w Ensemblu kilka (co najmniej 4) ortologów ludzkiego genu TP53. Pobrać sekwencje aminokwasowe ich białkowych produktów i je uliniowić. Odnaleźć najbardziej zachowywane fragmenty.
7. Drzewa filogenetyczne
  • Zadanko 0. Pobrać multiuliniowienia (w formacie phylip) rodziny białek szoku cieplnego HYOU1 dla sekwencji aminokwasowych i dla sekwencji DNA. Zainstalować program PHYLIP (dokumentacja).
  • Zadanko 1. Używając programów protdist i dnadist obliczyć macierze odległości pomiędzy uliniowionymi sekwencjami (można spróbować także użyć różnych macierzy substytucji).
  • Zadanko 2. Przy pomocy programu neighbor wykonać drzewa najbliższych sąsiadów dla sekwencji białkowych i sekwencji DNA.
  • Zadanko 3. Przy pomocy programów proml i dnaml wykonać drzewa maksymalnej wiarogodności (maximum likelihood) oparte na multiuliniowieniach.
  • Zadanko 4. Zwizualizować otrzymane drzewa przy pomocy drawtree i Interactive Tree Of Life.
8. Rodziny białek
  • Jak znajdować ortologi? Best bidirectional hits (BBH) i klastry ortologów.
  • Zadanie 1: Spróbuj znaleźć BBH (np. przy pomocy BLAT) dla genów ludzkich BRCA2 i HIST1H3B u myszy
  • Zadanie 2: Znajdź (przy pomocy kognitor'a) KOG do którego należy HIST1H3B
  • podejście nieco bardziej subtelne: modularna struktura białek i łańcuchy Markowa. Baza PFAM
  • Zadanie 3: Znajdź domeny w sekwencji histonu H3B (HIST1H3B) przy pomocy PFAM. Zobacz jakie inne architektury białek (domain organisation) zawierają domenę histonową i obejrzyj drzewo filogenetyczne dla tych białek.
  • Zadanie 4: Znajdź domenę PIWI i odszukaj najczęściej występującą z nią domenę
  • Jeszcze inne podejście: drzewa filogenetyczne dla klastrów genów – treefam, przydatne do automatycznych analiz.
9. Profile ekspresji genów
  • Omówienie metod profilowania ekspresji, mikromacierze, sekwencjonowanie RNA, rodzaje mikromacierzy, problem normalizacji odczytów, klasteryzacja, klasyfikacja.
  • Bazy danych mikromacierzowych: GEO i ArrayExpress.
  • Zadanko 0. znaleźć w bazie ArrayExpress rekord dotyczący eksperymentu E-TABM-158 i pobrać przetworzone dane,
  • Zadanko 1. Znaleźć w bazie GEO rekord GDS1761, pobrać dane przetworzone i przy pomocy wbudowanych narzędzi "przeglądarkowych" dokonać klasteryzacji genów (hierarchicznie i k-means). Dla wybranego klastra obejrzeć wykres profili ekspresji.
  • Zadanie 2. Przy pomocy programu MeV dokonać klasteryzacji genów względem ekspresji w cyklu komórkowym drożdży (dane). Znaleźć klastry (k-means) genów odpowiadające genom związanym z cyklem (dane zawierają serie z 2. cyklów komórkowych, profile ekspresji tych genów powinny powtarzać się dwukrotnie). Należy pamiętać o dostosowaniu skali kolorów do danych.
  • Zadanko 3. Przy pomocy tego samego programu przeanalizować zbiór danych dla reakcji drożdży na trudne warunki. Tym razem klastrujemy hierarchicznie geny i warunki, aby dowiedzieć się jakie warunki stresowe stymulują podobną odpowiedź u drożdży. (dane)
  • Zadanie 4. (*,Wymaga zwiększenia dostępnej pamięci dla MeV: parametr -Xmx) Korzystając z danych o ekspresji genów u różnych pacjentów z rakiem piersi, dokonaj klasteryzacji pacjentów i genów i sprawdź na ile klastry ekspresji korelują z predykcja np. rozmiaru guza dostępną w bazie arrayExpress (dane).
10. Badanie wiązania białek do DNA na skalę genomową
  • Dwa ważne rodzaje białek wiążących się do DNA: histony i czynniki transkrypcyjne. Omówienie metod ChIP-chip i ChIP-seq. Dla zainteresowanych interesujące komiksy (czytać od końca). Potencjalne problemy: niska mapowalność (fałszywe negatywy), mikrosatelity i obszary centromerowe (fałszywe pozytywy).
  • Pracować będziemy na danych z eksperymentów ChIP-Seq dotyczących miejsca wiązania 13 czynników transkrypcyjnych w mysich komórkach macierzystych: GSE11431. Wybierz losowy czynnik transkrypcyjny, odnajdź wyniki eksperymentu z jego udziałem pod Samples i pobierz odpowiedni plik BED z odczytami ChIP-Seq. Oprócz tego pobierz plik BED z odczytami ChIP-Seq białka GFP niewystępującego u myszy – posłuży on jako próba kontrolna.
  • Do analizy danych eksperymentalnych użyjemy programu Model-based Analysis for ChIP-Seq. Pobierz go stąd i zainstaluj w katalogu domowym, pamiętaj o dopisaniu linijki export PYTHONPATH="$HOME/share/python2.6/site-packages" w pliku ~/.bash_profile.
  • Przy użyciu programu MACS znajdź położenia statystycznie istotnych miejsc wiązania wybranego czynnika transkrypcyjnego w mysich komórkach macierzystych. Jako parametry podaj oba pliki BED oraz wielkość genomu (istotną ze względu na obliczane statystyki).
  • Przy użyciu powstałego skryptu w języku R wykreśl rozkład położeń odczytów ChIP-Seq względem położenia interesującego nas czynnika transkrypcyjnego. Porównaj wyniki z uzyskanymi dla innych czynników.
  • Powstały plik BED zawiera położenia statystycznie istotnych miejsc wiązania. Udostępnij go przez HTTP i umieść w Ensemblu jako ścieżkę (pamiętaj o konwersji do właściwej wersji genomu, np. programem LiftOver). Umieść tam też ścieżki uzyskane przez innych dla innych czynników transkrypcyjnych. Czy ich położenia są niezależne?
  • Można też porównać "surowe" dane z położeniami znalezionych "wierzchołków". Można użyć do tego programu IGB
11. Motywy w sekwencjach biologicznych
  • Omówienie roli motywów DNA w opisie specyficzności wiązania białek do DNA, modele PSSM i PWM. Zawartość informacji. Bardziej zaawansowane modele uwzględniające zależności między kolumnami.
  • Zadanie 0. Ze znanego nam już zbioru danych GSE11431 wydobyć miejsca wiązania czynnika SOX2, wybrać 200 pozycji o najwyższych ocenach i pobrać z UCSC ich sekwencje (±100 bp) – dla leniwych -> plik FASTA
  • Zadanie 1. Wyszukać motywy (długości ≤ 15 bp) w wybranych sekwencjach przy pomocy programu MEME.
  • Zadanie 2. Wyszukać motywy podobne do znalezionych w bazach JASPAR i TRANSFAC przy pomocy narzędzia STAMP. Dla bazy JASPAR użyć najnowszej wersji (stamp ma starą wersje, ale pozwala wczytać nową z pliku).
  • Zadanie 3. Ten sam zbiór sekwencji (plik .fa) przeanalizować przy pomocy narzędzia RSAT -> oligo-analysis. Porównać wynik z otrzymanym w MEME.
12. Funkcjonalne sekwencje niekodujące w genomach
  • Enhancery/CRMy co to takiego, bazy enhancerów. Omówienie typowych własności elementów regulatorowych w genomach: nadspodziewana konserwacja na przestrzeni ewolucji i klasteryzacja motywów wiązania czynników transkrypcyjnych.
  • Zadanko 0. Obejrzeć sobie bazę danych enhancerów u myszy . zwrócić uwagę na to, że konserwacja nie wystarczy do aktywności.
  • Zadanie 1. W przeglądarce Vista wyszukać gen SLC46A3. Znaleźć w jego okolicy fragment sekwencji niekodującej, która jest konserwowana nawet u żab tropikalnych (Xenopus).
  • Zadanie 2. Pobrać sekwencje genomową z okolic tego genu (±5 kb) z bazy ensembl i użyć programu Cluster-Buster do wyszukania klastrów motywów z bazy Jaspar
  • Zadanie 3. Pobrać sekwencje homologów SLC46A3 u myszy (też ±5 kb) i użyć programu EEL (instalacja podobna do MACS'a, na komputerach labowych trzeba podmienić plik Output.py) do wyszukania uliniowień grup motywów pomiędzy człowiekiem a myszą.
13. Grafy w biologii molekularnej: zastosowania i narzędzia
  • Przegląd różnych zastosowań grafowej reprezentacji danych w biologii: sieci interakcji białek, interakcji genów, ko-ekspresji, sieci regulatorowe. Interesujące własności sieci biologicznych: rozkłady stopni wierzchołków i motywy w sieciach.
  • String przedstawia znane interakcje między białkami. Interakcje mogą być różnych typów a wyniki są przedstawiane w postaci "okolicy" interesującego nas białka. Można w ten sposób np. dowiedzieć się czegoś o jakimś znanym nam genie (np. BRCA2). Siostrzana przeglądarka Stitch łączy te informacje z danymi o związkach chemicznych. Można tam np. dowiedzieć się jakie białka wchodzą w reakcje z kofeiną.
  • Cytoscape (do ściągnięcia lokalnie tutaj) pozwala na wizualizację różnych sieci (niezależnie od pochodzenia danych). Najczęściej stosuje się do sieci interakcji białek (w katalogu sampleData można znaleźć np. interaktom drożdży: yeastHighQuality). Oprogramowanie udostępnia różne algorytmy automatycznego rozmieszczania wierzchołków i filtry do kolorowania krawędzi i wierzchołków.
  • GINsim Pozwala analizować i symulować modele sieci regulatorowych przy pomocy modeli sieci Boole'owskich.
  • MAVisTo pozwala analizować statystyki wystąpień motywów w grafach i wyszukiwać motywów nadreprezentowanych
14. Struktura białek
  • Typowe podstruktury w strukturze przestrzennej białek: alfa-helisy i beta-kartki.
  • Baza Protein Data Bank zawiera znane struktury białek, które można oglądać przy pomocy narzędzi typu pymol.
  • hipoteza termodynamiczna Anfinsena opisuje bardzo elegancki problem predykcji struktury białek
  • Istniejące rozwiązania, takie jak Robetta wymagają ogromnych nakładów obliczeniowych, stąd pomysły typu Folding@home
  • Interesujące są też podejścia wykorzystujące inteligencję ludzi do optymalizacji struktur, tj. Fold.it
  • Zadanko 1. Odnajdź w PDB strukturę przestrzenną tego ludzkiego białka TBP (TATA box binding protein) i obejrzyj, jak wygląda jego wiązanie do DNA. Pobierz z Ensembla jego sekwencję aminokwasową.
  • Zadanko 2. Do dalszych prac użyjemy narzędzia (PS)2 Protein Structure Prediction Server, mającego krótki czas oczekiwania na wyniki. Dokonaj predykcji struktury tego białka w oryginalnej postaci. Następnie spróbuj przewidzieć strukturę tego białka z punktowymi mutacjami w różnych miejscach (po jednej naraz). W których miejscach najłatwiej zaburzyć strukturę przestrzenną?
15. Zaliczenia