Wstęp do biologii obliczeniowej – projekty zaliczeniowe

Uwagi ogólne

Poniższe projekty zaliczeniowe są tylko propozycjami. Każdy może realizować inny projekt, według własnego pomysłu lub będący modyfikacją poniższych. Należy zgłosić prowadzącemu laboratorium, jaki projekt się realizuje. Nie będziemy pozwalali na to, aby zbyt wiele osób realizowało ten sam projekt. Termin oddawania upływa wraz z końcem sesji letniej.

Oddając projekt zaliczeniowy, należy przedstawić raport, opisujący co i jak zostało zrobione, i jakie są wyniki. Należy zachować zarówno dane wejściowe i końcowe wyniki, jak też najważniejsze wyniki pośrednie. Raport powinien być na tyle szczegółowy, aby umożliwić w miarę wierne powtórzenie eksperymentu. Idealnym rozwiązaniem byłby skrypt, którego uruchomienie realizowałoby eksperyment od początku do końca, ale zdajemy sobie sprawę, że używanie narzędzi webowych to utrudnia.

Propozycje projektów zaliczeniowych

Zadanie 1. Jakie geny są najsilniej konserwowane?
Pobrać z Ensembla wszystkie pary genów (gen ludzki, jego mysi ortolog 1-to-1). Przy użyciu BLASTa policzyć podobieństwo między sekwencjami aminokwasowymi białek genów w każdej parze. Wybrać 100 par genów o najwyższym dopasowaniu i w przystępny sposób przedstawić, jakie adnotacje Gene Ontology mają występujące w nich ludzkie geny.
Zadanie 2. Odporność genomów bakterii na działanie enzymów restrykcyjnych.
Pobrać duży zbiór genomów bakteryjnych, np. ze strony EBI. Wyszukać w nich potencjalne miejsca cięcia przez 20 wybranych enzymów restrykcyjnych. Dla każdego genomu oszacować też, ilu miejsc cięcia enzymami restrykcyjnymi należałoby się spodziewać przy założeniu niezależności nukleotydów na poszczególnych pozycjach. Dla każdego enzymu wyłonić bakterie relatywnie uodpornione na ten enzym. Wyniki zaznaczyć na drzewie filogenetycznym bakterii.
Zadanie 3. Wymagająca obliczeniowo ścieżka do Ensembla.
Dla każdej pozycji na wybranym ludzkim chromosomie, policzyć przy użyciu BLASTa podobieństwo między jego otoczeniem ±25 bp a całym genomem muszki. Wynik po zlogarytmowaniu przedstawić w postaci ścieżki dla Ensembla. (Ze względu na dużą ilość przetwarzanych danych, należy pracować offline.)
Zadanie 4. Stwórz własną macierz substytucyjną.
Na podstawie danych z wybranej bazy danych uliniowień referencyjnych (Pfam, BAliBASE) odtworzyć prawdopodobieństwa punktowych mutacji między aminokwasami. Na tej podstawie skonstruować własną macierz substytucyjną. Kluczowe algorytmy należy zaimplementować samodzielnie.
Zadanie 5. Opis nowej sekwencji metagenomowej.
Pobieramy sekwencję z metagenomu morskiego z serwisu Annotathon (można sobie wybrać z jakiego morza sekwencja ma pochodzić, dobrze, żeby miała >1kb długości). Zadanie polega na opisaniu danej sekwencji: znalezieniu otwartych ramek odczytu (Glimmer), wyszukaniu homologów tych prawdopodobnych genów, utworzenia drzewa filogenetycznego tychże sekwencji, określeniu prawdopodobnego pochodzenia sekwencji (eukariot, prokariot, archeon), i funkcji (Pfam, Gene Ontology) tych genów. Należy też wyszukać prawdopodobne miejsca wiązania czynników bakteryjnych lub eukariotycznych.
Zadanie 6. Analiza danych mikromacierzowych.
Rozpoczynając od wybranego eksperymentu mikromacierzowego (z bazy danych, do akceptacji przez prowadzącego) dokonaj klasteryzacji profili ekspresji, i dokonaj analizy funkcji genów w klastrach. Wybierz jeden interesujący klaster i wyszukaj w otoczeniu genów do niego należących potencjalnych sekwencji regulatorowych.
Zadanie 7. Analiza regulacji u drożdży.
Wybierz jakiś eksperyment mikromacierzowy opisujący knock-out czynnika transkrypcyjnego u drożdży. Następnie znajdź geny reagujące istotnie na ten knock-out i porównaj wynik z danymi ChIP-chip dla tego samego czynnika. Sprawdź, czy geny reagujące na knock-out odpowiadają tym, których promotory są wiązane przez ten czynnik, oraz jak te dane mają się do obecności motywów tego samego czynnika (zarówno wiązanie jak i zmiany ekspresji).