Jak znaleźć igłę w stogu siana

Metody matematyczne, które pomocne są przy wykrywaniu obrazu czołgu na nieostrym zdjęciu satelitarnym, przydają się biologom do poszukiwania sekwencji kodujących konkretne geny w łańcuchu DNA.

Metody matematyczne, które pomocne są przy wykrywaniu obrazu czołgu na nieostrym zdjęciu satelitarnym, przydają się biologom do poszukiwania sekwencji kodujących konkretne geny w łańcuchu DNA.

Po raz pierwszy zdałem sobie sprawę z możliwości nowoczesnego wykorzystania matematyki w biologii w latach 80., gdy zetknąłem się z tzw. taksonomią numeryczną. Byłem przekonany, że taksonomia to najbardziej archaiczna dziedzina biologii, w której po dokonaniach Linneusza niewiele można już było zmienić. Wtedy poznałem docenta Andrzeja Batko z Uniwersytetu Warszawskiego, botanika, który zamiast zielnika dźwigał wszędzie ze sobą komputer. Do komputera tego wprowadzał różnego typu charakterystyczne dane, opisujące poszczególne gatunki, następnie zaś wykorzystując takie matematyczne triki, jak analiza skupień, rysował drzewa pokazujące "odległości" między poszczególnymi gatunkami. Metodę tę zastosowaliśmy potem do sekwencji aminokwasów pewnych peptydów, by spróbować określić odległości i zależności ewolucyjne między kilkudziesięcioma gatunkami ssaków. Tak oto, stosując matematykę, próbowaliśmy obiektywizować "opisową" dotychczas wiedzę.

Wydobywanie danych

Ilość informacji i stopień złożoności problemu peptydowego był jednak niczym w porównaniu z informacyjnym chaosem, powstającym podczas badania genomu ludzkiego. Biolodzy spotykają tu kilka grup problemów. Pierwszy to określenie właściwej sekwencji DNA z wyników analiz biochemicznych (opisał to Krzysztof Szymborski). Niestety, to niezbędny, ale tylko pierwszy krok w szukaniu informacji użytecznej. Kolejne pytanie: gdzie w tym ciągu nukleotydów kryją się geny odpowiedzialne za syntezę konkretnych białek?

To pytanie prowadzi nas już do klasycznego problemu data mining: jak z morza informacji wyłowić sygnały wartościowe. W Oak Ridge National Laboratory w Stanach Zjednoczonych do poszukiwania genów wykorzystuje się algorytmy sieci neuronowej, zaadaptowane na potrzeby biologów z wcześniejszych doświadczeń, pochodzących z analizy satelitarnych zdjęć szpiegowskich. Te właśnie algorytmy w połączeniu z matematycznymi metodami rozpoznawania obrazu (pattern recognition) stały się podstawą utworzenia programu GRAIL. GRAIL nie jest jedynym narzędziem ułatwiającym przekopywanie się przez otchłań informacji genetycznych.

Wciąż powstają nowe, wyspecjalizowane firmy bioinformatyczne, których głównym skarbem są algorytmy, ułatwiające lokalizację ukrytych w DNA genów. Jedną z największych transakcji w tym obszarze jest kontrakt między niemieckim koncernem farmaceutycznym Bayer a firmą Lion Bioscience z Heidelbergu. Bayer zapłaci 100 mln USD za zautomatyzowany system, służący do eksploracji genetycznych baz danych. Lion Bioscience obiecuje, że jej klient dzięki inwestycji odkryje w ciągu najbliższych pięciu lat 500 nowych genów oraz dokona właściwej annotacji (przypisania do realnego materiału genetycznego) już odkrytych 700 genów.

Istnieje jednak trzeci, niezwykle ważny i interesujący problem. Z medycznego punktu widzenia istotna jest nie tylko znajomość genów, ale również możliwość analizy ich ekspresji. Geny są w organizmie po to, by powstawały białka. W zależności od stanu zdrowia, białka produkowane są w różnych proporcjach. Ich określenie w znacznym stopniu ułatwiłoby diagnostykę.

Chipy DNA

Jak jednak określić stan genetycznej ekspresji? Przypomnijmy nieco biologii. By doszło do syntezy białka w komórce, informacja zawarta w DNA musi być przepisana w formie "rozkazu produkcyjnego". Komunikat ten przenoszą cząsteczki tzw. informacyjnego RNA i to zgodnie z zawartą w nich instrukcją następuje późniejsza biosynteza. Z kolei stężenie cząsteczek RNA określa, jaka jest gotowość do syntezy określonych białek. Okazuje się, że wzory te dość dobrze można przypisać różnym schorzeniom.

Pierwszym krokiem w tych badaniach jest określenie aktywności komórkowej dla jak największej liczby genów. Obecnie powszechnie stosuje się tzw. chipy DNA. To nic innego, jak szklana płytka pokryta mikrootworkami, w których znajdują się próbki DNA. Umożliwia ona zbadanie zachowania jednocześnie wielu tysięcy genów. Powstaje wówczas bardzo subtelna mapa stanu komórki - umiejętność jej rozszyfrowania otworzyła przed medycyną nowe horyzonty.

Najlepiej wyjaśnić to na przykładzie. Skuteczność terapii przeciwnowotworowej jest bardzo uzależniona od precyzyjnego określenia rodzaju raka. Niestety, objawy są często bardzo do siebie zbliżone, tak że klasyczne badania tkanki nie przynoszą właściwej odpowiedzi. Kłopoty takie sprawi np. białaczka. W amerykańskim Whitehead/MIT Center for Genome Research do rozwiązania tego problemu zastosowano bioinformatykę. Pobrano próbki od 38 pacjentów chorych na białaczkę i za pomocą wspomnianej metody określono aktywność 6800 genów. Następnie stosując matematyczny algorytm analizy skupień, pogrupowano wyniki. Okazało się, że pacjentów można podzielić na dwie grupy chorych na dwie różne odmiany białaczki. Więcej, jeden z pacjentów nie znalazł się w żadnej z grup. Ponowne badania tkankowe pozwoliły rozpoznać zupełnie inny nowotwór niż zakładaną wcześniej białaczkę. Rzecz jasna, że wraz ze zmianą rozpoznania zmieniła się terapia.

Spektakularne sukcesy bioinformatyki nie powinny jednak przesłaniać rzeczywistości. Stosowanym obecnie algorytmom daleko do doskonałości. O ile o sukcesach mówi się głośno, o tyle znacznie liczniejsze niepowodzenia są przemilczane. Rozwój bionformatyki praktycznej wymaga ciągle podbudowy teoretycznej, wciąż potrzebne są badania podstawowe z matematyki (choćby analiza skupień) i informatyki. Tymczasem rozkwit bioinformatyki spowodował ogromne zapotrzebowanie na fachowców. Amerykańskie uczelnie narzekają, iż cierpią na drenaż mózgów. Najlepsi naukowcy odchodzą do firm farmaceutycznych lub zakładają własne przedsiębiorstwa. Znając jednak Amerykę, brak kadr rozwiążą doktoranci z zagranicy.

--------------------------------------------------------------------------------

Edwin Bendyk jest dziennikarzem tygodnika Polityka.

W celu komercyjnej reprodukcji treści Computerworld należy zakupić licencję. Skontaktuj się z naszym partnerem, YGS Group, pod adresem [email protected]

TOP 200