BIOINFORMATIKA
A. Definisi
Bioinformatika merupakan kajian yang memadukan disiplin biologi molekul
matematika dan teknik informasi (TI). Ilmu ini didefinisikan sebagai aplikasi
dari alat komputasi
dan analisa untuk menangkap dan menginterpretasikan data-data biologi molekul. Biologi molekul sendiri juga merupakan
bidang interdisipliner, mempelajari kehidupan dalam level molekul. Mula-mula bidang kajian ini muncul atas inisiatif para ahli biologi
molekul dan ahli
statistik, berdasarkan pola pikir bahwa semua gejala yang ada di alam ini bisa
dibuat secara
artificial melalui simulasi dari data-data yang ada. Pada bidang Bioinformatika, data-data atau tindak-tanduk gejala genetika
menjadi inti pembentukan simulasi.
Pada saat ini, Bioinformatika ini mempunyai peranan yang sangat
penting, diantaranya
adalah untuk manajemen data-data biologi molekul, terutama sekuen DNA dan informasi genetika . Perangkat utama
Bioinformatika adalah software dan didukung oleh kesediaan internet. Bioinformatika mempunyai peluang yang sangat
besar untuk berkembang karena banyak sekali cabang-cabang ilmu yang terkait dengannya. Namun
sayangnya di Indonesia
sendiri Bioinformatika masih belum dikenal oleh masyarakat luas. Di kalangan peneliti biologi, mungkin hanya para peneliti
biologi molekul yang mengikuti perkembangannya karena keharusan menggunakan perangkat-perangkat
Bioinformatika untuk
analisa data. Sementara di kalangan TI --mengingat kuatnya disiplin biologi
yang menjadi
pendukungnya-- kajian ini juga masih kurang mendapat perhatian.
a. Basis
data sekuens biologis
Basis data adalah kumpulan informasi yang
disimpan di dalam komputer secara sistematik sehingga dapat diperiksa
menggunakan suatu program komputer untuk memperoleh informasi dari basis data
tersebut. Sesuai dengan jenis informasi biologis yang disimpannya, basis data
sekuens biologis dapat berupa basis data primer untuk menyimpan sekuens primer
asam nukleat maupun protein , basis data sekunder untuk menyimpan motif sekuens
protein, dan basis data struktur untuk menyimpan data struktur protein maupun
asam nukleat. Basis data utama untuk sekuens asam nukleat saat ini adalah
GenBank (Amerika Serikat), EMBL (European Moleculer Biology Laboratory, Eropa),
dan DDBJ (DNA Data Bank of Japan, Jepang ). Ketiga basis data tersebut bekerja
sama dan bertukar data secara harian untuk menjaga keluasan cakupan
masing-masing basis data. Sumber utama data sekuens asam nukleat adalah submisi
langsung dari periset individual, proyek sekuensing genom , dan pendaftaran
paten . Selain berisi sekuens asam nukleat, entri dalam basis data sekuens asam
nukleat umumnya mengandung informasi tentang jenis asam nukleat ( DNA atau RNA
), nama organisme sumber asam nukleat tersebut, dan pustaka yang berkaitan
dengan sekuens asam nukleat tersebut. Sementara itu, contoh beberapa basis data
penting yang menyimpan sekuens primer protein adalah PIR (Protein Information
Resource, Amerika Serikat), Swiss-Prot (Swiss), dan TrEMBL (Eropa). Ketiga
basis data tersebut telah digabungkan dalam UniProt (yang didanai terutama oleh
Amerika Serikat). Entri dalam UniProt mengandung informasi tentang sekuens
protein, nama organisme sumber protein, pustaka yang berkaitan, dan komentar
yang umumnya berisi penjelasan mengenai fungsi protein tersebut. BLAST (Basic
Local Alignment Search Tool) merupakan perkakas bioinformatika yang berkaitan
erat dengan penggunaan basis data sekuens biologis. Penelusuran BLAST (BLAST
search) pada basis data sekuens memungkinkan ilmuwan untuk mencari sekuens asam
nukleat maupun protein yang mirip dengan sekuens tertentu yang dimilikinya. Hal
ini berguna misalnya untuk menemukan gen sejenis pada beberapa organisme atau
untuk memeriksa keabsahan hasil sekuensing maupun untuk memeriksa fungsi gen
hasil sekuensing. Algoritma yang mendasari kerja BLAST adalah penyejajaran
sekuens. PDB (Protein Data Bank) adalah basis data tunggal yang menyimpan model
struktural tiga dimensi protein dan asam nukleat hasil penentuan eksperimental
(dengan kristalografi sinar-X dan spektroskopi NMR ). PDB menyimpan data struktur
sebagai koordinat tiga dimensi yang menggambarkan posisi atom -atom dalam
protein ataupun asam nukleat.
b. Penyejajaran sekuens Penyejajaran
sekuens (sequence alignment) adalah proses penyusunan/pengaturan dua atau lebih
sekuens sehingga persamaan sekuens-sekuens tersebut tampak nyata. Hasil dari
proses tersebut juga disebut sebagai sequence alignment atau alignment saja.
Baris sekuens dalam suatu alignment diberi sisipan (umumnya dengan tanda
"–") sedemikian rupa sehingga kolom-kolomnya memuat karakter yang
identik atau sama di antara sekuens-sekuens tersebut. Berikut adalah contoh
alignment DNA dari dua sekuens pendek DNA yang berbeda, "ccatcaac"
dan "caatgggcaac" (tanda "|" menunjukkan kecocokan atau
match di antara kedua sekuens). ccat---caac | || |||| caatgggcaac Sequence
alignment merupakan metode dasar dalam analisis sekuens. Metode ini digunakan
untuk mempelajari evolusi sekuenssekuens dari leluhur yang sama (common
ancestor). Ketidakcocokan (mismatch) dalam alignment diasosiasikan dengan
proses mutasi, sedangkan kesenjangan (gap, tanda "–") diasosiasikan
dengan proses insersi atau delesi. Sequence alignment memberikan hipotesis atas
proses evolusi yang terjadi dalam sekuens-sekuens tersebut. Misalnya, kedua
sekuens dalam contoh alignment di atas bisa jadi berevolusi dari sekuens yang
sama "ccatgggcaac". Dalam kaitannya dengan hal ini, alignment juga
dapat menunjukkan posisi-posisi yang dipertahankan (conserved) selama evolusi
dalam sekuens-sekuens protein, yang menunjukkan bahwa posisiposisi tersebut
bisa jadi penting bagi struktur atau fungsi protein tersebut. Selain itu,
sequence alignment juga digunakan untuk mencari sekuens yang mirip atau sama
dalam basis data sekuens. BLAST adalah salah satu metode alignment yang sering
digunakan dalam penelusuran basis data sekuens.
c. Prediksi struktur protein Secara
kimia/fisika, bentuk struktur protein diungkap dengan kristalografi sinar-X
ataupun spektroskopi NMR , namun kedua metode tersebut sangat memakan waktu dan
relatif mahal. Sementara itu, metode sekuensing protein relatif lebih mudah
mengungkapkan sekuens asam amino protein. Prediksi struktur protein berusaha
meramalkan struktur tiga dimensi protein berdasarkan sekuens asam aminonya
(dengan kata lain, meramalkan struktur tersier dan struktur sekunder
berdasarkan struktur primer protein). Secara umum, metode prediksi struktur
protein yang ada saat ini dapat dikategorikan ke dalam dua kelompok, yaitu
metode pemodelan protein komparatif dan metode pemodelan de novo. Pemodelan
protein komparatif (comparative protein modelling) meramalkan struktur suatu
protein berdasarkan struktur protein lain yang sudah diketahui. Salah satu
penerapan metode ini adalah pemodelan homologi (homology modelling), yaitu
prediksi struktur tersier protein berdasarkan kesamaan struktur primer protein.
Pemodelan homologi didasarkan pada teori bahwa dua protein yang homolog
memiliki struktur yang sangat mirip satu sama lain. Pada metode ini, struktur
suatu protein (disebut protein target) ditentukan berdasarkan struktur protein
lain (protein templat) yang sudah diketahui dan memiliki kemiripan sekuens
dengan protein target tersebut. Selain itu, penerapan lain pemodelan komparatif
adalah protein threading yang didasarkan pada kemiripan struktur tanpa
kemiripan sekuens primer. Latar belakang protein threading adalah bahwa
struktur protein lebih dikonservasi daripada sekuens protein selama evolusi;
daerah-daerah yang penting bagi fungsi protein dipertahankan strukturnya. Pada
pendekatan ini, struktur yang paling kompatibel untuk suatu sekuens asam amino
dipilih dari semua jenis struktur tiga dimensi protein yang ada. Metodemetode
yang tergolong dalam protein threading berusaha menentukan tingkat
kompatibilitas tersebut. Dalam pendekatan de novo atau ab initio, struktur
protein ditentukan dari sekuens primernya tanpa membandingkan dengan struktur
protein lain. Terdapat banyak kemungkinan dalam pendekatan ini, misalnya dengan
menirukan proses pelipatan (folding) protein dari sekuens primernya menjadi
struktur tersiernya (misalnya dengan simulasi dinamika molekular ), atau dengan
optimisasi global fungsi energi protein. Prosedur-prosedur ini cenderung
membutuhkan proses komputasi yang intens, sehingga saat ini hanya digunakan
dalam menentukan struktur protein-protein kecil. Beberapa usaha telah dilakukan
untuk mengatasi kekurangan sumber daya komputasi tersebut, misalnya dengan
superkomputer (misalnya superkomputer Blue Gene dari IBM ) atau komputasi
terdistribusi (distributed computing, misalnya proyek Folding@home).
d. Analisis ekspresi gen Ekspresi gen
merupakan rangkaian proses penerjemahan informasi genetik (dalam bentuk urutan
basa pada DNA atau RNA) menjadi protein, dan lebih jauh lagi fenotipe.
Informasi yang dibawa bahan genetik tidak bermakna apa pun bagi suatu organisme
apabila tidak diekspresikan menjadi fenotipe. Ekspresi gen dapat ditentukan
dengan mengukur kadar mRNA dengan berbagai macam teknik (misalnya dengan
microarray ataupun Serial Analysis of Gene Expression ["Analisis Serial
Ekspresi Gen", SAGE]). Teknik-teknik tersebut umumnya diterapkan pada
analisis ekspresi gen skala besar yang mengukur ekspresi banyak gen (bahkan
genom ) dan menghasilkan data skala besar. Metode-metode penggalian data (data
mining) diterapkan pada data tersebut untuk memperoleh pola-pola informatif. Sebagai
contoh, metode-metode komparasi digunakan untuk membandingkan ekspresi di
antara gen-gen, sementara metode-metode klastering (clustering) digunakan untuk
mempartisi data tersebut berdasarkan kesamaan ekspresi gen.
e. Analisis Filogenetika Filogenetik
adalah studi yang membahas tentang hubungan kekerabatan antar berbagai macam
organisme melalui analisis molekuler dan morfologi. Dengan pesatnya
perkembangan teknik-teknik di dalam biologi molekuler, seperti PCR (polymerase
chain reaction) dan sikuensing DNA, penggunaan sekuen DNA dalam penelitian
filogenetika telah meningkat pesat dan telah dilakukan pada semua tingkatan
taksonomi, misalnya famili, marga, dan species. Pemikiran dasar penggunaan
sekuen DNA dalam studi filogenetika adalah bahwa terjadi perubahan basa
nukleotida menurut waktu, sehingga akan dapat diperkirakan kecepatan evolusi
yang terjadi dan akan dapat direkonstruksi hubungan evolusi antara satu
kelompok organisme dengan yang lainnya. Ada sejumlah asumsi yang harus
diperhatikan sebelum menggunakan data sekuen DNA atau protein ke analisis,
diantaranya yaitu (1) sekuen berasal dari sumber yang spesifik, apakah dari
inti, kloroplas atau mitokondria; (2) sekuen bersifat homolog (diturunkan dari
satu nenek moyang); (3) sekuen memiliki sejarah evolusi yang sama (misalnya
bukan dari campuran DNA inti dan mitokondria); dan (4) setiap sekuen berkembang
secara bebas. Analisis filogenetika molekuler merupakan proses bertahap untuk
mengolah data sikuen DNA atau protein sehingga diperoleh suatu hasil yang
menggambarkan estimasi mengenai hubungan evolusi suatu kelompok organisme.
Paling sedikit, ada tiga tahap penting dalam analisis filogenetika molekuler,
yaitu sequence alignment, rekonstruksi pohon filogenetika, dan evaluasi pohon
filogenetika dengan uji statistik.
C.
Kesimpulan
Bioinformatika
adalah bidang ilmu yang mempelajari teknik komputasi dalam melakukan
pengumpulan dan analisa data biologis kompleks. Biologi, ilmu komputer,
matematika, dan statistika memiliki peranan penting di dalam bidang bioinformatika.
Kehadiran bioinformatika tidak terlepas dari data biologi yang masif dan sulit
dikelola secara manual sehingga menjadi tren penelitian di bidang biologi saat
ini. Meskipun biologi bukan ilmu pasti, terdapat dogma yang mempermudah ahli
bioinformatika dalam mengembangkan software atau pemodelan yang tepat sesuai
dengan kebutuhan ahli biologi.