Teknik Informatika: Tugas ke 4 Pengantar Komputasi Modern

BIOINFORMATIKA

A. Definisi

Bioinformatika merupakan kajian yang memadukan disiplin biologi molekul matematika dan teknik informasi (TI). Ilmu ini didefinisikan sebagai aplikasi dari alat komputasi dan analisa untuk menangkap dan menginterpretasikan data-data biologi molekul. Biologi molekul sendiri juga merupakan bidang interdisipliner, mempelajari kehidupan dalam level molekul. Mula-mula bidang kajian ini muncul atas inisiatif para ahli biologi molekul dan ahli statistik, berdasarkan pola pikir bahwa semua gejala yang ada di alam ini bisa dibuat secara artificial melalui simulasi dari data-data yang ada. Pada bidang Bioinformatika, data-data atau tindak-tanduk gejala genetika menjadi inti pembentukan simulasi.

Pada saat ini, Bioinformatika ini mempunyai peranan yang sangat penting, diantaranya adalah untuk manajemen data-data biologi molekul, terutama sekuen DNA dan informasi genetika . Perangkat utama Bioinformatika adalah software dan didukung oleh kesediaan internet. Bioinformatika mempunyai peluang yang sangat besar untuk berkembang karena banyak sekali cabang-cabang ilmu yang terkait dengannya. Namun sayangnya di Indonesia sendiri Bioinformatika masih belum dikenal oleh masyarakat luas. Di kalangan peneliti biologi, mungkin hanya para peneliti biologi molekul yang mengikuti perkembangannya karena keharusan menggunakan perangkat-perangkat Bioinformatika untuk analisa data. Sementara di kalangan TI --mengingat kuatnya disiplin biologi yang menjadi pendukungnya-- kajian ini juga masih kurang mendapat perhatian.

a. Basis data sekuens biologis

Basis data adalah kumpulan informasi yang disimpan di dalam komputer secara sistematik sehingga dapat diperiksa menggunakan suatu program komputer untuk memperoleh informasi dari basis data tersebut. Sesuai dengan jenis informasi biologis yang disimpannya, basis data sekuens biologis dapat berupa basis data primer untuk menyimpan sekuens primer asam nukleat maupun protein , basis data sekunder untuk menyimpan motif sekuens protein, dan basis data struktur untuk menyimpan data struktur protein maupun asam nukleat. Basis data utama untuk sekuens asam nukleat saat ini adalah GenBank (Amerika Serikat), EMBL (European Moleculer Biology Laboratory, Eropa), dan DDBJ (DNA Data Bank of Japan, Jepang ). Ketiga basis data tersebut bekerja sama dan bertukar data secara harian untuk menjaga keluasan cakupan masing-masing basis data. Sumber utama data sekuens asam nukleat adalah submisi langsung dari periset individual, proyek sekuensing genom , dan pendaftaran paten . Selain berisi sekuens asam nukleat, entri dalam basis data sekuens asam nukleat umumnya mengandung informasi tentang jenis asam nukleat ( DNA atau RNA ), nama organisme sumber asam nukleat tersebut, dan pustaka yang berkaitan dengan sekuens asam nukleat tersebut. Sementara itu, contoh beberapa basis data penting yang menyimpan sekuens primer protein adalah PIR (Protein Information Resource, Amerika Serikat), Swiss-Prot (Swiss), dan TrEMBL (Eropa). Ketiga basis data tersebut telah digabungkan dalam UniProt (yang didanai terutama oleh Amerika Serikat). Entri dalam UniProt mengandung informasi tentang sekuens protein, nama organisme sumber protein, pustaka yang berkaitan, dan komentar yang umumnya berisi penjelasan mengenai fungsi protein tersebut. BLAST (Basic Local Alignment Search Tool) merupakan perkakas bioinformatika yang berkaitan erat dengan penggunaan basis data sekuens biologis. Penelusuran BLAST (BLAST search) pada basis data sekuens memungkinkan ilmuwan untuk mencari sekuens asam nukleat maupun protein yang mirip dengan sekuens tertentu yang dimilikinya. Hal ini berguna misalnya untuk menemukan gen sejenis pada beberapa organisme atau untuk memeriksa keabsahan hasil sekuensing maupun untuk memeriksa fungsi gen hasil sekuensing. Algoritma yang mendasari kerja BLAST adalah penyejajaran sekuens. PDB (Protein Data Bank) adalah basis data tunggal yang menyimpan model struktural tiga dimensi protein dan asam nukleat hasil penentuan eksperimental (dengan kristalografi sinar-X dan spektroskopi NMR ). PDB menyimpan data struktur sebagai koordinat tiga dimensi yang menggambarkan posisi atom -atom dalam protein ataupun asam nukleat.

b. Penyejajaran sekuens Penyejajaran sekuens (sequence alignment) adalah proses penyusunan/pengaturan dua atau lebih sekuens sehingga persamaan sekuens-sekuens tersebut tampak nyata. Hasil dari proses tersebut juga disebut sebagai sequence alignment atau alignment saja. Baris sekuens dalam suatu alignment diberi sisipan (umumnya dengan tanda "–") sedemikian rupa sehingga kolom-kolomnya memuat karakter yang identik atau sama di antara sekuens-sekuens tersebut. Berikut adalah contoh alignment DNA dari dua sekuens pendek DNA yang berbeda, "ccatcaac" dan "caatgggcaac" (tanda "|" menunjukkan kecocokan atau match di antara kedua sekuens). ccat---caac | || |||| caatgggcaac Sequence alignment merupakan metode dasar dalam analisis sekuens. Metode ini digunakan untuk mempelajari evolusi sekuenssekuens dari leluhur yang sama (common ancestor). Ketidakcocokan (mismatch) dalam alignment diasosiasikan dengan proses mutasi, sedangkan kesenjangan (gap, tanda "–") diasosiasikan dengan proses insersi atau delesi. Sequence alignment memberikan hipotesis atas proses evolusi yang terjadi dalam sekuens-sekuens tersebut. Misalnya, kedua sekuens dalam contoh alignment di atas bisa jadi berevolusi dari sekuens yang sama "ccatgggcaac". Dalam kaitannya dengan hal ini, alignment juga dapat menunjukkan posisi-posisi yang dipertahankan (conserved) selama evolusi dalam sekuens-sekuens protein, yang menunjukkan bahwa posisiposisi tersebut bisa jadi penting bagi struktur atau fungsi protein tersebut. Selain itu, sequence alignment juga digunakan untuk mencari sekuens yang mirip atau sama dalam basis data sekuens. BLAST adalah salah satu metode alignment yang sering digunakan dalam penelusuran basis data sekuens.

c. Prediksi struktur protein Secara kimia/fisika, bentuk struktur protein diungkap dengan kristalografi sinar-X ataupun spektroskopi NMR , namun kedua metode tersebut sangat memakan waktu dan relatif mahal. Sementara itu, metode sekuensing protein relatif lebih mudah mengungkapkan sekuens asam amino protein. Prediksi struktur protein berusaha meramalkan struktur tiga dimensi protein berdasarkan sekuens asam aminonya (dengan kata lain, meramalkan struktur tersier dan struktur sekunder berdasarkan struktur primer protein). Secara umum, metode prediksi struktur protein yang ada saat ini dapat dikategorikan ke dalam dua kelompok, yaitu metode pemodelan protein komparatif dan metode pemodelan de novo. Pemodelan protein komparatif (comparative protein modelling) meramalkan struktur suatu protein berdasarkan struktur protein lain yang sudah diketahui. Salah satu penerapan metode ini adalah pemodelan homologi (homology modelling), yaitu prediksi struktur tersier protein berdasarkan kesamaan struktur primer protein. Pemodelan homologi didasarkan pada teori bahwa dua protein yang homolog memiliki struktur yang sangat mirip satu sama lain. Pada metode ini, struktur suatu protein (disebut protein target) ditentukan berdasarkan struktur protein lain (protein templat) yang sudah diketahui dan memiliki kemiripan sekuens dengan protein target tersebut. Selain itu, penerapan lain pemodelan komparatif adalah protein threading yang didasarkan pada kemiripan struktur tanpa kemiripan sekuens primer. Latar belakang protein threading adalah bahwa struktur protein lebih dikonservasi daripada sekuens protein selama evolusi; daerah-daerah yang penting bagi fungsi protein dipertahankan strukturnya. Pada pendekatan ini, struktur yang paling kompatibel untuk suatu sekuens asam amino dipilih dari semua jenis struktur tiga dimensi protein yang ada. Metodemetode yang tergolong dalam protein threading berusaha menentukan tingkat kompatibilitas tersebut. Dalam pendekatan de novo atau ab initio, struktur protein ditentukan dari sekuens primernya tanpa membandingkan dengan struktur protein lain. Terdapat banyak kemungkinan dalam pendekatan ini, misalnya dengan menirukan proses pelipatan (folding) protein dari sekuens primernya menjadi struktur tersiernya (misalnya dengan simulasi dinamika molekular ), atau dengan optimisasi global fungsi energi protein. Prosedur-prosedur ini cenderung membutuhkan proses komputasi yang intens, sehingga saat ini hanya digunakan dalam menentukan struktur protein-protein kecil. Beberapa usaha telah dilakukan untuk mengatasi kekurangan sumber daya komputasi tersebut, misalnya dengan superkomputer (misalnya superkomputer Blue Gene dari IBM ) atau komputasi terdistribusi (distributed computing, misalnya proyek Folding@home).

d. Analisis ekspresi gen Ekspresi gen merupakan rangkaian proses penerjemahan informasi genetik (dalam bentuk urutan basa pada DNA atau RNA) menjadi protein, dan lebih jauh lagi fenotipe. Informasi yang dibawa bahan genetik tidak bermakna apa pun bagi suatu organisme apabila tidak diekspresikan menjadi fenotipe. Ekspresi gen dapat ditentukan dengan mengukur kadar mRNA dengan berbagai macam teknik (misalnya dengan microarray ataupun Serial Analysis of Gene Expression ["Analisis Serial Ekspresi Gen", SAGE]). Teknik-teknik tersebut umumnya diterapkan pada analisis ekspresi gen skala besar yang mengukur ekspresi banyak gen (bahkan genom ) dan menghasilkan data skala besar. Metode-metode penggalian data (data mining) diterapkan pada data tersebut untuk memperoleh pola-pola informatif. Sebagai contoh, metode-metode komparasi digunakan untuk membandingkan ekspresi di antara gen-gen, sementara metode-metode klastering (clustering) digunakan untuk mempartisi data tersebut berdasarkan kesamaan ekspresi gen.

e. Analisis Filogenetika Filogenetik adalah studi yang membahas tentang hubungan kekerabatan antar berbagai macam organisme melalui analisis molekuler dan morfologi. Dengan pesatnya perkembangan teknik-teknik di dalam biologi molekuler, seperti PCR (polymerase chain reaction) dan sikuensing DNA, penggunaan sekuen DNA dalam penelitian filogenetika telah meningkat pesat dan telah dilakukan pada semua tingkatan taksonomi, misalnya famili, marga, dan species. Pemikiran dasar penggunaan sekuen DNA dalam studi filogenetika adalah bahwa terjadi perubahan basa nukleotida menurut waktu, sehingga akan dapat diperkirakan kecepatan evolusi yang terjadi dan akan dapat direkonstruksi hubungan evolusi antara satu kelompok organisme dengan yang lainnya. Ada sejumlah asumsi yang harus diperhatikan sebelum menggunakan data sekuen DNA atau protein ke analisis, diantaranya yaitu (1) sekuen berasal dari sumber yang spesifik, apakah dari inti, kloroplas atau mitokondria; (2) sekuen bersifat homolog (diturunkan dari satu nenek moyang); (3) sekuen memiliki sejarah evolusi yang sama (misalnya bukan dari campuran DNA inti dan mitokondria); dan (4) setiap sekuen berkembang secara bebas. Analisis filogenetika molekuler merupakan proses bertahap untuk mengolah data sikuen DNA atau protein sehingga diperoleh suatu hasil yang menggambarkan estimasi mengenai hubungan evolusi suatu kelompok organisme. Paling sedikit, ada tiga tahap penting dalam analisis filogenetika molekuler, yaitu sequence alignment, rekonstruksi pohon filogenetika, dan evaluasi pohon filogenetika dengan uji statistik.

C. Kesimpulan

Bioinformatika adalah bidang ilmu yang mempelajari teknik komputasi dalam melakukan pengumpulan dan analisa data biologis kompleks. Biologi, ilmu komputer, matematika, dan statistika memiliki peranan penting di dalam bidang bioinformatika. Kehadiran bioinformatika tidak terlepas dari data biologi yang masif dan sulit dikelola secara manual sehingga menjadi tren penelitian di bidang biologi saat ini. Meskipun biologi bukan ilmu pasti, terdapat dogma yang mempermudah ahli bioinformatika dalam mengembangkan software atau pemodelan yang tepat sesuai dengan kebutuhan ahli biologi.

Teknik Informatika

Kamis, 09 Juli 2020

Tugas ke 4 Pengantar Komputasi Modern

C. Kesimpulan

Tidak ada komentar:

Posting Komentar