Sejarah Bio-Informatic
Istilah bioinformatics mulai dikemukakan pada
pertengahan era 1980-an untuk mengacu pada penerapan komputer dalam biologi.
Namun, penerapan bidang-bidang dalam bioinformatika (seperti pembuatan basis
data dan pengembangan algoritma untuk analisis sekuens biologis) sudah
dilakukan sejak tahun 1960-an.
Kemajuan teknik biologi molekular dalam
mengungkap sekuens biologis dari protein (sejak awal 1950-an) dan asam nukleat
(sejak 1960-an) mengawali perkembangan basis data dan teknik analisis sekuens
biologis. Basis data sekuens protein mulai dikembangkan pada tahun 1960-an di
Amerika Serikat, sementara basis data sekuens DNA dikembangkan pada akhir
1970-an di Amerika Serikat dan Jerman (pada European Molecular Biology
Laboratory, Laboratorium Biologi Molekular Eropa). Penemuan tekniksekuensing
DNA yang lebih cepat pada pertengahan 1970-an menjadi landasan terjadinya
ledakan jumlah sekuens DNA yang berhasil diungkapkan pada 1980-an dan 1990-an,
menjadi salah satu pembuka jalan bagi proyek-proyek pengungkapan genom,
meningkatkan kebutuhan akan pengelolaan dan analisis sekuens, dan pada akhirnya
menyebabkan lahirnya bioinformatika.
Perkembangan Internet juga mendukung
berkembangnya bioinformatika. Basis data bioinformatika yang terhubung melalui
Internet memudahkan ilmuwan mengumpulkan hasil sekuensing ke dalam basis data
tersebut maupun memperoleh sekuens biologis sebagai bahan analisis. Selain itu,
penyebaran program-program aplikasi bioinformatika melalui Internet memudahkan
ilmuwan mengakses program-program tersebut dan kemudian memudahkan
pengembangannya.
Penerapan Utama Bioinformatika
Basis data sekuens biologis
Sesuai dengan jenis informasi biologis yang
disimpannya, basis data sekuens biologis dapat berupa basis data primer untuk
menyimpan sekuens primer asam nukleat maupunprotein, basis data sekunder untuk
menyimpan motif sekuens protein, dan basis data struktur untuk menyimpan data
struktur protein maupun asam nukleat.
Basis data utama untuk sekuens asam nukleat
saat ini adalah GenBank (Amerika Serikat), EMBL (Eropa), dan DDBJ(Inggris) (DNA
Data Bank of Japan, Jepang). Ketiga basis data tersebut bekerja sama dan
bertukar data secara harian untuk menjaga keluasan cakupan masing-masing basis
data. Sumber utama data sekuens asam nukleat adalah submisi langsung dari
periset individual, proyek sekuensing genom, dan pendaftaran paten. Selain
berisi sekuens asam nukleat, entri dalam basis data sekuens asam nukleat
umumnya mengandung informasi tentang jenis asam nukleat (DNA atau RNA), nama
organisme sumber asam nukleat tersebut, dan pustaka yang berkaitan dengan
sekuens asam nukleat tersebut.
Sementara itu, contoh beberapa basis data
penting yang menyimpan sekuens primer protein adalah PIR (Protein Information
Resource, Amerika Serikat), Swiss-Prot(Eropa), dan TrEMBL (Eropa). Ketiga basis
data tersebut telah digabungkan dalam UniProt (yang didanai terutama oleh
Amerika Serikat). Entri dalam UniProt mengandung informasi tentang sekuens
protein, nama organisme sumber protein, pustaka yang berkaitan, dan komentar
yang umumnya berisi penjelasan mengenai fungsi protein tersebut.
BLAST (Basic Local Alignment Search Tool)
merupakan perkakas bioinformatika yang berkaitan erat dengan penggunaan basis
data sekuens biologis. Penelusuran BLAST (BLAST search) pada basis data sekuens
memungkinkan ilmuwan untuk mencari sekuens asam nukleat maupun protein yang
mirip dengan sekuens tertentu yang dimilikinya. Hal ini berguna misalnya untuk
menemukan gen sejenis pada beberapa organisme atau untuk memeriksa keabsahan hasil
sekuensing maupun untuk memeriksa fungsi gen hasil sekuensing. Algoritma yang
mendasari kerja BLAST adalah penyejajaran sekuens.
PDB (Protein Data Bank, Bank Data Protein)
adalah basis data tunggal yang menyimpan model struktural tiga dimensi protein
dan asam nukleat hasil penentuan eksperimental (dengan kristalografi sinar-X,
spektroskopi NMR dan mikroskopi elektron). PDB menyimpan data struktur sebagai
koordinat tiga dimensi yang menggambarkan posisi atom-atom dalam protein
ataupun asam nukleat.
Analisis ekspresi gen
Bioinformatika di Indonesia
Saat ini mata ajaran bioinformatika maupun
mata ajaran dengan muatan bioinformatika sudah diajarkan di beberapa perguruan
tinggi diIndonesia. Sekolah Ilmu dan Teknologi Hayati ITB menawarkan mata
kuliah “Pengantar Bioinformatika” untuk program Sarjana dan mata kuliah
“Bioinformatika” untuk program Pascasarjana. Fakultas Teknobiologi Universitas
Atma Jaya, Jakarta menawarkan mata kuliah “Pengantar Bioinformatika” sebagai
mata kuliah wajib dan “Pemodelan Struktur Protein” sebagai mata kuliah pilihan
untuk tingkat program Sarjana. Mata kuliah “Bioinformatika” diajarkan pada
Program Pascasarjana Kimia Fakultas MIPA Universitas Indonesia (UI), Jakarta.
Mata kuliah “Proteomik dan Bioinformatika” termasuk dalam kurikulum program S3
bioteknologi Universitas Gadjah Mada (UGM),Yogyakarta. Materi bioinformatika
termasuk di dalam silabus beberapa mata kuliah untuk program sarjana maupun
pascasarjanabiokimia,biologi, dan bioteknologi pada Institut Pertanian Bogor
(IPB). Selain itu, riset-riset yang mengarah pada bioinformatika juga telah
dilaksanakan oleh mahasiswa program S1 Ilmu Komputer maupun program
pascasarjana biologi serta bioteknologi IPB.
Riset bioinformatika protein dilaksanakan
sebagai bagian dari aktivitas riset rekayasa protein pada Laboratorium Rekayasa
Protein, Pusat Penelitian Bioteknologi Lembaga Ilmu Pengetahuan Indonesia
(LIPI), Cibinong, Bogor. Lembaga Biologi Molekul Eijkman, Jakarta, secara
khusus memiliki laboratorium bioinformatika sebagai fasilitas penunjang
kegiatan risetnya. Selain itu, basis data sekuens DNA mikroorganisme asli
Indonesia sedang dikembangkan di UI.
Prediksi struktur protein
Model protein hemaglutinin darivirus influensa
Secara kimia/fisika, bentuk struktur protein
diungkap dengan kristalografi sinar-X ataupun spektroskopi NMR, namun kedua
metode tersebut sangat memakan waktu dan relatif mahal. Sementara itu, metode
sekuensing protein relatif lebih mudah mengungkapkansekuens asam amino protein.
Prediksi struktur protein berusaha meramalkan struktur tiga dimensi protein
berdasarkan sekuens asam aminonya (dengan kata lain, meramalkan struktur
tersier dan struktur sekunder berdasarkan struktur primer protein). Secara
umum, metode prediksi struktur protein yang ada saat ini dapat dikategorikan ke
dalam dua kelompok, yaitu metode pemodelan protein komparatif dan metode
pemodelan de novo.
Pemodelan protein komparatif (comparative
protein modelling) meramalkan struktur suatu protein berdasarkan struktur
protein lain yang sudah diketahui. Salah satu penerapan metode ini adalah
pemodelan homologi (homology modelling), yaitu prediksi struktur tersier
protein berdasarkan kesamaan struktur primer protein. Pemodelan homologi
didasarkan pada teori bahwa dua protein yanghomolog memiliki struktur yang
sangat mirip satu sama lain. Pada metode ini, struktur suatu protein (disebut
protein target) ditentukan berdasarkan struktur protein lain (protein templat)
yang sudah diketahui dan memiliki kemiripan sekuens dengan protein target
tersebut. Selain itu, penerapan lain pemodelan komparatif adalah protein
threading yang didasarkan pada kemiripan struktur tanpa kemiripan sekuens
primer. Latar belakang protein threading adalah bahwa struktur protein lebih
dikonservasi daripada sekuens protein selama evolusi; daerah-daerah yang
penting bagi fungsi protein dipertahankan strukturnya. Pada pendekatan ini,
struktur yang paling kompatibel untuk suatu sekuens asam amino dipilih dari
semua jenis struktur tiga dimensi protein yang ada. Metode-metode yang tergolong
dalamprotein threading berusaha menentukan tingkat kompatibilitas tersebut.
Dalam pendekatan de novo atau ab initio,
struktur protein ditentukan dari sekuens primernya tanpa membandingkan dengan
struktur protein lain. Terdapat banyak kemungkinan dalam pendekatan ini,
misalnya dengan menirukan proses pelipatan (folding) protein dari sekuens
primernya menjadi struktur tersiernya (misalnya dengan simulasi dinamika
molekular), atau dengan optimisasi global fungsi energi protein.
Prosedur-prosedur ini cenderung membutuhkan proses komputasi yang intens,
sehingga saat ini hanya digunakan dalam menentukan struktur protein-protein
kecil. Beberapa usaha telah dilakukan untuk mengatasi kekurangan sumber daya
komputasi tersebut, misalnya dengan superkomputer (misalnya superkomputer Blue
Gene [1] dari IBM) atau komputasi terdistribusi(distributed computing, misalnya
proyek Folding@home) maupun komputasi grid.
Penyejajaran sekuens
Penyejajaran sekuens (sequence alignment)
adalah proses penyusunan/pengaturan dua atau lebih sekuens sehingga persamaan
sekuens-sekuens tersebut tampak nyata. Hasil dari proses tersebut juga disebut
sebagai sequence alignment atau alignment saja. Baris sekuens dalam suatu
alignment diberi sisipan (umumnya dengan tanda “–”) sedemikian rupa sehingga
kolom-kolomnya memuat karakter yang identik atau sama di antara sekuens-sekuens
tersebut. Berikut adalah contoh alignment DNA dari dua sekuens pendek DNA yang
berbeda, “ccatcaac” dan “caatgggcaac” (tanda “|” menunjukkan kecocokan atau
match di antara kedua sekuens).
ccat---caac
| || ||||
caatgggcaac
Sequence alignment merupakan metode dasar
dalam analisis sekuens. Metode ini digunakan untuk mempelajari evolusi
sekuens-sekuens dari leluhur yang sama (common ancestor). Ketidakcocokan
(mismatch) dalam alignment diasosiasikan dengan proses mutasi, sedangkan
kesenjangan (gap, tanda “–”) diasosiasikan dengan proses insersi atau delesi.
Sequence alignment memberikan hipotesis atas proses evolusi yang terjadi dalam
sekuens-sekuens tersebut. Misalnya, kedua sekuens dalam contoh alignment di
atas bisa jadi berevolusi dari sekuens yang sama “ccatgggcaac”. Dalam kaitannya
dengan hal ini, alignment juga dapat menunjukkan posisi-posisi yang
dipertahankan (conserved) selama evolusi dalam sekuens-sekuens protein, yang
menunjukkan bahwa posisi-posisi tersebut bisa jadi penting bagi struktur atau
fungsi protein tersebut.
Selain itu, sequence alignment juga digunakan
untuk mencari sekuens yang mirip atau sama dalam basis data sekuens. BLAST
adalah salah satu metode alignment yang sering digunakan dalam penelusuran
basis data sekuens. BLAST menggunakan algoritma heuristik dalam penyusunan
alignment.
Beberapa metode alignment lain yang merupakan
pendahulu BLAST adalah metode “Needleman-Wunsch” dan “Smith-Waterman”. Metode
Needleman-Wunsch digunakan untuk menyusun alignment global di antara dua atau
lebih sekuens, yaitu alignment atas keseluruhan panjang sekuens tersebut.
Metode Smith-Waterman menghasilkanalignment lokal, yaitu alignment atas
bagian-bagian dalam sekuens. Kedua metode tersebut menerapkan pemrograman
dinamik (dynamic programming) dan hanya efektif untuk alignment dua sekuens
(pairwise alignment)
Clustal adalah program bioinformatika untuk
alignment multipel (multiple alignment), yaitu alignment beberapa sekuens
sekaligus. Dua varian utama Clustal adalah ClustalWdan ClustalX.
Metode lain yang dapat diterapkan untuk
alignment sekuens adalah metode yang berhubungan dengan Hidden Markov Model
(“Model Markov Tersembunyi”, HMM). HMM merupakan model statistika yang mulanya
digunakan dalam ilmu komputer untuk mengenali pembicaraan manusia (speech
recognition). Selain digunakan untuk alignment, HMM juga digunakan dalam
metode-metode analisis sekuens lainnya, seperti prediksi daerah pengkode
protein dalam genom dan prediksi struktur sekunder protein.
Tidak ada komentar:
Posting Komentar