Pengindeksan dan Seleksi Fitur

Sistem temu kembali yang memiliki kinerja baik sangat diperlukan terutama untuk menghadapi perkembangan yang sangat pesat dari dokumen khususnya dokumen berbasis teks seperti laporan penelitian, artikel, skripsi, tesis, dan sebagainya. Sistem temu-kembali informasi adalah suatu sistem yang mengolah data berbasis dokumen atau teks dalam jumlah besar dan memberikan dokumen-dokumen sesuai dengan query yang diberikan pemakai.
Hal-hal yang dilakukan oleh suatu sistem temu-kembali informasi diantaranya adalah sebagai berikut :
1. Mengolah record-record berupa teks atau dokumen, yaitu mengidentifikasikan sejumlah istilah yang dianggap mewakili isi dokumen.
2. Mengidentifikasikan permintaan informasi (information request / query)
3. Menentukan dan mengambil informasi atau dokumen yang sesuai dengan permintaan pemakai.
Tahapan pertama tersebut dikenal dengan pengindeksan. Pengindeksan merupakan cara untuk mendapatkan istilah-istilah yang dianggap mewakili isi dari dokumen.

Pengindeksan dapat dilakukan secara manual atau otomatis. Jika dengan cara manual, dibutuhkan campur tangan seorang manusia yang dikenal dengan indexer yang bertugas untuk memlilih istilah-istilah yang terdapat pada dokumen untuk dijadikan index term yang merepresentasikan dokumen tersebut. Sedangkan pada pengindeksan yang dilakukan secara otomatis, pemilihan term index dilakukan secara otomatis menggunakan program komputer .
Ketepatan pemilihan istilah merupakan isu yang menentukan kinerja dari sistem yang dihasilkan. Pada dasarnya setiap kata yang muncul pada dokumen dapat dijadikan index term. Namun jika semua kata dijadikan index term, disamping ukuran indeks menjadi besar, belum tentu kata-kata tersebut merepresentasikan isi dokumen .
Secara umum, istilah-istilah yang sering muncul pada banyak dokumen tidak layak dijadikan indeks, seperti kata sambung dan, atau, juga, dsb. Kata-kata tersebut tidak layak jika dijadikan sebagai index term karena :
– Mereka muncul sangat sering pada dokumen, bahkan semua dokumen memiliki kata-kata tersebut.
– Kata-kata tersebut tidak menggambarkan isi dari dokumen yang bersangkutan.
Satu lagi jenis kata yang juga kurang baik dijadikan indeks, adalah kata-kata yang jarang muncul, muncul hanya sekali atau dua kali pada dokumen tertentu . Jika kata-kata seperti ini dijadikan indeks maka sangat sedikit dokumen yang akan terambil. Apalagi jika kata-kata tersebut dijadikan dalam satu query secara bersamaan maka kemungkinan tidak ada dokumen yang terambil.
Dengan melihat kondisi tersebut diatas maka disarankan menggunakan dua threshold (nilai ambang), yaitu untuk menentukan batas atas dimana nilai frekuensi tertinggi dari istilah yang diperbolehkan dan batas bawah untuk menentukan nilai frekuensi terendah. Proses ini disebut dengan seleksi fitur .
Diharapkan dengan seleksi fitur dapat mengurangi istilah-istilah yang tidak berpotensi menjadi indeks, sekaligus mengurangi ukuran indeks sehingga mempercepat proses pencarian. Namun diharapkan dengan adanya pengurangan istilah tersebut tidak mengurangi kinerja sistem, atau paling tidak sama dengan kinerja sistem tanpa seleksi fitur. Sehingga dalam penelitian ini dilakukan uji coba untuk melihat sejauh mana efektifitas pengurangan index-term pada ketiga strategi diatas terhadap kinerja sistem temu-kembali informasi.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s