Clustering untuk peningkatan efektifitas penyajian informasi dari mesin pencari teks

it2Dengan semakin pesatnya pertumbuhan volume informasi teks menyebabkan kesulitan dalam proses temu kembali informasi, utamanya pada model perolehan informasi linear berbasis word matching yang umumnya tidak efektif. Hasil pencarian umumnya berupa daftar yang sangat panjang sehingga pengguna tidak punya cukup waktu  untuk melakukan browsing untuk mencari jawaban relevan sesungguhnya yang mungkin berada pada urutan bawah dalam daftar. Faktor sinonim dari kata menjadi penyebab munculnya dokumen tidak relevan dalam perolehan, sebaliknya faktor polisemy menyebabkan banyak dokumen yang relevan tidak terpanggil. Penerapan clustering dokumen pada hasil pencarian sebelum disajikan dipercaya dapat meningkatkan efektivitas penyajian berdasar satu hypothesis bahwa dokumen yang relevan terhadap suatu query cenderung berada pada cluster yang sama.

Penelitian ini melakukan kajian penerapan clustering dokumen untuk meningkatkan perolehan informasi dengan cara melakukan clustering pada hasil pencarian (search result clustering). Teknik penyajian kepada pengguna kemudian digunakan penyajian per cluster dan pengguna diberi kesempatan memilih kelompok mana yang akan ditelusur. Metode clustering yang dipilih adalah metode partitional, yaitu algoritma Bisecting K-Mean dan Buckshot, dan metode hierarchical algoritmative dengan algoritma perhitungan similaritas kluster UPGMA dan Complete Lin. Kriteria kinerja perolehan informasi diukur dengan parameter F-measure yang diturunkan dari Precision dan Recall dari retrieval. Koleksi dokumen yang digunakan adalah 1000 dokumen berita dan 350 dokumen akademik berupa abstrak akademik.

Hasil penelitian menunjukkan bahwa penyajian informasi dengan cara penyajian per-cluster telah meningkatkan relevansi dokumen dalam daftar teratas yang secara statistik signifikan dibandingkan dengan penyajian dengan teknik pagerank (daftar teranking). Peningkatan F-measure sebagai kinerja ukuran efektifitas adalah sebesar 14.34% utnuk koleksi berita dan 28.18% untuk koleksi abstrak akademik

Sumber : Proceeding KNSI 2008, Amir Hamzah, Adhi Susanto, Soesianto, Jazi Eko Istiyanto.

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s