Clustering dokumen

Clustering dokumen banyak diterapkan di berbagai area, seperti mesin pencari, web mining, information retrieval dan text mining. Implementasi clustering mampu mengungkap keterkaitan antar dokumen yang secara normal sulit dilakukan. Clustering dapat digunakan untuk mengelompokkan dokumen secar otomatis ke dalam grup-grup berdasarkan kemiripannya. Bagi pengguna, clustering sangat membantu aktivitas pencarian dokumen-dokumen yang relevan.

Sampai saat ini sudah banyak algoritma-algoritma clustering yang dikembangkan oleh para peneliti, namun masih sedikit diantaranya yang emmenuhi kriteria clustering dokumen. Sedikitnya ada lima kriteria utama yang harus dipenuhi oleh algoritma clustering, yaitu :

1. Dimensionalitas tinggi

Banyaknya term-term relevan di himpunan dokumen umumnya mencapai ribuan hingga puluhan ribu. Tiap-tiap term ini merupakan suatu dimensi di dalam vektor dokumen. kebanyakan algoritma clusttering dapat bekerja baik pada data dengan dimensi rendah dan gagal menghasilkan cluster di ruang yang memiliki dimensi tinggi. Algoritma yang baik seharusnya dapat bekerja di ruang dengan dimensi rendah dan tidak mengalami penurunan drastis ketika digunakan pada ruang berdimensi tinggi.

2. Skalabilitas

Dalam pengambilan informasi, himpunan data bisa berisi ratusan hingga ribuan dokumen. beberapa algoritma clustering tidak mampu menangani himpunan data yang berisi lebih dari sepuluh ribu objek data. permasalahan ini biasanya diselesaikan dengan melakukan clustering pada subset himpunan data, tetapi hal ini dapat mengakibatkan hasil clustering tidak seimbang.. Oleh karena itu algoritma clustering seharusnya dapat menangani himpunan data baik dalam jumlah kecil maupun besar.

3. Akurasi

Solusi clustering yang baik seharusnya memiliki kemiripan intra-cluster tinggi dan kemiripan intra-cluster rendah. Artinya, dokumen-dokumen didalam cluster yang sama harus sangat mirip, dan sangat berbeda dengan dokumen-dokumen di cluster lainnya.

4. Kemudahan browsing

Hasil clustering harus mampu menyediakan struktur yang masuk akal dan dengan deskripsi cluster yang memiliki arti, sehingga pengguna dapat melakukan aktivitas browsing dengan mudah.

5. Prior dokumen knowledge

Banyak algoritma clustering yang emmerlukan intervensi pengguna untuk emnetapkan beberapa parameter masukan. Pada kenyataannya, untuk menentukan nilai-nilai parameter ini sering diperlukan prior domain knowledge. Apabila suatu algoritma clustering sensitif terhadap kondisi ini, tingkat keakuratannya dapat menurun secara drastis. Dampak lain yang bisa timbul adalah kualitas clustering yang akan sulit dikendalikan.

One comment on “Clustering dokumen

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s