Metode hierarchical clustering

Metode hierarchical clustering menghasilkan suatu dendogram yang merepresentasikan pengelompokan bersarang dari dokumen-dokumen. Hasil clustering pada metode hierarchical dapat dipandang sebagai suatu pohon terbalik (upside-down). Akar pohon adalah clustering paling tinggi, daun-daun pohon dalah cluster paling rendah yang merupakan dokumen individu, dan cabang-cabang pohon adalah level menengah pada hasil clustering. Dalam hal teknik pembentukan dendogram, metode hierarchical terbagi menjadi dua kategori, yaitu agglomerative dan divisive

Clustering dokumen

Clustering dokumen banyak diterapkan di berbagai area, seperti mesin pencari, web mining, information retrieval dan text mining. Implementasi clustering mampu mengungkap keterkaitan antar dokumen yang secara normal sulit dilakukan. Clustering dapat digunakan untuk mengelompokkan dokumen secar otomatis ke dalam grup-grup berdasarkan kemiripannya. Bagi pengguna, clustering sangat membantu aktivitas pencarian dokumen-dokumen yang relevan.

Sampai saat ini sudah banyak algoritma-algoritma clustering yang dikembangkan oleh para peneliti, namun masih sedikit diantaranya yang emmenuhi kriteria clustering dokumen. Sedikitnya ada lima kriteria utama yang harus dipenuhi oleh algoritma clustering, yaitu :

1. Dimensionalitas tinggi

Banyaknya term-term relevan di himpunan dokumen umumnya mencapai ribuan hingga puluhan ribu. Tiap-tiap term ini merupakan suatu dimensi di dalam vektor dokumen. kebanyakan algoritma clusttering dapat bekerja baik pada data dengan dimensi rendah dan gagal menghasilkan cluster di ruang yang memiliki dimensi tinggi. Algoritma yang baik seharusnya dapat bekerja di ruang dengan dimensi rendah dan tidak mengalami penurunan drastis ketika digunakan pada ruang berdimensi tinggi.

2. Skalabilitas

Dalam pengambilan informasi, himpunan data bisa berisi ratusan hingga ribuan dokumen. beberapa algoritma clustering tidak mampu menangani himpunan data yang berisi lebih dari sepuluh ribu objek data. permasalahan ini biasanya diselesaikan dengan melakukan clustering pada subset himpunan data, tetapi hal ini dapat mengakibatkan hasil clustering tidak seimbang.. Oleh karena itu algoritma clustering seharusnya dapat menangani himpunan data baik dalam jumlah kecil maupun besar.

3. Akurasi

Solusi clustering yang baik seharusnya memiliki kemiripan intra-cluster tinggi dan kemiripan intra-cluster rendah. Artinya, dokumen-dokumen didalam cluster yang sama harus sangat mirip, dan sangat berbeda dengan dokumen-dokumen di cluster lainnya.

4. Kemudahan browsing

Hasil clustering harus mampu menyediakan struktur yang masuk akal dan dengan deskripsi cluster yang memiliki arti, sehingga pengguna dapat melakukan aktivitas browsing dengan mudah.

5. Prior dokumen knowledge

Banyak algoritma clustering yang emmerlukan intervensi pengguna untuk emnetapkan beberapa parameter masukan. Pada kenyataannya, untuk menentukan nilai-nilai parameter ini sering diperlukan prior domain knowledge. Apabila suatu algoritma clustering sensitif terhadap kondisi ini, tingkat keakuratannya dapat menurun secara drastis. Dampak lain yang bisa timbul adalah kualitas clustering yang akan sulit dikendalikan.

Algoritma Generalized Sequential Pattern untuk menggali data sekuensial sirkulasi buku pada perpustakaan UK Petra

Dengan mengetahui pattern sekuensial peminjaman buku pada perpustakaan, banyak putusan/kebijakan strategis yang dapat diambil oleh pimpinan perpustakaan, misalnya: memberi informasi pada customernya tentang buku-buku yang berelasi, menjaga ketersedian stok buku-buku yang berelasi agar berimbang, pengaturan peletakan buku-buku yang berelasi pada rak-rak buku, dan banyak putusan strategis lain yang bermanfaat. Oleh sebab itu peneliti mencoba memanfaatkan salah satu metode data mining, yaitu Generalized Sequential Pattern (GSP) guna menggali informasi dari data transaksi peminjaman buku di perpustakaan UK Petra. Hasil dari penggalian ini adalah informasi tentang buku-buku yang sering dipinjam secara bersamaan (Association Rules) dan buku-buku yang sering dipinjam secara berurutan oleh peminjam yang sama (Sequential Pattern Rules). Dengan algoritma GSP kedua macam informasi tersebut akan didapat secara bersamaan dalam sekali proses. Dari pengujian disimpulkan bahwa penelitian ini berhasil menggali informasi yang diinginkan dalam waktu singkat. Dari hasil survei pada para pengambil keputusan di perpustakaan UK Petra tentang kelayakan hasil penelitian ini diaplikasikan, didapat nilai rata-rata sebesar 88.34%. Baca lebih lanjut

Penerapan algoritma ID3 untuk klasifikasi latar belakang mahasiswa berdasarkan prestasi akademik

Sejak tahun 2002, Universitas Trunojoyo sebagai perguruan tinggi  negeri yang baru  telah resmi bergabung dengan perguruan tinggi negeri yang lain di Indonesia dalam hal penerimaan mahasiswa baru secara nasional. Tak terkecuali prodi Teknik Informatika di Fakultas Teknik. Jumlah peminat yang cukup besar pada prodi ini, pada awalnya menjadi kabar yang menggembirakan bagi pihak prodi, fakultas dan universitas. Namun pada akhirnya kualitas mahasiswa baru tentunya menjadi hal yang harus diperhatikan, bukan lagi berpikir bagaimana mencari mahasiswa sebanyak mungkin.

Dari evaluasi yang dilakukan pertahun, cukup banyak prosentase mahasiswa di prodi ini yang mengalami kegagalan dalam hal studi tepat waktu. Jumlah ini naik turun pertahun akademiknya. Oleh karena itu perlu dibuat penelitian tentang latar belakang mahasiswa berdasarkan potensi akademiknya. Hal ini penting untuk dibuat pertimbangan dalam rangka meningkatkan kualitas penerimaan mahasiswa baru sehingga pada akhirnya dapat  meminimalkan resiko  penumpukan mahasiswa di semester akhir, disebabkan raw material yang tidak memenuhi kualifikasi.

Data mining

dataminingSeiring dengan berkembangnya teknologi, semakin berkembang pula kemampuan kita dakam mengumpulkan dan mengolah data. Penggunaan sistem komputerisasi dalam berbagai bidang baik itu dalam transaksi-transaksi bisnis, maupun untuk kalngan pemerintah dan sosial, telah menghasilkan data yang berukuran sangat besar. Data-data yang terkumpul ini merupakan suatu tambang emas yang dapat digunakan sebagi informasi dalam dunia bisnis.

Aplikasi basis data telah banyak diterapkan dalam berbagai bidang antara lain bidang manajemen; manajemen data untuk industri, ilmu pengetahuan , administrasi pemerintah dan bidang-bidang lainnya. Akibatnya data yang dihasilkan oleh bidang-bidang tersebut sangatlah besar dan berkembang dengan cepat. Hal ini menyebabkan timbulnya kebutuhan terhadap teknik-teknik yang dapat melakukan pengolahan data sehingga dari data-data yang ada dapat diperoleh informasi yang penting yang dapat digunakan untuk perkembangan masing-masing bidang tersebut. Istilah data mining sudah berkembang jauh dalam mengadaptasi setiap bentuk analisa data. Pada dasarnya data mining berhubungan dengn analisa data dan penggunaan teknik-teknik perangkat lunak untuk mencari pola dan keteraturan dalam himpunan data yang sifatnya tersembunyi.

Data mining diartikan sebagai suatu proses ekstraksi informasi berguna dan potensial dari sekumpulan data yang terdapat secara implisit dalam suatu basis data. banyak istilah lain dari data mining yang dikenal luas seperti knowledge mining from databases, knowledge extraction, data archeology, data dredging, data analysis dsb.

Dengan diperolehnya informasi-informasi yang berguna dari data-data yang ada, hubungan antara item dalm transaksi, maupun informasi-informasi yang potensial, selanjutnya dapat diekstrak dan dianalisa dan diteliti lebih lanjutdari berbagai sudut pandang. Informasi yang ditemukan ini selanjutnya dapat diaplikasikan untuk manajemen, melakukan query processing, pengambilan keputusan dan lain sebagainya. Dengan semakin berkembangnya kebutuhan akan informasi-informasi, semakin banyak pula bidang-bidang yang menerapkan konsep data mining.