Efektifitas Seleksi Fitur dalam sistem temu kembali informasi

Indeks merupakan representasi dokumen yang dapat menentukan isi dari dokumen. Baik tidaknya sebuah indeks sangat bergantung kepada sejauh mana istilah-istilah yang dipilih menjadi indeks dapat merepresentasikan isi dari dokumen tersebut. Jika dua dokumen berbeda, maka seharusnya tidak terambil bersamaan jika diberikan suatu query, sebab istilah-istilah yang dipilih sebagai indeks dapat membedakan kedua dokumen tersebut .
Pemilihan istilah untuk dijadikan indeks merupakan isu yang penting dalam sistem temu-kembali informasi. Selanjunya proses pemilihan istilah ini disebut dengan seleksi fitur (feature selection). Fitur seleksi dapat menyebabkan berkurangnya ukuran indeks sehingga proses retrieval suatu dokumen menjadi lebih cepat sebab jumlah indeks yang dicari menjadi lebih sedikit.
Tugas utama seleksi fitur adalah menentukan istilah-istilah yang layak dijadikan term index atau dengan kata lain membuang (menghilangkan) istilah-istilah yang tidak mungkin dijadikan indeks. Terdapat beberapa cara yang dapat dilakukan untuk mengeliminasi istilah-istilah yang kurang merepresentasikan dokumen tersebut, diantaranya adalah menghilangkan istilah-istilah yang sering muncul pada berbagai dokumen . Istilah-istilah yang sering muncul pada berbagai dokumen biasanya adalah istilah-istilah yang tidak mempunyai arti terhadap dokumen tersebut, jika istilah ini dihilangkan, tidak mengurangi makna dokumennya. Kata sambung seperti dan, atau dan juga merupakan contoh dari kaat sambung.
Disamping istilah yang sering muncul, istilah-istilah yang jarang muncul, atau hanya muncul satu atau dua kali pada satu dokumen juga merupakan kandidat istilah yang dapat dihilangkan. Penelitian ini mencoba untuk meneliti sejauh mana seleksi fitur tersebut berpengaruh terhadap kinerja sistem temu-kembali informasi.

Baca lebih lanjut

Iklan

Optimasi query

Teknik optimasi dapat dilakukan dengan beberapa cara. Terdapat dua pendekatan optimasi yang umum dipergunakan sebagaimana yang telah dikemukakan oleh Chanowich (2001), yakni:
a. Heuristik atau rule-based
Teknik ini mengaplikasikan aturan heuristik untuk mempercepat proses query. Optimasi jenis ini mentransformasikan query dengan sejumlah aturan yang akan meningkatkan kinerja eksekusi, yakni:

  • melakukan operasi selection di awal untuk mereduksi jumlah baris, melakukan operasi projection di awal untuk mengurangi jumlah atribut, mengkonversikan query dengan banyak join menjadi query dengan banyak subquery, dan
  • melakukan operasi selection dan join yang paling kecil keluarannya sebelum operasi yang lain.

b. Cost-based

Teknik ini mengestimasikan cost yang dipergunakan dari beberapa alternatif untuk kemudian dipilih salah satu yang memiliki cost terendah. Teknik ini mengoptimalkan urutan join terbaik yang dimungkinkan pada relasi-relasi r1 r2 . . . rn. Teknik ini dipergunakan untuk mendapatkan pohon left-deep join yang akan menghasilkan sebuah relasi sebenarnya pada node sebelah kanan yang bukan hasil dari sebuah intermediate join .

Pencocokan string berdasarkan kemiripan ucapan (phonetic string matching) dalam bahasa Inggris

Perkembangan teknologi informasi dan komunikasi yang semakin pesat, mengakibatkan pencarian informasi semakin mudah. Pencarian informasi yang tepat dan sesuai kebutuhan menjadi sangat penting. Oleh karena itu, teknik untuk memperoleh dokumen dengan isi yang sesuai dengan kebutuhan informasi sangat diperlukan. Untuk mengetahui isi dokumen sesuai dengan kebutuhan informasi, diperlukan metode pencarian string (string searching) isi dokumen yang bagus. Proses pencocokan string (string matching) yang merupakan bagian dalam proses pencarian string memegang peranan penting untuk mendapatkan dokumen yang sesuai dengan kebutuhan informasi. Pencocokan string (string matching) secara garis besar dapat dibedakan menjadi dua yaitu pencocokan string secara eksak/sama persis (exact string matching) dan pencocokan string berdasarkan kemiripan (inexact string matching/fuzzy string matching). Pencocokan string berdasarkan kemiripan masih dapat dibedakan menjadi dua yaitu berdasarkan kemiripan penulisan (approximate string matching) dan berdasarkan kemiripan ucapan (phonetic string matching). Contoh phonetic string matching adalah kata step akan menunjukkan kecocokan dengan kata step, sttep, stepp, sstep, stepe, steb. Sedangkan bila kita menggunakan exact string matching kata step hanya akan menunjukkan kecocokan dengan kata step saja. Pada makalah ini akan dibahas dan dianalisis kemampuan tiga algoritma phonetic string matching yaitu algoritma soundex, metaphone, dan caverphone dari segi fonetik bahasa Inggris. Baca lebih lanjut

Algoritma Frequent Itemset Hierarchical Clustering

n7Algoritma ini diilhami oleh Fung (1999) berdasarkan ide frequent itemset yang dikemukakan oleh Agrawal (1994). Ide dasarnya frequent itemset merepresentasikan sesuatu yang umum pada dokumen-dokumen di dalam cluster. FIHC menugaskan (assigning) dokumen-dokumen ke cluster terbaik dari semua cluster yang tersedia. FIHC menggunakan pendekatan “cluster-centered”, dimana kohesi cluster diukur secara langsung dengan menggunakan frequent itemset. FIHC juga menggunakan frequent itemset untuk membangun dan mengorganisir cluster ke dalam hirarki topik.Ada tiga tahap utama untuk mengimplementasikan algoritma FIHC dalam clustering dokumen dan menghasilkan hirarki pohon , yaitu pemilihan frequent itemset, pembentukan cluster dan pembentukan pohon cluster

Indoclust : Clustering Engine Berita berbahasa Indonesia

natureDampak yang sangat terasa dengan semakin meningkatnya volume berita elektronik berbahasa Indonesia adalah sulitnya menemukan berita-berita yang relevan. Untuk mengatasi permasalahan ini, clustering merupakan salah satu pemecahan yang bisa diimplementasikan. Tulisan ini menguraikan rancang bangun perangkat lunak untuk clustering dokumen-dokumen berita berbahasa Indonesia yang diberi nama Indoclust. Implementasi IndoClust dilakukan menggunakan metode Frequent Itemset-based Hierarchical Clustering (FIHC). hasil implementasi memperlihatkan bahwa IndoClust mampu mengelompokkan secara otomatis berita yang memiliki kesamaan ke dalam grup-grup dan menemukan keterkaitan antar berita. Dengan demikian, pengguna bisa lebih mudah melakukan navigasi dan aktivitas pencarian berita menjadi lebih efektif serta efisien.

Baca lebih lanjut

Algoritma clustering

m mClustering dokumen banyak diterapkan di berbagai area, seperti mesin pencari,  web mining,  information retrieval dan text mining. Implementasi clustering mampu mengungkap keterkaitan antar dokumen yang secara normal sulit dilakukan. Clustering dapat digunakan untuk mengelompokkan dokumen secara otomatis kedalam grup-grup berdasarkan kemiripannya. Bagi pengguna, clustering sangat membantu aktivitas pencarian dokumen-dokumen yang relevan.

Sampai saat ini sudah banyak algoritma-algoritma clustering yang dikembangkan oleh para peneliti, namun masih sedikit diantaranya yang memenuhi kriteria clustering dokumen. Sedikitnya ada lima kriteria utama yang seharusnya dipenuhi oleh suatu algoritma clustering, yaitu : Dimensionalitas tinggi, Skalabilitas, Akurasi, Kemudahan browsing, Prior domain knowledge. Baca lebih lanjut

Clustering untuk peningkatan efektifitas penyajian informasi dari mesin pencari teks

it2Dengan semakin pesatnya pertumbuhan volume informasi teks menyebabkan kesulitan dalam proses temu kembali informasi, utamanya pada model perolehan informasi linear berbasis word matching yang umumnya tidak efektif. Hasil pencarian umumnya berupa daftar yang sangat panjang sehingga pengguna tidak punya cukup waktu  untuk melakukan browsing untuk mencari jawaban relevan sesungguhnya yang mungkin berada pada urutan bawah dalam daftar. Faktor sinonim dari kata menjadi penyebab munculnya dokumen tidak relevan dalam perolehan, sebaliknya faktor polisemy menyebabkan banyak dokumen yang relevan tidak terpanggil. Penerapan clustering dokumen pada hasil pencarian sebelum disajikan dipercaya dapat meningkatkan efektivitas penyajian berdasar satu hypothesis bahwa dokumen yang relevan terhadap suatu query cenderung berada pada cluster yang sama.

Penelitian ini melakukan kajian penerapan clustering dokumen untuk meningkatkan perolehan informasi dengan cara melakukan clustering pada hasil pencarian (search result clustering). Teknik penyajian kepada pengguna kemudian digunakan penyajian per cluster dan pengguna diberi kesempatan memilih kelompok mana yang akan ditelusur. Metode clustering yang dipilih adalah metode partitional, yaitu algoritma Bisecting K-Mean dan Buckshot, dan metode hierarchical algoritmative dengan algoritma perhitungan similaritas kluster UPGMA dan Complete Lin. Kriteria kinerja perolehan informasi diukur dengan parameter F-measure yang diturunkan dari Precision dan Recall dari retrieval. Koleksi dokumen yang digunakan adalah 1000 dokumen berita dan 350 dokumen akademik berupa abstrak akademik.

Hasil penelitian menunjukkan bahwa penyajian informasi dengan cara penyajian per-cluster telah meningkatkan relevansi dokumen dalam daftar teratas yang secara statistik signifikan dibandingkan dengan penyajian dengan teknik pagerank (daftar teranking). Peningkatan F-measure sebagai kinerja ukuran efektifitas adalah sebesar 14.34% utnuk koleksi berita dan 28.18% untuk koleksi abstrak akademik Baca lebih lanjut

Aplikasi keyword generator untuk mendukung pencarian dokumen dengan metode TF IDF

Dalam suatu media penyimpanan di PC  terdapat banyak dokumen yang ditempatkan tidak hanya pada satu lokasi saja sehingga terkadang pada saat proses pencarian  mengalami kesulitan. Diperlukan keefektifan dan ketepatan untuk mencari dokumen yang diperlukan. Perancangan aplikasi sistem yang dibangun menggunakan metode TF IDF (Term Frequency – TFIDFInverse Document Frequency)  sebagai acuan pada pencarian dokumen untuk mengetahui jumlah bobot suatu kata dengan mencari tingkat kemiripannya sesuai dengan kata atau kalimat yang diinputkan user. Kata per kata dalam dokumen tersebut kemudian di-tokenisasi untuk membaca isi dokumen yang dicari.

Stopword

stopwordProses stopword adalah menghapus kata sambung yang terdapat pada kalimat dengan alasan hampir 80% kata dalam suatu dokumen tidak bisa digunakan dalam IR dan mengurangi jumlah indeks 40%. Contoh kata-kata yang termasuk dalam stopword adalah :

  1. Kata penghubung (sesudah,selesai,sebelum)
  2. Kata tugas (bagi, dari, dengan, pada)
  3. Kata keterangan (sangat, hanya, lebih)
  4. Kata bilangan ( beberapa, banyak, sedikit)
  5. Kata ganti ( kami, mereka, kita, itu) dan lain-lain

Kata-kata yang termasuk dalam stopword ini kemudian diletakkan dalam database dan dikumpulkan menjadi satu sehingga sistem yang akan dibangun mengenali terlebih dahulu kata-kata yang termasuk dalam stopword dan tidak menghitungnya pada pembobotan kata

Tokennization / Lexical Analysis

Pada proses ini kata-kata yang terdapat dalam dokumen dipilih satu-satu berdasarkan angka, tanda penghubung, tanda baca, dan lainnya dengn tujuan untuk memudahkn proses penghitungan banyak kta yang dicari di dalam dokumen. Contoh dalam Tokennization : Saya // sedang // menyelesaikan // program // akhir // di // Universitas // Trunojoyo

Sistem Temu Kembali Informasi

softwareSistem Temu Kembali Informasi merupakan salah satu tipe sistem informasi. Selain Sistem Temu Kembali Informasi, kita kenal beberapa sistem informasi yang lain seperti Sistem Manajemen basis Data, Sistem Informasi Manajemen, Sistem Pendukung Keputusan dan Sistem Kecerdasan Buatan.

Menurut Lancaster (1979) Sistem Temu Kembali Informasi terdiri dari 6 (enam) subsistem, yaitu :

1. Subsistem dokumen

2. Subsistem peng-indeks-an

3. Subsistem kosakata

4. Subsistem pencarian

5. Subsistem antarmuka pengguna sistem

6. Subsistem penyesuaian

Menurut Tague-Sutcliffe (1996) melihat Sistem Temu Kembali Informasi sebagai suatu proses yang terdiri dari 6 (enam) komponen utama, yaitu :

1. Kumpulan dokumen

2. Peng-indeks-an

3. Kebutuhan informasi pemakai

4. Strategi pencarian

5. Kumpulan dokumen yang diperlukan

6. Penilaian relevansi

Dalam proses pencarian informasi terjadi interaksi antara pengguna dengan sistem (mesin). Berkaitan dengan representasi sistem temu kembali informasi, Salton menjelaskan bahwa terdapat 3 model yang dapat digunakan, yakni Boolean model, probabilistic moel dan vector space model. Model terakhir inilah yang paling sederhana dan paling produktif. Vektor model ini merepresentasikan term yang digunakan baik oleh dokumen maupun query.