Stemming Nazief & Andriani 2


Proses Stemming adalah proses pencarian kata dasar dari kata yang memiliki imbuhan. Salah satu metode stemming yang dapat digunakan adalah metode yang dikembangkan oleh Nazief & Andriani.



Sebelum masuk kedalam langkah-langkah pembahasan algoritma, sistem membutuhkan daftar kata dasar, mirip seperti kamus, dan juga daftar kata stopword. Kedua data ini didapatkan dengan cara membaca teks file dari data yang bersangkutan.
* Untuk dapat menggunakan skrip ini, maka file teks kamus dan stopwords harus dimasukkan ke dalam proyek sebagai resources.


Langkah-langkah penggunaan algoritma ini adalah

1. Lakukan proses pembuangan tanda baca dan karakter spesial dari kalimat input

* Gunakan fungsi ini untuk menghilangkan tanda baca
Tanda baca yang diperhitungkan adalah:
titik ,koma, titik koma, titik dua, hubung -, tanda tanya, tanda seru, kurung biasa (), kurung kotak [], kurung kurawal {}, tanda petik satu, tanda petik ganda, garis miring

2. Lakukan pemisahan kata berdasarkan karakter spasi

* Lakukan inisialisasi variabel yang digunakan oleh metode ini

3. Lakukan perhitungan pada semua kata dalam input
Jika kata tersebut merupakan stop word, maka tidak perlu melakukan proses stemming
hal ini hanya dilakukan untuk memudahkan pembacaan saja

* Gunakan fungsi ini untuk mengetahui apakah input teks merupakan stop word atau tidak

4. lakukan proses stemming dari kata tersebut
Penjelasan lebih detail tentang fungsi ini dapat dilihat pada penjelasan skrip dibawah ini (poin 4a – 4e)

Memasuki perhitungan utama dari proses stemming
Berdasarkan teori stemming ini, maka ada 3 tahapan proses untuk mendapatkan kata dasar, yaitu
* Proses penghapusan infleksional suffiks
* Proses penghapusan derivation suffiks
* Proses penghapusan derivation prefiks

4a. Lakukan pengecekan apakah input kata sudah tersedia dalam kamus

* Lakukan proses penghapusan Infleksional Suffixes, Derivation Suffiks, dan Derivation Prefiks pada kata tersebut (poin 4b – 4d)

4b. proses penghapusan Infleksional Suffixes
merupakan proses menghapus partikel suffiks -lah,-kah,-nya,-tah,-pun,-ku,-mu
jika kata dasar ditemukan pada kamus maka perhitungan akan dihentikan

4c. proses penghapusan Derivation Suffixes
merupakan proses menghapus partikel suffiks -i,-an,-kan
jika kata dasar ditemukan pada kamus maka perhitungan akan dihentikan

4d. proses penghapusan Derivation Prefixes
merupakan proses menghapus beberapa partikel prefiks
jika kata dasar ditemukan pada kamus maka perhitungan akan dihentikan
Urutan proses pengecekan yang dilakukan adalah
* Tipe awalan ke 1 : di-, ke-, se-
* Tipe awalan ke 1 : di-, ke-, se-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 1a: diper-, keber-, keter-
* Tipe awalan ke 1a: diper-, keber-, keter-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 2 : be-, te-,
* Tipe awalan ke 2 : be-, te-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 2a: bel-, ber-, tel-, ter-
* Tipe awalan ke 2a: bel-, ber-, tel-, ter-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3 : me-, pe-
* Tipe awalan ke 3 : me-, pe-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3a : mempel-
* Tipe awalan ke 3a : mempel-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3b : memper-
* Tipe awalan ke 3b : memper-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3c : meng-, peng-
* Tipe awalan ke 3c : meng-, peng-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3c : meng-, peng-, kemudian tambahkan huruf k sebelum kata dasar
* Tipe awalan ke 3c : meng-, peng-, kemudian tambahkan huruf k sebelum kata dasar, dan lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3d : meny-, peny-
* Tipe awalan ke 3d : meny-, peny-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3d : meny-, peny-, kemudian tambahkan huruf s sebelum kata dasar
* Tipe awalan ke 3d : meny-, peny-, kemudian tambahkan huruf s sebelum kata dasar, dan lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3e : mel-, mer-, pel-, per-
* Tipe awalan ke 3e : mel-, mer-, pel-, per-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3f : men-, pen-
* Tipe awalan ke 3f : men-, pen-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3f : men-, pen-, kemudian tambahkan huruf t sebelum kata dasar
* Tipe awalan ke 3f : men-, pen-, kemudian tambahkan huruf t sebelum kata dasar, dan lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3g : mem-, pem-
* Tipe awalan ke 3g : mem-, pem-, kemudian lakukan penghapusan Derivation Suffixes
* Tipe awalan ke 3g : mem-, pem-, kemudian tambahkan huruf p sebelum kata dasar
* Tipe awalan ke 3g : mem-, pem-, kemudian tambahkan huruf p sebelum kata dasar, dan lakukan penghapusan Derivation Suffixes


Hasil akhir adalah: (klik untuk perbesar gambar)


Contoh modul / source code dalam bahasa VB (Visual Basic) dapat didownload disini:



Jika membutuhkan jasa kami dalam pembuatan program, keterangan selanjutnya dapat dilihat di Fasilitas dan Harga
Jika ada yang kurang paham dengan langkah-langkah algoritma diatas, silahkan berikan komentar Anda.
Selamat mencoba.


Tinggalkan sebuah komentar

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

2 pemikiran di “Stemming Nazief & Andriani