Centroid Based Classifier With TF – IDF – ICF for Classfication of Student’s Complaint at Appliation E-Complaint in Muhammadiyah University of Sidoarjo

DOI: https://doi.org/10.21070/jeee-u.v1i1.23

Author (s)


(1) * Mochamad Alfan Rosid   (Teknik Informatika Universitas Muhammadiyah Sidoarjo, Jl. Majapahit 666 B. Sidoarjo)  
        Indonesia
(2)  Gunawan Gunawan   (Sekolah Tinggi Teknik Surabaya, Surabaya)  
        Indonesia
(3)  Edwin Pramana   (Sekolah Tinggi Teknik Surabaya,)  
        Indonesia
(*) Corresponding Author

Abstract


Text mining mengacu pada proses mengambil informasi berkualitas tinggi dari teks. Informasi berkualitas tinggi biasanya diperoleh melalui peramalan pola dan kecenderungan melalui sarana seperti pembelajaran pola statistik. Salah satu kegiatan penting dalam text mining adalah klasifikasi atau kategorisasi teks. Kategorisasi teks sendiri saat ini memiliki berbagai metode antara lain metode K-Nearest Neighbor, Naïve Bayes, dan Centroid Base Classifier, atau decision tree classification.
Pada penelitian ini, klasifikasi keluhan mahasiswa dilakukan dengan metode centroid based classifier dan dengan fitur TF-IDF-ICF, Ada lima tahap yang dilakukan untuk mendapatkan hasil klasifikasi. Tahap pengambilan data keluhan kemudian dilanjutkan dengan tahap preprosesing yaitu mempersiapkan data yang tidak terstruktur sehingga siap digunakan untuk proses selanjutnya, kemudian dilanjutkan dengan proses pembagian data, data dibagi menjadi dua macam yaitu data latih dan data uji, tahap selanjutnya yaitu tahap pelatihan untuk menghasilkan model klasifikasi dan tahap terakhir adalah tahap pengujian yaitu menguji model klasifikasi yang telah dibuat pada tahap pelatihan terhadap data uji. Keluhan untuk pengujian akan diambilkan dari database aplikasi e-complaint Universitas Muhammadiyah Sidoarjo. Adapun hasil uji coba menunjukkan bahwa klasifikasi keluhan dengan algoritma centroid based classifier dan dengan fitur TF-IDF-ICF memiliki rata-rata akurasi yang cukup tinggi yaitu 79.5%. Nilai akurasi akan meningkat dengan meningkatnya data latih dan efesiensi sistem semakin menurun dengan meningkatnya data latih.


Keywords

Text Mining; Klasifikasi, Keluhan; Centroid Based Classifier



Full Text: PDF



References


. Verayuth Lertnattee, Chanisara Leuviphan., “Using Class Frequency for Improving Centroid-based Text Classification”. Department Of Health-related Informatics, Silpakorn University, Maung, Nakorn Pathom, Thailand, 2012.

. Eui-Hong (Sam) Han, George Karypis., “Centroid-Based Document Classification: Analysis & Experimental Results”. Department of Computer Science / Army HPC Research Center, University of Minnesota.

. Songbo Tan ,“ An improved centroid classifier for text categorization”, Intelligent Software Department, Institute of Computing Technology, Chinese Academy of Sciences, PR China, 2007,

. Hidayet Takci, Tunga Gungor. “A High Performance Centroid-based Classification Approach for Language Identification”. Department of Computer Enginering, GYTE, Kocaeli, Turkey, 2012.

. Joel W. Reed, Yu Jiao, Thomas E. Potok, Brian A. Klump, Mark T. Elmore, Ali R. Hurson, “TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams”, Computer Science and Engineering Department, The Pennsylvania State University, University Park, 2006.

. Manning C. D. and H. Shutze: Foundations of Statistical Natural Language Processing, Chapter 15. MIT Press. 1999.

. Hu Guan, Jingyu Zhou, Minyi Guo, “ A Class-Feature-Centroid Classifier for Text Categorization”, Computer Science Dept, Shanghai Jiao Tong University, China, 2009.

. Ronen Feldman, James Sanger, 2007. “The Text Mining Handbook, Advanced Approaches in analyzing Unstructured Data”. Cambridge University Press, Cambridge, England.

. Bambang Kurniawan, Syahril Efendi, dan Opim Salim Sitompul, Klasifikasi Konten Berita Dengan Metode Text Mining, Jurnal Dunia Teknologi Informasi vol.1, No.I, 2012

. Chakrabarti, Soumen, 2003, Mining the Web: Discovering knowledge from hypertext data. San Francisco: Morgan Kaufman.

. Porter, M. F. ,1980, An algorithm for suffix stripping, Program 14(3), p. 130-137.

. Fadillah Z. Talla, A Study of Stemming Effects on Information Retrieval in Bahasa, MS Thesis, 2003.


Article View

Abstract views : 553 times | PDF files viewed : 264 times

Dimensions, PlumX, and Google Scholar Metrics

10.21070/jeee-u.v1i1.23


Refbacks

  • There are currently no refbacks.




Copyright (c) 2016 Jurnal Teknik Elektro

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.