Menangani ketaksaan dalam transliterasi mesin jawi - rumi menggunakan pengelasan Naive Bayes Multinomial (NBM)
Che Wan Shamsul Bahri Che Wan Ahmad1, Khairuddin Omar2, Mohammad Faidzul Nasruddin3, Mohd Zamri Murah4.
Kertas ini membincangkan masalah ketaksaan dalam transliterasi mesin Jawi – Rumi bagi perkataan homograf Jawi. Transliterasi mesin (TM) adalah proses menukar skrip daripada teks sumber kepada teks sasaran secara automatik. Dalam konteks TM Bahasa Melayu (BM) Jawi - Rumi, terdapat kesukaran untuk mendapatkan transliterasi yang berketepatan tinggi bagi perkataan Jawi yang homograf. Homograf adalah perkataan yang sama ejaannya, tetapi mempunyai makna dan sebutan berbeza. Dalam ejaan Jawi lama terdapat banyak perkataan homograf, manakala ia berjaya dikurang apabila Pedoman Ejaan Jawi yang Disempurnakan (PEJYD) mula diperkenalkan oleh Dewan Bahasa dan Pustaka (DBP) pada tahun 1986. Isu utama dalam kajian transliterasi mesin BM Jawi - Rumi adalah ketaksaan perkataan apabila perkataan Jawi ditransliterasi kepada Rumi. Contohnya perkataan “بيرو” boleh ditransliterasi kepada biru atau biro, perkataan “بيليق” boleh ditransliterasi kepada bilik atau belek. Kertas ini mencadangkan kaedah pengkelasan Naive Bayes Multinomial (NBM) digunakan untuk penyahtaksaan homograf bagi TM Jawi - Rumi. Hasil ujian mendapati ketepatan menggunakan kaedah ini boleh mencapai sehingga 67 peratus.
Affiliation:
- Kolej Universiti Islam Antarabangsa Selangor, Malaysia
- Universiti Kebangsaan Malaysia, Malaysia
- Universiti Kebangsaan Malaysia, Malaysia
- Universiti Kebangsaan Malaysia, Malaysia
Toggle translation
Download this article (This article has been downloaded 24 time(s))