Lingkungan Multilingual dan Multidomain Jadikan Kecerdasan Buatan Pendeteksi Hate Speech Semakin Menantang

Seiring dengan masifnya penetrasi internet dan media sosial di Indonesia, fenomena hate speech atau ujaran kebencian kian marak di Indonesia. Ujaran kebencian sangat mudah ditemukan dalam berbagai platform media sosial seperti Facebook, Instagram, Twitter, dan lain sebagainya.

Penggunaan bahasa kasar sangat sering dijumpai pada unggahan-unggahan dengan tendensi kebencian terhadap seseorang maupun kelompok tertentu. Bahasa kasar ini merupakan ekspresi dalam bentuk kata, frasa, maupun kalimat yang menggunakan kata-kata kotor dengan berbagai konteks tujuan, mulai dari lelucon, kritik, hingga pelecehan seksual dan penghinaan.

Melihat fenomena penggunaan bahasa kasar tersebut, Dosen Teknik Informatika, Fakultas Komunikasi dan Informatika (FKI), Universitas Muhammadiyah Surakarta (UMS), Endang Wahyu Pamungkas, S.Kom., M.Kom., Ph.D. melakukan penelitian literature review dengan tajuk “Towards Multidomain and Multilingual Abusive Language Detection: A Survey”. Penelitian yang masuk jajaran jurnal internasional Personal and Ubiquitous Computing dan terindeks Q1 ini membahas perkembangan literatur terkini yang memuat penelitian tentang bahasa kasar dalam berbagai platform media sosial.

Tentang Penelitian

Ditemui di ruang kerjanya, Rabu (26/7), Endang mengungkapkan alasan dirinya memilih penelitian ini dikarenakan penggunaan bahasa kasar di media sosial merupakan permasalahan penting dalam komunikasi daring. Hal ini didukung dengan fakta penggunaan bahasa kasar pada ranah multidomain (mampu membahas berbagai topik) dan multilingual (terdiri dari beragam bahasa).

“Literature review yang kami lakukan itu berkaitan dengan cara mendeteksi hate speech. Secara spesifik, kami ingin menginvestigasi tantangan yang berkaitan dengan aspek multidomain dan multilingual,” terang Endang.

Melalui penelitian ini, Endang ingin melihat seperti apa penelitian terdahulu dalam upaya mendeteksi hate speech di media sosial khususnya pada lingkungan multidomain dan multilingual.

Tantangan dalam Deteksi Multilingual dan Multidomain

Menurut Endang, penelitian ini sebagai dasar awal untuk memulai pembuatan artificial intelligence (AI) untuk mendeteksi hate speech di media sosial di masa mendatang. Ia mencontohkan penggunaan bahasa kasar di Twitter, di mana nantinya AI diharapkan mampu mendeteksi hate speech dalam setiap cuitan yang ada di Twitter.

“Idenya sendiri untuk meniru kecerdasan manusia. AI sama seperti manusia, sama-sama kalau ingin pintar harus belajar. Belajarnya ya dari data. Semakin banyak data yang dipelajari, maka AI bisa memilah mana yang hate speech, mana yang bukan,” imbuh pria yang akrab disapa Dadang itu.

Akan tetapi, Endang mengungkapkan ada tantangan tersendiri dalam pengembangan AI untuk mendeteksi hate speech. Saat ini, AI sudah memiliki performa yang baik untuk mendeteksi hate speech, namun kebanyakan hanya berfokus pada satu bahasa saja.

“Kalau kita mengembangkan AI dalam bahasa Indonesia, maka AI akan pintar dalam bahasa Indonesia saja. Sedangkan ketika diaplikasikan ke bahasa lain, AI tidak akan bisa karena syntax-nya berbeda,” sambung Endang.

Tantangan ini muncul lantaran penggunaan bahasa dalam kehidupan sehari-hari khususnya di Indonesia relatif beragam. Endang mencontohkan masyarakat Indonesia yang terdiri dari berbagai suku bangsa mempunyai beragam bahasa daerah yang berbeda-beda. Hal ini semakin unik ketika masyarakat Indonesia mulai menggunakan bahasa campuran di media sosial dengan menggabungkan bahasa daerah, nasional, maupun bahasa asing.

“Kalau di Indonesia ini lebih sulit lagi karena orang Indonesia senang mencampur-campurkan bahasa dalam satu postingan di media sosial,” jelas Endang.

Tak hanya multilingual, Endang mengungkapkan hate speech ini termasuk kategori multidomain. Menurutnya, multidomain diartikan bahwa hate speech mempunyai beragam konteks atau topik.

“Hate speech ini kan multidomain. Ada yang hate speech berdasarkan agama, gender, ras, ataupun politik. Jadi, AI harus bisa mendeteksi hate speech dengan multidomain tadi,” ungkap Endang.

Dampak

Dalam upaya menciptakan komunitas daring yang lebih inklusif dan beradab, usaha yang dilakukan dalam penelitian yang berbasis survei ini sangat berharga, yakni memberikan wawasan bagi peneliti dan praktisi tentang perkembangan yang terus berlangsung dan arah potensial untuk mengatasi bahasa kasar atau ujaran kebencian di dunia digital.

“Seperti yang disinggung di akhir artikel, eksplorasi kumpulan data, pendekatan, dan tantangan dalam konteks multidomain dan multilingual bisa membantu kita dalam memahami bidang penelitian ini. Apalagi membangun kumpulan data yang lebih tidak bias dan mencakup berbagai fenomena bahasa kasar itu sangat penting,” ucap Endang.

Lebih lanjut, Endang mengungkapkan hal yang menjadi keresahan utamanya mengangkat topik hate speech ini. Ia tidak ingin generasi berikutnya menemui kata-kata yang tidak pantas di berbagai media sosial.

Penelitian Lanjutan

Dosen Teknik Informatika tersebut menjelaskan bahwa ke depannya fokus penelitian yang dilakukan tetap di ranah hate speech dengan penerapan metode machine learning (mesin yang dikembangkan untuk bisa belajar dengan sendirinya tanpa arahan dari penggunanya).

“Fokusnya masih sama, yaitu hate speech yang bahasanya code-mix. Karena kan di Indonesia ini banyak sekali bahasa daerah ya. Misalkan orang Jawa, dalam satu kalimat itu dia bisa menggunakan bahasa Jawa, Indonesia, dan kadang-kadang diselingi bahasa Inggris. Nah, itu belum yang orang Sunda, Dayak, karena ya di Indonesia banyak sekali bahasa,” jelasnya.

Di akhir wawancara, ia menyampaikan harapannya agar mahasiswa maupun dosen UMS dapat berkontribusi dan berkolaborasi dalam bidang penelitian dengan bergabung di Pusat Studi Informatika Sosial.

“Akan menjadi lebih baik lagi, kalau kita saling berkolaborasi. Contohnya dalam kasus penelitian ini, saya rasa Teknik Informatika dapat berkolaborasi dengan Fakultas Psikologi, karena hate speech ini juga berbicara tentang sisi psikologi sebenarnya. Ini juga berlaku bagi fakultas lain karena kami sangat terbuka dalam hal kolaborasi penelitian” pungkas Endang.

Penulis: Gede Arga Adrian

Editor: Genis Dwi Gustati

Studi kasus

Lebih dekat dengan peneliti