Petualangan Data: Mengenal MadureseSet, Dataset Madura-Indonesia ; kajian jurnal Data in Brief
Pengantar MadureseSet
MadureseSet adalah sebuah database yang berisi daftar lema
Madura, termasuk lema dasar dan substitusi beserta terjemahannya dalam bahasa
Indonesia. Selain itu, database ini juga mencakup pengucapan, jenis kata,
relasi sinonim dan homonim, tingkat bahasa, dialek, dan rincian kata serapan.
Tujuan pembuatan MadureseSet adalah untuk digunakan sebagai sumber utama dalam
penelitian Pengolahan Bahasa Alami (NLP) untuk bahasa Madura, termasuk
stemming, POS tagging, disambiguasi makna kata, pengecek ejaan yang benar,
terjemahan mesin untuk tingkat bahasa yang berbeda, serta terjemahan mesin
antara bahasa Madura dan Indonesia. Selain itu, MadureseSet juga dapat
mendukung penelitian dalam pengembangan aplikasi pembelajaran pendidikan untuk
bahasa Madura. MadureseSet merupakan sumber utama untuk mempelajari bahasa
Madura yang sebelumnya tidak tersedia sehingga membuat penelitian tentang
bahasa ini lebih sulit dilakukan. MadureseSet telah divalidasi oleh ahli bahasa
Madura yang juga merupakan penulis sumber data ini. Lingkup data yang
terkandung di dalam MadureseSet mencakup daftar lema Madura, pengucapan, jenis
kata, relasi sinonim dan homonim, tingkat bahasa, dialek, dan rincian kata
serapan.
Signifikansi Dataset
MadureseSet adalah suatu database yang berisi daftar kata
dalam bahasa Madura, termasuk leksem dasar dan pengganti beserta terjemahan
mereka dalam bahasa Indonesia. Selain itu, database ini juga memuat informasi
tentang pelafalan, kelas kata, relasi sinonim dan homonim, tingkat ujaran,
dialek, dan kata serapan. MadureseSet dapat dijadikan sumber utama untuk
penelitian dalam bidang Pengolahan Bahasa Alami (NLP) untuk bahasa Madura,
termasuk stemming, POS tagging, penguraian makna kata, pengecekan ejaan yang
salah, mesin terjemahan untuk tingkat ujaran yang berbeda, dan terjemahan antara
bahasa Madura dan bahasa Indonesia. Selain itu, dataset ini juga dapat
mendukung penelitian dalam pengembangan aplikasi pembelajaran pendidikan untuk
bahasa Madura. Bahasa Madura merupakan salah satu dari kelompok etnis terbanyak
di Indonesia, dan bahasa ini merupakan bahasa regional ketiga yang paling
banyak digunakan di negara ini. Sebelum adanya MadureseSet, dataset bahasa
Madura-Indonesia belum tersedia sehingga membuat penelitian pada bahasa ini
semakin sulit. Oleh karena itu, MadureseSet menjadi sumber daya penting bagi
para peneliti dan praktisi yang tertarik dengan bahasa Madura dan bahasa
Indonesia, terutama dalam pengolahan bahasa alami dan pengembangan teknologi
berbasis bahasa.
Metodologi Pembuatan Dataset
Proses pengumpulan data dan metode yang digunakan dalam
pembuatan dataset MadureseSet terdiri dari tiga tahap, yaitu ekstraksi data,
tinjauan struktural data, dan konstruksi database. Pada tahap pertama, data
diambil dari dokumen fisik Kamus Lengkap Bahasa Madura-Indonesia dan kemudian
dipindai untuk menghasilkan file PDF. File PDF kemudian dioptimalkan
menggunakan perangkat lunak k2pdfopt dan kemudian diubah menjadi file teks
menggunakan paket Python bernama pdftotext. Selanjutnya, data teks dianalisis
dan diperbaiki secara manual.
Tahap kedua, tinjauan struktural data, merupakan proses semi-otomatis yang melibatkan tinjauan ulang oleh ahli bahasa Madura untuk menganalisis struktur data yang paling tepat untuk merepresentasikan informasi dalam kamus. Struktur data mencakup struktur paragraf, homonim, sinonim, linguistik, puisi, pantun, pepatah, dan metafora. Pada tahap ketiga, konstruksi database, model data fisik dibangun, dan isi dari database MadureseSet diisi dengan data yang telah diproses.
Deskripsi Isi Dataset
Jumlah sampel data dalam dataset MadureseSet tidak
disebutkan, namun dataset ini berisi daftar lema Madura yang mencakup lema
dasar dan penggantian lema beserta terjemahannya dalam bahasa Indonesia. Selain
itu, dataset ini juga mencakup informasi tentang pengucapan, jenis kata, relasi
sinonim dan homonim, tingkat bahasa, dialek, dan detail kata serapan. Dataset
MadureseSet terdiri dari teks berupa tabel dan database MySQL. Dataset ini
memungkinkan penggunaannya sebagai sumber utama untuk riset dalam bidang
Natural Language Processing (NLP) khususnya untuk bahasa Madura, seperti stemming,
POS tagging, word sense disambiguation, spelling correction checker, machine
translation untuk tingkat bahasa yang berbeda, dan machine translation antara
bahasa Madura dan Indonesia. Dataset ini juga dapat mendukung riset dalam
pengembangan aplikasi pembelajaran pendidikan untuk bahasa Madura.
Manfaat dan Potensi Penggunaan
Dataset MadureseSet memiliki manfaat dan potensi yang besar
dalam pengembangan teknologi NLP untuk bahasa Madura dan aplikasi pembelajaran.
Dataset ini dapat digunakan sebagai sumber utama untuk penelitian dalam NLP
terkait bahasa Madura, seperti stemming, POS tagging, word sense
disambiguation, spelling correction checker, serta terjemahan mesin antara
bahasa Madura dan bahasa Indonesia pada level bahasa yang berbeda. Selain itu,
dataset ini juga dapat mendukung pengembangan aplikasi pembelajaran untuk
bahasa Madura.
MadureseSet dapat membantu dalam pemodelan bahasa Madura,
serta pengenalan aksen dan linguistik. Dalam studi bahasa Madura, dataset ini
merupakan sumber utama karena belum terdapat dataset yang menyediakan deskripsi
bagian pidato dan hubungan kata pada bahasa Madura-Indonesia. Dalam hubungannya
dengan sistem terjemahan mesin, dataset ini dapat digunakan untuk mengembangkan
terjemahan mesin antara bahasa Madura dengan bahasa lainnya.
Dalam penilaian manfaat dataset ini, dataset MadureseSet
secara detail dikonstruksi dan divalidasi oleh seorang ahli bahasa Madura yang
juga merupakan pengarang sumber data untuk dataset ini, yaitu Complete
Dictionary of Madurese-Indonesian. Oleh karena itu, dataset MadureseSet dapat
dipercaya dan menjadi solusi bagi penelitian terkait bahasa Madura.
Kesimpulan
MadureseSet adalah sebuah database yang berisi daftar lema Madura beserta terjemahannya dalam bahasa Indonesia, serta informasi penting lainnya seperti pengucapan, jenis kata, relasi sinonim dan homonim, tingkat bahasa, dialek, dan kata serapan. Dengan tujuan untuk mendukung penelitian dan pengembangan dalam bidang Pengolahan Bahasa Alami (NLP) serta aplikasi pembelajaran pendidikan, MadureseSet menjadi sumber daya penting bagi peneliti dan praktisi yang tertarik dengan bahasa Madura dan bahasa Indonesia. Dengan menggunakan MadureseSet, penelitian dan pengembangan dalam bidang NLP seperti stemming, POS tagging, disambiguasi makna kata, pengecek ejaan, serta terjemahan mesin antara bahasa Madura dan bahasa Indonesia dapat dilakukan lebih efektif.
Harap diperhatikan bahwa rincian spesifik yang disajikan dalam sumber ini akan bervariasi dan memerlukan akses langsung ke sumber tersebut untuk memperoleh informasi lebih lanjut tentang konten yang dijelaskan.
Sumber :
Ifada, N., Rachman, F. H., Syauqy, M. W. M. A., Wahyuni, S., & Pawitra, A. (2023). MadureseSet: Madurese-Indonesian Dataset. Data in Brief, 48, 109035.
Komentar
Posting Komentar