Petualangan Data: Mengenal MadureseSet, Dataset Madura-Indonesia ; kajian jurnal Data in Brief

Pengantar MadureseSet

    MadureseSet adalah sebuah database yang berisi daftar lema Madura, termasuk lema dasar dan substitusi beserta terjemahannya dalam bahasa Indonesia. Selain itu, database ini juga mencakup pengucapan, jenis kata, relasi sinonim dan homonim, tingkat bahasa, dialek, dan rincian kata serapan. Tujuan pembuatan MadureseSet adalah untuk digunakan sebagai sumber utama dalam penelitian Pengolahan Bahasa Alami (NLP) untuk bahasa Madura, termasuk stemming, POS tagging, disambiguasi makna kata, pengecek ejaan yang benar, terjemahan mesin untuk tingkat bahasa yang berbeda, serta terjemahan mesin antara bahasa Madura dan Indonesia. Selain itu, MadureseSet juga dapat mendukung penelitian dalam pengembangan aplikasi pembelajaran pendidikan untuk bahasa Madura. MadureseSet merupakan sumber utama untuk mempelajari bahasa Madura yang sebelumnya tidak tersedia sehingga membuat penelitian tentang bahasa ini lebih sulit dilakukan. MadureseSet telah divalidasi oleh ahli bahasa Madura yang juga merupakan penulis sumber data ini. Lingkup data yang terkandung di dalam MadureseSet mencakup daftar lema Madura, pengucapan, jenis kata, relasi sinonim dan homonim, tingkat bahasa, dialek, dan rincian kata serapan.

Signifikansi Dataset

    MadureseSet adalah suatu database yang berisi daftar kata dalam bahasa Madura, termasuk leksem dasar dan pengganti beserta terjemahan mereka dalam bahasa Indonesia. Selain itu, database ini juga memuat informasi tentang pelafalan, kelas kata, relasi sinonim dan homonim, tingkat ujaran, dialek, dan kata serapan. MadureseSet dapat dijadikan sumber utama untuk penelitian dalam bidang Pengolahan Bahasa Alami (NLP) untuk bahasa Madura, termasuk stemming, POS tagging, penguraian makna kata, pengecekan ejaan yang salah, mesin terjemahan untuk tingkat ujaran yang berbeda, dan terjemahan antara bahasa Madura dan bahasa Indonesia. Selain itu, dataset ini juga dapat mendukung penelitian dalam pengembangan aplikasi pembelajaran pendidikan untuk bahasa Madura. Bahasa Madura merupakan salah satu dari kelompok etnis terbanyak di Indonesia, dan bahasa ini merupakan bahasa regional ketiga yang paling banyak digunakan di negara ini. Sebelum adanya MadureseSet, dataset bahasa Madura-Indonesia belum tersedia sehingga membuat penelitian pada bahasa ini semakin sulit. Oleh karena itu, MadureseSet menjadi sumber daya penting bagi para peneliti dan praktisi yang tertarik dengan bahasa Madura dan bahasa Indonesia, terutama dalam pengolahan bahasa alami dan pengembangan teknologi berbasis bahasa.

Metodologi Pembuatan Dataset

    Proses pengumpulan data dan metode yang digunakan dalam pembuatan dataset MadureseSet terdiri dari tiga tahap, yaitu ekstraksi data, tinjauan struktural data, dan konstruksi database. Pada tahap pertama, data diambil dari dokumen fisik Kamus Lengkap Bahasa Madura-Indonesia dan kemudian dipindai untuk menghasilkan file PDF. File PDF kemudian dioptimalkan menggunakan perangkat lunak k2pdfopt dan kemudian diubah menjadi file teks menggunakan paket Python bernama pdftotext. Selanjutnya, data teks dianalisis dan diperbaiki secara manual.

    Tahap kedua, tinjauan struktural data, merupakan proses semi-otomatis yang melibatkan tinjauan ulang oleh ahli bahasa Madura untuk menganalisis struktur data yang paling tepat untuk merepresentasikan informasi dalam kamus. Struktur data mencakup struktur paragraf, homonim, sinonim, linguistik, puisi, pantun, pepatah, dan metafora. Pada tahap ketiga, konstruksi database, model data fisik dibangun, dan isi dari database MadureseSet diisi dengan data yang telah diproses.

Deskripsi Isi Dataset

    Jumlah sampel data dalam dataset MadureseSet tidak disebutkan, namun dataset ini berisi daftar lema Madura yang mencakup lema dasar dan penggantian lema beserta terjemahannya dalam bahasa Indonesia. Selain itu, dataset ini juga mencakup informasi tentang pengucapan, jenis kata, relasi sinonim dan homonim, tingkat bahasa, dialek, dan detail kata serapan. Dataset MadureseSet terdiri dari teks berupa tabel dan database MySQL. Dataset ini memungkinkan penggunaannya sebagai sumber utama untuk riset dalam bidang Natural Language Processing (NLP) khususnya untuk bahasa Madura, seperti stemming, POS tagging, word sense disambiguation, spelling correction checker, machine translation untuk tingkat bahasa yang berbeda, dan machine translation antara bahasa Madura dan Indonesia. Dataset ini juga dapat mendukung riset dalam pengembangan aplikasi pembelajaran pendidikan untuk bahasa Madura.

Manfaat dan Potensi Penggunaan

    Dataset MadureseSet memiliki manfaat dan potensi yang besar dalam pengembangan teknologi NLP untuk bahasa Madura dan aplikasi pembelajaran. Dataset ini dapat digunakan sebagai sumber utama untuk penelitian dalam NLP terkait bahasa Madura, seperti stemming, POS tagging, word sense disambiguation, spelling correction checker, serta terjemahan mesin antara bahasa Madura dan bahasa Indonesia pada level bahasa yang berbeda. Selain itu, dataset ini juga dapat mendukung pengembangan aplikasi pembelajaran untuk bahasa Madura.

    MadureseSet dapat membantu dalam pemodelan bahasa Madura, serta pengenalan aksen dan linguistik. Dalam studi bahasa Madura, dataset ini merupakan sumber utama karena belum terdapat dataset yang menyediakan deskripsi bagian pidato dan hubungan kata pada bahasa Madura-Indonesia. Dalam hubungannya dengan sistem terjemahan mesin, dataset ini dapat digunakan untuk mengembangkan terjemahan mesin antara bahasa Madura dengan bahasa lainnya.

    Dalam penilaian manfaat dataset ini, dataset MadureseSet secara detail dikonstruksi dan divalidasi oleh seorang ahli bahasa Madura yang juga merupakan pengarang sumber data untuk dataset ini, yaitu Complete Dictionary of Madurese-Indonesian. Oleh karena itu, dataset MadureseSet dapat dipercaya dan menjadi solusi bagi penelitian terkait bahasa Madura.

Kesimpulan

    MadureseSet adalah sebuah database yang berisi daftar lema Madura beserta terjemahannya dalam bahasa Indonesia, serta informasi penting lainnya seperti pengucapan, jenis kata, relasi sinonim dan homonim, tingkat bahasa, dialek, dan kata serapan. Dengan tujuan untuk mendukung penelitian dan pengembangan dalam bidang Pengolahan Bahasa Alami (NLP) serta aplikasi pembelajaran pendidikan, MadureseSet menjadi sumber daya penting bagi peneliti dan praktisi yang tertarik dengan bahasa Madura dan bahasa Indonesia. Dengan menggunakan MadureseSet, penelitian dan pengembangan dalam bidang NLP seperti stemming, POS tagging, disambiguasi makna kata, pengecek ejaan, serta terjemahan mesin antara bahasa Madura dan bahasa Indonesia dapat dilakukan lebih efektif.

Harap diperhatikan bahwa rincian spesifik yang disajikan dalam sumber ini akan bervariasi dan memerlukan akses langsung ke sumber tersebut untuk memperoleh informasi lebih lanjut tentang konten yang dijelaskan.

Sumber :

Ifada, N., Rachman, F. H., Syauqy, M. W. M. A., Wahyuni, S., & Pawitra, A. (2023). MadureseSet: Madurese-Indonesian Dataset. Data in Brief48, 109035.

Komentar

Postingan Populer