Mengambil Pelajaran dari Linguistik Korp

(1)

Mengambil Pelajaran dari Linguistik Korpus Bahasa Inggris dan dari Mengkhayal: Suatu Usulan Pengembangan Linguistik Korpus Bahasa Arab di Indonesia

Ferry Hidayat

Pondok Modern “TAZAKKA” Batang Jawa Tengah

Pada Lokakarya Korpus Bahasa Arab yang diselenggarakan di UNIDA Gontor Ponorogo pada tanggal 16-18 Januari 2018 lalu, presentasi yang disampaikan Totok Suhardijanto, Ph.D sungguh membuka wawasan para peserta akan betapa pentingnya pengembangan Korpus Bahasa Arab bagi pengajaran bahasa Arab di Indonesia. Hanya saja, kajian Korpus Bahasa Arab di Indonesia belum seberkembang Korpus Bahasa Inggris, Korpus Bahasa Indonesia dan Korpus Bahasa Jawa yang telah lebih dulu berkembang. Posisi ini justru, menurut penulis, menguntungkan. Korpus Bahasa Arab justru bisa dengan leluasa mengambil pelajaran dan manfaat dari kajian-kajian Korpus yang telah lebih dulu ada untuk pengembangannya sendiri. Dalam artikel ini penulis ingin berbagi sedikit ilmu mengenai Korpus Bahasa Inggris yang sekiranya dapat diambil faedahnya demi pengembangan Korpus Bahasa Arab di Indonesia ke depan.

Saat menulis artikel ini, penulis membayangkan bahwa para pembaca telah mengumpulkan ribuan bahkan jutaan data korpus bahasa Arab di tangan. Penulis juga membayangkan bahwa para pembaca telah menguasai teknik-teknik menambang data dengan menggunakan alat concordancer secara mahir dan terampil, sehingga apa yang akan penulis paparkan di bawah ini adalah segala manfaat yang dapat diambil dari penggunaan concordancer dan jutaan data korpus Arab yang sudah ada di tangan tadi.

Menurut studi yang dilakukan penulis, terdapat 7 manfaat yang dapat diambil dari penggunaan concordancer dan jutaan data korpus. Di bawah ini akan diterangkan manfaat tersebut satu persatu beserta contoh kongkritnya dari khazanah kajian Linguistik Korpus Bahasa Inggris.

Manfaat Pertama: Mengetahui Kolokasi

Salah satu manfaat dari kajian Korpus adalah mengetahui kolokasi (collocation), yakni “keluarga kata”. Misalnya, lewat penggunaan concordancer ditemukan satu fakta bahwa kata “to face” (kata kerja) berkolokasi dengan kata “challenge”. Kata “have an effect” selalu berkolokasi dengan preposisi “on”. Kata “love” berkolokasi dengan adjective “abundant, adolescent, apparent, ardent, bounding, brimming”.

(2)

Collocations (1997). Ada 2.750 kolokasi yang beliau temukan lewat penelusurannya dengan concordancer, yang kemudian dibukukannya.

Jika data korpus bahasa Arab telah dijadikan concordance dan siap diolah lewat mesin concordancer, maka penemuan akan kolokasi atau “keluarga kata” dalam bahasa Arab pun sungguh akan amat mudah. Jika lewat penggunaan concordancer ditemukan ribuan kolokasi bahasa Arab, maka kolokasi tersebut dapat dibukukan dan dijadikan rujukan sebagaimana yang dilakukan Michael Lewis di atas.

Manfaat Kedua: Mengetahui Koligasi

Sedikit berbeda dengan kolokasi, koligasi adalah “keluarga kata” dari segi tatabahasa. Misalnya, kata “to budge” selalu berkoligasi dengan modal yg berbentuk negatif atau verba yang berkonotasi negatif (refuse+to budge, not prepared+to budge, won’t+budge, didn’t+budge, will not+budge, wouldn’t+budge, couldn’t+budge). Kata “effect” selalu berkoligasi dengan artikel a, an, dan the serta dengan determiner any, no, little, dan some (have+an+effect, have+an+immediate effect, have+a+hypnotic effect, produce+an+effect, have+any+effect, have+little+effect, have+no+effect, dan have+some+effect).

Koligasi ditemukan lewat penggunaan concordancer beserta ribuan bahkan jutaan concordance yang diolahnya. Semua koligasi yang ditemukan bisa dibukukan dan dijadikan bahan rujukan tatabahasa, sebagaimana yang dilakukan oleh John Sinclair dkk. Mereka menulis buku Collins Cobuild English Grammar (1998) berdasarkan temuan mereka akan koligasi lewat penelusuran mesin concordancer. Buku tersebut adalah satu-satunya buku rujukan tatabahasa Inggris berdasarkan studi Korpus yang John Sinclair dkk. lakukan.

Jika data korpus bahasa Arab telah dijadikan concordance dan siap diolah lewat mesin concordancer, maka penemuan akan koligasi atau “keluarga sintaksis suatu kata” dalam bahasa Arab pun sungguh akan amat mudah. Jika lewat penggunaan concordancer ditemukan ribuan kolokasi bahasa Arab, maka kolokasi tersebut dapat dibukukan dan dijadikan rujukan sebagaimana yang dilakukan John Sinclair di atas.

Manfaat Ketiga: Menemukan Kesalahan Kebahasaan

Berbeda dengan manfaat pertama dan manfaat kedua yang diterangkan di atas, manfaat ketiga lebih dirasa dan lebih didapat oleh penutur bahasa kedua (second language user) dan penutur bahasa asing (foreign language user). Misalnya, orang asli Indonesia tapi bertutur kata bahasa Inggris atau orang asli Indonesia tapi berbicara bahasa Arab. Itu disebut dalam literatur linguistik bahasa Inggris dengan sebutan “second language user” dan “foreign language user”, dan bahasa Inggris yang mereka pelajari disebut dengan sebutan “English as a Second Language” (ESL) dan “English as a Foreign Language” (EFL).

(3)

mereka untuk kemudian memperbaikinya. Ini dicontohkan oleh Sylviane Granger dalam karya editorialnya Learner English on Computer (1998).

Di dalam buku ini, Granger dkk. mengkaji data korpus bahasa Inggris para pengguna bahasa-kedua (Second Language Learner English) dan bahasa Inggris para pengguna bahasa asing (Foreign Language Learner English) lewat mesin concordancer, dan menemukan bahwa kedua pengguna tersebut (Non-Native Speaker) melakukan “kesalahan kebahasaan” dalam aspek tertentu jika dibandingkan dengan pengguna bahasa Inggris asli (Native Speaker). Misalnya, lewat pengkajian data korpus bahasa Inggris orang Swedia ditemukan Granger bahwa orang Swedia lebih sering menggunakan kata “furthermore” dalam karangan bahasa Inggris mereka dan kurang sering menggunakan kata “however” jika dibandingkan dengan karangan bahasa Inggris penutur asli. Granger juga menemukan bahwa karangan bahasa Inggris orang Perancis lebih banyak dan lebih sering menggunakan determiner, pronoun, dan adverb, tapi lebih sedikit dan jarang menggunakan conjunction, preposition, dan noun, bila dibandingkan dengan karangan orang Inggris asli. Dari penelitian atas data korpus bahasa Inggris orang Perancis, data korpus bahasa Inggris orang Spanyol, data korpus bahasa Inggris orang Cina, dan data korpus bahasa Inggris orang Jepang, Granger pun menemukan bahwa semua penutur non-native tersebut jarang menulis complement clause yang menggunakan that, to-infinitive, dan gerund di dalam karangan bahasa Inggris mereka bila dibandingkan dengan karangan bahasa Inggris yang ditulis penutur bahasa Inggris asli.

Temuan akan “kesalahan kebahasaan” yang dilakukan oleh pengguna bahasa-kedua dan pengguna bahasa-asing lewat mesin concordancer di atas memberi banyak manfaat. Satu di antara manfaatnya adalah “kesalahan kebahasaan” tersebut menjadi bahan koreksi bagi pelajar, bahan pengajaran bagi guru yang akan mengajar mereka, dan bisa pula menjadi bahan kajian ahli Linguistik Korpus tentang mengapa “kesalahan kebahasaan” itu kerap terjadi.

Jika data korpus bahasa Arab yang ditutur orang Indonesia dan yang ditulis orang Indonesia terkumpul jutaan banyaknya, maka temuan “kesalahan kebahasaan” seperti yang ditemukan oleh Sylviane Granger akan mudah untuk ditemukan, diidentifikasi, lalu menjadi bahan koreksian bagi penutur tersebut dan bahan pengajaran bagi guru/dosen bahasa Arab di sini, sekaligus bahan penelitian bagi peneliti Linguistik Korpus Bahasa Arab di sini.

Manfaat Keempat: Menemukan Bias Gender

(4)

korpus bahasa Hungaria dalam Word Thesaurus, dan data korpus bahasa Cina dalam Word Thesaurus, lalu mereka menemukan kecenderungan sexist-patriarkis dalam padanan-kata (synonym) di keenam bahasa tersebut. Begitu pula dengan Paul Baker yang di dalam bukunya, Using Corpora to Analyze Gender (2014), meneliti data korpus koran The Daily Mail dan menemukan kecenderungan ungkapan kebencian atas kaum gay oleh redaktur koran The Daily Mail.

Data korpus bahasa Arab orang Indonesia nantinya juga bisa menjadi obyek kajian untuk mengungkap bias gender baik dalam ujaran maupun tulisan.

Manfaat Kelima: Menemukan Bahasa Pemuda Jaman Now

Kecenderungan kebahasaan jaman now juga dapat ditelusuri lewat penelitian atas data-data korpus, seperti yang dilakukan oleh Anna-Brita Stenstrom dkk. dalam buku mereka Trends in Teenage Talk: Corpus Compilation, Analysis and Findings (2002). Strenstrom mengumpulkan data-data korpus dari rekaman percakapan antara pemuda-peneliti dengan pemuda-obyek-penelitian, lalu menyatukan rekaman itu semua ke dalam satu data korpus yang disebutnya The Bergen Corpus of London Teenage Language (COLT). Dari penelitian atas data korpus tersebut, Strenstrom dkk. menemukan variasi kebahasaan pemuda London jaman now yang sungguh berbeda dari bahasa yang dipakai orangtua mereka. Misalnya, pemuda London jaman now punya kecenderungan menambah kata innit di akhir kalimat mereka, seperti contoh percakapan di bawah ini:

Nanti, data korpus bahasa Arab juga akan dapat dimanfaatkan untuk meneliti kecenderungan variasi kata bahasa Arab yang digunakan satu kelompok sosial tertentu, bukan hanya kelompok sosial pemuda jaman now.

Manfaat Keenam: Menemukan Sosiofobia di Media Massa Nasional

(5)

Express, The Daily Star, The Sun, The Guardian, The Independent, The Times, The Daily Telegraph, The Daily Mirror, The Daily Business, dan The Observer sejak tahun 1998 hingga tahun 2009, lalu mereka menyatukannya dalam satu data korpus, kemudian mereka pun meneliti data korpus tersebut lewat mesin concordancer dan menemukan frekuensi tinggi ungkapan Islamofobik koran-koran terkenal Inggris tersebut.

Manfaat Ketujuh: Menyusun “Learner Dictionary”

Manfaat puncak dari semua manfaat yang telah disebutkan di atas, menurut penulis, adalah manfaat ketujuh ini: data korpus dapat digunakan untuk menyusun “kamus pelajar” (Learner Dictionary), suatu jenis khusus kamus yang disusun untuk memudahkan seorang pelajar mempelajari suatu bahasa asing atau bahasa kedua. Mengapa? Karena manfaat ketujuh ini hanya dapat dicapai dengan melalui manfaat-manfaat sebelumnya. Penyusunan “kamus pelajar” tidak akan dapat dilakukan tanpa adanya data korpus mengenai kolokasi (manfaat pertama), tanpa data korpus mengenai koligasi (manfaat kedua), tanpa data korpus mengenai “kesalahan kebahasaan” yang dilakukan second-language user atau foreign-language user (manfaat ketiga), tanpa data korpus mengenai kata-kata sexist yang bias-gender (manfaat keempat), tanpa data korpus bahasa pemuda jaman now (manfaat kelima), dan tanpa data korpus kata-kata sosiofobik di media massa nasional (manfaat keenam). “Kamus pelajar” merangkum hal itu semua di dalam keseluruhan isinya.

Beberapa Temuan Imajinatif

Penulis suka berkhayal dan berimajinasi. Di bawah ini penulis akan menuliskan beberapa imajinasinya saat data korpus bahasa Arab di Indonesia telah berhasil dibuat oleh “Tim 8” kelak. Imajinasi-imajinasi ini berkaitan dengan temuan-temuan yang akan dapat ditemukan jika data korpus bahasa Arab di Indonesia sudah tersedia dan siap untuk diberdayakan dan dipergunakan oleh para peneliti Linguistik Korpus Arab di Indonesia. Apa sajakah itu? Berikut ini didaftarkan beberapa temuan imajinatifnya:

Temuan Imajinatif Pertama

Dalam khayalan penulis, semua buku-buku karangan Syeikh Nawawi Al-Jawi Al-Bantani yang berbahasa Arab dikumpulkan, lalu ditulis ulang ke dalam bentuk concordance. Setelah menjadi concordance, maka semua kata di dalam semua buku karya Syeikh Nawawi Al-Bantani (penulis menyebutnya Corpus Albantanius) siap diteliti dengan mesin concordancer. Maka, penulis pun meneliti word frequency dalam Corpus Albantanius itu. Dari penelitiannya terhadap word frequency tadi, penulis pun berhasil menemukan bahwa Corpus Albantanius mengandung kata-kata yang berfrekuensi tinggi sbb.:

(6)

Dari penelitian atas word frequency dalam Corpus Albantanius, penulis membangun kesimpulan dan menemukan fakta penting bahwa dalam semua karangannya, Syeikh Nawawi Al-Bantani menyerukan jihad berperang melawan Belanda kepada semua orang Jawa dengan harapan sorga. Di antara berjuta-juta tema dan berjuta-juta topik yang diangkat Syeikh Nawawi dalam semua karyanya, tema jihad peranglah tema yang paling menonjol, yang mencerminkan ketinggian patriotisme dan nasionalisme Syeikh Nawawi di masa hidupnya.

Temuan Imajinatif Kedua

Dalam khayalan penulis, semua buku-buku bertema dan bertopik Tasawuf karangan semua ulama-ulama Indonesia jaman old (seperti Abdurrauf Al-Sinkili, Syeikh Nawawi Al-Bantani, Muhammad Nafis Al-Banjari, Syeikh Yusuf Al-Makassari, dll.) yang berbahasa Arab dikumpulkan, lalu ditulis ulang ke dalam bentuk concordance. Setelah menjadi concordance, maka semua kata di dalam semua buku bertema Tasawuf tersebut (penulis menyebutnya Corpus Tasawufus) siap diteliti dengan mesin concordancer. Maka, penulis pun meneliti word frequency dalam Corpus Tasawufus itu. Dari penelitiannya terhadap word frequency tadi, penulis pun berhasil menemukan bahwa Corpus Tasawufus mengandung kata-kata yang berfrekuensi tinggi sbb.:

Allah (1,000,000 kali) Wujud (750,000 kali) Tajalli (665,000 kali) Martabah (555,000 kali) Insan (450,000 kali) Kamil (440,000 kali) Alam (430,000 kali)

Dari penelitian atas word frequency dalam Corpus Tasawufus, penulis membangun kesimpulan dan menemukan fakta mengesankan bahwa dalam semua karangannya, para ulama Indonesia jaman old mengajarkan paham Tasawuf yang seragam, yakni paham Wujudiyah (Wihdatul Wujud). Di antara berjuta-juta tema dan berjuta-juta topik yang diangkat ulama-ulama Indonesia jaman old dalam semua karya sufistik, tema-tema yang berkaitan dengan paham Tasawuf Wujudiyahlah tema yang paling menonjol, yang mencerminkan bahwa mereka semua adalah sufi-sufi aliran Wujudiyah.

Temuan Imajinatif Ketiga

(7)

Korupsi (1,000,000 kali) Pejabat (750,000 kali) Zina (665,000 kali) LGBT (555,000 kali) Bank (450,000 kali) Riba (440,000 kali) Ekonomi (430,000 kali)

Dari penelitian atas word frequency dalam Corpus Khutbahkiaius, penulis membangun kesimpulan dan menemukan fakta menarik bahwa dalam semua khutbah Jumat mereka, para kiai se-Indonesia sangat peduli dan concerned dengan fenomena korupsi yang dilakukan oleh pejabat-pejabat negara. Mereka juga sangat concerned dengan fenomena sosio-seksual seperti perzinahan dan LGBT, juga fenomena ekonomi ribawi yang dipraktekkan bank-bank konvensional di Indonesia. Di antara juta tema dan berjuta-juta topik yang diangkat para kiai se-Indonesia dalam semua khutbah Jumat mereka, tema-tema yang berkaitan dengan problem sosial-ekonomi dan problem sosio-seksuallah tema-tema yang paling menonjol, yang mencerminkan bahwa mereka sungguh peduli dengan masalah tersebut dan tidak cuek.

Demikianlah artikel ini penulis akhiri. Semoga pembaca menemukan kajian korpus bahasa Arab di Indonesia secara lebih terang, lebih jernih, lebih jelas, dan lebih bersemangat tinggi lagi. Semoga!

Wal’Laahu A’lam Bish’shawaab. Pondok Modern Tazakka Batang 21 Januari 2018