BAB III METODOLOGI
3.1 Tahapan Pelaksanaan Penelitian Tugas Akhir
Pada bagian ini akan dijelaskan mengenai tahapan penelitian tugas akhir yang akan dilakukan.
Gambar 3.1 Alur Pengerjaan Penelitian Tugas Akhir 3.1.1 Identifikasi masalah dan Studi Literatur
Tahapan ini adalah fase pertama dalam pengerjaan tugas akhir ini. Pada tahap ini dilakukan identifikasi masalah penggalian kebutuan pengetahuan terkait topik yang akan diambil. Setelah itu dilakukan pencarian literatur berdasarkan beberapa paper referensi.. Literatur yang dijadikan referensi adalah paper mengenai topik pembuatan Language Model (LM) terutama dengan menggunakan arsitektur model
16
17
kontekstual. Paper utama yang menjadi rujukan dalam penelitian ini adalah paper yang berjudul “IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural Language Understanding”. Selain itu penelitian lain yang kami gunakan sebagai rujukan adalah paper yang berjudul “BioALBERT: A Simple and Effective Pre-trained Language Model for Biomedical Named-Entity Recognition”. Salah satu dari metode pada paper diatas akan digunakan dalam penelitian ini.
3.1.2 Pengumpulan Data
Pada tahap ini dilakukan pengumpulan data yang akan menjadi input dalam penelitian ini. Data yang dikumpulan adalah data teks dari beberapa kumpulan jurnal ilmiah dalam bidang biomedik. Data ini didapatkan dengan melakukan scraping pada kumpulan dokumen jurnal ilmiah berformat Portable Document Format (PDF). Format data hasil scraping akan disimpan dalam bentuk txt.
Tabel 3.1 Teks dalam Format PDF dan Teks dalam Format txt
Format PDF Format txt
Poliuria pada resipien pascatransplantasi ginjal merupakan kondisi yang sering terjadi dan berpotensi
menimbulkan komplikasi fatal apabila berlangsung secara masif, terus menerus, dan tanpa pengawasan
yang ketat. Studi literatur ini dibuat agar dapat memberikan gambaran mengenai biomarker apa yang dapat
digunakan sebagai prediktor kejadian poliuria pada resipien pascatransplantasi ginjal dan apakah biomarker
tersebut dapat dipergunakan di RS dr. Cipto Mangunkusumo Jakarta. Studi literatur ini dibuat dari beberapa
sumber kepustakaan yang berkaitan dengan kejadian poliuria pascatransplantasi ginjal. Disimpulkan bahwa urodilatin memiliki potensi lebih besar dalam menyebabkan poliuria pascatransplantasi ginjal dibandingkan
dengan dan atrial natriuretic peptide (ANP), brain natriuretic
18
peptide (BNP), maupun C-type natriuretic peptide
(CNP). Meskipin demikian perlu penelitian lebih lanjut untuk memastikannya hingga ke tingkat molekuler.
Pemeriksaan radio immuno assay (RIA) untuk peptida natriuretik dan urodilatin baru dilakukan untuk
keperluan penelitian dan belum digunakan secara luas kepada pasien.
Dataset untuk evaluasi adalah dataset hasil terjemahan dari Bahasa Inggris. Proses penerjemahan dataset dilakukan oleh orang yang berada di domain terkait.
Tabel 3.2 Data Teks Berbahasa Inggris dan Terjemahannya
Teks Asli Teks Terjemahan
SUBJECTIVE:, This 23-year-old white female presents with complaint of allergies. She used to have allergies when she lived in Seattle but she thinks they are worse here. In the past, she has tried Claritin, and Zyrtec. Both worked for short time but then seemed to lose effectiveness. She has used Allegra also. She used that last summer and she began using it again two weeks ago. It does not appear to be working very well. She has used over-the-counter sprays but no prescription nasal sprays.
She does have asthma but doest not require daily medication for this and does not think it is flaring up.,MEDICATIONS: , Her only medication currently is Ortho Tri-
Cyclen and the
Allegra.,ALLERGIES: , She has no
known medicine
allergies.,OBJECTIVE:,Vitals:
Weight was 130 pounds and blood pressure 124/78.,HEENT: Her throat was mildly erythematous without exudate. Nasal mucosa was
Perempuan berkulit putih berusia 23 tahun datang dengan keluhan alergi. Dia memiliki riwayat alergi semenjak tinggal di Seattle dan semakin memperburuk keadaannya. Di masa lampau dia telah mencoba Claritin dan Zyrtec. Keduanya bekerja dalam jangka pendek tetapi kemudian tampak kehilangan efektifitasnya. Dia juga telah menggunakan Allegra. Dia menggunakannya pada musim panas yang lalu dan memulai menggunakan lagi pada dua minggu yang lalu. Hal itu tampak tidak bekerja dengan baik. Dia menggunakan semprotan yang dijual bebas tetapi tidak diresepkan obat semprot hidung. Dia memiliki asma dan tidak mendapatkan pengobatan karena tidak berpikir akan kambuh.
PENGOBATAN: Satu-
satunya obat saat ini adalah Ortho Tri-Cyclen dan Allegra.
19
erythematous and swollen. Only clear drainage was seen. TMs were clear.,Neck: Supple without adenopathy.,Lungs:
Clear.,ASSESSMENT:, Allergic rhinitis.,PLAN:,1. She will try Zyrtec instead of Allegra again.
Another option will be to use loratadine. She does not think she has prescription coverage so that might be cheaper.,2. Samples of Nasonex two sprays in each nostril given for three weeks. A prescription was written as well.
ALERGI: Dia tidak memiliki alergi obat. OBJEKTIF: Tanda vital: Berat 130 pon dan tekanan darah 124/78.
Pemeriksaan Kepala:
Tenggorokannya tampak eritematous tanpa disertai eksudat. Mukosa hidung tampak eritematosus dan membengkak. Hanya terlihat drainase yang jelas. Leher:
Supel tidak ada adenopati.
Rencana: dia akan menggunakan Zyrtec lagi daripada Allegra. Opsi lain
akan menggunakan
Loratadine. Dia tidak berpikir memiliki perlindungan resep sehingga mungkin lebih murah. Sampel dari Nasonex disemprotkan dua kali di masing-masing lubang hidung selama 3 minggu. Resep juga di tulis.
3.1.3 Pra Proses Data
Data yang diperoleh dari proses pengumpulan data akan dibersihkan terlebih dahulu sebelum masuk ketahap pelatihan model. Tahap pra proses ini tidak terlalu memakan banyak upaya mengingat data yang diambil berasal dari jurnal ilmiah dimana sudah pasti mengandung kata-kata yang baku. Sehingga hanya dilakukan beberapa tahap seperti menghilangkan beberapa tanda baca, casefolding, dan menghilangkan beberapa komponen yang sekiranya tidak dibutuhkan seperti tabel- tabel dan beberapa gambar serta melakukan tokenization yaitu pengubangan bentuk teks menjadi sebuah angka.
20
Gambar 3.1 Alur Pra Proses Data 3.1.4 Pelatihan Model
Pada tahap ini dilakukan pelatihan model BERT, yaitu RoBERTa. Pelatihan model dilakukan dengan memanfaatkan library PyTorch dan huggingface di Python. Pada pengimplementasian model ini akan dilakukan beberapa pengaturan terkait beberapa parameter terkait.
3.1.5 Evaluasi Model
Pada tahap ini dilakukan evaluasi language model yang dibuat terhadap task klasifikasi teks di sebuah dataset benchmark yang telah diterjemahkan dan evaluasi seberapa bagus model dalam memprediksi kata selanjutnya. Performa model juga akan dibandingkan dengan beberapa model kontekstual lain yang bersifat multilingual, seperti model-model berarsitektur XLM (Cross-Lingual Language Model) dan mBERT (multilingual BERT). Dataset evaluasi menggunakan dataset Ohsumed yang memiliki 23 kelas. Metrik evaluasi yang akan digunakan adalah accuracy score.
21