Beberapa tahun yang lalu, saya menulis sebuah catatan singkat di blog ini tentang pengalaman berhadapan dengan hasil terjemahan jurnal kesehatan yang kualitasnya tidak merata — khususnya dalam hal penanganan istilah-istilah klinis yang khas. Saat itu, saya bahkan sempat membuka layanan terjemahan mandiri untuk naskah kesehatan dari bahasa Indonesia ke Inggris, karena memang ada celah kebutuhan yang nyata.
Dunia penerjemahan medis hari ini telah berubah secara mendasar. Kecerdasan buatan — terutama dalam bentuk neural machine translation (NMT) dan large language model (LLM) — telah menggeser cara kita memandang, mengakses, dan menggunakan jasa penerjemahan untuk dokumen-dokumen klinis dan ilmiah. Perubahan ini bukan sekadar soal kecepatan atau biaya, tetapi menyangkut pertanyaan yang lebih dalam: seberapa jauh mesin mampu memahami bahasa kedokteran, dan ke mana arah kolaborasi antara manusia dan teknologi dalam dunia penerjemahan biomedis?
Mengapa Penerjemahan Medis Begitu Rumit?
Teks medis dan biomedis bukan dokumen biasa. Ia memuat terminologi yang sangat spesifik — nama penyakit, prosedur, obat-obatan, nilai laboratorium — yang tidak selalu memiliki padanan langsung di bahasa sasaran. Di Indonesia, situasinya bahkan lebih kompleks: banyak istilah medis bersumber dari bahasa Latin atau Yunani, diserap ke dalam bahasa Inggris sebagai bahasa utama ilmu pengetahuan, lalu “diadaptasi” ke dalam bahasa Indonesia melalui proses serapan yang tidak selalu konsisten. Kata seperti dyspnea bisa diterjemahkan sebagai “sesak napas” (deskriptif), “dispnea” (serapan langsung), atau “sukar bernapas” tergantung konteks dan latar belakang penerjemahnya.
Tantangan ini selama bertahun-tahun menjadi argumen utama mengapa penerjemahan dokumen medis idealnya dilakukan oleh tenaga kesehatan yang juga kompeten secara linguistik — bukan hanya oleh penerjemah umum bersertifikat. Namun mesin tidak kenal lelah, tidak memerlukan bayaran per kata, dan kecerdasannya terus berkembang.
Lompatan Teknologi: Dari Aturan ke Saraf Tiruan
Sebelum membahas artificial intelligence (AI), penting untuk memahami sejarah singkat penerjemahan mesin. Sistem terjemahan awal pada dekade 1990-an hingga 2000-an menggunakan pendekatan berbasis aturan (rule-based machine translation/RBMT) — mesin diajarkan tata bahasa secara eksplisit. Pendekatan ini gagal menangkap nuansa dan konteks, sehingga hasilnya sering terdengar kaku dan tidak wajar.
Memasuki era 2010-an, muncul statistical machine translation (SMT) yang mengandalkan probabilitas statistik dari korpus teks bilingual. Google Translate generasi awal menggunakan pendekatan ini. Revolusi sesungguhnya terjadi ketika arsitektur deep learning, terutama transformer, diperkenalkan. Model neural machine translation berbasis transformer mampu memproses seluruh kalimat sekaligus — bukan kata per kata — sehingga konteks bisa ditangkap jauh lebih baik.
Penerjemahan berbasis AI bekerja melalui neural machine translation, sebuah bentuk deep learning yang menganalisis data bilingual dalam jumlah besar untuk memahami makna, tata bahasa, dan konteks, sehingga menghasilkan terjemahan yang lancar dan terdengar alami alih-alih sekadar konversi kata per kata.
DeepL, Google Translate, dan Persaingan di Ranah Medis
Dua nama yang paling sering disebut dalam percakapan tentang penerjemahan berbasis AI saat ini adalah Google Translate dan DeepL. Keduanya menggunakan arsitektur transformer, tetapi dengan filosofi yang berbeda.
Sebuah survei tahun 2024 oleh Association of Language Companies (ALC) menemukan bahwa 82% perusahaan layanan bahasa menggunakan DeepL untuk penerjemahan, sementara 46% menggunakan Google Translate. Google Translate mendukung lebih dari 249 bahasa dan dialek, sedangkan DeepL memfokuskan diri pada sekitar 30 bahasa dengan penekanan pada kualitas di atas kuantitas cakupan bahasa.
Untuk bahasa Indonesia, kondisinya cukup menarik. DeepL baru menambahkan dukungan bahasa Indonesia pada Mei 2022, menjadikannya salah satu bahasa Asia yang baru belakangan ini didukung oleh platform tersebut. Meskipun DeepL dipuji karena algoritmanya yang canggih dan kemampuan mempertahankan konteks, keterbatasan utamanya tetap pada penanganan bahasa-bahasa yang kurang umum seperti bahasa Indonesia, Korea, dan Turki — terutama karena terbatasnya ketersediaan data pelatihan berkualitas.
Dalam konteks medis secara khusus, sebuah studi yang membandingkan berbagai alat machine translation (MT) untuk menerjemahkan materi pendidikan critical care menemukan gambaran yang kompleks. Tidak ada satu pun alat MT yang unggul di semua metrik dan pasangan bahasa — DeepL, Google Gemini, Google Translate, dan Microsoft CoPilot masing-masing menunjukkan keunggulan di konteks berbeda, menggarisbawahi pentingnya evaluasi rutin terhadap alat-alat ini mengingat perkembangannya yang pesat.
Ketika LLM Memasuki Ruang Radiologi
Studi terbaru yang sangat relevan justru datang dari dunia radiologi — bidang yang menghasilkan laporan terstruktur dalam jumlah besar setiap harinya. Sebuah penelitian yang diterbitkan di jurnal Radiology pada tahun 2024 secara khusus menguji kemampuan berbagai LLM untuk menerjemahkan laporan CT dan MRI ke dalam sembilan bahasa berbeda.
Penelitian tersebut mengevaluasi akurasi dan kualitas berbagai LLM dalam menerjemahkan laporan radiologi ke bahasa-bahasa dengan sumber daya tinggi (high-resource languages) seperti Inggris, Italia, Prancis, Jerman, dan Mandarin, serta bahasa dengan sumber daya rendah (low-resource languages) seperti Swedia, Turki, Rusia, Yunani, dan Thailand.
Hasilnya menunjukkan bahwa GPT-4 menampilkan kualitas terjemahan terbaik secara keseluruhan, unggul dalam sejumlah pasangan bahasa. Namun, evaluasi kualitatif mengungkapkan bahwa LLM sangat baik dalam hal kejelasan, keterbacaan, dan konsistensi makna — tetapi hanya menunjukkan akurasi terminologi medis yang moderat.
Temuan terakhir ini penting untuk digaris bawahi: LLM mampu menghasilkan teks yang terdengar wajar dan koheren, tetapi belum tentu tepat secara terminologis — dan dalam konteks medis, ketidaktepatan terminologi bukan sekadar masalah estetika bahasa, melainkan bisa berimplikasi klinis.
Bias Bahasa dalam Model AI Medis
Isu menarik lainnya adalah soal language bias — kecenderungan model AI untuk bekerja lebih baik dalam bahasa Inggris dibandingkan bahasa lain. Hal ini terjadi karena sebagian besar data pelatihan model LLM besar memang didominasi konten berbahasa Inggris.
Sebuah studi yang membandingkan performa LLM dalam menjawab pertanyaan seputar pencegahan penyakit kardiovaskular menemukan bahwa untuk pertanyaan dalam bahasa Inggris, ChatGPT-4.0 mencapai tingkat respons yang tepat hingga 97,3%, namun performa ini turun sedikit untuk pertanyaan dalam bahasa Mandarin — mencerminkan adanya potensi language bias pada model-model LLM tersebut.
Kondisi ini membawa implikasi langsung bagi penggunaan LLM untuk keperluan medis dalam bahasa Indonesia. Bahasa Indonesia, meskipun digunakan oleh lebih dari 270 juta penduduk, masih tergolong bahasa dengan representasi data yang relatif rendah dalam sebagian besar model AI berbahasa global. Ini berarti terjemahan dari dan ke bahasa Indonesia, terutama untuk konten medis yang sangat spesifik, masih memerlukan pemeriksaan lebih teliti dibandingkan pasangan bahasa Inggris-Prancis atau Inggris-Jerman misalnya.
ChatGPT dan Penerapannya dalam Penerjemahan Kesehatan
Sejak kemunculan ChatGPT pada akhir 2022, percakapan tentang AI dalam kedokteran meledak. Dalam konteks penerjemahan dan komunikasi kesehatan, ChatGPT menunjukkan potensi yang signifikan sekaligus sejumlah risiko yang perlu diwaspadai.
Dalam bidang translasi bahasa, ChatGPT telah menunjukkan efisiensi yang nyata — termasuk kemampuan menghasilkan ringkasan dalam berbagai bahasa dan mendukung komunikasi lintas-bahasa dalam layanan kesehatan. ChatGPT juga dapat berfungsi sebagai pelengkap dalam pendidikan kedokteran, memberikan akses instan ke pengetahuan medis yang luas dan membantu menjembatani keterbatasan sumber daya pelatihan.
Namun, mewujudkan potensi penuh ChatGPT dalam layanan kesehatan memerlukan penanganan berbagai keterbatasan utama, termasuk ketidakmampuannya memproses data visual, ketiadaan pengalaman klinis, serta kerentanan terhadap hallucination (menghasilkan informasi yang tampak valid tetapi tidak akurat).
Hallucination pada LLM menjadi perhatian serius dalam penerjemahan medis. Bayangkan sebuah LLM yang menerjemahkan nama obat generik dengan nama dagang yang salah, atau mencampuradukkan terminologi farmakologi yang mirip bunyinya tetapi berbeda maknanya secara klinis. Dalam konteks dokumen seperti informed consent, protokol pengobatan, atau panduan klinis, kesalahan semacam ini bisa berakibat fatal.
Neural Machine Translation untuk Bahasa Biomedis: Pelajaran dari Riset
Di luar alat konsumen seperti Google Translate dan ChatGPT, komunitas riset ilmiah juga mengembangkan model NMT yang dikhususkan untuk teks biomedis. Pendekatan ini menggunakan teknik domain adaptation — melatih ulang model bahasa umum menggunakan korpus teks medis yang besar.
Sebuah studi yang mengembangkan model bahasa biomedis berbahasa Italia menggunakan dua pendekatan berbeda: satu berbasis terjemahan mesin neural dari sumber berbahasa Inggris (memprioritaskan kuantitas), dan satu berbasis korpus teks Italia berkualitas tinggi (memprioritaskan kualitas). Studi ini menemukan bahwa kuantitas data merupakan kendala yang lebih keras dibandingkan kualitas data untuk adaptasi biomedis, meskipun penambahan data berkualitas tinggi tetap dapat meningkatkan performa model.
Temuan ini relevan bagi pengembangan sistem penerjemahan medis untuk bahasa Indonesia. Salah satu hambatan terbesar adalah minimnya korpus bilingual medis Indonesia-Inggris yang berkualitas dan tersedia secara publik. Tanpa data pelatihan yang memadai, model AI akan terus menghasilkan terjemahan yang kurang presisi untuk terminologi klinis berbahasa Indonesia.
Evaluasi Kualitas: Tidak Cukup Hanya BLEU Score
Para peneliti menggunakan berbagai metrik untuk mengukur kualitas terjemahan mesin, salah satu yang paling populer adalah skor BLEU (BiLingual Evaluation Understudy). Namun dalam konteks medis, metrik otomatis ini tidak cukup.
Sebuah penelitian evaluasi MT untuk materi pendidikan critical care menggunakan pendekatan multimodal: evaluasi klinis buta-ganda (blinded bilingual clinician evaluation) dengan domain kefasihan, kecukupan, dan makna; skor BLEU otomatis; serta skala usability yang tervalidasi. Hasil menunjukkan bahwa tidak ada satu pun alat MT yang secara konsisten unggul di semua metrik — menekankan pentingnya evaluasi berbasis konteks klinis, bukan hanya metrik otomatis.
Ini menggarisbawahi prinsip penting: untuk teks medis, kualitas terjemahan harus dievaluasi oleh tenaga kesehatan yang memahami konten, bukan hanya oleh algoritma yang mengukur kedekatan statistik antar-kata.
LLM sebagai Alat Bantu, Bukan Pengganti
Melihat keseluruhan gambaran di atas, bagaimana sebaiknya kita memposisikan AI dalam ekosistem penerjemahan medis? Jawabannya cukup jelas dari literatur: sebagai alat bantu yang powerful, bukan pengganti.
Analisis bibliometrik global tentang ChatGPT dalam kedokteran menemukan bahwa isu etika (relevansi 82,1%) telah berkembang dengan baik, sementara pendidikan kedokteran (relevansi 100%, pengembangan 32,1%) dan dukungan pengambilan keputusan klinis (relevansi 89,3%, pengembangan 35,7%) masih sangat kurang berkembang — menunjukkan masih banyak wilayah yang belum dioptimalkan dari potensi LLM dalam praktik klinis.
Dalam penerjemahan medis, model kerja yang paling masuk akal adalah human-in-the-loop: AI menghasilkan draf terjemahan dengan cepat, sementara tenaga kesehatan atau penerjemah berspesialisasi medis melakukan post-editing dan verifikasi terminologi klinis. Model ini memungkinkan efisiensi tinggi tanpa mengorbankan akurasi yang dibutuhkan dalam konteks klinis.
Meskipun ChatGPT bukan pengganti tenaga kesehatan profesional, ia dapat berfungsi sebagai asisten yang kuat — memperbesar keahlian mereka untuk meningkatkan efisiensi, aksesibilitas, dan kualitas layanan. Kolaborasi ini memastikan adopsi AI yang bertanggung jawab dalam transformasi pelayanan kesehatan.
Tantangan Spesifik untuk Konteks Indonesia
Beberapa tantangan nyata yang dihadapi dalam penerapan AI untuk penerjemahan medis berbahasa Indonesia antara lain:
Terminologi yang tidak terstandarisasi. Berbagai istilah medis di Indonesia masih belum memiliki padanan resmi yang disepakati. Pedoman Ejaan Bahasa Indonesia (PUEBI) dan Kamus Besar Bahasa Indonesia (KBBI) belum mencakup seluruh kosakata teknis kedokteran modern. Kondisi ini membuat model AI sering menghasilkan variasi terjemahan yang berbeda untuk istilah yang sama.
Kesenjangan data pelatihan. Model AI berperforma terbaik memerlukan jutaan pasang kalimat berkualitas dalam bahasa sumber dan sasaran. Untuk pasangan bahasa Indonesia-Inggris dalam domain medis, korpus semacam ini masih sangat terbatas dibandingkan bahasa Eropa utama.
Variasi ragam bahasa. Bahasa Indonesia yang digunakan dalam jurnal ilmiah, laporan klinis, formulir informed consent untuk pasien, dan materi edukasi kesehatan memiliki register yang sangat berbeda. Model AI yang terlatih pada satu ragam tidak otomatis dapat menangani ragam lainnya dengan baik.
Konteks hukum dan regulasi. Terjemahan dokumen medis di Indonesia tidak hanya soal akurasi bahasa, tetapi juga harus mempertimbangkan kerangka regulasi yang berlaku — mulai dari Undang-Undang Kesehatan, Peraturan Menteri Kesehatan, hingga standar akreditasi KARS/Starkes. AI saat ini belum mampu secara mandiri mengintegrasikan pertimbangan regulasi lokal ini ke dalam hasil terjemahannya.
Ke Depan: Peluang yang Terbuka
Terlepas dari keterbatasannya, perkembangan AI dalam penerjemahan medis membuka sejumlah peluang nyata:
Aksesibilitas pengetahuan medis. Jutaan artikel jurnal ilmiah berbahasa Inggris kini dapat diakses lebih cepat dalam bahasa Indonesia, memungkinkan lebih banyak tenaga kesehatan — terutama di daerah terpencil — untuk mengikuti perkembangan ilmu pengetahuan terkini.
Percepatan proses publikasi ilmiah. Peneliti Indonesia yang menulis dalam bahasa Indonesia dapat menggunakan AI sebagai alat bantu untuk menghasilkan draf terjemahan bahasa Inggris, yang kemudian disempurnakan oleh native speaker atau penerjemah profesional.
Komunikasi lintas-bahasa dalam layanan kesehatan. Dalam konteks Indonesia yang majemuk, AI dapat membantu menjembatani komunikasi antara tenaga kesehatan dan pasien yang berbicara dalam bahasa daerah — sebuah tantangan nyata dalam sistem kesehatan nasional.
Pengembangan sistem AI khusus Indonesia. Inisiatif pengembangan LLM berbahasa Indonesia — seperti yang tengah diupayakan oleh berbagai institusi akademik dan teknologi dalam negeri — membuka jalan bagi model AI yang lebih memahami konteks, budaya, dan terminologi medis lokal.
Catatan Akhir
Ketika saya menulis catatan tentang jasa penerjemahan artikel kedokteran beberapa tahun lalu, teknologi AI masih berada di posisi yang jauh dari kata impresif untuk teks medis teknis. Hari ini, lanskap itu telah berubah secara dramatis. Namun perubahan teknologi tidak menghapus kebutuhan akan pemahaman klinis yang mendalam dalam proses penerjemahan — ia hanya mengubah bentuk dan cara pemahaman itu diaplikasikan.
AI adalah mitra yang semakin cakap, tetapi dalam kedokteran — di mana kata-kata bisa mempengaruhi diagnosis, terapi, dan keselamatan pasien — kemitraan antara mesin dan manusia berpengetahuan medis tetap menjadi standar terbaik yang harus kita pertahankan.
Referensi
Buonocore, T. M., Crema, C., Redolfi, A., Bellazzi, R., & Parimbelli, E. (2023). Localizing in-domain adaptation of transformer-based biomedical language models. Journal of Biomedical Informatics, 144, 104431. https://doi.org/10.1016/j.jbi.2023.104431
Guo, S.-B., Liu, D.-Y., Fang, X.-J., Meng, Y., Zhou, Z.-Z., Li, J., Li, M., Luo, L.-L., Li, H.-L., Cai, X.-Y., Huang, W.-J., & Tian, X.-P. (2025). Current concerns and future directions of large language model ChatGPT in medicine: a machine-learning-driven global-scale bibliometric analysis. International Journal of Surgery, 112(2), 2805–2822. https://doi.org/10.1097/JS9.0000000000003668
Ji, H., Wang, X., Sia, C.-H., Yap, J., Lim, S. T., Djohan, A. H., Chang, Y., Zhang, N., Guo, M., Li, F., Lim, Z. W., Wang, Y. X., Sheng, B., Wong, T. Y., Cheng, S., Yeo, K. K., & Tham, Y.-C. (2025). Large language model comparisons between English and Chinese query performance for cardiovascular prevention. Communications Medicine, 5(1), 177. https://doi.org/10.1038/s43856-025-00802-0
Meddeb, A., Lüken, S., Busch, F., Adams, L., Ugga, L., Koltsakis, E., Tzortzakakis, A., Jelassi, S., Dkhil, I., Klontzas, M. E., Triantafyllou, M., Kocak, B., Yüzkan, S., Zhang, L., Hu, B., Andreychenko, A., Yurievich, E. A., Logunova, T., Morakote, W., … Bressem, K. (2024). Large language model ability to translate CT and MRI free-text radiology reports into multiple languages. Radiology, 313(3), e241736. https://doi.org/10.1148/radiol.241736
Tangsrivimol, J. A., Darzidehkalani, E., Virk, H. U. H., Wang, Z., Egger, J., Wang, M., Hacking, S., Glicksberg, B. S., Strauss, M., & Krittanawong, C. (2025). Benefits, limits, and risks of ChatGPT in medicine. Frontiers in Artificial Intelligence, 8, 1518049. https://doi.org/10.3389/frai.2025.1518049
Telaumbanua, Y. A., Marpaung, A., Gulo, C. P. D., Waruwu, D. K. W., Zalukhu, E., & Zai, N. P. (2024). Analysis of two translation applications: Why is DeepL Translate more accurate than Google Translate? Journal of Artificial Intelligence and Engineering Applications (JAIEA), 4(1), 82–86. https://doi.org/10.59934/jaiea.v4i1.560

Tinggalkan komentar