Peran Artificial Intelligence Terhadap Akurasi Interpretasi Rontgen Toraks – Telaah Jurnal Alomedika

Oleh :
dr. Gilang Pradipta Permana

Effect of A Comprehensive Deep-Learning Model on The Accuracy of Chest X-Ray Interpretation by Radiologists: A Retrospective, Multireader Multicase Study

Seah JCY, Tang CHM, Buchlak QD, Holt XG, Wardman JB, Aimoldin A, et al. Lancet Digital Health.;3:e496–506. doi: https://doi.org/10.1016/S2589-7500(21)00106-0

berkelas

Abstrak

Latar Belakang: Rontgen toraks sering digunakan dalam praktik sehari-hari, namun interpretasinya dapat dipengaruhi oleh kesalahan dan kurangnya pengalaman ahli radiologi. Penggunaan bantuan kecerdasan buatan deep-learning model berpotensi meningkatkan akurasi interpretasi rontgen toraks. Peneliti mencoba mengevaluasi akurasi ahli radiologi dalam mendeteksi temuan klinis pada rontgen toraks dengan dan tanpa kecerdasan buatan deep-learning model.

Metode: Dalam studi retrospektif ini, kecerdasan buatan deep-learning model dilatih dengan data 821.681 rontgen toraks dari 284.649 pasien yang berasal Australia, Eropa, dan Amerika Serikat.  Rontgen toraks berjumlah 2.568 dari pasien berusia ≥ 16 tahun yang berasal dari pelayanan rawat inap, rawat jalan, dan ruang gawat darurat diinterpretasi oleh 20 ahli radiologi, tanpa dan dengan kecerdasan buatan dengan jarak antar pemeriksaan 3 bulan.

Peneliti menilai perubahan akurasi interpretasi rontgen toraks pada 127 temuan klinis ketika deep-learning model digunakan sebagai pendukung keputusan dengan menghitung area under curve (AUC) karakteristik operasi penerima (AUC) untuk setiap ahli radiologi dengan dan tanpa deep-learning model. Peneliti juga membandingkan AUC untuk model itu sendiri dengan ahli radiologi. Jika batas bawah CI 95% yang disesuaikan dari perbedaan AUC antara model dan ahli radiologi tanpa bantuan lebih dari -0,05, model dianggap tidak inferior untuk temuan tersebut. Jika batas bawah melebihi 0, model dianggap unggul.

Hasil: Ahli radiologi tanpa bantuan memiliki AUC rata-rata makro 0·713 (95% CI 0·645-0·785) di seluruh 127 temuan klinis, dibandingkan dengan 0·808 (0·763-0·839) ketika dibantu oleh model. Deep-learning model secara statistik meningkatkan akurasi klasifikasi ahli radiologi untuk 102 (80%) dari 127 temuan klinis, secara statistik non-inferior untuk 19 (15%) temuan, dan tidak ada temuan yang menunjukkan penurunan akurasi saat ahli radiologi menggunakan deep-learning model.

Ahli radiologi tanpa bantuan memiliki AUC rata-rata makro sebesar 0.713 (0.645-0.785) di semua temuan, dibandingkan dengan 0.957 (0.954-0.959) untuk model saja. Klasifikasi model saja secara signifikan lebih akurat daripada ahli radiologi tanpa bantuan untuk 117 (94%) dari 124 temuan klinis yang diprediksi oleh model dan tidak kalah dengan ahli radiologi tanpa bantuan untuk semua temuan klinis lainnya

Kesimpulan: Kecerdasan buatan deep-learning model dapat membantu  interpretasi rontgen toraks dalam praktik sehari-hari.

rontgentoraksAI

Ulasan Alomedika

Kecerdasan buatan atau artificial intelligence (AI) deep-learning model adalah sebuah metode pada komputer yang mempelajari suatu pola sehingga dapat berpikir seperti manusia. Pada penelitian ini kecerdasan buatan tersebut diberi pola interpretasi temuan klinis rontgen toraks. Deep-learning model berpotensi meningkatkan akurasi dan kecepatan ahli radiologi dalam  menginterpretasi rontgen toraks.

Ulasan Metode Penelitian

20 ahli radiologi yang berasal dari Vietnam dengan pengalaman klinis 5-25 tahun menginterpretasi rontgen toraks yang sama sebanyak dua kali. Ahli radiologi menginterpretasikan rontgen toraks tanpa bantuan kecerdasan buatan, kemudian berselang 3 bulan melakukan interpretasi ulang dengan bantuan kecerdasan buatan. Jumlah foto rontgen yang diinterpretasi adalah 4.568 yang berasal dari 2.568 pasien. Ahli radiologi hanya mengetahui usia dan jenis kelamin pasien.

Baku emas interpretasi rontgen toraks pada penelitian ini dibuat berdasarkan konsensus oleh tiga dokter spesialis radiologi toraks yang berasal dari Australia. Ketiga dokter tersebut dapat melihat informasi klinis, rontgen pembanding (sebelum dan sesudah), dan laporan CT-scan (bila ada).

Kecerdasan buatan deep-learning model dikembangkan dengan memasukkan data 821.681 hasil rontgen yang berasal dari 520.014 pasien, yang telah diinterpretasi oleh 120 ahli radiologi yang berasal dari Vietnam dengan memakai metode pohon ontologi.

Analisis statistik menggunakan plot area under curve (AUC) yang berarti memberikan nilai sensitivitas atau true positive rate dalam mendeteksi temuan klinis foto rontgen toraks. Saat membandingkan antara rerata hasil AUC, peneliti menggunakan acuan sebagai berikut:

  • Confidence interval (CI) 95% lebih kecil dari -0,05 menunjukkan hasil inkonklusif,

  • CI 95% antara -0,05 hingga 0,0 menunjukkan non-inferior
  • CI 95% lebih dari 0,0 menunjukkan hasil superior

Ulasan Hasil Penelitian

Ketika ahli radiologi menginterpretasikan rontgen toraks tanpa bantuan deep-learning model, didapatkan rerata AUC 0,713 dalam mendeteksi 127 jenis temuan klinis yang ada. Hasil berbeda didapatkan saat ahli radiologi menggunakan bantuan deep-learning model dalam menginterpretasi rontgen toraks, yaitu rerata 0,808.  Hal ini menunjukkan terjadi peningkatan sensitivitas dalam mendeteksi 127 jenis temuan klinis ketika ahli radiologi menggunakan bantuan kecerdasan buatan.

Penggunaan deep-learning model meningkatkan akurasi ahli radiologi dalam mendeteksi 102 (80%) jenis temuan klinis. Sementara itu, pada 19 (15%) jenis temuan klinis didapatkan hasil non-inferior dan ada hasil  inkonklusif pada 6 jenis temuan klinis.

Peneliti melakukan analisis lain terhadap 10 jenis temuan klinis yang dianggap penting secara klinis. Ini mencakup efusi tanpa komplikasi, posisi vena sentral, kardiomegali, air-space opacity-focal, air-space opacity-diffuse, kolaps lobus atau segmental, gas abdomen, fraktur iga, dan nodul soliter. Terjadi peningkatan sensitivitas ketika ahli radiologi menggunakan deep-learning model (0,890 menjadi 0,956) dan penurunan positive predictive value (0,905 menjadi 0,899).

Rerata waktu menginterpretasi rontgen toraks oleh ahli radiologi menurun ketika menggunakan bantuan deep-learning model, yaitu dari 122 detik menjadi 107 detik. Walaupun demikian, kemungkinan perbedaan waktu tersebut tidak bermakna dalam praktik sehari-hari.

Saat membandingkan rerata AUC ahli radiologi dan kecerdasan buatan, 4 jenis temuan klinis  tidak dianalisis (pneumobilia, gas vena portal,  posisi kateter interkosta, dan  posisi interkosta suboptimal), serta ditambahkan satu jenis temuan klinis yakni kateter interkosta, sehingga jumlah temuan klinis menjadi 124 (dari awalnya 127).

Hasil rerata AUC saat ahli radiologi tidak menggunakan kecerdasan buatan adalah 0,717 dalam  mendeteksi 124 jenis temuan klinis. Sementara itu, kecerdasan buatan menghasil rerata AUC 0,957. Rerata AUC deep-learning model menunjukkan hasil yang superior dibandingkan AUC ahli radiologi tanpa bantuan deep-learning model pada 117 (94%) jenis temuan klinis, sedangkan pada 7 jenis temuan klinis menunjukkan hasil non-inferior.

Kelebihan Penelitian

Kelebihan penelitian ini terdapat pada kecerdasan buatan deep-learning model yang mempelajari lebih dari 800.000 rontgen toraks yang temuan klinisnya diinterpretasikan oleh ahli radiologi dengan memakai metode pohon ontologi. Hal ini membuat lebih konsisten dan akurat dalam menginterpretasi rontgen toraks dibandingkan dengan penelitian lain yang menggunakan laporan radiologi sebagai acuan.

Jumlah ahli radiologi pada penelitian terdahulu yang meneliti tentang kecerdasan buatan dalam interpretasi foto rontgen umumnya di bawah 10 ahli radiologi, sedangkan penelitian ini menggunakan 20 ahli radiologi untuk mengantisipasi interpretasi rontgen yang heterogen.

Deep-learning model pada penelitian ini dilatih dengan cara yang komprehensif dan kasus yang bervariasi sehingga menghasilkan temuan klinis yang lebih akurat. Sebagai contoh, deep-learning model yang tidak dilatih dengan baik tidak dapat mendeteksi pneumothorax secara akurat karena berpatokan pada terpasangnya chest tube di paru.

Limitasi Penelitian

Kekurangan penelitian ini terdapat pada penentuan baku emas diagnosis rontgen toraks yang diinterpretasikan ahli radiologi. Cara terbaik adalah menentukan baku emas berdasarkan kecocokan foto dengan kondisi klinis, dan hasil rontgen follow-up. Namun, cara tersebut sulit diterapkan bila foto rontgen yang perlu diinterpretasikan berjumlah banyak seperti pada penelitian ini.

Terdapat kemungkinan bias pada pemilihan subjek penelitian, yaitu semua ahli radiologi berasal dari negara yang sama (Vietnam) sehingga tidak dapat mewakili ahli radiologi di negara lain.

Jarak ahli radiologi melakukan interpretasi ulang terhadap foto rontgen (3 bulan) lebih lama dari penelitian lain (3 jam hingga 2 bulan) dan penomoran kasus yang muncul telah diacak. Namun, tidak menutup kemungkinan ahli radiologi masih mengingat foto rontgen yang telah diperiksa.

Aplikasi Hasil Penelitian di Indonesia

Berdasarkan hasil penelitian ini, bantuan kecerdasan buatan dapat membantu ahli radiologi meningkatkan akurasi temuan klinis dalam interpretasi rontgen toraks. Temuan ini tentu bermanfaat di Indonesia untuk meningkatkan kecepatan dan ketepatan interpretasi rontgen pada praktik klinis.

Referensi