GİRİŞ ve AMAÇ: Bu çalışmanın amacı biri ücretli (ChatGPT-4o), üçü ücretsiz (ChatGPT-4o mini, Gemini, Microsoft Copilot) dört büyük dil modelinin (BDM) 2012-2021 yılları arasında yapılan Diş Hekimliği Uzmanlık Eğitimi Giriş Sınavı’nda (DUS) sorulmuş olan Ağız, Diş ve Çene Radyolojisi (ADÇR) sorularını cevaplama performansını değerlendirip karşılaştırmaktır.
YÖNTEM ve GEREÇLER: 2012-2021 yılları arasında DUS’ta sorulmuş olan 123 soru, “oral diagnoz” ve “radyoloji” kategorilerine ayrılarak dört BDM’ye soruldu. BDM’lerin verdiği cevabın doğruluğuna göre elde edilen veriler Pearson Ki Kare Testi, Monte Carlo düzeltmeli Fisher Exact Testi ve Bonferroni düzeltmeli z Testi kullanılarak analiz edildi (p<0.05).
BULGULAR: Tüm sorulara verilen doğru cevap oranı Chat- GPT-4o mini’de %74, ChatGPT-4o’da %91,1, Gemini’de %69,9 ve Microsoft Copilot’ta %86,2 olarak elde edilmiştir. Sadece radyoloji kategorisinde verilen cevaplarda BDM'ler arasında istatistiksel olarak anlamlı bir ilişki bulunmuştur (p=0,054; p<0,001).
TARTIŞMA ve SONUÇ: Dört BDM arasında ücretli olan ChatGPT-4o ve ücretsiz olan Microsoft Copilot, istatistiksel olarak birbirine benzer ve sorulan soruların %80’inden fazlasına doğru cevap verme performansı sergilemiştir. Önceki çalışmalar analiz edildiğinde BDM’lerin hızlı bir gelişim gösterdiği gözlenmektedir. BDM’ler ilerleyen zamanlarda diş hekimliği eğitiminde etkin bir şekilde rol oynayabilecektir.
INTRODUCTION: The aim of this study was to evaluate and compare the performance of four large language models (LLM), one paid (ChatGPT-4o) and three free (ChatGPT-4o mini, Gemini, Microsoft Copilot), in answering Oral, Dental and Maxillofacial Radiology questions asked in the Dental Specialty Training Entrance Examination between 2012 and 2021.
METHODS: The 123 questions asked in Dental Specialty Training Entrance Examination between 2012 and 2021 were divided into “oral diagnosis” and “radiology” categories and asked to four LLMs. The data obtained according to the accuracy of the answers given by the LLMs were analyzed using Pearson Chi-Square Test, Fisher Exact Test with Monte Carlo correction and z Test with Bonferroni correction (p<0.05).
RESULTS: The correct answer rate for all questions was 74% in ChatGPT-4o mini, 91.1% in ChatGPT-4o, 69.9% in Gemini and 86.2% in Microsoft Copilot. A statistically significant correlation was found among the LLMs only in the answers given to the radiology category (p<0.001).
DISCUSSION AND CONCLUSION: Among the four LLMs, ChatGPT-4o, a paid LLM, and Microsoft Copilot, a free LLM, performed statistically similar to each other and answered more than 80% of the questions correctly. When previous studies are analyzed, it is observed that LLMs are developing rapidly. LLMs will be able to play an effective role in dental education in the future.