GİRİŞ ve AMAÇ: Bu çalışma, ortodontik tedavi gören hastaların acil durumlarda ortodontistlerine ulaşamadığı senaryoları simüle ederek, yapay zeka modellerinin bilgi sağlama yetkinliğini incelemeyi amaçlamaktadır.
YÖNTEM ve GEREÇLER: Ortodontik tedavi gören hastaların acil durumlarla ilgili olarak en sık sorduğu sorular, ChatGPT-3.5, ChatGPT-4o, Copilot, Gemini, Claude 3.7 Sonnet ve Medisearch yapay zeka platformlarına tek bir araştırmacı tarafından yöneltilmiştir. Elde edilen yanıtlar anonimleştirilmiş ve iki bağımsız değerlendirici tarafından GQS indeksi ile körleme yöntemi kullanılarak skorlanmıştır. Ayrıca, yanıtların bilimsel doğruluk ve alaka düzeyi nitel analiz yöntemiyle değerlendirilmiş, intra-değerlendirici güvenilirliği dört hafta sonra tekrar puanlama yapılarak test edilmiştir.
BULGULAR: Kruskal-Wallis testi, modeller arasında anlamlı fark olduğunu göstermiştir (H=37,819; p<0,0001). En yüksek GQS ortalaması ChatGPT-4o’ya (3,803±0,4008) aitken, en düşük GQS ortalaması ise Medisearch’e (3,2576±0,7084) ait bulunmuştur. ChatGP-4o, Copilot ve ChatGPT-3.5’in yanıt kalitesi Medisearch’ten istatistiksel anlamda daha yüksek skorlar almış, Gemini ise Copilot ve ChatGPT-4o'ya kıyasla istatistiksel anlamda daha düşük skorlar almıştır (p<0,05).
TARTIŞMA ve SONUÇ: Çalışmamızda ortodonti kapsamlı hasta sorularına yapay zeka tabanlı sohbet robotlarının verdikleri yanıtlar değerlendirilmiş ve olumlu sonuçlar gösterdikleri tespit edilmiştir. Hastaların hekimlerine ulaşamadıkları durumlarda tedavilerine ilişkin acil durum sorularına sohbet modellerinin yüksek kalitede yanıtlar üretebilmesi, hasta-hekim ilişkisini geliştirebilecek ve hastaların bilinçlenerek tedaviye daha uyumlu olmalarını sağlayabilecektir.
Anahtar Kelimeler: Yapay zeka, büyük dil modelleri, ortodonti, ChatGPT
INTRODUCTION: This study aims to evaluate the information-providing competency of artificial intelligence models by simulating scenarios in which patients undergoing orthodontic treatment are unable to reach their orthodontists during urgent situations.
METHODS: The most frequently asked questions by patients undergoing orthodontic treatment regarding urgent situations were submitted by a single researcher to various artificial intelligence platforms, including ChatGPT-3.5, ChatGPT-4o, Copilot, Gemini, Claude 3.7 Sonnet, and Medisearch. The responses were anonymized and independently evaluated by two blinded raters using the Global Quality Scale (GQS). In addition, the scientific accuracy and relevance of the responses were assessed through qualitative analysis, and intra-rater reliability was tested via repeated scoring after a four-week interval.
RESULTS: The Kruskal-Wallis test revealed a statistically significant difference among the models (H=37,819; p<0,0001). The highest mean GQS score was observed for ChatGPT-4o (3,803±0,4008), while the lowest was recorded for Medisearch (3,2576±0,7084). The response quality of ChatGPT-4o, Copilot, and ChatGPT-3.5 was significantly higher than that of Medisearch, whereas Gemini received significantly lower scores compared to Copilot and ChatGPT-4o (p<0,05).
DISCUSSION AND CONCLUSION: In our study, the responses provided by artificial intelligence-based chatbot models to orthodontics- related patient questions were evaluated, and it was found that they demonstrated positive performance. The ability of chatbot models to generate high-quality answers to urgent treatment-related questions in situations where patients cannot reach their orthodontists may strengthen the patient–clinician relationship and help patients become more informed and compliant with their treatment.
Keywords: Artificial intelligence, large language models, orthodontics, ChatGPT