Türk Dil Kurumu 2010 yılında Sıkça Yapılan Yanlışlara Doğrular sözlüğü yayınlamıştır. Bu sözlükte yaklaşık 500 adet yanlış-doğru çifti bulunmaktadır. Türk Dil Kurumu, çoğu yabancı kökenli olan bu sözcüklerin ölçünlü hale gelmesini sağlamak amacıyla bu sözlüğü sunmuştur. Bu çalışmanın amacı Bilgi Erişimi ve Metin Sınıflandırması için yazılı basın metinlerinden oluşturulmuş Türkçe derlemlerde ve ders kitaplarında anılan sözlükte belirtilen yazım yanlışlıklarının ne sıklıkta yapıldığını tespit etmektir. Tüm derlem üzerinde gerçekleştirilen bu işlem, alt kırılımlarda (spor, sağlık, siyaset, ekonomi, vb.) tekrarlanarak alan/kategori özelinde de istatistikler sunulmaktadır. Tüm derlem seviyesinde en çok yapılan yazım yanlışlıkları: itibariyle (itibarıyla), döküman (doküman), orjinal (orijinal) gibi sözcükler olurken; spor kategorisinde ise cimnastik (jimnastik), antreman (antrenman) gibi alana özel sözcükler tespit edilmiştir. Sağlık alanında yazılmış ders kitaplarında tetanoz (tetanos), menapoz (menopoz), ötenazi (ötanazi), ve sezeryan (sezaryen) sözcükleri saptanmıştır. Sosyoloji ders kitaplarında ise proleterya (proletarya) ve psikiyatrist (psikiyatr) sözcükleri dikkat çekmektedir. Türk Dil Kurumu, parantez içindeki sözcükleri doğru olarak önermektedir. Türk Dil Kurumu'nun yazım yanlışlıkları olarak belirlediği bu sözcüklerin gazete, kitap, makale vb. metinlerde gerçekten de kullanıldığını göstererek farkındalık yaratmak, doğru olarak önerilen yazımların Türkçe öğretiminde öne çıkarılması ya da otomatik imla düzeltme sistemlerinin kullanılması önerilmektedir. Bunun yanı sıra bu sözcükler, yabancı dillerden ödünçlenerek alındığından bu konuda dilbilimsel bir artalan ve Türk Dil Kurumu'nun yaklaşımına ilişkin kısa bir değerlendirme de sunulacaktır.
The Turkish Language Association released a dictionary for frequently misspelled words in 2010. This dictionary contains approximately 500 wrong-correct words pairs. In this study, the aim is to present the observed frequencies of these misspelled Turkish words in Information Retrieval and Text Classification datasets as well as textbooks written on various domains. The results show that these words are in fact attested in news articles and textbooks. Some misspelled words in the whole corpus are as follows: itibariyle (itibarıyla), döküman (doküman), orjinal (original). The words in parentheses are suggested as correct versions. When subcategories are analyzed, cimnastik (jimnastik), antreman (antrenman) are observed in the sports news; tetanoz (tetanos), menapoz (menopoz), ötenazi (ötanazi), and sezeryan (sezaryen) in health textbooks; proleterya (proletarya) and psikiyatrist (psikiyatr) in sociology textbooks. In the current study, the most frequently observed misspelled words are examined also from a linguistic perspective. Since these so-called misspelled words are all borrowed from various languages, we will provide a brief background on borrowing and a brief evaluation on the suggestions made by the Turkish Language Association.
Sözlü sunum için kabul edilen bildirimiz 22 Haziran 2019 tarihinde Öğr. Gör. İlknur Civan tarafından sunulmuştur. Tam metni içeren bildiri kitapçığı 978-605-7638-44-1 ISBN numarası ile Atatürk Üniversitesi Yayınevi tarafından https://ekitap.atauni.edu.tr adresinden elektronik ortamda umuma açık olarak yayımlanmıştır. Ancak bildiri kitapçığının bazı bölümlerinde kelimelerin arasında boşluklar dizgi hatasından dolayı görünmemektedir. Bu sebepten dolayı bildirimizin kendi kopyamızı daha okunur olduğu için buradan paylaşıyoruz.
Çalışmada kullanılan yanlış-doğru çiftlerinin tümüne SikcaYapilanYanlislar adresinden erişilebilir.
Bildirimize atıf vermek için lütfen kaynakçanıza aşağıdaki girdiyi ekleyiniz.
Arslan A., Civan İ., ve Turan Ü.D. (2019). "Türkçede Sıkça 'Yanlış Yazılan' Sözcüklerin Büyük Ölçekli Derlemlerde Tespit Edilmesi",
II. Uluslararası Türk Dili ve Edebiyatı Bilgi Söleni, ISBN: 978-605-7638-44-1, 809-822, Erzurum, Türkiye.