In recent years, Natural Language Processing (NLP) has seen a surge in research, particularly in the
areas of text summarization and machine translation. Evaluation metrics like ROUGE and BLEU have been
widely used to assess the quality of texts using N-gram based approaches. However, these metrics often struggle
when applied to data sourced from the internet, such as social media platforms, due to the prevalence of
phonological errors. This study focuses on identifying the sources and frequency of phonological errors while
addressing the question of whether they should be considered or not. Data from Twitter, a platform known for
phonological errors, was collected, and studied, along with existing literature on the subject. The article proposes
enhancing existing metrics by integrating edit distance algorithms like Levenshtein or Damerau-Levenshtein. By
considering phonological errors in evaluations, this approach aims to improve accuracy and reliability in the NLP
and machine translation domains. The ultimate goal of this study is to contribute to more sensitive and reliable
evaluation metrics in these fields.
Natural Language Processing Phonological Errors ROUGE Machine Translation Evaluation Metrics Edit Distance Metrics
Son yıllarda, Doğal Dil İşleme (DDİ), özellikle metin özeti oluşturma ve makine çevirisi alanlarında
yoğun bir araştırma artışı yaşamıştır. ROUGE ve BLEU gibi değerlendirme metrikleri, N-gram temelli
yaklaşımlar kullanılarak metinlerin kalitesini değerlendirmek için yaygın olarak kullanılmaktadır. Ancak, bu
metrikler özellikle sosyal medya platformlarından elde edilen verilere uygulandığında, sesbilgisel hataların
yaygınlığı nedeniyle zorlanmaktadır. Bu çalışma, sesbilgisel hataların kaynaklarını ve frekansını belirlemeye
odaklanmakta ve bu hataları dikkate almalı mı sorusuna cevap niteliği taşımaktadır. Bu konuyla ilgili olarak
sesbilgisel hataların sık görüldüğü bir platform olan Twitter'dan veri toplanmış ve incelenmiştir. Ayrıca mevcut
literatür de gözden geçirilmiştir. Makale, Levenshtein ve Damerau-Levenshtein gibi düzenleme mesafesi
algoritmalarını mevcut metriklere entegre ederek onları geliştirmeyi önermektedir. Sesbilgisel hataları
değerlendirmelere dahil ederek, DDİ ve makine çevirisi alanlarında doğruluk ve güvenilirliği artırmayı
hedeflemektedir. Bu çalışmanın nihai amacı, bu alanlarda daha hassas ve güvenilir değerlendirme metrikleri
oluşmasına katkı sağlamaktır.
Doğal Dil İşleme Fonolojik Hatalar ROUGE Makine Çevirisi Değerlendirme Metrikleri Düzeltme Uzaklığı Metrikleri
Primary Language | English |
---|---|
Subjects | Natural Language Processing |
Journal Section | PAPERS |
Authors | |
Publication Date | October 18, 2023 |
Submission Date | August 26, 2023 |
Acceptance Date | August 26, 2023 |
Published in Issue | Year 2023 Volume: IDAP-2023 : International Artificial Intelligence and Data Processing Symposium Issue: IDAP-2023 |
The Creative Commons Attribution 4.0 International License is applied to all research papers published by JCS and
A Digital Object Identifier (DOI) is assigned for each published paper.