© https://eutopia-university.eu
У науковому середовищі Румунії широку увагу привернула праця «Oldies but Goldies: The Potential of Character N-grams for Romanian Texts», створена дослідниками Дана Лупша, Санда-Марія Аврам та Раду Лупша. Опубліковане на платформі arXiv, дослідження викликало активні дискусії серед фахівців з цифрової лінгвістики, NLP та штучного інтелекту як у Румунії, так і в європейських академічних колах. Науковці зосередилися на проблемі визначення авторства румунськомовних текстів — актуальному питанні для літературознавства, судової лінгвістики та збереження культурної спадщини. Використовуючи корпус ROST, вони оцінили ефективність кількох моделей машинного навчання у розпізнаванні стилістичних ознак письма. Ключовою особливістю стали символьні n-грами — послідовності з п’яти символів, що виявилися надзвичайно точними у виявленні авторського стилю. Серед шести моделей (SVM, LR, k-NN, Decision Trees, Random Forests, Artificial Neural Networks), найкращі результати показала нейромережева модель, яка в чотирьох із п’ятнадцяти запусків досягла 100% точності. Дослідження доводить, що простота може бути ефективною: навіть без складних алгоритмів можна досягти результатів світового рівня. Для малоресурсних мов, зокрема румунської, це відкриває нові можливості в освіті, цифровій гуманітаристиці та аналізі перекладів. Робота вже здобула позитивні оцінки в академічному середовищі Клужа. На семінарі факультету філології та інформатики Університету Бабеш-Бойяй її назвали «не лише технічним проривом, а й жестом поваги до мови». Серед літературознавців і мовознавців вона викликала інтерес як потенційний інструмент для атрибуції румунської класики — зокрема, анонімних чи сумнівних текстів початку ХХ століття. Очікується, що запропонована методологія увійде до нового курсу з цифрового текстознавства в Університеті Бабеш-Бойяй.
Romanian researchers achieve a breakthrough in stylometric analysis
The Romanian academic community has taken note of the study Oldies but Goldies: The Potential of Character N-grams for Romanian Texts, authored by Dana Lupșa, Sanda-Maria Avram, and Radu Lupșa. Published on the arXiv platform, the research has sparked active discussions among experts in digital linguistics, NLP, and artificial intelligence both in Romania and across European academic circles. The authors focused on the problem of authorship attribution for Romanian-language texts—a pressing issue in literary studies, forensic linguistics, and the preservation of cultural heritage. Using the ROST corpus, they evaluated the performance of various machine learning models in detecting stylistic features of writing. A central feature of their approach was the use of character-level n-grams—specifically five-character sequences—which proved highly effective in capturing individual authorial style. Among six models tested (SVM, LR, k-NN, Decision Trees, Random Forests, and Artificial Neural Networks), the neural network model delivered the strongest results, achieving 100% accuracy in four out of fifteen runs. The study demonstrates that simplicity can be powerful: high-level performance can be reached without the need for overly complex models. For low-resource languages such as Romanian, this opens new opportunities in education, digital humanities, and translation analysis. The work has already received positive feedback within the academic environment of Cluj. During a seminar at the Faculty of Philology and Informatics at Babeș-Bolyai University, the study was described as not only a technical breakthrough but also a gesture of respect for the language. Among literary scholars and linguists, it has drawn interest for its potential to assist in attributing Romanian classical texts—particularly anonymous or disputed works from the early 20th century. The proposed methodology is expected to be integrated into a new course on digital text analysis at Babeș-Bolyai University.
462