[145880] Artykuł: Ensemble-Based Multi-Class and Multi-Label Text Classification for Noisy Clinical DialoguesCzasopismo: Applied Sciences Tom: 16ISSN: 2076-3417 Opublikowano: Marzec 2026 Autorzy / Redaktorzy / Twórcy Grupa MNiSW: Publikacja w czasopismach wymienionych w wykazie ministra MNiSzW (część A) Punkty MNiSW: 100 Słowa kluczowe: uczenie maszynowe  klasyfikacja tekstu  uczenie zespołowe  medyczne przetwarzanie języka naturalnego  polski T5  Keywords: machine learning  text classification  ensemble learning  medical NLP  Polish T5  |
Wieloklasowa i wieloetykietowa klasyfikacja dialogów medycznych pozostaje trudnym zadaniem ze względu na dużą zmienność językową i szum transkrypcyjny. W niniejszym badaniu zaproponowano podejście zespołowe oparte na trzech precyzyjnie dostrojonych polskich modelach T5 (Transformator Transferu Tekstu do Tekstu) trenowanych na częściowo nakładających się zbiorach danych dialogów klinicznych. Modele są oceniane wyłącznie na podstawie rozmów o niskiej jakości i dużym zaszumieniu, automatycznie transkrybowanych, w celu oceny ich odporności w warunkach rzeczywistych. Wyniki pokazują, że zespół modeli poprawia stabilność klasyfikacji i przewyższa najlepszy pojedynczy model, zwiększając wynik F1 o 21,8% w przypadku dialogów internistycznych i o 44,9% w przypadku wywiadów pediatrycznych. Proponowana metoda wykazuje potencjał praktycznego zastosowania w systemach wspomagania decyzji klinicznych i zautomatyzowanej dokumentacji medycznej.
Multi-class and multi-label classification of medical dialogues remains a challenging task due to high linguistic variability and transcription noise. This study proposes an ensemble approach based on three fine-tuned Polish T5 (Text-to-Text Transfer Transformer) models trained on partially overlapping clinical dialogue datasets. The models are evaluated exclusively on low-quality, highly noisy, automatically transcribed conversations to assess real-world robustness. The results demonstrate that the ensemble of models improves classification stability and outperforms the best single model, increasing the F1-score by 21.8% for internal medicine dialogues and by 44.9% for paediatric interviews. The proposed method shows potential for practical deployment in clinical decision support and automated medical documentation systems.