Автор: Jerzy Korzeniewski
1
Eлектронна книга

Statystyczne metody klasyfikacji tekstów

Adam Idczak, Jerzy Korzeniewski

W ostatnich latach, wraz z szybkim rozwojem technologii komputerowych i internetowych, coraz większego znaczenia nabierają komputerowe metody badania tekstu, w szczególności metody ustalania sentymentu czy też wydźwięku tekstu. Metody komputerowe mogą być później wykorzystywane w takich zagadnieniach, jak streszczanie tekstu, wyszukiwanie informacji z tekstu, sprawdzanie poprawności tekstu, maszynowe tłumaczenie tekstu i wielu innych. Niniejsza monografia zawiera przegląd metod analizy sentymentu dla dokumentów głównie anglojęzycznych, badanie efektywności wybranych metod analizy sentymentu w zastosowaniu do dokumentów polskojęzycznych, propozycje nowych metod, które mogą poprawić jakość klasyfikacji. W nowych propozycjach nacisk został położony na problemy klasyfikacji binarnej, niekorzystanie ze źródeł zewnętrznych, korzystanie w jak najmniejszym stopniu ze zbioru uczącego. Proponujemy przenieść ciężar klasyfikacji tekstów z obszernego zbioru uczącego na wyszukiwanie i analizowanie związków pomiędzy słowami tworzącymi dokument, a nawet grupami słów. Zaproponowana metoda ma prostą interpretację, może konkurować z metodami standardowymi oraz może być wykorzystana do innych problemów związanych z ustalaniem sentymentu tekstów.