Szczegóły ebooka
Statystyczne metody klasyfikacji tekstów
Adam Idczak, Jerzy Korzeniewski
W ostatnich latach, wraz z szybkim rozwojem technologii komputerowych i internetowych, coraz większego znaczenia nabierają komputerowe metody badania tekstu, w szczególności metody ustalania sentymentu czy też wydźwięku tekstu. Metody komputerowe mogą być później wykorzystywane w takich zagadnieniach, jak streszczanie tekstu, wyszukiwanie informacji z tekstu, sprawdzanie poprawności tekstu, maszynowe tłumaczenie tekstu i wielu innych. Niniejsza monografia zawiera przegląd metod analizy sentymentu dla dokumentów głównie anglojęzycznych, badanie efektywności wybranych metod analizy sentymentu w zastosowaniu do dokumentów polskojęzycznych, propozycje nowych metod, które mogą poprawić jakość klasyfikacji. W nowych propozycjach nacisk został położony na problemy klasyfikacji binarnej, niekorzystanie ze źródeł zewnętrznych, korzystanie w jak najmniejszym stopniu ze zbioru uczącego. Proponujemy przenieść ciężar klasyfikacji tekstów z obszernego zbioru uczącego na wyszukiwanie i analizowanie związków pomiędzy słowami tworzącymi dokument, a nawet grupami słów. Zaproponowana metoda ma prostą interpretację, może konkurować z metodami standardowymi oraz może być wykorzystana do innych problemów związanych z ustalaniem sentymentu tekstów.
Wstęp 7
Rozdział 1. Wprowadzenie w problematykę klasyfikacji tekstów 11
-
- Podstawowe pojęcia 11
- Uwagi terminologiczne i oznaczenia 16
- Etapy wstępnej obróbki tekstu 18
- Klasyfikatory wykorzystywane w badaniach 23
- Naiwny klasyfikator Bayesa 23
1.4.1.1. Model zero-jedynkowy 24
1.4.1.2. Model wielomianowy 24
1.4.1.3. Model Gaussa 25
-
-
- Regresja logistyczna 25
- Metoda SVM 27
- Miary jakości klasyfikacji 29
- Testowe zbiory danych 30
- Zbiór Reuters-21578 31
- Zbiór Polarity 31
- Zbiór OHSUMED 32
- Zbiór bank 32
- Zbiór perfumy 32
- Zbiór perfumyzbil 33
- Zbiór ksiazki 33
- Zbiór ksiazkizbil 33
- Zbiór apteki 33
- Zbiór aptekizbil 34
- Zbiór esklepy 34
- Zbiór esklepyzbil 34
- Zbiór kurier 34
- Zbiór kurierzbil 35
- Zbiór hotele 35
- Zbiór hotelezbil 35
- Oprogramowanie używane w badaniach 35
- Wstępna obróbka tekstu 36
- Klasyfikacja 38
-
Rozdział 2. Metody doboru zmiennych na potrzeby klasyfikacji tekstów 41
-
- Podejścia modelowe 41
- Podejścia heurystyczne 43
- Metody inspirowane naturą 58
- Metody z grupy ensamble 60
- Wybrane metody wykorzystujące źródła zewnętrzne 62
Rozdział 3. Autorska propozycja metody klasyfikacji tekstów 65
-
- Wnioski z przeglądu literatury – zadania badawcze 65
- Sformułowanie nowej metody 66
- Organizacja badania 73
- Wyniki badania i wnioski 73
Zakończenie 105
Załącznik 107
Bibliografia 135
- Tytuł:Statystyczne metody klasyfikacji tekstów
- Autor:Adam Idczak, Jerzy Korzeniewski
- ISBN:978-83-8220-787-3, 9788382207873
- Data wydania:2022-04-04
- Format:Ebook
- Identyfikator pozycji: e_2oo4
- Wydawca: Wydawnictwo Uniwersytetu Łódzkiego