E-book details

Statystyczne metody klasyfikacji tekstów

Statystyczne metody klasyfikacji tekstów

Adam Idczak, Jerzy Korzeniewski

Ebook

W ostatnich latach, wraz z szybkim rozwojem technologii komputerowych i internetowych, coraz większego znaczenia nabierają komputerowe metody badania tekstu, w szczególności metody ustalania sentymentu czy też wydźwięku tekstu. Metody komputerowe mogą być później wykorzystywane w takich zagadnieniach, jak streszczanie tekstu, wyszukiwanie informacji z tekstu, sprawdzanie poprawności tekstu, maszynowe tłumaczenie tekstu i wielu innych. Niniejsza monografia zawiera przegląd metod analizy sentymentu dla dokumentów głównie anglojęzycznych, badanie efektywności wybranych metod analizy sentymentu w zastosowaniu do dokumentów polskojęzycznych, propozycje nowych metod, które mogą poprawić jakość klasyfikacji. W nowych propozycjach nacisk został położony na problemy klasyfikacji binarnej, niekorzystanie ze źródeł zewnętrznych, korzystanie w jak najmniejszym stopniu ze zbioru uczącego. Proponujemy przenieść ciężar klasyfikacji tekstów z obszernego zbioru uczącego na wyszukiwanie i analizowanie związków pomiędzy słowami tworzącymi dokument, a nawet grupami słów. Zaproponowana metoda ma prostą interpretację, może konkurować z metodami standardowymi oraz może być wykorzystana do innych problemów związanych z ustalaniem sentymentu tekstów.

Wstęp   7

 

Rozdział 1. Wprowadzenie w problematykę klasyfikacji tekstów    11

    1. Podstawowe pojęcia    11
    2. Uwagi terminologiczne i oznaczenia           16
    3. Etapy wstępnej obróbki tekstu     18
    4. Klasyfikatory wykorzystywane w badaniach                 23
      1. Naiwny klasyfikator Bayesa              23

1.4.1.1. Model zero-jedynkowy        24

1.4.1.2. Model wielomianowy          24

1.4.1.3. Model Gaussa      25

      1. Regresja logistyczna          25
      2. Metoda SVM      27
    1. Miary jakości klasyfikacji              29
    2. Testowe zbiory danych 30
      1. Zbiór Reuters-21578          31
      2. Zbiór Polarity     31
      3. Zbiór OHSUMED               32
      4. Zbiór bank         32
      5. Zbiór perfumy   32
      6. Zbiór perfumyzbil               33
      7. Zbiór ksiazki      33
      8. Zbiór ksiazkizbil                  33
      9. Zbiór apteki       33
      10. Zbiór aptekizbil 34
      11. Zbiór esklepy     34
      12. Zbiór esklepyzbil                34
      13. Zbiór kurier       34
      14. Zbiór kurierzbil  35
      15. Zbiór hotele       35
      16. Zbiór hotelezbil                  35
    3. Oprogramowanie używane w badaniach     35
      1. Wstępna obróbka tekstu   36
      2. Klasyfikacja        38

 

Rozdział 2. Metody doboru zmiennych na potrzeby klasyfikacji tekstów  41

    1. Podejścia modelowe    41
    2. Podejścia heurystyczne 43
    3. Metody inspirowane naturą         58
    4. Metody z grupy ensamble               60
    5. Wybrane metody wykorzystujące źródła zewnętrzne 62

 

Rozdział 3. Autorska propozycja metody klasyfikacji tekstów          65

    1. Wnioski z przeglądu literatury – zadania badawcze    65
    2. Sformułowanie nowej metody     66
    3. Organizacja badania     73
    4. Wyniki badania i wnioski              73

 

Zakończenie          105

 

Załącznik                107

 

Bibliografia            135

  • Title: Statystyczne metody klasyfikacji tekstów
  • Author: Adam Idczak, Jerzy Korzeniewski
  • ISBN: 978-83-8220-787-3, 9788382207873
  • Date of issue: 2022-04-04
  • Format: Ebook
  • Item ID: e_2oo4
  • Publisher: Wydawnictwo Uniwersytetu Łódzkiego