Details zum E-Book

Web Data Mining z użyciem języka Python. Odkrywaj i wyodrębniaj informacje ze stron internetowych za pomocą języka Python

Web Data Mining z użyciem języka Python. Odkrywaj i wyodrębniaj informacje ze stron internetowych za pomocą języka Python

Dr Ranjana Rajnish; Dr Meenakshi Srivastava

E-book

Danologia to najszybciej rozwijająca się dziedzina na świecie. Przewiduje się, że do roku 2026 stworzy 11,5 mln nowych miejsc pracy, tak więc osoby poszukujące pracy i posiadające ten zestaw umiejętności mają tu wiele możliwości. Jednym z najbardziej pożądanych obszarów w dziedzinie danologii jest wydobywanie informacji ze stron internetowych. Jeśli jesteś początkującym danologiem, który chce się nauczyć różnych technik eksplorowania stron sieci Web, ta książka jest właśnie dla Ciebie.

Na początku tej książki omawiane są kluczowe koncepcje związane z eksploracją danych w sieci Web i jej taksonomią. Następnie omawiane są podstawy dotyczące procesu ekstrakcji danych ze stron, jego zastosowania i komponenty, a także inne tematy, jak choćby aspekty prawne związane z procesem ekstrakcji, wyodrębnianiem i wstępnym przetwarzaniem danych, ekstrakcją danych z dynamicznych stron internetowych czy zabezpieczeniem CAPTCHA. Przedstawia również koncepcję eksploracji opinii oraz struktury stron internetowych. Ponadto omawia ona eksplorację grafów, wyodrębnianie informacji ze stron internetowych, wyszukiwanie na stronach i hiperłącza, wyszukiwanie algorytmem Hyperlink Induced Topic Search (HITS) oraz algorytmy partycjonowania, które używane są przy eksploracji danych w sieci Web. Na końcu książki prezentowane są różne techniki eksploracji ułatwiające odkrywanie interesujących wzorców użycia z danych na stronach internetowych.

Kluczowe elementy

Pełny przegląd podstawowych i zaawansowanych koncepcji dotyczących eksploracji danych w sieci Web.

Pracuj z łatwymi w użyciu bibliotekami open source języka Python do eksplorowania danych.

Zapoznaj się z różnymi korzystnymi obszarami i zastosowaniami dla eksploracji danych w sieci Web.

CZEGO SIĘ NAUCZYSZ?

Dokonywać ekstrakcji danych z dowolnej witryny internetowej z użyciem języka Python.

Zapoznasz się z koncepcjami dotyczącymi eksploracji opinii i analizy nastrojów.

Użyjesz eksploracji struktury do odkrywania informacji o strukturze danej strony.

Nauczysz się zbierać i analizować dane z mediów społecznościowych z użyciem języka Python.

Użyjesz eksploracji korzystania ze strony do przewidywania zachowań internautów podczas przeglądania stron.

Dla kogo jest ta książka

Ta książka jest przeznaczona dla każdego, kto chce się nauczyć eksplorować dane na stronach sieci Web. Będzie najbardziej pomocna dla początkujących danologów, inżynierów danych i analityków danych, którzy chcą opanować techniki eksplorowania danych na stronach internetowych.

  • O autorkach
  • O recenzencie
  • Podziękowania
  • Przedmowa
    • Eksploracja sieci Web Wprowadzenie
      • Wstęp
      • Struktura
      • Cele
      • Wprowadzenie do eksploracji sieci Web
      • Sieć World Wide Web
      • Ewolucja sieci World Wide Web
      • Internet i Web 2.0
      • Eksplorowanie, modelowanie i analizowanie danych
        • Podstawy eksploracji sieci Web
        • Kategorie eksploracji sieci Web
      • Różnica między eksploracją danych i eksploracją sieci Web
        • Zastosowania eksploracji sieci Web
      • Eksploracja sieci Web i język Python
        • Podstawowe biblioteki Pythona do eksploracji sieci Web
      • Jak Python pomaga w eksploracji sieci Web?
        • Wyrażenia regularne
        • Programy z obsługą sieci
        • Usługi internetowe
        • Rzut okiem na to, jak sposób Python ułatwia to wszystko
      • Podsumowanie
      • Punkty do zapamiętania
      • Test zdobytej wiedzy
        • Odpowiedzi
      • Pytania
      • Kluczowe pojęcia
    • Taksonomia eksploracji sieci Web
      • Wstęp
      • Struktura
      • Cel
      • Wprowadzenie do eksploracji sieci Web
      • Eksploracja zawartości sieci Web
        • Podstawowe zastosowania eksploracji zawartości sieci Web
        • Zawartość strony internetowej
        • Wstępne przetwarzanie zawartości
        • Analiza zawartości strony internetowej
      • Eksploracja struktury sieci Web
      • Eksploracja korzystania z sieci Web
      • Kluczowe pojęcia
        • Wskaźniki rankingowe
        • PageRank
        • Koncentratory i autorytety
        • Roboty internetowe
        • Zapach informacji
        • Profil użytkownika
        • Bibliometryki online
        • Rodzaje wskaźników bibliometrycznych
      • Podsumowanie
      • Do zapamiętania
      • Test zdobytej wiedzy
        • Odpowiedzi
      • Pytania
      • Kluczowe terminy
    • Główne zastosowania eksploracji sieci Web
      • Wstęp
      • Struktura
      • Cele
      • Spersonalizowane aplikacje klienckie handel elektroniczny
      • Wyszukiwanie w sieci
        • Najczęściej stosowane metody śledzenia w witrynie
      • Spersonalizowane portale i sieci Web
      • Optymalizacja wydajności usług internetowych
        • Współczynnik odrzuceń
        • Średni czas na stronie
        • Unikalni użytkownicy
      • Eksploracja procesów
      • Reguły asocjacyjne
      • Eksploracja reguł asocjacyjnych
      • Komponenty algorytmu Apriori
        • Wsparcie i częste zbiory elementów
        • Wiarygodność
        • Podniesienie
        • Kroki w algorytmie Apriori
      • Wzorce sekwencji
        • Baza danych sekwencji
        • Podsekwencja kontra nadsekwencja
        • Minimalne wsparcie
        • Prefiks i sufiks
        • Projekcja
      • Eksploracja reguł asocjacyjnych i biblioteki Pythona
        • Pandas
        • Mlxtend
      • Podsumowanie
      • Do zapamiętania
      • Test zdobytej wiedzy
        • Odpowiedzi
      • Pytania
      • Kluczowe pojęcia
    • Podstawy języka Python
      • Wstęp
      • Struktura
      • Cele
      • Wprowadzenie do języka Python
      • Podstawy Pythona
        • Programowanie w Pythonie
        • Hello World pierwszy skrypt w Pythonie
        • Instrukcje warunkowe/selekcji
        • Pętle/instrukcje iteracji
        • Funkcje
        • Listy
      • Podstawy HTML: badanie strony internetowej
      • Podstawowe biblioteki Pythona
      • Instalacja Pythona
        • Platforma uniksowa i linuksowa
        • Platforma Windows
        • Macintosh
      • Wprowadzenie do popularnych IDE i PDE
        • IDLE
        • Atom
        • Sublime Text
        • PyDev
        • Spyder
        • PyCharm
        • Google Colab
      • Instalacja dystrybucji Anaconda
      • Podsumowanie
      • Do zapamiętania
      • Test zdobytej wiedzy
        • Odpowiedzi
    • Ekstrakcja danych z sieci Web
      • Wstęp
      • Struktura
      • Cele
      • Wprowadzenie do ekstrakcji danych z sieci Web
      • Ekstrakcja danych z sieci Web
        • Zastosowania ekstrakcji danych z sieci Web
        • Działanie ekstraktora danych z sieci Web
        • Wyzwania związane z ekstrakcją danych z sieci Web
        • Moduły Pythona używane do ekstrakcji danych
        • Legalność ekstrakcji danych z sieci Web
      • Wyodrębnianie i wstępne przetwarzanie danych
      • Obsługa tekstu, obrazów i filmów
        • Obsługa tekstu
        • Obsługa obrazów
        • Wyodrębnianie filmów ze strony internetowej
      • Ekstrakcja danych z dynamicznych witryn internetowych
      • Zabezpieczenie CAPTCHA
        • Studium przypadku: Implementacja ekstrakcji danych w celu opracowania ekstraktora wyszukującego najnowsze wiadomości
      • Podsumowanie
      • Do zapamiętania
      • Test zdobytej wiedzy
        • Odpowiedzi
      • Pytania
      • Kluczowe pojęcia
    • Eksploracja opinii
      • Wstęp
      • Struktura
      • Cele
      • Pojęcia związane z eksploracją opinii
        • Biblioteka NLTK do analizy nastrojów
        • Eksploracja opinii/analiza nastrojów na różnych poziomach
      • Zbieranie recenzji
        • Źródła danych używane do eksplorowania opinii
      • Praca z danymi
      • Wstępne przetwarzanie danych
        • Tokenizacja
      • Oznaczanie części mowy
      • Ekstrakcja cech
        • Worek słów
        • TF-IDF
      • Studium przypadku dotyczące analizy nastrojów
      • Podsumowanie
      • Do zapamiętania
      • Test zdobytej wiedzy
        • Odpowiedzi
      • Pytania
      • Kluczowe pojęcia
    • Eksploracja struktury sieci Web
      • Wstęp
      • Struktura
      • Cele
      • Wprowadzenie do eksploracji struktury sieci Web
      • Pojęcia związane z eksploracją struktury sieci Web
      • Rodzaje eksploracji struktury sieci Web
      • Eksploracja grafów sieci Web
      • Wyodrębnianie informacji z Internetu
      • Eksploracja sieci Deep Web
      • Wyszukiwanie w sieci i hiperłącza
      • Analiza hiperłączy w sieci Web
      • Algorytm Hyperlink Induced Topic Search (HITS)
      • Algorytm oparty na podziale
      • Implementacja w Pythonie
      • Podsumowanie
      • Do zapamiętania
      • Test zdobytej wiedzy
        • Odpowiedzi
      • Pytania
      • Kluczowe pojęcia
    • Analiza sieci społecznych w języku Python
      • Wstęp
      • Struktura
      • Cele
      • Wprowadzenie do analizy sieci społecznych
      • Tworzenie sieci
        • Rodzaje grafów
      • Analizowanie sieci
      • Wskaźniki odległości w połączeniach sieci
        • Odległość
        • Średnia odległość
        • Ekscentryczność
        • Średnica
        • Promień
        • Obwód
        • Centrum
      • Influencerzy w sieci
      • Studium przypadku dotyczące zbioru danych Facebooka
      • Podsumowanie
      • Do zapamiętania
      • Test zdobytej wiedzy
        • Odpowiedzi
      • Pytania
      • Kluczowe pojęcia
    • Eksploracja korzystania z sieci Web
      • Wstęp
      • Struktura
      • Cele
      • Proces eksploracji korzystania z sieci Web
      • Źródła danych
      • Rodzaje danych
        • Dane dotyczące korzystania
        • Dane dotyczące treści
        • Dane dotyczące struktury
        • Dane dotyczące użytkownika
      • Kluczowe elementy wstępnego przetwarzania danych korzystania z sieci Web
        • Czyszczenie danych
        • Identyfikacja użytkownika
        • Identyfikacja sesji
        • Identyfikacja ścieżki
      • Modelowanie danych
        • Eksploracja reguł asocjacyjnych
        • Wzorzec sekwencji
        • Grupowanie
        • Eksploracja klasyfikacji
      • Odkrywanie i analiza wzorców
        • Reguła asocjacyjna do odkrywania wiedzy
        • Odkrywanie wzorców poprzez grupowanie
        • Eksploracja wzorców sekwencji w celu odkrywania wiedzy
        • Nauka poprzez klasyfikację
        • Analiza wzorców
      • Prognozy dotyczące wzorca transakcji
        • Budowanie systemu rekomendacyjnego opartego na treści
        • Profil produktu
        • Profil użytkownika
      • Podsumowanie
      • Do zapamiętania
      • Test zdobytej wiedzy
        • Odpowiedzi
      • Pytania
      • Kluczowe pojęcia
  • Polecamy także
  • Titel: Web Data Mining z użyciem języka Python. Odkrywaj i wyodrębniaj informacje ze stron internetowych za pomocą języka Python
  • Autor: Dr Ranjana Rajnish; Dr Meenakshi Srivastava
  • ISBN: 9788375415315, 9788375415315
  • Veröffentlichungsdatum: 2023-12-09
  • Format: E-book
  • Artikelkennung: e_3qwo
  • Verleger: Promise