Categories
Ebooks
-
Business and economy
- Bitcoin
- Businesswoman
- Coaching
- Controlling
- E-business
- Economy
- Finances
- Stocks and investments
- Personal competence
- Computer in the office
- Communication and negotiation
- Small company
- Marketing
- Motivation
- Multimedia trainings
- Real estate
- Persuasion and NLP
- Taxes
- Social policy
- Guides
- Presentations
- Leadership
- Public Relation
- Reports, analyses
- Secret
- Social Media
- Sales
- Start-up
- Your career
- Management
- Project management
- Human Resources
-
For children
-
For youth
-
Education
-
Encyclopedias, dictionaries
-
E-press
- Architektura i wnętrza
- Biznes i Ekonomia
- Home and garden
- E-business
- Finances
- Personal finance
- Business
- Photography
- Computer science
- HR & Payroll
- Computers, Excel
- Accounts
- Culture and literature
- Scientific and academic
- Environmental protection
- Opinion-forming
- Education
- Taxes
- Travelling
- Psychology
- Religion
- Agriculture
- Book and press market
- Transport and Spedition
- Healthand beauty
-
History
-
Computer science
- Office applications
- Data bases
- Bioinformatics
- IT business
- CAD/CAM
- Digital Lifestyle
- DTP
- Electronics
- Digital photography
- Computer graphics
- Games
- Hacking
- Hardware
- IT w ekonomii
- Scientific software package
- School textbooks
- Computer basics
- Programming
- Mobile programming
- Internet servers
- Computer networks
- Start-up
- Operational systems
- Artificial intelligence
- Technology for children
- Webmastering
-
Other
-
Foreign languages
-
Culture and art
-
School reading books
-
Literature
- Antology
- Ballade
- Biographies and autobiographies
- For adults
- Dramas
- Diaries, memoirs, letters
- Epic, epopee
- Essay
- Fantasy and science fiction
- Feuilletons
- Work of fiction
- Humour and satire
- Other
- Classical
- Crime fiction
- Non-fiction
- Fiction
- Mity i legendy
- Nobelists
- Novellas
- Moral
- Okultyzm i magia
- Short stories
- Memoirs
- Travelling
- Narrative poetry
- Poetry
- Politics
- Popular science
- Novel
- Historical novel
- Prose
- Adventure
- Journalism, publicism
- Reportage novels
- Romans i literatura obyczajowa
- Sensational
- Thriller, Horror
- Interviews and memoirs
-
Natural sciences
-
Social sciences
-
School textbooks
-
Popular science and academic
- Archeology
- Bibliotekoznawstwo
- Cinema studies
- Philology
- Polish philology
- Philosophy
- Finanse i bankowość
- Geography
- Economy
- Trade. World economy
- History and archeology
- History of art and architecture
- Cultural studies
- Linguistics
- Literary studies
- Logistics
- Maths
- Medicine
- Humanities
- Pedagogy
- Educational aids
- Popular science
- Other
- Psychology
- Sociology
- Theatre studies
- Theology
- Economic theories and teachings
- Transport i spedycja
- Physical education
- Zarządzanie i marketing
-
Guides
-
Game guides
-
Professional and specialist guides
-
Law
- Health and Safety
- History
- Road Code. Driving license
- Law studies
- Healthcare
- General. Compendium of knowledge
- Academic textbooks
- Other
- Construction and local law
- Civil law
- Financial law
- Economic law
- Economic and trade law
- Criminal law
- Criminal law. Criminal offenses. Criminology
- International law
- International law
- Health care law
- Educational law
- Tax law
- Labor and social security law
- Public, constitutional and administrative law
- Family and Guardianship Code
- agricultural law
- Social law, labour law
- European Union law
- Industry
- Agricultural and environmental
- Dictionaries and encyclopedia
- Public procurement
- Management
-
Tourist guides and travel
- Africa
- Albums
- Southern America
- North and Central America
- Australia, New Zealand, Oceania
- Austria
- Asia
- Balkans
- Middle East
- Bulgary
- China
- Croatia
- The Czech Republic
- Denmark
- Egipt
- Estonia
- Europe
- France
- Mountains
- Greece
- Spain
- Holand
- Iceland
- Lithuania
- Latvia
- Mapy, Plany miast, Atlasy
- Mini travel guides
- Germany
- Norway
- Active travelling
- Poland
- Portugal
- Other
- Russia
- Romania
- Slovakia
- Slovenia
- Switzerland
- Sweden
- World
- Turkey
- Ukraine
- Hungary
- Great Britain
- Italy
-
Psychology
- Philosophy of life
- Kompetencje psychospołeczne
- Interpersonal communication
- Mindfulness
- General
- Persuasion and NLP
- Academic psychology
- Psychology of soul and mind
- Work psychology
- Relacje i związki
- Parenting and children psychology
- Problem solving
- Intellectual growth
- Secret
- Sexapeal
- Seduction
- Appearance and image
- Philosophy of life
-
Religion
-
Sport, fitness, diets
-
Technology and mechanics
Audiobooks
-
Business and economy
- Bitcoin
- Businesswoman
- Coaching
- Controlling
- E-business
- Economy
- Finances
- Stocks and investments
- Personal competence
- Communication and negotiation
- Small company
- Marketing
- Motivation
- Real estate
- Persuasion and NLP
- Taxes
- Guides
- Presentations
- Leadership
- Public Relation
- Secret
- Social Media
- Sales
- Start-up
- Your career
- Management
- Project management
- Human Resources
-
For children
-
For youth
-
Education
-
Encyclopedias, dictionaries
-
History
-
Computer science
-
Other
-
Foreign languages
-
Culture and art
-
School reading books
-
Literature
- Antology
- Ballade
- Biographies and autobiographies
- For adults
- Dramas
- Diaries, memoirs, letters
- Epic, epopee
- Essay
- Fantasy and science fiction
- Feuilletons
- Work of fiction
- Humour and satire
- Other
- Classical
- Crime fiction
- Non-fiction
- Fiction
- Mity i legendy
- Nobelists
- Novellas
- Moral
- Okultyzm i magia
- Short stories
- Memoirs
- Travelling
- Poetry
- Politics
- Popular science
- Novel
- Historical novel
- Prose
- Adventure
- Journalism, publicism
- Reportage novels
- Romans i literatura obyczajowa
- Sensational
- Thriller, Horror
- Interviews and memoirs
-
Natural sciences
-
Social sciences
-
Popular science and academic
-
Guides
-
Professional and specialist guides
-
Law
-
Tourist guides and travel
-
Psychology
- Philosophy of life
- Interpersonal communication
- Mindfulness
- General
- Persuasion and NLP
- Academic psychology
- Psychology of soul and mind
- Work psychology
- Relacje i związki
- Parenting and children psychology
- Problem solving
- Intellectual growth
- Secret
- Sexapeal
- Seduction
- Appearance and image
- Philosophy of life
-
Religion
-
Sport, fitness, diets
-
Technology and mechanics
Videocourses
-
Data bases
-
Big Data
-
Biznes, ekonomia i marketing
-
Cybersecurity
-
Data Science
-
DevOps
-
For children
-
Electronics
-
Graphics/Video/CAX
-
Games
-
Microsoft Office
-
Development tools
-
Programming
-
Personal growth
-
Computer networks
-
Operational systems
-
Software testing
-
Mobile devices
-
UX/UI
-
Web development
-
Management
Podcasts
- Ebooks
- Programming
- Python
- Ekstrakcja danych z językiem Python. Pozyskiwanie danych z internetu. Wydanie II
E-book details
Ekstrakcja danych z językiem Python. Pozyskiwanie danych z internetu. Wydanie II
Ekstrakcję danych (ang. web scraping), zwaną też wydobywaniem danych z zasobów internetu, wiele osób postrzega jako wyższy stopień wtajemniczenia: przy niewielkim wysiłku można uzyskać imponujące wyniki i wykorzystać je w różnoraki sposób. Nie dziwi więc, że wokół tej dziedziny narosło mnóstwo mitów. Wątpliwości jest wiele, począwszy od legalności tego rodzaju praktyk, skończywszy na właściwościach różnych narzędzi. W praktyce na ekstrakcję danych składa się cały szereg zróżnicowanych technik i technologii, takich jak analiza danych, analiza składniowa języka naturalnego, a także zabezpieczenie informacji. Aby w pełni wykorzystać ich zalety, konieczne jest zrozumienie sposobu, w jaki funkcjonują.
Ta książka jest znakomitym przewodnikiem po technikach pozyskiwania danych z internetu. Przedstawiono tu również zasady gromadzenia, przekształcania i wykorzystywania danych z różnych zasobów. W kontekście ekstrakcji danych omówiono zagadnienia związane z bazami danych, serwerami sieciowymi, protokołem HTTP, językiem HTML, bezpieczeństwem sieciowym, przetwarzaniem obrazów, analizą danych i wieloma innymi kwestiami. Zaprezentowane tu rozwiązania programistyczne zostały napisane w Pythonie. Nie zabrakło też omówienia bibliotek przydatnych w pracy osób tworzących roboty indeksujące. Dzięki tej książce szybko zaczniesz pozyskiwać i w dowolny sposób wykorzystywać posiadane dane. Już dziś te rozwiązania są stosowane w prognozowaniu rynkowym, tłumaczeniu maszynowym, a nawet w diagnostyce medycznej!
Najważniejsze zagadnienia:
- korzystanie z platformy Scrapy do tworzenia robotów
- metody odczytu, wydobywania i przechowywania pozyskiwanych danych
- oczyszczanie i normalizacja danych
- interfejsy API
- przetwarzanie obrazów na tekst
- testowanie witryn za pomocą robotów
Wyszukuj dane, gromadź je i korzystaj z nich do woli!
- Przedmowa
- Czym jest ekstrakcja danych z internetu?
- Dlaczego ekstrakcja danych z internetu?
- Informacje o książce
- Konwencje używane w tej książce
- Kod źródłowy
- Podziękowania
- Część I Tworzenie pełzaczy
- Rozdział 1. Twój pierwszy robot indeksujący
- Połączenie
- Wprowadzenie do biblioteki BeautifulSoup
- Instalacja biblioteki BeautifulSoup
- Korzystanie z biblioteki BeautifulSoup
- Stabilne połączenia i obsługa wyjątków
- Rozdział 2. Zaawansowana analiza składniowa HTML
- Młotek nie zawsze jest potrzebny
- Kolejna porcja BeautifulSoup
- Funkcje find() i find_all()
- Inne obiekty biblioteki BeautifulSoup
- Poruszanie się po drzewach hierarchii
- Dzieci i pozostali potomkowie
- Rodzeństwo
- Rodzice
- Wyrażenia regularne
- Wyrażenia regularne w bibliotece BeautifulSoup
- Uzyskiwanie dostępu do atrybutów
- Wyrażenia lambda
- Rozdział 3. Tworzenie robotów indeksujących
- Poruszanie się po pojedynczej domenie
- Pełzanie po całej witrynie
- Gromadzenie danych z całej witryny
- Pełzanie po internecie
- Rozdział 4. Modele ekstrakcji danych
- Planowanie i definiowanie obiektów
- Obsługa różnych szat graficznych
- Konstruowanie robotów indeksujących
- Poruszanie się po witrynach za pomocą paska wyszukiwania
- Poruszanie się po witrynach za pomocą odnośników
- Poruszanie się pomiędzy różnymi typami stron
- Właściwe podejście do procesu tworzenia modeli robotów indeksujących
- Rozdział 5. Scrapy
- Instalacja biblioteki Scrapy
- Inicjowanie nowego pająka
- Pisanie prostego robota indeksującego
- Korzystanie z pająków przy użyciu reguł
- Tworzenie elementów
- Wyświetlanie elementów
- Potoki elementów
- Dzienniki zdarzeń w bibliotece Scrapy
- Dodatkowe zasoby
- Instalacja biblioteki Scrapy
- Rozdział 6. Przechowywanie danych
- Pliki multimedialne
- Przechowywanie danych w plikach CSV
- MySQL
- Instalacja środowiska MySQL
- Podstawowe polecenia
- Integracja ze środowiskiem Python
- Techniki bazodanowe i dobre rozwiązania
- Sześć stopni oddalenia w środowisku MySQL
- Alerty e-mail
- Część II Zaawansowana ekstrakcja danych
- Rozdział 7. Odczytywanie dokumentów
- Kodowanie dokumentu
- Pliki tekstowe
- Kodowanie tekstu a internet globalny
- Historia kodowania znaków
- Kodowanie w akcji
- Kodowanie tekstu a internet globalny
- Format CSV
- Odczyt plików CSV
- Format PDF
- Edytor Microsoft Word i pliki .docx
- Rozdział 8. Oczyszczanie danych
- Oczyszczanie na poziomie kodu
- Normalizacja danych
- Oczyszczanie pozyskanych danych
- OpenRefine
- Instalacja
- Korzystanie z aplikacji OpenRefine
- Filtrowanie
- Oczyszczanie
- OpenRefine
- Oczyszczanie na poziomie kodu
- Rozdział 9. Odczyt i zapis języków naturalnych
- Podsumowywanie danych
- Modele Markowa
- Sześć stopni oddalenia od Wikipedii podsumowanie
- Natural Language Toolkit
- Instalacja i konfiguracja
- Analiza statystyczna za pomocą pakietu NLTK
- Analiza leksykologiczna za pomocą pakietu NLTK
- Dodatkowe zasoby
- Rozdział 10. Kwestia formularzy i pól logowania
- Biblioteka Requests
- Przesyłanie podstawowego formularza
- Przyciski opcji, pola zaznaczania i inne mechanizmy wprowadzania danych
- Wysyłanie plików i obrazów
- Pola logowania i ciasteczka
- Podstawowe uwierzytelnianie protokołu HTTP
- Inne problemy z formularzami
- Rozdział 11. Ekstrakcja danych a język JavaScript
- Krótkie wprowadzenie do języka JavaScript
- Popularne biblioteki JavaScriptu
- jQuery
- Google Analytics
- Google Maps
- Popularne biblioteki JavaScriptu
- Ajax i dynamiczny HTML
- Uruchamianie kodu JavaScriptu w środowisku Python za pomocą biblioteki Selenium
- Dodatkowe obiekty WebDriver
- Obsługa przekierowań
- Końcowe uwagi na temat języka JavaScript
- Krótkie wprowadzenie do języka JavaScript
- Rozdział 12. Ekstrakcja danych poprzez API
- Krótkie wprowadzenie do API
- Metody HTTP a API
- Dodatkowe informacje na temat odpowiedzi API
- Analizowanie składni formatu JSON
- Nieudokumentowane API
- Wyszukiwanie nieudokumentowanych API
- Dokumentowanie nieudokumentowanych API
- Automatyczne wyszukiwanie i dokumentowanie API
- Łączenie API z innymi źródłami danych
- Dodatkowe informacje na temat API
- Krótkie wprowadzenie do API
- Rozdział 13. Przetwarzanie obrazów i rozpoznawanie tekstu
- Przegląd bibliotek
- Pillow
- Tesseract
- Instalacja aplikacji Tesseract
- pytesseract
- NumPy
- Przetwarzanie prawidłowo sformatowanego tekstu
- Automatyczne korygowanie obrazów
- Ekstrakcja danych z obrazów umieszczonych w witrynach
- Odczytywanie znaków CAPTCHA i uczenie aplikacji Tesseract
- Uczenie aplikacji Tesseract
- Ekstrakcja kodów CAPTCHA i przesyłanie odpowiedzi
- Przegląd bibliotek
- Rozdział 14. Unikanie pułapek na boty
- Kwestia etyki
- Udawanie człowieka
- Dostosuj nagłówki
- Obsługa ciastek za pomocą języka JavaScript
- Wyczucie czasu to podstawa
- Popularne zabezpieczenia formularzy
- Wartości ukrytych pól wejściowych
- Unikanie wabików
- Być człowiekiem
- Rozdział 15. Testowanie witryn internetowych za pomocą robotów indeksujących
- Wprowadzenie do testowania
- Czym są testy jednostkowe?
- Moduł unittest
- Testowanie Wikipedii
- Testowanie za pomocą biblioteki Selenium
- Interakcje z witryną
- Przeciąganie i upuszczanie elementów
- Zrzuty ekranu
- Interakcje z witryną
- Selenium czy unittest?
- Wprowadzenie do testowania
- Rozdział 16. Zrównoleglanie procesu ekstrakcji danych
- Procesy i wątki
- Wielowątkowa ekstrakcja danych
- Wyścigi i kolejki
- Moduł threading
- Wieloprocesowa ekstrakcja danych
- Przykład z Wikipedią
- Komunikacja międzyprocesowa
- Wieloprocesowa ekstrakcja danych metoda alternatywna
- Rozdział 17. Zdalna ekstrakcja danych z internetu
- Powody korzystania z serwerów zdalnych
- Unikanie blokowania adresu IP
- Przenośność i rozszerzalność
- Tor
- PySocks
- Hosting zdalny
- Uruchamianie z poziomu serwisu hostingowego
- Uruchamianie z poziomu chmury
- Dodatkowe zasoby
- Powody korzystania z serwerów zdalnych
- Rozdział 18. Legalność i etyka ekstrakcji danych z internetu
- Znaki towarowe, prawa autorskie, patenty, ojej!
- Prawo autorskie
- Naruszenie prawa własności rzeczy ruchomych
- Ustawa o oszustwach i nadużyciach komputerowych
- Plik robots.txt i warunki świadczenia usług
- Trzy roboty indeksujące
- Sprawa eBay przeciwko Bidders Edge (prawo własności rzeczy ruchomych)
- Sprawa Stany Zjednoczone przeciwko Auernheimerowi (ustawa CFAA)
- Sprawa Field przeciwko Google (prawo autorskie i plik robots.txt)
- Co dalej?
- O autorce
- Kolofon
- Znaki towarowe, prawa autorskie, patenty, ojej!
- Title: Ekstrakcja danych z językiem Python. Pozyskiwanie danych z internetu. Wydanie II
- Author: Ryan Mitchell
- Original title: Web Scraping with Python: Collecting More Data from the Modern Web, 2nd Edition
- Translation: Krzysztof Sawka
- ISBN: 978-83-283-5636-8, 9788328356368
- Date of issue: 2019-07-23
- Format: Ebook
- Item ID: ekspy2
- Publisher: Helion