Airflow. Monitorowanie przepływu danych - ebook
Airflow. Monitorowanie przepływu danych - ebook
Wszystkie dane pod pełną kontrolą.
W czasach, gdy wiele naszych działań przeniosło się do przestrzeni cyfrowej, tworzymy i agregujemy ogromne ilości danych. Przechowujemy je na dyskach urządzeń, mobilnych nośnikach pamięci, w chmurach, a nawet w formie załączników poczty elektronicznej. Aby uzyskać z nich jak najwięcej informacji, musimy wykonywać odpowiednie procesy analityczno-agregujące, które następnie pozwolą nam na wyciągnięcie właściwych wniosków, a potem podjęcie odpowiednich decyzji. W tym miejscu często pojawia się problem: w jaki sposób pogodzić różne formaty danych, odpowiednio je ze sobą połączyć, wykonać mapowanie i konwertowanie?
Wtedy do gry wkraczają tak zwane orkiestratory zadań, a należy do nich między innymi Apache Airflow. Jest to jedno z najpopularniejszych narzędzi służących do tworzenia, organizowania i monitorowania przepływów pracy, a także uruchamiania łańcuchów zadań na podstawie danych pochodzących z rozmaitych źródeł i występujących w różnych formatach.
Apache Airflow - darmowej usłudze dostępnej dla każdego, kto zna język Python - poświęcona jest ta książka:
- Znajdziesz w niej opis poszczególnych modułów narzędzia Apache Airflow
- Korzystając z zawartych w niej wskazówek, przeprowadzisz proces instalacji i przygotujesz środowisko pracy
- Przyjrzysz się poszczególnym elementom Apache Airflow
- Poznasz dobre praktyki związane z pracą w orkiestratorze danych
Spis treści
Wprowadzenie
Rozdział 1. DAG i zadania
- Pierwszy DAG
- BashOperator
- Skrypty powłoki (sh)
- Kolejność wykonywania poleceń (graf)
- Podejście bitowe (rekomendowane)
- Podejście funkcyjne
- Przykładowa implementacja
- Operatory Pythona
- PythonOperator
- Skrypty i moduły
- PythonVirtualenvOperator
- ExternalPythonOperator
- Konfiguracja i harmonogram DAG-a
- default_args
- Dokumentacja
- Podstawowy harmonogram zadań (scheduler)
- catchup i indywidualny start/end
- Historia wykonań
Rozdział 2. Połączenia, HTTP, sensory
- Połączenia
- Operator i sensor HTTP
- FileSensor
- BashSensor
- PythonSensor
- Sterowanie zadaniami
- Operatory sterujące
Rozdział 3. Reguły wykonywania zadania
- all_success
- all_failed
- all_done
- one_failed
- one_success
- none_failed
- none_skipped
- none_failed_min_one_success
- Przykładowa implementacja
Rozdział 4. Przekazywanie informacji
- Szablon Jinja
- XCom
- Historia XCom
- Variable
- DAG Config oraz obiekt Param
- Opcja do modyfikacji daty logicznej
Rozdział 5. Zadania oparte na SQL-u
- Instalacja rozszerzeń
- SQLExecuteQueryOperator
- SQLColumnCheckOperator/SQLTableCheckOperator
- SQLCheckOperator/SQLValueCheckOperator
- SQLIntervalCheckOperator/SQLThresholdCheckOperator
- BranchSQLOperator
- SQLSensor
Rozdział 6. Hooki i pozostałe operatory
- Hooki
- TriggerDagRunOperator
- ShortCircuitOperator
Rozdział 7. Dataset i backfill
- Dataset jako harmonogram
- Backfill
Rozdział 8. Bezpieczeństwo i administracja
- fernet key
- Rotacja kluczy
- Użytkownicy i uprawnienia
Rozdział 9. Przykłady rozszerzeń (providers)
- Docker
- SFTP
- MongoDB
Rozdział 10. Symulacja środowiska HA
- Uruchomienie klastra
- Pool i kolejka
Rozdział 11. Airflow CLI
- airflow db
- airflow dags
- airflow tasks
- airflow users
- airflow roles
- airflow variables
- airflow connections
- airflow info/version/fernet
| Kategoria: | Bazy danych |
| Zabezpieczenie: |
Watermark
|
| ISBN: | 978-83-289-3387-3 |
| Rozmiar pliku: | 7,8 MB |