Facebook - konwersja
Darmowy fragment

  • promocja

Stwórz własne AI. Jak od podstaw zbudować duży model językowy - ebook

Wydawnictwo:
Tłumacz:
Format:
MOBI
Data wydania:
22 lipca 2025
8415 pkt
punktów Virtualo

Stwórz własne AI. Jak od podstaw zbudować duży model językowy - ebook

Duże modele językowe przestały już być szokującą nowinką technologiczną. Dziś są używane do najróżniejszych celów, a lista ich rzeczywistych i potencjalnych zastosowań stale się wydłuża. A to oznacza, że programiści, inżynierowie i architekci muszą dogłębnie rozumieć zasady działania LLM, a także techniki ich budowania.

Najbardziej przystępne i kompleksowe wyjaśnienie modeli językowych!

Cameron Wolfe, starszy specjalista do spraw AI, Netflix

W tej unikalnej książce znajdziesz kompleksowe omówienie procesu tworzenia LLM, od pracy z zestawami danych po implementację architektury modelu, wstępne szkolenie na nieoznakowanych danych i dostrajanie do określonych zadań. Bez korzystania z gotowych bibliotek LLM samodzielnie zbudujesz podstawowy model, przekształcisz go w klasyfikator tekstu, a ostatecznie stworzysz chatbota, który będzie wykonywał Twoje polecenia. I co najważniejsze ... naprawdę zrozumiesz, jak działa model, w końcu będziesz jego twórcą!

Kompletne, aktualne opracowanie. Gorąco polecam!

dr Vahid Mirjalili, starszy danolog, FM Global

Z tą książką:

  • zaprojektujesz i zbudujesz funkcjonujący model LLM
  • nauczysz się korzystać ze wstępnie wyuczonych wag
  • skonstruujesz kompletny potok szkoleniowy
  • dostosujesz model LLM do zadań klasyfikacji tekstu
  • stworzysz model LLM zdolny do wykonywania przekazywanych mu instrukcji

Niezwykle inspirująca pozycja!

Benjamin Muskalla, starszy inżynier, GitHub

Zbuduj AI ... niech przemówi Twoim kodem!

Spis treści

Przedmowa

Podziękowania

O tej książce

O autorze

1. Czym są duże modele językowe?

  • 1.1. Czym jest model LLM?
  • 1.2. Zastosowania modeli LLM
  • 1.3. Etapy tworzenia modeli LLM i korzystania z nich
  • 1.4. Wprowadzenie do architektury transformerów
  • 1.5. Wykorzystanie dużych zbiorów danych
  • 1.6. Szczegóły architektury modeli GPT
  • 1.7. Tworzenie dużego modelu językowego
  • Podsumowanie

2. Praca z danymi tekstowymi

  • 2.1. Czym są osadzenia słów?
  • 2.2. Tokenizacja tekstu
  • 2.3. Konwersja tokenów na identyfikatory
  • 2.4. Dodawanie specjalnych tokenów kontekstowych
  • 2.5. Kodowanie par bajtów
  • 2.6. Próbkowanie danych z oknem przesuwnym
  • 2.7. Tworzenie osadzeń tokenów
  • 2.8. Kodowanie pozycji słów
  • Podsumowanie

3. Kodowanie mechanizmów uwagi

  • 3.1. Problem z modelowaniem długich sekwencji
  • 3.2. Przechwytywanie zależności między danymi za pomocą mechanizmów uwagi
  • 3.3. Zwracanie uwagi na różne części danych wejściowych przez mechanizm samouwagi
    • 3.3.1. Prosty mechanizm samouwagi bez trenowalnych wag
    • 3.3.2. Obliczanie wag uwagi dla wszystkich tokenów wejściowych
  • 3.4. Implementacja mechanizmu samouwagi z trenowalnymi wagami
    • 3.4.1. Obliczanie wag uwagi krok po kroku
    • 3.4.2. Implementacja kompaktowej klasy samouwagi w Pythonie
  • 3.5. Ukrywanie przyszłych słów dzięki zastosowaniu uwagi przyczynowej
    • 3.5.1. Wykorzystanie maski uwagi przyczynowej
    • 3.5.2. Maskowanie dodatkowych wag uwagi z użyciem dropoutu
    • 3.5.3. Implementacja zwięzłej klasy przyczynowej uwagi
  • 3.6. Rozszerzenie uwagi jednogłowicowej na wielogłowicową
    • 3.6.1. Utworzenie stosu wielu jednogłowicowych warstw uwagi
    • 3.6.2. Implementacja uwagi wielogłowicowej z podziałem wag
  • Podsumowanie

4. Implementacja od podstaw modelu GPT do generowania tekstu

  • 4.1. Kodowanie architektury LLM
  • 4.2. Normalizacja warstwowa aktywacji
  • 4.3. Implementacja sieci ze sprzężeniem w przód z aktywacjami GELU
  • 4.4. Dodawanie połączeń skrótowych
  • 4.5. Łączenie warstw uwagi i warstw liniowych w bloku transformera
  • 4.6. Kodowanie modelu GPT
  • 4.7. Generowanie tekstu
  • Podsumowanie

5. Wstępne szkolenie na nieoznakowanych danych

  • 5.1. Ocena generatywnych modeli tekstowych
    • 5.1.1. Używanie modelu GPT do generowania tekstu
    • 5.1.2. Obliczanie strat związanych z generowaniem tekstu
    • 5.1.3. Obliczanie strat w zestawie szkoleniowym i walidacyjnym
  • 5.2. Szkolenie modelu LLM
  • 5.3. Strategie dekodowania w celu zarządzania losowością
    • 5.3.1. Skalowanie temperaturą
    • 5.3.2. Próbkowanie top-k
    • 5.3.3. Modyfikacja funkcji generowania tekstu
  • 5.4. Wczytywanie i zapisywanie wag modeli z użyciem frameworka PyTorch
  • 5.5. Ładowanie wstępnie przeszkolonych wag z modelu OpenAI
  • Podsumowanie

6. Dostrajanie modelu LLM do zadań klasyfikacji

  • 6.1. Różne kategorie dostrajania
  • 6.2. Przygotowanie zbioru danych
  • 6.3. Tworzenie mechanizmów ładujących dane
  • 6.4. Inicjalizacja modelu z użyciem wag wstępnie przeszkolonego modelu
  • 6.5. Dodawanie nagłówka klasyfikacji
  • 6.6. Obliczanie straty i dokładności klasyfikacji
  • 6.7. Dostrajanie modelu na danych nadzorowanych
  • 6.8. Wykorzystanie modelu LLM jako klasyfikatora spamu
  • Podsumowanie

7. Dostrajanie modelu LLM do zadań wykonywania instrukcji

  • 7.1. Wprowadzenie do dostrajania do wykonywania instrukcji
  • 7.2. Przygotowanie zbioru danych do nadzorowanego dostrajania pod kątem wykonywania instrukcji
  • 7.3. Organizowanie danych w partie szkoleniowe
  • 7.4. Tworzenie mechanizmów ładujących dane dla zbioru danych instrukcji
  • 7.5. Ładowanie wstępnie przeszkolonego modelu LLM
  • 7.6. Dostrajanie modeli LLM do zadań wykonywania instrukcji
  • 7.7. Wyodrębnianie i zapisywanie odpowiedzi
  • 7.8. Ocena dostrojonego modelu LLM
  • 7.9. Wnioski
    • 7.9.1. Co dalej?
    • 7.9.2. Bądź na bieżąco w szybko zmieniającej się dziedzinie
    • 7.9.3. Na koniec
  • Podsumowanie

Dodatek A Wprowadzenie w tematykę frameworka PyTorch

Dodatek B Bibliografia i lektura uzupełniająca

Dodatek C Rozwiązania ćwiczeń

Dodatek D Usprawnianie pętli szkoleniowej

Dodatek E Skuteczne dostrajanie parametrów za pomocą LoRA

Kategoria: Programowanie
Zabezpieczenie: Watermark
Watermark
Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN: 978-83-289-2498-7
Rozmiar pliku: 28 MB

BESTSELLERY

Menu

Zamknij