Facebook - konwersja
Czytaj fragment
Pobierz fragment

Text Mining: metody, narzędzia i zastosowania - ebook

Data wydania:
1 stycznia 2016
Format ebooka:
EPUB
Format EPUB
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najpopularniejszych formatów e-booków na świecie. Niezwykle wygodny i przyjazny czytelnikom - w przeciwieństwie do formatu PDF umożliwia skalowanie czcionki, dzięki czemu możliwe jest dopasowanie jej wielkości do kroju i rozmiarów ekranu. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
, MOBI
Format MOBI
czytaj
na czytniku
czytaj
na tablecie
czytaj
na smartfonie
Jeden z najczęściej wybieranych formatów wśród czytelników e-booków. Możesz go odczytać na czytniku Kindle oraz na smartfonach i tabletach po zainstalowaniu specjalnej aplikacji. Więcej informacji znajdziesz w dziale Pomoc.
Multiformat
E-booki w Virtualo.pl dostępne są w opcji multiformatu. Oznacza to, że po dokonaniu zakupu, e-book pojawi się na Twoim koncie we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu.
(2w1)
Multiformat
E-booki sprzedawane w księgarni Virtualo.pl dostępne są w opcji multiformatu - kupujesz treść, nie format. Po dodaniu e-booka do koszyka i dokonaniu płatności, e-book pojawi się na Twoim koncie w Mojej Bibliotece we wszystkich formatach dostępnych aktualnie dla danego tytułu. Informacja o dostępności poszczególnych formatów znajduje się na karcie produktu przy okładce. Uwaga: audiobooki nie są objęte opcją multiformatu.
czytaj
na tablecie
Aby odczytywać e-booki na swoim tablecie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. Bluefire dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na czytniku
Czytanie na e-czytniku z ekranem e-ink jest bardzo wygodne i nie męczy wzroku. Pliki przystosowane do odczytywania na czytnikach to przede wszystkim EPUB (ten format możesz odczytać m.in. na czytnikach PocketBook) i MOBI (ten fromat możesz odczytać m.in. na czytnikach Kindle).
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
czytaj
na smartfonie
Aby odczytywać e-booki na swoim smartfonie musisz zainstalować specjalną aplikację. W zależności od formatu e-booka oraz systemu operacyjnego, który jest zainstalowany na Twoim urządzeniu może to być np. iBooks dla EPUBa lub aplikacja Kindle dla formatu MOBI.
Informacje na temat zabezpieczenia e-booka znajdziesz na karcie produktu w "Szczegółach na temat e-booka". Więcej informacji znajdziesz w dziale Pomoc.
Czytaj fragment
Pobierz fragment
59,00

Text Mining: metody, narzędzia i zastosowania - ebook

SAS Text Analytics to uniwersalna platforma zaspokajająca potrzeby informacyjne w organizacji do wydobywania i zarządzania informacją dostępną w różnego rodzaju dokumentach tekstowych.
Możliwości omówionych w książce narzędzi i zaimplementowanych algorytmów zostały zilustrowane na przykładach zbiorów danych z różnych dziedzin: zbioru krótkich wypowiedzi dotyczących sportu, pogody i zwierząt, zbioru opisów radiologicznych badań diagnostycznych jamy brzusznej oraz zbioru opinii użytkowników na temat telefonów z forów użytkowników.

Spis treści

Wykaz oznaczeń


Wykaz skrótów


Wprowadzenie


Część I. Wprowadzenie do eksploracji danych tekstowych


1. Trendy w rozwoju systemów informatycznych eksploracji danych

2. Metody eksploracji danych tekstowych
2.1. Przebieg analizy dokumentu tekstowego i charakterystyka stosowanych metod
2.2. Określenie celu, zakresu i kosztów analizy
2.3. Przekształcenie zbioru dokumentów źródłowych
2.3.1. Informacja o częstości występowania poszczególnych terminów
2.3.2. Postać ustrukturyzowana
2.4. Wybór metody obliczeniowej


3. Architektura oprogramowania do eksploracji danych tekstowych na przykładzie pakietu SAS Text Analytics firmy SAS Institute
3.1. Rozpoczęcie pracy z programem Enterprise Miner (Text Miner)
3.1.1. Tworzenie nowego projektu i biblioteki
3.1.2. Tworzenie diagramów analizy danych
3.1.3. Określanie źródła danych projektu
3.2. Metodyka SEMMA
3.2.1. Etap Próbkowanie
3.2.2. Etap Eksploracja
3.2.3. Etap Modyfikacja
3.2.4. Etap Modelowanie
3.2.5. Etap Ocena
3.3. Text Miner – etapy przetwarzania
3.4. Text Miner – komponenty
3.4.1. Właściwości węzła Klastrowanie tekstu
3.4.2. Właściwości węzła Filtrowanie tekstu
3.4.3. Właściwości węzła Import tekstu
3.4.4. Właściwości węzła Parsowanie tekstu
3.4.5. Właściwości węzła Profil tekstu
3.4.6. Właściwości węzła Generator reguł tekstu
3.4.7. Właściwości węzła Temat tekstu
3.5. Przykład: Klasteryzacja zbioru zdań
3.5.1. Konfiguracja diagramu przepływu danych
3.5.2. Konfiguracja poszczególnych węzłów i interpretacja wyników
3.5.3. Podsumowanie

Część II. Przetwarzanie informacji zawartej w dokumencie tekstowym


4. Wybór funkcji wagującej macierzy częstości występowania terminów
4.1. Wagi częstości
4.2. Wagi wyrażenia
4.3. Przykład obliczeniowy
4.4. Podsumowanie


5. Redukcja wymiarowości macierzy częstości występowania terminów
5.1. Analiza semantyczna zmiennych ukrytych
5.1.1. Rozkład SVD
5.1.2. Przykład obliczeniowy rozkładu SVD
5.2. Podsumowanie


6. Wybór algorytmu klastrowania dokumentów tekstowych
6.1. Określenie miary podobieństwa grupy dokumentów
6.2. Algorytmy klastrowania
6.3. Grupowanie za pomocą węzła Klastrowanie tekstów
6.3.1. Węzeł Klastrowanie tekstu – algorytm Hierarchiczny
6.3.2. Węzeł Klastrowanie tekstu – algorytm Maksymalizacja oczekiwań
6.3.3. Węzeł Klastrowanie tekstu – właściwość Terminy opisowe
6.4. Grupowanie za pomocą węzła Temat tekstu
6.4.1. Tematy definiowane przez użytkownika
6.5. Posumowanie


7. Zarys metodyki tworzenia modeli predykcyjnych oraz porównywania zdolności predykcyjnych modeli
7.1. Tworzenie modelu predykcyjnego
7.2. Ocena błędu klasyfikacji
7.2.1. Krzywe ROC
7.2.2. Wykresy wzrostu
7.3. Przykład: Użycie węzła Importowanie tekstu oraz porównywanie modeli predykcyjnych
7.3.1. Konfiguracja diagramu przepływu danych oraz poszczególnych węzłów
7.4. Podsumowanie


8. Klastrowanie dokumentów nadzorowane przez użytkownika
8.1. Charakterystyka węzła Generator reguł tekstu
8.2. Podsumowanie


Część III. Wydobywanie i organizacja wiedzy z dokumentów tekstowych w instytucji


9. Zarys zagadnień związanych z wydobywaniem i organizacją wiedzy w instytucji
9.1. Wprowadzenie
9.1.1. SAS Crawler
9.1.2. SAS Search and Indexing
9.1.3. SAS Information Retrival Studio
9.2. Podsumowanie


10. Klasyfikacja dokumentów
10.1. SAS Content Categorization Studio
10.1.1. Metody klasyfikacji dokumentów dostępne w SAS CCS
10.1.2. Wydobywanie konceptów dostępne w SAS CCS
10.1.3. Wydobywanie kontekstu dostępne w SAS CCS
10.1.4. Zakładanie nowego projektu
10.1.5. Metodyka planowania projektu
10.1.6. Tworzenie nowej kategorii
10.1.7. Zasady używania kategoryzatora statystycznego
10.1.8. Zasady używania kategoryzatora generującego reguły automatycznie
10.1.9. Zasady używania kategoryzatora bazującego na regułach
10.1.10. Praca z konceptami
10.2. Przykład: Zastosowania klasyfikacji dokumentów w celu wspomagania diagnostyki w departamencie radiodiagnostyki
10.3. Podsumowanie


11. Analiza sentymentu
11.1. SAS Sentiment Analysis Studio
11.1.1. Metoda oceny sentymentu dla dokumentu
11.1.2. Zakładanie nowego projektu
11.1.3. Testowanie istniejących modeli
11.1.4. Tworzenie modeli hybrydowych
11.1.5. SAS Sentiment Analysis Server
11.2. Przykład analizy sentymentu użytkowników telefonów komórkowych
11.3. Podsumowanie


Część IV. Inne zagadnienia przetwarzania dokumentów tekstowych


12. Inne elementy przetwarzania danych tekstowych
12.1. Porównywanie dokumentów za pomocą metryk
12.1.1. Odległość kosinusowa
12.1.2. Metryka Jaccarda
12.2. Wydobywanie jednostek specjalnych z dokumentów


Słownik pojęć związanych z eksploracją danych tekstowych


Dodatek A: Podstawy obsługi środowiska SAS i językGL
A.1. Wprowadzenie do obsługi systemu SAS
A.1.1. Struktura zbioru danych SAS
A.1.2. Formaty i informaty
A.2. JęzykGL
A.2.1. Blok typu DATA STEP
A.2.2. Blok typu PROC STEP


Dodatek B: Podstawy języka makr
B.1. Makrozmienne
B.2. Makroprogramy
Dodatek C: Wizualna interpretacja danych
C.1. Przegląd typów wykresów stosowanych dla danych tekstowych


Bibliografia


Indeks pojęć


Spis rysunków


Spis tabel

Kategoria: Bazy danych
Zabezpieczenie: Watermark
Watermark
Watermarkowanie polega na znakowaniu plików wewnątrz treści, dzięki czemu możliwe jest rozpoznanie unikatowej licencji transakcyjnej Użytkownika. E-książki zabezpieczone watermarkiem można odczytywać na wszystkich urządzeniach odtwarzających wybrany format (czytniki, tablety, smartfony). Nie ma również ograniczeń liczby licencji oraz istnieje możliwość swobodnego przenoszenia plików między urządzeniami. Pliki z watermarkiem są kompatybilne z popularnymi programami do odczytywania ebooków, jak np. Calibre oraz aplikacjami na urządzenia mobilne na takie platformy jak iOS oraz Android.
ISBN: 978-83-01-18686-9
Rozmiar pliku: 9,9 MB

FRAGMENT KSIĄŻKI

Wykaz oznaczeń

------------------------ -----------------------------------------------------------------------------------------------------------------------------------------------------
a_(ij) – częstość wystąpienia i-tego terminu w j-tym dokumencie macierzy częstości
a_(i-klaster_j) – częstość wystąpienia i-tego terminu w j-tym klastrze
a_(i-korpus) – liczba wystąpień i-tego terminu w całym korpusie
â_(ij) – funkcja ważąca i-tego terminu w j-tym dokumencie macierzy częstości
atrbut₁,…, atrbut_(n) – atrybuty wybranego obiektu
A – macierz częstości
C – zmienna kategoryzująca celu
cecha₁, …, cecha_(n) – cechy wybranego obiektu
C₁, C₂, …, C_(k) – k poziomów zmiennej kategoryzującej celu
d – całkowita liczba dokumentów w korpusie
d_(i) – liczba dokumentów w korpusie, w których występuje i-ty termin
d_(klaster_j) – liczba dokumentów w j-tym klastrze
dys_(W) – dystans między grupami według metody Warda
dys_(cos) – odległość kosinusowa między dokumentami
D_(i) – macierz kowariancji dla i-tej grupy klasteryzacji
Dok_(k) – wektor reprezentujący dokument w postaci formalnej o indeksie k
Dok_(k)^(j) – j-ta cecha wektora reprezentującego k-ty dokument
E_(i) – miara entropii dla i-tego terminu w macierzy częstości
F_(dw) – dwumianowa skumulowana funkcja gęstości prawdopodobieństwa
g_(i) – liczba wystąpień i-tego terminu w całym korpusie dokumentów
IDF_(i) – miara odwrotnej częstości dokumentu dla i-tego terminu w macierzy częstości
L_(ij) – waga częstości dla elementu o indeksach i, j w macierzy częstości
MI_(i) – miara informacji wzajemnej dla i-tego terminu w macierzy częstości
m – liczba wierszy macierzy częstości, odpowiada liczbie terminów zawartych w macierzy częstości
met_(Jacc)(Dok₁, Dok₂) – metryka Jaccarda określająca stopień podobieństwa dwóch dokumentów
n – liczba kolumn w macierzy częstości, odpowiada liczbie dokumentów tekstowych korpusu
n₁, n₂ – liczba elementów w grupach
pr(C_(k)) – procent dokumentów w korpusie, którym przypisany jest k-ty poziom zmiennej kategoryzującej celu
pr(t_(i), C_(k)) – procent dokumentów w korpusie zawierających i-ty termin, którym jednocześnie jest przypisany k-ty poziom zmiennej kategoryzującej celu
pr(t_(i)) – procent dokumentów w korpusie zawierających i-ty termin
pr_(i) – procent danych należących do i-tego klastra
p_(dw)(t_(i)) – prawdopodobieństwo w rozkładzie dwumianowym przypisane terminowi t_(i) przez algorytm wyboru terminów opisowych klastra węzła Klastrowanie tekstu
p(x) – prawdopodobieństwo, że zmienna losowa X przyjmie wartość x
sim_(Jacc)(Dok₁, Dok₂) – współczynnik Jaccarda dla dwóch dokumentów
term(Dok_(i)) – zbiór terminów występujących w i-tym dokumencie
µ₁, µ₂ – wartość średnia grupy
t_(i) – i-ty termin zawarty w macierzy częstości
W_(i) – waga wyrażenia dla i-tego terminu w macierzy częstości
X, Y – zmienne losowe
x – wartość zmiennej losowej X
------------------------ -----------------------------------------------------------------------------------------------------------------------------------------------------Wykaz skrótów

------- --------------------------------------------------
CCS – Content Categorization Studio
CL – computational Linguistics
DICOM – Digital Imaging and Communications in Medicine
EM – Enterprise Miner
FA – Factor Analysis
HIS – Hospital Information System
HL7 – Health Level 7
HLT – Human Language Technology
HTML – Hyper Text Markup Language
ID – Unique Identification Field
IDF – Inverse Document Frequency
IE – Information Extraction
IHE – Integrating the Healthcare Enterprise
IO – Information Organization
ISO – International Standard Organization
KO – Knowledge Organization
LSA – Latent Semantic Analysis
LSI – Latent Semantic Indexing
NLE – Natural Language Engineering
NLG – Natural Language Generation
NLP – Natural Language Processing
NLU – Natural Language Understanding
OLAP – OnLine Analytical Processing
PACS – Picture Archiving and Communication Systems
PCA – Principal Component Analysis
PDF – Portable Document Format
PLS – Partial Least Squares
RSS – Rich Site Summary
SOFM – self-organizing feature map
SOM – Self-Organizing Map
SVD – Singular Value Decomposition
SVM – Support Vector Machines
TM – Text Miner
URL – Uniform Resource Locator
xHTML – Extensible Hyper Text Markup Language
XML – Extensible Markup Language
4GL – Four Generation Language
------- --------------------------------------------------Wprowadzenie

The secret of getting ahead is getting started.

Mark Twain

Celem książki jest efektywne i płynne wprowadzenie Czytelnika w metody eksploracji danych tekstowych dokonywanej w szczególności z wykorzystaniem narzędzi pakietu Text Analytics firmy SAS Institute. Podano zarys podstaw teoretycznych niezbędnych do skutecznego stosowania dostępnych narzędzi w aplikacjach biznesowych, w tym między innymi opis reprezentacji informacji zawartej w dokumencie tekstowym, metody przekształcania tej informacji, metody wykorzystywane do grupowania i klasyfikacji dokumentów tekstowych. Zamieszczono odniesienia do istniejącego aktualnego piśmiennictwa zarówno w języku angielskim, jak i polskim.

Przedstawiono architekturę rozwiązania firmy SAS Institiute Text Analytics wspomagającą zaspokajanie potrzeb informacyjnych w organizacji do wydobywania i zarządzania informacją dostępną w różnego rodzaju dokumentach tekstowych. Omówiono najważniejsze elementy istniejącego rozwiązania: SAS Text Miner, SAS Information Retrival Studio, SAS Content Categorization Studio oraz SAS Sentiment Analysis Studio.

Podano przykłady użycia wymienionych narzędzi w aplikacjach biznesowych: wydobywanie informacji w organizacji, zarządzanie zawartością dokumentów, analizę sentymentu, grupowanie i klasyfikację dokumentów.

Możliwości omówionych narzędzi i zaimplementowanych algorytmów zostały zilustrowane na przykładach zbiorów danych z różnych dziedzin: zbioru krótkich wypowiedzi dotyczących sportu, pogody i zwierząt, zbioru opisów radiologicznych badań diagnostycznych jamy brzusznej, zbioru opinii użytkowników na temat telefonów z forów użytkowników.

Praca składa się z czterech części. W części I – zatytułowanej Wprowadzenie do eksploracji danych tekstowych, zawarto trzy rozdziały, które mają za zadanie wprowadzić Czytelnika w zagadnienia eksploracji dokumentów tekstowych, podając niezbędną interdyscyplinarną wiedzę oraz klasyfikując używane metody na tle innych dziedzin zajmujących się przetwarzaniem danych oraz prezentując architekturę oprogramowania. Rozdział 1 to ogólne wprowadzenie do przetwarzania danych tekstowych, w którym zaprezentowano trendy w rozwoju systemów informatycznych zajmujących się przetwarzaniem danych, a w szczególności danych niestrukturalnych, jakimi są dane tekstowe.

W rozdziale 2 przedstawiono ogólną metodykę pozwalającą uporządkować etapy przetwarzania danych tekstowych, krótki przegląd metod reprezentacji informacji zawartej w dokumentach tekstowych oraz zarys stosowanych technik obliczeniowych.

W rozdziale 3 zaprezentowano architekturę oprogramowania SAS Text Analytics, metodykę firmową SEMMA, właściwości najważniejszych komponentów narzędzia Text Miner oraz informacje niezbędne do uruchomienia pierwszego projektu.

W części II – zatytułowanej Przetwarzanie informacji zawartej w dokumencie tekstowym, zawarto rozdziały od czwartego do ósmego, w których przedstawiono kolejne etapy analizy dokumentu tekstowego.

W rozdziale 4 omówiono sposoby przekształcania macierzy częstości występowania terminów w korpusie dokumentów, podając definicje funkcji wagującej oraz najczęściej stosowanych wariantów jej komponentów: wagi częstości i wagi wyrażenia.

W rozdziale 5 zawarto opis metody analizy semantycznej zmiennych ukrytych, która wykorzystując rozkład wartości osobliwych, pozwala na redukcję rozmiarów macierzy częstości występowania terminów.

W rozdziale 6 – zatytułowanym Wybór algorytmu klastrowania dokumentów tekstowych, zaprezentowano hierarchiczne i probabilistyczne algorytmy grupowania oraz ich zastosowanie z użyciem węzłów Text Minera Klastrowanie tekstu oraz Temat tekstu.

W rozdziale 7 omówiono zarys metodyki tworzenia modeli predykcyjnych oraz porównywania zdolności predykcyjnych modeli za pomocą krzywych ROC oraz wykresów wzrostu. Znajduje się tu przykład zastosowania węzła Text Minera Import tekstu.

W rozdziale 8, który zamyka część II, rozszerzono możliwości klastrowania tekstów przez opis podejścia nadzorowanego przez użytkownika z wykorzystaniem węzła Text Minera Generator reguł tekstu.

W części III – zatytułowanej Wydobywanie i organizacja wiedzy z dokumentów tekstowych w organizacji, zawarto rozdziały od dziewiątego do jedenastego, w których przedstawiono zagadnienia dotyczące zarządzania informacją w organizacji.

W rozdziale 9 zaprezentowano zarys zagadnień, podstawowe słownictwo stosowane w zakresie zarządzania informacją w organizacji oraz architekturę i komponenty SAS Information Retrieval Studio – narzędzia zarządzającego automatycznym przetwarzaniem dokumentów w organizacji.

W rozdziale 10 – zatytułowanym Klasyfikacja dokumentów, przedstawiono wykorzystywane techniki statystyczne oraz bazujące na regułach lingwistycznych i boole’owskich, kryteria oceny jakości klasyfikacji oraz metodykę projektowania i tworzenia taksonomii płaskich i hierarchicznych za pomocą SAS Content Categorization Studio.

W rozdziale 11 zawarto opis zagadnień dotyczących analizy sentymentu, wykorzystywane techniki statystyczne bazujące na regułach oraz hybrydowe, sposób wyznaczania sentymentu dla dokumentu. Zaprezentowano tu metodykę budowania modeli oceny sentymentu z wykorzystaniem SAS Sentiment Analysis Studio.

W części IV – zatytułowanej Inne zagadnienia przetwarzania dokumentów tekstowych, omówiono dodatkowe aspekty przetwarzania dokumentów tekstowych.

W rozdziale 12 zawarto inne informacje przydatne w procesie przetwarzania dokumentów, a mianowicie bezpośrednie porównywanie treści dokumentów za pomocą miar odległości kosinusowej i metryki Jaccarda oraz zagadnienia wydobywania z dokumentów niezależnych fragmentów informacji skategoryzowanych w ramach predefiniowanych tzw. jednostek specjalnych.

Następnie zamieszczono polsko-angielski słownik pojęć z dziedziny Text Miningu oraz zbiór trzech dodatków mających ułatwić użytkownikowi posługiwanie się technikami i narzędziami zawartymi w książce.

Dodatek A zawiera syntetyczne wprowadzenie do obsługi systemu SAS, prezentując podstawowe koncepcje interfejsu graficznego użytkownika, strukturę i podział wykorzystywanych typów zbiorów danych oraz najważniejsze elementy interfejsu programistycznego – dedykowanego języka 4GL.

Dodatek B zawiera syntetyczny opis języka makr służący głównie do parametryzacji języków 4GL i SQL, co umożliwia automatyzację wielu czynności w środowisku SAS oraz budowanie złożonych potoków przetwarzania.

Dodatek C prezentuje temat przetwarzania danych tekstowych z punktu widzenia wizualizacji danych. Przedstawiono główne założenia paradygmatu wizualnej analizy zbiorów danych oraz scharakteryzowano wykorzystywane w praktyce rodzaje graficznej prezentacji informacji tekstowej.

Książka jest wydana w wersji czarno-białej i aby jej treść była zgodna z oficjalną dokumentacją systemu, w opisach rysunków zostawiono odwołania do kolorów (widocznych po ich uruchomieniu).

Nawigację po strukturze pracy ułatwi szczegółowy spis treści oraz indeks pojęć. Na końcu zamieszczono bibliografię, która zawiera alfabetyczny wykaz cytowanych pozycji. Mamy nadzieje, że to wszystko sprawi, że książka stanie się cenioną pomocą w codziennej pracy analityka, a po lekturze i samodzielnym przerobieniu podanych zagadnień Czytelnik zyska wgląd w istniejące wyzwania w zakresie eksploracji dokumentów tekstowych, pozna architekturę systemu SAS Text Analytics, będzie posiadał szczegółową wiedzę na temat wyboru narzędzia, algorytmu oraz jego konfiguracji pozwalającą na zaspokajanie potrzeb w zakresie swojej działalności biznesowej i naukowej.Rozdział 1 Trendy w rozwoju systemów informatycznych eksploracji danych

Informacja zawarta w danych jest użyteczna w procesie podejmowania decyzji. Ze względu na różnorodność przechowywanej informacji historycznie można wyróżnić kilka klas systemów informatycznych wspierających ten proces.

Informacje niezbędne do bieżącego funkcjonowania organizacji przechowuje się w systemach transakcyjnych. W celu wspomagania procesu podejmowania decyzji dane transakcyjne są agregowane i gromadzone w tematycznych repozytoriach i wykorzystywane w procesie podejmowania decyzji biznesowych (Business Intelligence systems). Ze względu na rozmiar dane te są organizowane w tzw. hurtowniach danych (data warehouses), które wykorzystują silniki relacyjnych baz danych w schemacie gwiazdy lub płatka śniegu. Historycznie do przetwarzania tak zorganizowanych danych pogrupowanych w zaprojektowanych wymiarach wykorzystuje się technologię wielowymiarowych kostek (OnLine Analytical Processing – OLAP) umożliwiającą analizę w zaprojektowanych wymiarach na różnych poziomach szczegółowości.

Obecnie wraz z rozwojem technologii elektronicznego formatu zapisu dużych danych (Apache Hadoop), sieci Internet (skrót od ang. inter-network), który minimalizuje koszt powielania informacji i stanowi kanał błyskawicznej wymiany i dystrybucji informacji, obserwuje się rozwój technologii wspomagającej przetwarzanie dużych danych (Big Data).

Metody OLAP służą głównie do agregacji danych i raportowania, ale równolegle rozwijają się metody eksploracji danych (data mining methods), których celem jest odkrywanie wiedzy. Metody eksploracji danych najczęściej są klasyfikowane pod kątem dziedziny i celu analizy. Stosując to kryterium, można wyróżnić metody (Lasek, Pęczkowski 2013):

• klasyfikacji – polegające na przypisaniu do każdego analizowanego obiektu etykiety ze zbioru zdefiniowanych klas;

• grupowania – polegające na analizie skupień występujących w danych;

• odkrywania asocjacji – polegające na odkrywaniu związków między obiektami danych;

• odkrywania sekwencji – polegające na wykrywaniu sekwencji zdarzeń;

• regresji – polegające na odkrywaniu wpływu jednej lub większej liczby cech na wybraną cechę;

• odkrywania charakterystyk – polegające na znajdowaniu opisu grup obiektów za pomocą skończonej, możliwie małej grupy cech;

• wykrywanie zmian i odchyleń – polegające na odkrywaniu obserwacji odstających, a także systematycznych błędów pomiaru.

Miejsce technologii OLAP i metod eksploracji danych w procesie wspomagania podejmowania decyzji przedstawiono na rysunku 1.1.

Rysunek 1.1. Miejsce technologii OLAP i metod eksploracji danych w procesie podejmowania decyzji

Zdecydowana większość danych transakcyjnych przechowywana jest w relacyjnych bazach danych. Ze względu jednak na konieczność przechowywania danych niestrukturalizowanych, między innymi danych tekstowych, obserwuje się rozwój standardu XML (Extensible Markup Language) do przechowywania tychże danych. Systemy zarządzania relacyjnymi bazami danych (data base management system), które jako pierwsze zdominowały rynek, zostały przystosowane do nowej sytuacji przez wprowadzenie typu XML jako typu atrybutu relacji. Standard ten umożliwia walidację poprawności danych przez zastosowanie schematu dokumentów (XML schema) oraz przeszukiwanie dokumentów w odpowiednim języku zapytań (XQuery). Początkowo strony internetowe (Web Sites) tworzono w języku HTML (Hyper Text Markup Language), obecnie powstają w języku xHTML (Extensible Hyper Text Markup Language) zgodnym z regułami XML oraz HTML 5.

Podobnie jak w przypadku pozostałych danych, również dla danych tekstowych następuje rozwój metod eksploracji. W języku polskim angielski termin text mining methods tłumaczy się jako metody eksploracji danych tekstowych. W praktyce najczęściej występuje termin text mining. Termin data mining methods zaś jest tłumaczony jako metody eksploracji danych, jednak najczęściej spotyka się krótszy termin data mining.

Metody eksploracji danych tekstowych można sklasyfikować, stosując różne kryteria. Generalnie wywodzą się z wcześniej istniejących metod eksploracji danych nieustrukturyzowanych. Jednym z najobszerniejszych źródeł danych tekstowych jest język mówiony, który zaspokaja naturalną potrzebę komunikacji między ludźmi. Charakteryzuje się jednak wielością wariantów, złożoną składnią oraz wieloznacznością. Język naturalny podlega ciągłym zmianom, a jego rozumienie wymaga pojmowania zmieniającego się świata. Wymienione wyzwania stały się podstawą dziedziny naukowej, której celem jest przetwarzanie informacji zawartej w języku naturalnym NLP (Natural Language Processing). Czytelnik może się spotkać również z innym nazwami angielskimi odnoszącymi się do zagadnień przetwarzania informacji zawartej w języku naturalnym: CL (Computational Linguistics), HLT (Human Language Technology), NLE (Natural Language Engineering), NLU (Natural Language Understanding) oraz NLG (Natural Language Generation).

Pod względem zastosowań text mining można podzielić na następujące metody (Lula 2005; Sołdacki 2006):

• pozyskiwanie informacji z dokumentów (Concept clustering) – polega na dopasowaniu predefiniowanych wzorców do fragmentów tekstu; potencjalne dziedziny zastosowania to automatyczna analiza literatury naukowej z danej dziedziny czy określenie profilu klienta;

• identyfikacja wiadomości zawierającej określone treści (Information Extraction) – polega na stworzeniu systemu monitorującego wychwytującego automatycznie dokumenty pod kątem określonych wiadomości, następnie wskazane dokumenty są analizowane przez człowieka; potencjalne zastosowania: przechwytywanie dokumentów w tekstowych hurtowniach danych;

• generowanie streszczeń (Summarization) – polega na identyfikacji za pomocą metod statystycznych słów kluczowych bądź zdań kluczowych; potencjalne zastosowanie: analiza streszczeń obszernych zbiorów dokumentów;

• klasyfikacja wzorcowa (Document classification lub Document categorization) – polega na przypisaniu każdego z dokumentów do jednej z wcześniej zdefiniowanych klas; potencjalne zastosowanie: kategoryzacja wiadomości czy dokumentów;

• klasyfikacja bezwzorcowa (Document clustering) – polega na zdefiniowaniu miary liczbowej podobieństwa dokumentów i zastosowaniu dobrze znanych metod klasyfikacji; potencjalne zastosowania: wydzielenie grup podobnych dokumentów, znalezienie cech charakterystycznych dla elementów grup i zależności między nimi;

• identyfikacja powiązań (Association) – polega na wykryciu związków między informacjami pozyskanymi z dokumentów bądź na skojarzeniu danego dokumentu z innymi; potencjalne zastosowanie to połączenie wcześniej nieznanych faktów;

• walidacja i nawigacja (Validation and Navigation) – polega na zapewnieniu użytkownikowi prostej metody interpretacji wyników oraz poruszania się w dużym zbiorze dokumentów, co zazwyczaj stanowi znaczącą pomoc w rozwiązaniu innego problemu.
mniej..

BESTSELLERY

Kategorie: