This PDF 1.5 document has been generated by Microsoft® Word 2010, and has been sent on pdf-archive.com on 03/02/2016 at 09:37, from IP address 157.158.x.x.
The current document download page has been viewed 347 times.
File size: 442.99 KB (3 pages).
Privacy: public file
SSiED - opracowanie
Klasyfikacja
Reguła decyzyjna - wyrażenie logiczne złożone z części warunkowej i części decyzyjnej.
JEŻELI warunek TO decyzja
warunek - częśd warunkowa reguły, przesłanka
decyzja - częśd decyzyjna reguły, konkluzja
Mówimy, że obiekt rozpoznaje regułę, jeżeli spełnia jej częśd warunkową
Mówimy, że obiekt wspiera regułę, jeżeli spełnia jej częśd warunkową i decyzyjną
Dokładnośd klasyfikacji - procent przykładów testowych poprawnie zaklasyfikowanych przez model
Czułośd - jaka częśd prawdziwych wyników pozytywnych zostanie uznana jako pozytywne przez klasyfikator
Specyficznośd - Jaka częśd wyników prawdziwie negatywnych zostanie uznana za negatywne przez klasyfikator
,
,
W ramach czyszczenia danych można wykonad:
uzupełnianie brakujący wartości
kubełkowanie
grupowanie
regresję
metodę mieszaną (analiza ekspercka + metoda automatyczna)
W ramach integracji danych można wykonad:
identyfikację obiektu
duplikację danych
redundancję
korelację jako metody wykrywania
W ramach transformacji danych można wykonad:
wygładzenie
agregację
uogólnianie
konstrukcję atrybutów
normalizację
W ramach redukcji danych można wykonad:
agregację kostki danych
redukcję wymiaru danych
kompresję danych
redukcję liczności
dyskretyzację i hierarchizacje koncepcyjną
Typy atrybutów:
ilościowe (mierzalne)
o ciągłe
o porządkowe
o dyskretne
jakościowe (nominalne, niemierzalne)
Algorytmy indukcji drzew decyzyjnych:
ID3 (Iterative Dichotomiser)
C4.5
CART (Classification and Regression Trees)
Miary oceny atrybutów:
Information gain (ID3) - błędne wyniki dla atrybutów o wielu wartościach
Gain Ratio (C4.5) - preferuje niezrównoważone podziały, gdzie jeden z podzbiorów jest znacznie mniejszy niż
drugi
Gini Index (CART) - błędne wyniki dla atrybutów o wielu wartościach, problemy dla zbiorów danych o dużej liczbie
klas
Entropia - oczekiwana ilośd informacji wymagana do sklasyfikowania obiektu ze zbioru U
gdzie pi - prawdopodobieostwo, że dowolny obiekt ze zbioru U należy do klasy Ci
Grupowanie danych
Algorytm hierarchiczny scalający
Parametry wejściowe: warunek stopu - np. liczba grup, wartośd odcięcia
Wynik grupowania: Podział na grupy, hierarchia podziałów - dendrogram
Złożonośd: O(n2)
Algorytm k-means
Parametry wejściowe: liczba grup
Wynik grupowania: macierz podziału na grupy, macierz prototypów
Złożonośd: O(n)
Algorytm DBSCAN
Parametry wejściowe: promieo ε określający sąsiedztwo, liczba obiektów danych m stanowiąca o gęstości
sąsiedztwa
Wynik grupowania: macierz podziału na grupy, grupa zawierająca szum
Złożonośd: O(nlogn)
Algorytm fuzzy c-means
Parametry wejściowe: liczba grup
Wynik grupowania: macierz podziału na grupy, macierz prototypów
Złożonośd: O(n)
DBSCAN
hierarchiczny scalający
k-means
Sieci społeczne
Sied społeczna - struktura utworzona przez ludzi powiązanych ze sobą (bezpośrednio lub pośrednio) poprzez
wspólne relacje lub zainteresowania. Rozkład stopni węzłów sieci społecznej jest rozkładem potęgowym. W sieciach
społecznych występuje zjawisko małego świata (ang. small world phenomenon).
Centralności:
degree - określa liczbę powiązao danego węzła
eigenvector - odzwierciedla liczbę powiązao danego węzła
betweenness - określa liczbę najkrótszych ścieżek przechodzących przez dany węzeł
closeness - określa odległośd danego węzła od wszystkich węzłów w sieci
Typy wizualizacji powiązao i aktorów w sieci społecznej:
kołowa
hierarchiczna
radialna
wyróżniająca grupy:
o MDS (Multidimensional Scaling)
o Spring Embedder / Force Directed
SSiED Opracowanie.pdf (PDF, 442.99 KB)
Use the permanent link to the download page to share your document on Facebook, Twitter, LinkedIn, or directly with a contact by e-Mail, Messenger, Whatsapp, Line..
Use the short link to share your document on Twitter or by text message (SMS)
Copy the following HTML code to share your document on a Website or Blog