Gradacyjna analiza danych
Z Wikipedii
Gradacyjna analiza danych (ang. Grade Data Analysis, Grade Correspondence Analysis) - dział eksploracyjnej analizy danych zapoczątkowany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk. Celem gradacyjnej analizy danych jest uniknięcie wad tradycyjnego podejścia do testowania hipotez statystycznych, obarczonego ograniczeniami wynikającymi z założeń na temat postaci rozkładu zmiennej losowej oraz pobranej z niego próby losowej. Gradacyjna analiza danych obejmuje narzędzia analizy wielowymiarowej takie jak analiza skupień, analiza odpowiedniości i analiza regresji dla zmiennych mierzonych na różnych skalach, nie tylko na skali ilorazowej, ale również na skali porządkowej czy skali nominalnej.
Spis treści |
[edytuj] Podstawy teoretyczne
Gradacyjna analiza danych opiera się na współczynniku Giniego i współczynniku koncentracji, tradycyjnie wykorzystywanych dla rozkładu dwuwymiarowego, ale w przypadku tej metody uogólnionych dla rozkładu wielowymiarowego. Podstawowym narzędziem gradacyjnej analizy danych jest algorytm GCA (gradacyjnej analizy odpowiedniości), poszukujący największej zależności lub regularności w macierzy danych.
Najważniejsze pojęcia gradacyjnej analizy danych zostały opisane w następujących publikacjach:
- Kowalczyk T., Pleszczyńska E., Ruland F. (red.; 2004). Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations, seria: Studies in Fuzziness and Soft Computing, vol. 151, 477 stron, Springer Verlag Berlin Heidelberg New York
- Pleszczyńska E., Szczesny W. (2002). Grade exploratory methods applied to some medical data sets. Biocybernetics and Biomedical Engineering, vol. 22, 1, 17 - 30
[edytuj] Wizualizacja
W gradacyjnej analizie danych oprócz standardowych wykresów rozproszenia (ang. scatter-plot) i histogramów wykorzystuje się oryginalne narzędzia wizualizacji: mapy nadreprezentacji i mapy korelacji, przeznaczone w szczególności dla danych wielowymiarowych. Nadreprezentację definiuje się jako stosunek wartości empirycznej do wartości oczekiwanej obliczonej z rozkładu brzegowego danej macierzy.
[edytuj] Zobacz też
[edytuj] Linki zewnętrzne
- GradeStat - darmowy program implementujący algorytmy gradacyjnej analizy danych