Gradacyjna analiza danych

Z Wikipedii

Gradacyjna analiza danych (ang. Grade Data Analysis, Grade Correspondence Analysis) - dział eksploracyjnej analizy danych zapoczątkowany w Instytucie Podstaw Informatyki Polskiej Akademii Nauk. Celem gradacyjnej analizy danych jest uniknięcie wad tradycyjnego podejścia do testowania hipotez statystycznych, obarczonego ograniczeniami wynikającymi z założeń na temat postaci rozkładu zmiennej losowej oraz pobranej z niego próby losowej. Gradacyjna analiza danych obejmuje narzędzia analizy wielowymiarowej takie jak analiza skupień, analiza odpowiedniości i analiza regresji dla zmiennych mierzonych na różnych skalach, nie tylko na skali ilorazowej, ale również na skali porządkowej czy skali nominalnej.

[edytuj] Podstawy teoretyczne

Gradacyjna analiza danych opiera się na współczynniku Giniego i współczynniku koncentracji, tradycyjnie wykorzystywanych dla rozkładu dwuwymiarowego, ale w przypadku tej metody uogólnionych dla rozkładu wielowymiarowego. Podstawowym narzędziem gradacyjnej analizy danych jest algorytm GCA (gradacyjnej analizy odpowiedniości), poszukujący największej zależności lub regularności w macierzy danych.

Najważniejsze pojęcia gradacyjnej analizy danych zostały opisane w następujących publikacjach:

Kowalczyk T., Pleszczyńska E., Ruland F. (red.; 2004). Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations, seria: Studies in Fuzziness and Soft Computing, vol. 151, 477 stron, Springer Verlag Berlin Heidelberg New York
Pleszczyńska E., Szczesny W. (2002). Grade exploratory methods applied to some medical data sets. Biocybernetics and Biomedical Engineering, vol. 22, 1, 17 - 30

[edytuj] Wizualizacja

W gradacyjnej analizie danych oprócz standardowych wykresów rozproszenia (ang. scatter-plot) i histogramów wykorzystuje się oryginalne narzędzia wizualizacji: mapy nadreprezentacji i mapy korelacji, przeznaczone w szczególności dla danych wielowymiarowych. Nadreprezentację definiuje się jako stosunek wartości empirycznej do wartości oczekiwanej obliczonej z rozkładu brzegowego danej macierzy.