Maskowanie danych w analizie obserwacji nietypowych, czyli odstających i wpływowych (masking), to zjawisko polegające na tym, że wpływ odstawania lub wpływowości jednych danych maskuje odstawanie lub wpływowość innych danych, tak, że dane te nie są wykazywane przez odpowiednie testy i procedury jako odstające lub wpływowe lub rozpoznawanie ich odstawania i/lub wpływowości jest utrudnione.

W trakcie analizy w Dziale Analiz realexperts.pl pewnego niewielkiego rynku nieruchomości gruntowych na obszarze małego miasteczka na Śląsku natrafiłem na dane, które dobrze ilustrują występowanie zjawiska maskowania obserwacji nietypowych (ang. masking), który może dobrze zilustrować to zjawisko.

W trakcie analizy rynku nieruchomości przeprowadzono m.in. badanie wpływu wielkości gruntów na ich ceny jednostkowe. Analiza dokonywana była wg zależności logarytmiczno-logarytmicznej, której efektem jest określenie miary reakcji jednej wielkości (cen) na zmienność innej wielkości (powierzchni), czyli tak zwanej elastyczności. Mówiąc w pewnym uproszczeniu elastyczność (dla zależności cena/powierzchnia) pokazuje o jaki procent zmienia się cena jednostkowa gruntów przy zmianie powierzchni o 1 %. Badania rynku nieruchomości pokazują jednoznacznie, że zależność logarytmiczno-logarytmiczna zazwyczaj najlepiej opisuje zależność cen jednostkowych od powierzchni gruntów na rzeczywistych rynkach nieruchomości.
Zależność cen jednostkowych od powierzchni prezentuje poniższy korelogram.

wykres_m1

Analiza regresji wykazała brak jakiejkolwiek zależności między cenami jednostkowymi a powierzchnią gruntów. Współczynnik determinacji R2 wynosi 0,0000% a stwierdzona elastyczność ceny/powierzchnia wynosi praktycznie zero (0,00075). Poziom ufności 1- p-value dla regresji wynosi 0,41%, czyli zależność jest skrajnie nieistotna statystycznie.

Wykrywamy i usuwamy pierwszą obserwację odstającą
Testy dotyczące odstawania danych wykazały, że wśród danych nie ma ani jednej danej odstającej więcej niż o 2 odchylenia standardowe od linii regresji modelu.

Innym zagadnieniem jest kwestia wpływowości poszczególnych obserwacji, czyli siły z jaką poszczególna dana wpływa na końcowy wynik analizy regresji.
Miarą stosowaną do określania siły wpływu poszczególnych obserwacji na wynik regresji jest m.in. statystyka zwana odległością Cooka. Jest to miara zmiany współczynników równania regresji, określana przez różnicę między wyznaczonymi wartościami współczynników β, czyli określonych caeteris paribus, dla równania regresji uwzględniającego daną obserwację i dla równania regresji bez tej obserwacji. Za poziom krytyczny odległości Cooka, powyżej której obserwacja może być uznana za wpływową przyjmuje się wartość 4/n, gdzie n jest liczbą obserwacji w analizie.
Testy dotyczące wpływowości danych pokazały jednak, że wśród danych jest jedna wyraźnie wpływowa. Statystyka graniczna wpływowości danych mierzonych odległością Cooka wynosi dla tego zbioru danych 0,21053. Wszystkie dane wykazują wpływowość poniżej tej wartości oprócz jednej, dla której odległość Cooka wynosi aż 2,16086. Można spodziewać się, że ta jedna silnie wpływowa obserwacja, choć nie za bardzo odstająca od modelu, wpływa bardzo silnie na końcowy wynik modelu. Przy średniej odległości Cooka dla pozostałych danych wynoszącej 0,03109 i sumie tych odległości wynoszącej 0,57116, ta jedna dana ma wpływ na końcowy wynik modelu znacznie większy niż wszystkie pozostałe razem wzięte. W związku z czym końcowa postać modelu zależy bardziej od tej jednej danej niż od wszystkich pozostałych. Oczywistym jest, że powinna ona zostać usunięta z dalszej analizy a model przeestymowany ponownie.

Wykrywamy i usuwamy drugą obserwację odstającą
Zależność cen jednostkowych od powierzchni dla tych danych prezentuje poniższy korelogram.

wykres_m2

Analiza regresji po usunięciu danej wpływowej pokazuje już zupełnie inny obraz zależności między cenami jednostkowymi a powierzchnią gruntów. Współczynnik determinacji R2 wynosi 14,0% a stwierdzona elastyczność ceny/powierzchnia wynosi -0,28291. Poziom ufności 1- p-value dla regresji wynosi 87,42%, czyli zależność jest istotna statystycznie na akceptowalnym w badaniach rynku poziomie istotności p-value 12,58%.
Testy dotyczące odstawania danych wykazały znowu, że wśród danych nie ma ani jednej danej odstającej więcej niż o 2 reszty standaryzowane od linii regresji modelu.
Statystyka graniczna wpływowości danych mierzonych odległością Cooka wynosi dla tego zbioru danych 0,222222. Wszystkie dane wykazują wpływowość poniżej tej wartości oprócz jednej, dla której odległość Cooka wynosi aż 5,66341(!) a reszta standaryzowana wynosi -1,44517.
Dla obserwacji tej odległość Cooka wynosiła wg wyników poprzedniej estymacji jedynie 0,03923(!), czyli jej wpływowość była bardzo bliska średniej dla wszystkich pozostałych nieodstających danych oraz znacznie poniżej wykazywanego przez odległość Cooka progi wpływowości. Odstawanie tej danej wynosiło jedynie -0,25463 reszty standaryzowane. Oznacza to, że obserwacja ta była wyraźnie nieodstająca i niewpływowa.
Testy dotyczące wpływowości danych pokazały więc, że wśród danych pojawiła się nowa obserwacja wyraźnie wpływowa, której poprzednio nie udało się wykryć.
Na tym właśnie polega zjawisko maskingu w analizie danych nietypowych, czyli odstających i wpływowych.
Oczywiście. znów można spodziewać się, że ta jedna silnie wpływowa obserwacja, choć znów nie za bardzo odstająca od modelu, wpływa bardzo silnie na końcowy wynik modelu. Przy średniej odległości Cooka dla pozostałych danych wynoszącej 0,03671 i sumie tych odległości wynoszącej 0,61136, ta jedna dana ma znów wpływ na końcowy wynik modelu znacznie większy niż wszystkie pozostałe razem wzięte. W związku z czym znów końcowa postać modelu zależy bardziej od tej jednej danej niż od wszystkich pozostałych. Uwzględniając fakt, że pierwsza wpływowa obserwacja miała odległość Cooka wynoszącą 2,16086 a druga ma aż 5,66341 możemy się spodziewać, że wpływ tej zamaskowanej obserwacji jest jeszcze silniejszy niż tamtej. Oczywistym jest, że powinna ona zostać usunięta z dalszej analizy a model przeestymowany ponownie.
Zależność cen jednostkowych od powierzchni dla tych danych prezentuje poniższy korelogram.

wykres_m3

Analiza regresji po usunięciu nowoodkrytej danej wpływowej pokazuje znów zupełnie inny obraz zależności między cenami jednostkowymi a powierzchnią gruntów. Współczynnik determinacji R2 wynosi teraz aż 46,24% a stwierdzona elastyczność ceny/powierzchnia wynosi -0,84680. Poziom ufności 1- p-value dla regresji wynosi 99,73%, czyli zależność jest istotna statystycznie na niezwykle wysokim w badaniach rynku poziomie istotności p-value 0,27%.
Testy dotyczące odstawania danych wykazały znowu, że wśród danych nie ma ani jednej danej odstającej więcej niż o 2 reszty standaryzowane od linii regresji modelu.
Statystyka graniczna wpływowości danych mierzonych odległością Cooka wynosi dla tego zbioru danych 0,23529. Wszystkie dane wykazują wpływowość poniżej tej wartości, co oznacza, że w zbiorze analizowanych danych nie ma już żadnej obserwacji odstającej lub wpływowej.

Jak bardzo wpływowe były te obserwacje wpływowe?
Zauważyć należy, że potwierdziło się przypuszczenie, że eliminacja drugiej obserwacji wpływowej, której, ze względu na zjawisko maskingu nie wychwyciły testy, będzie miała wpływ jeszcze silniejszy niż eliminacja obserwacji pierwszej.
Eliminacja pierwszej obserwacji odstającej zmieniła estymację wyniku analizy (elastyczności ceny jednostkowej względem powierzchni gruntu) z 0,00075 na -0,28291 czyli o -0,28366. Eliminacja drugiej, zamaskowanej obserwacji odstającej zmieniła estymację wyniku analizy z -0,28291 na -0,84680 czyli o -0,56389. Czyli w tym przypadku zmiana była 3-krotnie większa, co odpowiada stosunkowi cechujących te przypadku odległości Cooka, z uwzględnieniem liczby danych i poziomu granicznego tej statystyki.
Widać także, że eliminacja drugiej, zamaskowanej danej wpływowej miała także większy pływ na pozostałe parametry modelu niż usunięcie pierwszej danej wpływowej.
Czy oznacza to, że w ogóle dana druga, ta której wpływowość została zamaskowana przez pierwszą, jest bardziej wpływowa?
Nie, ponieważ maskowanie danych wpływowych zachodzi w obie strony, tzn. wpływowość danej drugiej została zamaskowana przez daną pierwszą ale i wpływowość danej pierwszej została zamaskowana przez daną drugą. A maskowanie ma taki kierunek i siłę jak siła wpływowości danego przypadku.
Zauważmy, że wpływowość danej zamaskowanej i usuniętej jako druga znamy i w postaci zamaskowanej (odległość Cooka = 0,03923) i w postaci niezamaskowanej (odległość Cooka = 5,66341). Natomiast wpływowość danej usuniętej jako pierwsza znamy tylko z zestawu danych razem z daną usuniętą jako druga, czyli tylko w postaci zamaskowanej (odległość Cooka = 2,16086). Jaka w związku z tym jest wpływowość tej danej w postaci niezamaskowanej, tzn. w zestawie danych bez danej usuniętej jako druga?

Zależność cen jednostkowych od powierzchni dla tych danych prezentuje poniższy korelogram.

wykres_m4

Analiza regresji wykazała w tym wypadku brak zależności między cenami jednostkowymi a powierzchnią gruntów. Współczynnik determinacji R2 wynosi 0,00240% a stwierdzona elastyczność ceny/powierzchnia jest bardzo niska (-0,03703). Poziom ufności 1- p-value dla regresji wynosi 15,31%, czyli zależność jest skrajnie nieistotna statystycznie.
Przypadek, który nas interesuje, gdy nie jest maskowany przez tę daną, którą usunęliśmy cechuje się jeszcze wyższą wpływowością. Odległość Cooka wynosi dla niego w tej sytuacji aż 10,00418(!).
Eliminacja tej niemaskowanej teraz obserwacji odstającej zmienia estymację wyniku analizy (elastyczności ceny jednostkowej względem powierzchni gruntu) z -0,03703 na -0,84680 czyli aż o -0,70977, podczas gdy eliminacja drugiej obserwacji odstającej zmieniła estymację wyniku analizy o -0,56389.
Oznacza to, że wpływ danej pierwszej jest wyższy. Jego siła maskująca jest także wyższa, na tyle wysoka, że potrafiła zmniejszyć odległość Cooka z poziomu 5,66341 do niewykrywalnego poziomu 0,03923, znacznie niższego niż poziom krytyczny, czyli ponad 144-krotnie. Natomiast wpływowość i siła maskująca danej drugiej jest znacznie niższa. Zmniejszyła odległość Cooka danej przez siebie maskowanej z poziomu 10,00418 do 2,16086, czyli ok. 4,6-krotnie.

* * *

Trawestując zdanie z książki „Wstęp do ekonometrii w stu oknach” pp. W. Gruszczyńskiego i P. Mierzejewskiego (SGH 1998) dotyczące zjawiska współliniowości, można powiedzieć, że „masking danych wpływowych jest to cecha danych rynku nieruchomości, którą należy zaakceptować i rozpoznać”.

Tomasz Kotrasński, MPAI
Polski Instytut Wyceny
szef Działu Analiz realexperts.pl
wycena.com.pl