Przejdź do głównej zawartości

Anonimizacja danych w odpowiedziach otwartych

Mateusz Oziemski avatar
Napisane przez Mateusz Oziemski
Zaktualizowano ponad tydzień temu

Platforma Webankieta umożliwia prowadzenie anonimowych badań – m.in. poprzez unikanie pytań umożliwiających identyfikację respondentów oraz odpowiednią konfigurację ustawień, dającą gwarancję anonimowości jeszcze przed wysyłką ankiety.

Jednak pytania otwarte stanowią wyjątek – nie mamy kontroli nad tym, co respondent wpisze, a więc istnieje ryzyko, że samodzielnie poda dane osobowe, których nie chcielibyśmy zbierać.

W trosce o ochronę danych osobowych respondentów, wprowadziliśmy mechanizm automatycznej anonimizacji odpowiedzi udzielanych w pytaniach otwartych. Jego celem jest zminimalizowanie ryzyka przypadkowego zebrania informacji umożliwiających identyfikację osoby, takich jak np. imię, nazwisko, PESEL, numer telefonu czy adres e-mail.

Właśnie na tę sytuację przygotowaliśmy dwa warianty anonimizacji:

Typy anonimizacji

1. Anonimizacja online (po stronie przeglądarki)

Stosowana w momencie wypełniania ankiety – dane osobowe są wykrywane i usuwane zanim trafią na serwer.

2. Anonimizacja offline (po stronie serwera)

Stosowana po zebraniu danych – umożliwia usunięcie danych osobowych przed ich dalszym przetwarzaniem (np. przez modele LLM do tagowania i analizy sentymentu).

Uwaga: Oba algorytmy działają na tej samej zasadzie – różnią się zakresem użytej bazy danych. Wersja offline korzysta z pełnych zasobów imion/nazwisk, wersja online z ograniczonej, zoptymalizowanej bazy, by nie obciążać przeglądarki.

Zasada działania anonimizacji (online)

Skrypt anonimizujący działa w całości po stronie przeglądarki. Uruchamia się tuż przed wysłaniem odpowiedzi i automatycznie usuwa dane osobowe, zamieniając je na odpowiednie placeholdery.

Żadne dane nie są wysyłane na serwer przed wykonaniem anonimizacji.

Wyszukiwane dane:

Typ danych

Metoda wykrywania

Imię

Baza 1000 najczęstszych imion (GUS) + odmiana przez przypadki

Nazwisko

Baza 1388 najczęstszych nazwisk (GUS) + odmiana przez przypadki

Adres e-mail

Wyrażenia regularne

Nr telefonu

Ciąg cyfr (wraz z separatorami) pasujący do wyrażenia regularnego

Nr karty płatniczej

Wyrażenia regularne

Nr rachunku bankowego

Wyrażenia regularne

PESEL

Wyrażenia regularne

Nr dowodu osobistego

Wyrażenia regularne

Zasada działania:

Wykryte dane są automatycznie zastępowane odpowiednimi placeholderami:

[imię]
[nazwisko]
[imię i nazwisko]
[pesel]
[nr dowodu]
[nr rachunku bankowego]
[nr telefonu]
[adres email]
[nr karty]

Skuteczność wykrywania danych

Aby zapewnić równowagę między skutecznością a wydajnością działania przeglądarki, zastosowaliśmy ograniczenie do najczęstszych imion i nazwisk oraz tylko wybranych przypadków gramatycznych.

Zakres pokrycia danych w trybie online:

  • imiona męskie: 1000 najczęstszych (dopełniacz + narzędnik) → 97,7% pokrycia

  • imiona żeńskie: 1000 najczęstszych (dopełniacz + narzędnik) → 98,74% pokrycia

  • nazwiska: 1388 najczęstszych (oba rodzaje) → ok. 36% pokrycia

Wprowadzono też logikę, która identyfikuje pełne frazy typu imię + nazwisko oraz nazwiska dwuczłonowe.

Dlaczego tylko część imion/nazwisk?

Załadowanie pełnej bazy imion i nazwisk (wraz z odmianami) do przeglądarki znacznie obniża jej wydajność. Dlatego postawiliśmy na kompromis – ograniczenie do najczęstszych danych przy zachowaniu wysokiego poziomu skuteczności.

Dlaczego wybrano tylko dopełniacz i narzędnik?

Z analiz Narodowego Korpusu Języka Polskiego wynika, że dopełniacz i narzędnik są najczęściej używanymi formami imion i nazwisk w języku polskim:

  • imiona męskie: dopełniacz stanowi 23–28% użycia

  • nazwiska: dopełniacz stanowi 31–34% użycia

Przykłady:

„Szukam Piotra” → dopełniacz

„Rozmawiałem z Piotrem” → narzędnik

Zasada działania anonimizacji offline (serwer)

Algorytm offline działa identycznie jak online, ale bez ograniczeń wydajnościowych. Może wykorzystywać pełne bazy danych zawierające imiona i nazwiska z bazy PESEL, wraz z odmianami przez wszystkie przypadki.

Dzięki temu osiągamy jeszcze wyższy poziom dokładności przed dalszym przetwarzaniem danych (np. przez modele językowe).

Podsumowanie:

Mechanizm anonimizacji w Webankiecie:

  • chroni dane osobowe wpisywane przez respondentów w pytaniach otwartych,

  • działa automatycznie i niezależnie od użytkownika,

  • występuje w dwóch wariantach: online (przeglądarka) i offline (serwer),

  • został zoptymalizowany pod kątem skuteczności i wydajności,

  • dzięki niemu możesz mieć pewność, że nawet przypadkowe wpisanie danych osobowych przez respondenta nie zagrozi zasadzie anonimowości w badaniu.

👉 Jeśli jesteś zainteresowany wdrożeniem takiego mechanizmu w swojej ankiecie oraz chcesz otrzymać wycenę, skontaktuj się z nami pod adresem: [email protected].

Czy to odpowiedziało na twoje pytanie?