Platforma Webankieta umożliwia prowadzenie anonimowych badań – m.in. poprzez unikanie pytań umożliwiających identyfikację respondentów oraz odpowiednią konfigurację ustawień, dającą gwarancję anonimowości jeszcze przed wysyłką ankiety.
Jednak pytania otwarte stanowią wyjątek – nie mamy kontroli nad tym, co respondent wpisze, a więc istnieje ryzyko, że samodzielnie poda dane osobowe, których nie chcielibyśmy zbierać.
W trosce o ochronę danych osobowych respondentów, wprowadziliśmy mechanizm automatycznej anonimizacji odpowiedzi udzielanych w pytaniach otwartych. Jego celem jest zminimalizowanie ryzyka przypadkowego zebrania informacji umożliwiających identyfikację osoby, takich jak np. imię, nazwisko, PESEL, numer telefonu czy adres e-mail.
Właśnie na tę sytuację przygotowaliśmy dwa warianty anonimizacji:
Typy anonimizacji
1. Anonimizacja online (po stronie przeglądarki)
Stosowana w momencie wypełniania ankiety – dane osobowe są wykrywane i usuwane zanim trafią na serwer.
2. Anonimizacja offline (po stronie serwera)
Stosowana po zebraniu danych – umożliwia usunięcie danych osobowych przed ich dalszym przetwarzaniem (np. przez modele LLM do tagowania i analizy sentymentu).
Uwaga: Oba algorytmy działają na tej samej zasadzie – różnią się zakresem użytej bazy danych. Wersja offline korzysta z pełnych zasobów imion/nazwisk, wersja online z ograniczonej, zoptymalizowanej bazy, by nie obciążać przeglądarki.
Zasada działania anonimizacji (online)
Skrypt anonimizujący działa w całości po stronie przeglądarki. Uruchamia się tuż przed wysłaniem odpowiedzi i automatycznie usuwa dane osobowe, zamieniając je na odpowiednie placeholdery.
Żadne dane nie są wysyłane na serwer przed wykonaniem anonimizacji.
Wyszukiwane dane:
Typ danych | Metoda wykrywania |
Imię | Baza 1000 najczęstszych imion (GUS) + odmiana przez przypadki |
Nazwisko | Baza 1388 najczęstszych nazwisk (GUS) + odmiana przez przypadki |
Adres e-mail | Wyrażenia regularne |
Nr telefonu | Ciąg cyfr (wraz z separatorami) pasujący do wyrażenia regularnego |
Nr karty płatniczej | Wyrażenia regularne |
Nr rachunku bankowego | Wyrażenia regularne |
PESEL | Wyrażenia regularne |
Nr dowodu osobistego | Wyrażenia regularne |
Zasada działania:
Wykryte dane są automatycznie zastępowane odpowiednimi placeholderami:
[imię]
[nazwisko]
[imię i nazwisko]
[pesel]
[nr dowodu]
[nr rachunku bankowego]
[nr telefonu]
[adres email]
[nr karty]
Skuteczność wykrywania danych
Aby zapewnić równowagę między skutecznością a wydajnością działania przeglądarki, zastosowaliśmy ograniczenie do najczęstszych imion i nazwisk oraz tylko wybranych przypadków gramatycznych.
Zakres pokrycia danych w trybie online:
imiona męskie: 1000 najczęstszych (dopełniacz + narzędnik) → 97,7% pokrycia
imiona żeńskie: 1000 najczęstszych (dopełniacz + narzędnik) → 98,74% pokrycia
nazwiska: 1388 najczęstszych (oba rodzaje) → ok. 36% pokrycia
Wprowadzono też logikę, która identyfikuje pełne frazy typu imię + nazwisko oraz nazwiska dwuczłonowe.
Dlaczego tylko część imion/nazwisk?
Załadowanie pełnej bazy imion i nazwisk (wraz z odmianami) do przeglądarki znacznie obniża jej wydajność. Dlatego postawiliśmy na kompromis – ograniczenie do najczęstszych danych przy zachowaniu wysokiego poziomu skuteczności.
Dlaczego wybrano tylko dopełniacz i narzędnik?
Z analiz Narodowego Korpusu Języka Polskiego wynika, że dopełniacz i narzędnik są najczęściej używanymi formami imion i nazwisk w języku polskim:
imiona męskie: dopełniacz stanowi 23–28% użycia
nazwiska: dopełniacz stanowi 31–34% użycia
Przykłady:
„Szukam Piotra” → dopełniacz
„Rozmawiałem z Piotrem” → narzędnik
Zasada działania anonimizacji offline (serwer)
Algorytm offline działa identycznie jak online, ale bez ograniczeń wydajnościowych. Może wykorzystywać pełne bazy danych zawierające imiona i nazwiska z bazy PESEL, wraz z odmianami przez wszystkie przypadki.
Dzięki temu osiągamy jeszcze wyższy poziom dokładności przed dalszym przetwarzaniem danych (np. przez modele językowe).
Podsumowanie:
Mechanizm anonimizacji w Webankiecie:
chroni dane osobowe wpisywane przez respondentów w pytaniach otwartych,
działa automatycznie i niezależnie od użytkownika,
występuje w dwóch wariantach: online (przeglądarka) i offline (serwer),
został zoptymalizowany pod kątem skuteczności i wydajności,
dzięki niemu możesz mieć pewność, że nawet przypadkowe wpisanie danych osobowych przez respondenta nie zagrozi zasadzie anonimowości w badaniu.
👉 Jeśli jesteś zainteresowany wdrożeniem takiego mechanizmu w swojej ankiecie oraz chcesz otrzymać wycenę, skontaktuj się z nami pod adresem: [email protected].