HEURISTICA heuristica.pl ↗
// anonimizacja PII

Anonimizator dokumentów

Usuń dane osobowe z pliku PDF, DOCX lub TXT

📄

Przeciągnij plik tutaj lub wybierz z dysku

PDF · DOCX · TXT · maks. 20 MB

📎
// co robi

Pseudonimizacja danych osobowych

Narzędzie automatycznie wykrywa dane osobowe w dokumencie (imiona, nazwiska, e-maile, numery telefonów, PESEL, konta bankowe itp.) i zastępuje je neutralnymi tokenami.

Przykład: Jan Kowalski[OSOBA_1], jan@firma.pl[EMAIL_1]. Dokument nadaje się do dalszej pracy (np. analizy AI) bez ujawniania tożsamości.

To pseudonimizacja — oryginalne dane można przywrócić przy użyciu pobranej mapy tokenów.

// krok po kroku

Jak używać

  1. Wgraj plik PDF, DOCX lub TXT (do 20 MB) — przeciągnij go na pole lub kliknij i wybierz z dysku.
  2. Kliknij Anonimizuj i poczekaj kilka–kilkanaście sekund na przetworzenie.
  3. Pobierz dokument — plik z tokenami zamiast danych osobowych.
  4. Pobierz mapę tokenów — plik JSON z listą token → oryginalna wartość. Przechowuj bezpiecznie.
// mapa tokenów

Do czego służy mapa?

Mapa tokenów to plik JSON z powiązaniami każdego tokenu z oryginalną wartością, np. "OSOBA_1": "Jan Kowalski".

Możesz użyć jej do ręcznego przywrócenia danych lub skorzystać z funkcji Przywróć oryginał — narzędzie automatycznie podmieni tokeny z powrotem.

Mapa tokenów zawiera oryginalne dane osobowe — traktuj ją jak poufny dokument. Nie przesyłaj jej razem z zanonimizowanym plikiem.
// restore

Przywracanie oryginału

Jeśli po edycji zanonimizowanego dokumentu chcesz przywrócić prawdziwe dane:

  1. Po anonimizacji przewiń w dół do sekcji Przywróć oryginał.
  2. Wgraj zmodyfikowany plik (DOCX lub TXT) z tokenami.
  3. Kliknij Przywróć oryginał — narzędzie zastąpi tokeny oryginalnymi danymi.
Przywracanie działa tylko w ramach bieżącej sesji. Po odświeżeniu strony nie będzie możliwe — pobierz mapę tokenów jeśli potrzebujesz jej później.
// formaty i limity

Co obsługujemy

  • PDF — tekst warstwy tekstowej (nie skany bez OCR)
  • DOCX — dokumenty Word; formatowanie zachowane w najlepszym wysiłku
  • TXT — zwykły tekst UTF-8
  • Maksymalny rozmiar pliku: 20 MB
// ograniczenia

Czego model może nie wykryć

Wykrywanie opiera się na modelu AI i wyrażeniach regularnych — nie jest nieomylne:

  • daty zapisane słownie (np. 1 marca 2020, dwudziesty drugi września)
  • adresy e-mail w nagłówkach: Od: Imię <email@domena.pl>
  • nazwy własne firm lub miejsc powiązanych z osobą
  • treści zawarte w obrazach wklejonych do DOCX
Narzędzie ma charakter prototypowy i nie zastępuje profesjonalnego audytu ochrony danych. Przed przekazaniem dokumentu stronie trzeciej zalecamy ręczną weryfikację wyniku.