HEURISTICA heuristica.pl ↗
// anonimizacja PII

Anonimizator dokumentów

Usuń dane osobowe z pliku PDF, DOCX, TXT lub obrazu (JPG, PNG)

📄

Przeciągnij plik tutaj lub wybierz z dysku

PDF · DOCX · TXT · JPG · PNG · maks. 20 MB

📎
// technologia

Zastosowane modele

  • openai/privacy-filter — model NER do wykrywania i klasyfikacji danych osobowych (imiona, e-maile, telefony, konta bankowe itp.)
  • Tesseract OCR z pakietem językowym pol — rozpoznawanie tekstu z obrazów JPG/PNG; działa lokalnie na serwerze, dane nie opuszczają infrastruktury
Całe przetwarzanie odbywa się na serwerze w Helsinkach (UE) — żadne dane nie są wysyłane do zewnętrznych usług AI.
// co robi

Pseudonimizacja danych osobowych

Narzędzie automatycznie wykrywa dane osobowe w dokumencie (imiona, nazwiska, e-maile, numery telefonów, PESEL, konta bankowe itp.) i zastępuje je neutralnymi tokenami.

Przykład: Jan Kowalski[OSOBA_1], jan@firma.pl[EMAIL_1]. Dokument nadaje się do dalszej pracy (np. analizy AI) bez ujawniania tożsamości.

To pseudonimizacja — oryginalne dane można przywrócić przy użyciu pobranej mapy tokenów.

// krok po kroku

Jak używać

  1. Wgraj plik PDF, DOCX, TXT lub obraz JPG/PNG (do 20 MB) — przeciągnij go na pole lub kliknij i wybierz z dysku.
  2. Kliknij Anonimizuj i poczekaj kilka–kilkanaście sekund na przetworzenie.
  3. Pobierz dokument — plik z tokenami zamiast danych osobowych.
  4. Pobierz mapę tokenów — plik JSON z listą token → oryginalna wartość. Przechowuj bezpiecznie.
// mapa tokenów

Do czego służy mapa?

Mapa tokenów to plik JSON z powiązaniami każdego tokenu z oryginalną wartością, np. "OSOBA_1": "Jan Kowalski".

Możesz użyć jej do ręcznego przywrócenia danych lub skorzystać z funkcji Przywróć oryginał — narzędzie automatycznie podmieni tokeny z powrotem.

Mapa tokenów zawiera oryginalne dane osobowe — traktuj ją jak poufny dokument. Nie przesyłaj jej razem z zanonimizowanym plikiem.
// restore

Przywracanie oryginału

Jeśli po edycji zanonimizowanego dokumentu chcesz przywrócić prawdziwe dane:

  1. Po anonimizacji przewiń w dół do sekcji Przywróć oryginał.
  2. Wgraj zmodyfikowany plik (DOCX lub TXT) z tokenami.
  3. Kliknij Przywróć oryginał — narzędzie zastąpi tokeny oryginalnymi danymi.
Przywracanie działa tylko w ramach bieżącej sesji. Po odświeżeniu strony nie będzie możliwe — pobierz mapę tokenów jeśli potrzebujesz jej później.
// formaty i limity

Co obsługujemy

  • PDF — tekst warstwy tekstowej (nie skany bez OCR)
  • DOCX — dokumenty Word; formatowanie zachowane w najlepszym wysiłku
  • TXT — zwykły tekst UTF-8
  • JPG / PNG — tekst wyodrębniany przez OCR; wynik jako TXT
  • Maksymalny rozmiar pliku: 20 MB
// ograniczenia

Czego model może nie wykryć

Wykrywanie opiera się na modelu AI i wyrażeniach regularnych — nie jest nieomylne:

  • daty zapisane słownie (np. 1 marca 2020, dwudziesty drugi września)
  • adresy e-mail w nagłówkach: Od: Imię <email@domena.pl>
  • nazwy własne firm lub miejsc powiązanych z osobą
  • treści zawarte w obrazach wklejonych do DOCX (wgraj obraz osobno jako JPG/PNG)
Narzędzie ma charakter prototypowy i nie zastępuje profesjonalnego audytu ochrony danych. Przed przekazaniem dokumentu stronie trzeciej zalecamy ręczną weryfikację wyniku.