Pseudonimizacja danych w dokumentacji medycznej

Definicja: Pseudonimizacja danych w dokumentacji medycznej oznacza przetwarzanie, w którym informacje kliniczne nie mogą zostać przypisane do konkretnej osoby bez odrębnych danych mapujących, a te dane są przechowywane osobno i zabezpieczone tak, aby ograniczyć nieuprawnioną reidentyfikację: (1) brak przypisania do osoby bez informacji dodatkowych; (2) oddzielne przechowywanie mapowań lub kluczy; (3) środki techniczne i organizacyjne ograniczające depseudonimizację.

Ostatnia aktualizacja: 2026-03-12

Szybkie fakty

Pseudonimizacja nie usuwa statusu danych osobowych i nie znosi obowiązków RODO.
Kluczowe są separacja dodatkowych informacji oraz realna kontrola dostępu do mapowań.
W danych zdrowotnych ryzyko identyfikacji pośredniej rośnie przy rzadkich cechach i małych zbiorach.

W dokumentacji medycznej pseudonimizacja jest skuteczna tylko wtedy, gdy stanowi proces z odseparowaniem powiązań oraz kontrolą reidentyfikacji. Sama zamiana nazwisk na identyfikator nie przesądza o spełnieniu definicji.

Transformacja: Identyfikatory pacjenta zostają zastąpione pseudonimem, a stałe identyfikatory w raportach i eksportach są eliminowane lub przebudowane.
Separacja: Informacje mapujące pseudonim do osoby są przechowywane w odrębnym zasobie z minimalnym dostępem i rozdziałem obowiązków.
Kontrola: Depseudonimizacja jest ograniczona rolami, rejestrowana w logach i podlega audytowi oraz testom reidentyfikacji.

Pseudonimizacja danych w dokumentacji medycznej jest środkiem organizacyjno-technicznym, którego jakość ocenia się nie przez nazwę zastosowanej funkcji, lecz przez to, czy rzeczywiście ogranicza przypisanie rekordu klinicznego do osoby bez odrębnych informacji. W ochronie zdrowia szczególnego znaczenia nabiera identyfikacja pośrednia, gdy połączenie cech klinicznych, wieku lub rzadkiego rozpoznania może wskazywać pacjenta nawet po usunięciu imienia i nazwiska.

Istotna jest także praktyka pracy z EDM: eksporty, raporty, integracje oraz wolny tekst w opisach często przenoszą identyfikatory poza główny ekran systemu. Z tego powodu pseudonimizacja powinna być rozumiana jako proces obejmujący klasyfikację pól, rozdzielenie mapowań oraz kontrolę dostępu i zdarzeń depseudonimizacji.

Definicja pseudonimizacji danych medycznych według RODO

Pseudonimizacja według RODO opisuje przetwarzanie, które uniemożliwia przypisanie danych do konkretnej osoby bez użycia odrębnie przechowywanych informacji mapujących. W realiach dokumentacji medycznej oznacza to rozdzielenie danych klinicznych od elementów pozwalających na identyfikację pacjenta, z zachowaniem kontrolowanej możliwości ponownego powiązania w uzasadnionych procesach klinicznych i administracyjnych.

Co oznacza „dodatkowe informacje”

Dodatkowe informacje to wszelkie dane lub mechanizmy, które pozwalają przejść od pseudonimu do osoby, np. tabela mapowań pacjent–token, klucz do odszyfrowania identyfikatorów, rejestr powiązań numerów sprawy z pacjentem albo zestaw reguł umożliwiających jednoznaczną korelację rekordów. W dokumentacji medycznej takimi informacjami bywają również identyfikatory techniczne używane w integracjach, jeśli umożliwiają stabilne śledzenie pacjenta w wielu systemach.

Warunek separacji i kontroli dostępu

Warunek separacji oznacza, że mapowania lub klucze nie mogą pozostawać w tym samym zasobie i pod tym samym poziomem uprawnień co dane pseudonimizowane. Kontrola obejmuje ograniczenie ról, zasadę minimalnych uprawnień, rejestrowanie zdarzeń oraz okresowe przeglądy. Utrzymanie separacji traci sens, gdy ten sam zestaw kont administracyjnych ma pełny dostęp do danych klinicznych i mapowań w codziennej pracy.

„Pseudonimizacja” jest zdefiniowana w art. 4 ust.5 RODO jako „przetwarzanie danych osobowych w taki sposób, że danych osobowych nie można już przypisać konkretnej osobie, której dane dotyczą, bez użycia dodatkowych informacji, pod warunkiem że takie dodatkowe informacje są przechowywane oddzielnie i podlegają środkom technicznym i organizacyjnym w celu zapewnienia, aby dane osobowe nie zostały przypisane zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej”.

Źródło: European Data Protection Board — EROD przyjmuje wytyczne dotyczące pseudonimizacji… (2025)

Jeśli mapowania oraz dane kliniczne są dostępne temu samemu zestawowi ról bez dodatkowych ograniczeń, to ryzyko przypisania danych do osoby pozostaje wysokie.

Pseudonimizacja a anonimizacja i szyfrowanie w dokumentacji medycznej

Pseudonimizacja oraz anonimizacja różnią się przede wszystkim możliwością ponownego powiązania danych z osobą i modelem kontroli tego powiązania. Pseudonimizacja dopuszcza reidentyfikację, ale ma ją ograniczać przez separację i kontrolę dostępu, natomiast anonimizacja ma redukować możliwość identyfikacji do poziomu nieuzasadnionego ryzyka w danych warunkach.

Odwracalność i ryzyko reidentyfikacji

W danych medycznych identyfikacja nie wynika wyłącznie z identyfikatorów bezpośrednich. Kombinacje cech, takie jak rzadkie rozpoznanie, unikalny przebieg terapii, wiek i miejsce udzielenia świadczenia, mogą prowadzić do identyfikacji pośredniej, szczególnie w małych zbiorach. Z tego powodu błędna kwalifikacja anonimizacji bywa skutkiem nieuwzględnienia kontekstu i dostępnych informacji u odbiorcy danych.

Dlaczego szyfrowanie nie zawsze wystarcza

Szyfrowanie może chronić dane w spoczynku i w transmisji, lecz nie rozwiązuje problemu, gdy klucze są przechowywane razem z danymi lub gdy dostęp do kluczy ma szeroka grupa użytkowników. Szyfrowanie staje się elementem pseudonimizacji dopiero przy realnej separacji klucza i przy zarządzaniu dostępem w sposób mierzalny audytem. Także tokenizacja bywa nieskuteczna, jeśli ten sam token jest stały w wielu raportach i eksportach, a mapowanie pozostaje łatwo dostępne.

Metoda	Odwracalność powiązania z osobą	Warunki techniczne i organizacyjne w EDM
Pseudonimizacja	Możliwa przez odrębne informacje mapujące	Separacja mapowań lub kluczy, minimalny dostęp, logowanie depseudonimizacji, przeglądy uprawnień
Anonimizacja	Nie powinna być realnie możliwa w danych warunkach ryzyka	Usunięcie identyfikatorów bezpośrednich i pośrednich, test ryzyka identyfikacji, ograniczenie rzadkich kombinacji cech
Szyfrowanie	Możliwa po zdobyciu klucza	Bezpieczne zarządzanie kluczem, separacja ról, kontrola dostępu do kluczy i operacji odszyfrowania

Przy małych zbiorach i rzadkich cechach klinicznych, najbardziej prawdopodobne jest błędne utożsamienie usunięcia nazwiska z anonimizacją.

Jak wygląda pseudonimizacja w EDM: identyfikatory, pseudonimy i „dodatkowe informacje”

Pseudonimizacja w EDM zaczyna się od rozpoznania, które pola oraz artefakty danych prowadzą do identyfikacji bezpośredniej lub pośredniej. W praktyce ryzyko często powstaje poza ekranem rekordu pacjenta, w raportach, eksportach, integracjach oraz w logach systemowych gromadzących identyfikatory zdarzeń.

Które pola w EDM najczęściej ujawniają tożsamość

Do identyfikatorów bezpośrednich należą imię i nazwisko, PESEL, adres, numer dokumentu tożsamości oraz numery kontaktowe. W systemie medycznym funkcjonują również identyfikatory systemowe, np. numer historii choroby, identyfikator wizyty, identyfikatory świadczeń i zleceń, które mogą pozwalać na stabilne śledzenie pacjenta w wielu zbiorach. Jeżeli te identyfikatory są przenoszone do raportów dla podmiotów zewnętrznych, stają się „dodatkowymi informacjami” w sensie praktycznym, nawet jeśli formalnie nie przypominają danych osobowych.

Wolny tekst i załączniki jako źródło wycieków

Opis wizyty, epikryza, wynik badania obrazowego w formie pliku albo skan skierowania często zawiera dane osobowe osadzone w treści, nagłówkach dokumentów lub metadanych. Pseudonimizacja, która nie obejmuje załączników, może pozostawić możliwość identyfikacji niezależnie od pól strukturalnych. W wielu placówkach źródłem nieszczelności jest także kopiowanie treści między wpisami oraz automatyczne szablony zawierające dane kontaktowe.

Jeśli identyfikator systemowy pozostaje stały w integracjach i raportach, to pozwala odróżnić proces pozorny od pseudonimizacji o realnej separacji mapowań.

Procedura pseudonimizacji danych medycznych i kontrole weryfikacyjne

Proces pseudonimizacji dla dokumentacji medycznej wymaga spójnych kroków, które można wykazać w audycie oraz w analizie ryzyka. Ocenie podlega nie tylko transformacja danych, ale również to, czy kontrola dostępu do mapowań i zdarzeń depseudonimizacji jest wymuszana w systemach i procedurach.

Kroki procesu i dobór techniki pseudonimu

Pierwszym krokiem jest klasyfikacja pól na identyfikatory bezpośrednie, pośrednie i kontekstowe oraz opis scenariuszy użycia, np. analityka, badania, testy środowiskowe, szkolenia. Drugim krokiem jest wybór techniki pseudonimu: losowe identyfikatory, tokenizacja z mapowaniem lub szyfrowanie, przy czym krytyczne jest rozdzielenie zasobu mapowań albo klucza. Trzeci krok obejmuje ograniczenie dostępu do „dodatkowych informacji” do wąskiej grupy ról oraz doprecyzowanie dopuszczalnych podstaw uruchomienia depseudonimizacji. Czwarty krok to zaprojektowanie eksportów i integracji tak, aby nie przenosiły stabilnych identyfikatorów poza kontrolowany kanał.

Testy i audyt: jak potwierdzić separację mapowań

Weryfikacja polega na próbie powiązania danych bez dostępu do mapowań, na przeglądzie uprawnień oraz na analizie tego, czy logi rejestrują operacje odtworzenia tożsamości. Skuteczna kontrola powinna ujawniać: kto, kiedy i po co uzyskał powiązanie, a także w jakim systemie lub module nastąpiło zdarzenie. Istotnym testem jest też przegląd raportów i eksportów pod kątem identyfikatorów, które nie były objęte transformacją.

Jeśli logi nie pozwalają wskazać roli i celu depseudonimizacji, to ryzyko naruszenia rozliczalności pozostaje wysokie.

W działaniach operacyjnych związanych z cyfrową dokumentacją znaczenie ma także spójność mechanizmów w źródłowych narzędziach, takich jak EDM dokumentacja medyczna.

Typowe błędy pseudonimizacji w dokumentacji medycznej i ich skutki

Błędy w pseudonimizacji wynikają zwykle z niewłaściwego rozpoznania miejsc, w których identyfikatory opuszczają rekord medyczny, oraz z braku rzeczywistej separacji mapowań. Skutkiem jest możliwość przypisania danych do osoby przez osoby mające szeroki dostęp administracyjny lub przez odbiorców danych, którzy dysponują informacjami uzupełniającymi.

Anty-wzorce techniczne

Do częstych anty-wzorców należy pseudonimizacja ograniczona do interfejsu aplikacji, przy jednoczesnym pozostawieniu identyfikatorów w eksporcie, API, raportach lub logach. Innym problemem jest stały pseudonim, który umożliwia łączenie wielu zbiorów bez kontroli kontekstu, a także brak rotacji identyfikatorów w dłuższych cyklach analitycznych. Nieszczelności powstają też poprzez załączniki i wolny tekst, gdzie transformacja nie została wdrożona lub nie ma przeglądów jakości.

Anty-wzorce organizacyjne

Organizacyjnie ryzykowne jest pozostawienie tej samej grupie ról dostępu do danych klinicznych i do mapowań, co czyni separację formalną. Problemem bywa też brak procedury depseudonimizacji i brak reguł, kiedy powiązanie jest dopuszczalne, co uniemożliwia ocenę zasadności dostępu. W przygotowaniu danych do udostępnień pojawia się również pomijanie identyfikacji pośredniej, gdy unikalne kombinacje cech klinicznych redukują anonimowość zbioru.

Jeśli ten sam token pozwala łączyć dane wielu epizodów leczenia, to test korelacji między zbiorami pozwala odróżnić pseudonimizację od prostego etykietowania rekordów.

W analizach bezpieczeństwa danych placówki medycznej znaczenie ma dopasowanie narzędzi, które kształtują obieg informacji, takich jak oprogramowanie medyczne.

Jak odróżnić wiarygodne źródła o pseudonimizacji od opinii?

Źródła dokumentacyjne i urzędowe są preferowane, gdy mają stabilny format, jednoznacznego właściciela treści oraz umożliwiają weryfikację cytatów wprost w dokumencie. Opracowania branżowe są pomocne, jeśli zawierają odniesienia do dokumentów pierwotnych i rozdzielają interpretację od treści normatywnej. Wypowiedzi społecznościowe sygnalizują problemy procesowe, lecz nie zapewniają weryfikowalności, więc mogą służyć do mapowania wątpliwości, a nie do potwierdzania zasad. Najsilniejsze sygnały zaufania występują, gdy dokument ma datę, instytucję publikującą i jednoznaczne brzmienie definicji.

QA: pytania i odpowiedzi o pseudonimizacji danych w EDM

Czy dane spseudonimizowane nadal są danymi osobowymi?

Tak, ponieważ istnieje możliwość powiązania danych z osobą przy użyciu dodatkowych informacji. Z tego powodu utrzymują się obowiązki ochrony, rozliczalności i właściwego zarządzania dostępem.

Czy tokenizacja zawsze oznacza pseudonimizację?

Nie, jeśli mapowanie tokenu do osoby jest dostępne szeroko albo jeśli token pozostaje stały i łatwo korelowalny między zbiorami. O uznaniu za pseudonimizację decydują separacja mapowań oraz kontrola i audyt dostępu do powiązań.

Co jest „dodatkowymi informacjami” w pseudonimizacji?

Są to dane mapujące lub klucze umożliwiające przejście od pseudonimu do osoby, np. tabela powiązań lub klucze kryptograficzne. Ich odseparowanie oraz ograniczenie dostępu stanowią warunek konieczny procesu.

Jak ograniczać ryzyko identyfikacji pośredniej w danych zdrowotnych?

Ryzyko ogranicza się przez analizę rzadkich kombinacji cech, agregację lub uogólnianie wybranych atrybutów oraz kontrolę wielkości prób. Istotne jest też sprawdzanie, jakie informacje u odbiorcy danych mogą zostać połączone z rekordami.

Kiedy pseudonimizacja bywa niewystarczająca w ochronie zdrowia?

Niewystarczalność występuje, gdy odbiorca danych ma wysokie możliwości reidentyfikacji lub gdy zbiór jest mały i zawiera rzadkie cechy kliniczne. W takich sytuacjach potrzebne są silniejsze ograniczenia dostępu, dalsza redukcja szczegółowości lub anonimizacja.

Jakie logi i kontrole potwierdzają kontrolę depseudonimizacji?

Potwierdzają to logi rejestrujące kto i kiedy uzyskał powiązanie, z jakiej roli oraz w jakim celu, wraz z możliwością audytu. Dodatkowo znaczenie mają okresowe przeglądy uprawnień i testy eksportów pod kątem identyfikatorów.

Źródła

Podsumowanie

Pseudonimizacja danych w dokumentacji medycznej oznacza kontrolowane rozdzielenie danych klinicznych i informacji mapujących, przy równoczesnym utrzymaniu rozliczalności dostępu. Kluczowe są separacja mapowań, ograniczenie ról oraz logowanie depseudonimizacji, ponieważ dane pozostają danymi osobowymi. Najczęstsze błędy dotyczą eksportów, integracji oraz wolnego tekstu i załączników, gdzie identyfikatory pozostają poza kontrolą procesu.

W systemach, w których obieg danych obejmuje także harmonogramy i przepływ pacjentów, spójność mechanizmów kontroli powiązań można powiązać z procesami administracyjnymi takimi jak Program do rejestracji pacjentów.