Na czym polega technologia maskowania danych i jakie jest rozwiązanie w Network Packet Broker?

1. Koncepcja maskowania danych

Maskowanie danych jest również znane jako maskowanie danych. Jest to techniczna metoda konwersji, modyfikacji lub zakrycia poufnych danych, takich jak numer telefonu komórkowego, numer karty bankowej i inne informacje, jeśli zostały określone reguły i polityki maskowania. Technika ta jest stosowana głównie w celu zapobiegania bezpośredniemu wykorzystywaniu poufnych danych w środowiskach o niskiej niezawodności.

Zasada maskowania danych: Maskowanie danych powinno zachowywać oryginalne cechy danych, reguły biznesowe i istotność danych, aby zapewnić, że późniejsze prace rozwojowe, testowanie i analiza danych nie zostaną zakłócone przez maskowanie. Należy zapewnić spójność i ważność danych przed i po maskowaniu.

2. Klasyfikacja maskowania danych

Maskowanie danych można podzielić na statyczne maskowanie danych (SDM) i dynamiczne maskowanie danych (DDM).

Statyczne maskowanie danych (SDM):Statyczne maskowanie danych wymaga utworzenia nowej bazy danych w środowisku nieprodukcyjnym w celu odizolowania jej od środowiska produkcyjnego. Dane wrażliwe są wyodrębniane z bazy danych produkcyjnej, a następnie przechowywane w bazie danych nieprodukcyjnej. W ten sposób odwrażliwione dane są izolowane od środowiska produkcyjnego, co spełnia potrzeby biznesowe i zapewnia bezpieczeństwo danych produkcyjnych.

SDM

Dynamiczne maskowanie danych (DDM):Jest on powszechnie używany w środowisku produkcyjnym do odwrażliwiania danych wrażliwych w czasie rzeczywistym. Czasami, aby odczytać te same wrażliwe dane w różnych sytuacjach, wymagane są różne poziomy maskowania. Na przykład, różne role i uprawnienia mogą implementować różne schematy maskowania.

DDM

Aplikacja do raportowania danych i maskowania produktów danych

Takie scenariusze obejmują głównie wewnętrzne produkty do monitorowania danych lub billboardy, zewnętrzne produkty usługowe do monitorowania danych oraz raporty oparte na analizie danych, takie jak raporty biznesowe i przeglądy projektów.

maskowanie produktu do raportowania danych

3. Rozwiązanie maskowania danych

Do typowych schematów maskowania danych zalicza się: unieważnianie, wartość losową, zastępowanie danych, szyfrowanie symetryczne, wartość średnią, przesunięcie i zaokrąglanie itp.

Unieważnienie:Unieważnienie odnosi się do szyfrowania, obcinania lub ukrywania poufnych danych. Ten schemat zazwyczaj zastępuje rzeczywiste dane symbolami specjalnymi (takimi jak *). Operacja jest prosta, ale użytkownicy nie znają formatu oryginalnych danych, co może mieć wpływ na późniejsze wykorzystanie danych.

Wartość losowa: Wartość losowa odnosi się do losowego zastępowania danych wrażliwych (liczby zastępują cyfry, litery zastępują litery, a znaki zastępują znaki). Ta metoda maskowania zapewni w pewnym stopniu formatowanie danych wrażliwych i ułatwi późniejsze wykorzystanie danych. Słowniki maskujące mogą być potrzebne w przypadku niektórych znaczących słów, takich jak imiona i nazwiska osób i miejsc.

Zastąpienie danych:Zastępowanie danych jest podobne do maskowania wartości zerowych i losowych, z tą różnicą, że zamiast używać znaków specjalnych lub wartości losowych, dane maskujące są zastępowane określoną wartością.

Szyfrowanie symetryczneSzyfrowanie symetryczne to specjalna odwracalna metoda maskowania. Szyfruje ona poufne dane za pomocą kluczy i algorytmów szyfrujących. Format szyfrogramu jest zgodny z danymi oryginalnymi w regułach logicznych.

PrzeciętnySchemat uśredniania jest często stosowany w scenariuszach statystycznych. W przypadku danych liczbowych najpierw obliczamy ich średnią, a następnie losowo rozprowadzamy wartości odczulone wokół średniej, utrzymując w ten sposób stałą sumę danych.

Przesunięcie i zaokrąglenie:Ta metoda zmienia dane cyfrowe poprzez losowe przesunięcie. Zaokrąglanie przesunięcia zapewnia przybliżoną autentyczność zakresu przy jednoczesnym zachowaniu bezpieczeństwa danych, które są bliższe rzeczywistym danym niż w poprzednich schematach, co ma ogromne znaczenie w kontekście analizy dużych zbiorów danych.

ML-NPB-5660-数据脱敏

Model polecanyML-NPB-5660„do maskowania danych

4. Powszechnie stosowane techniki maskowania danych

(1). Techniki statystyczne

Pobieranie próbek danych i agregacja danych

- Pobieranie próbek danych: Analiza i ocena oryginalnego zestawu danych poprzez wybranie reprezentatywnego podzbioru zestawu danych to ważna metoda poprawy skuteczności technik anonimizacji.

- Agregacja danych: jako zbiór technik statystycznych (takich jak sumowanie, liczenie, uśrednianie, maksima i minimum) stosowanych do atrybutów w mikrodanych, wynik jest reprezentatywny dla wszystkich rekordów w oryginalnym zestawie danych.

(2). Kryptografia

Kryptografia jest powszechną metodą desensytyzacji lub zwiększenia skuteczności desensytyzacji. Różne typy algorytmów szyfrowania mogą osiągnąć różne efekty desensytyzacji.

- Szyfrowanie deterministyczne: Nielosowe szyfrowanie symetryczne. Zazwyczaj przetwarza dane identyfikacyjne i w razie potrzeby może odszyfrować i przywrócić tekst zaszyfrowany do oryginalnego identyfikatora, ale klucz musi być odpowiednio zabezpieczony.

- Szyfrowanie nieodwracalne: Funkcja skrótu służy do przetwarzania danych, zazwyczaj w przypadku danych identyfikacyjnych. Nie można jej bezpośrednio odszyfrować, a relacja mapowania musi zostać zapisana. Ponadto, ze względu na specyfikę funkcji skrótu, może wystąpić kolizja danych.

- Szyfrowanie homomorficzne: Używany jest algorytm homomorficzny szyfrogramu. Jego cechą charakterystyczną jest to, że wynik operacji szyfrogramu jest taki sam jak w przypadku tekstu jawnego po odszyfrowaniu. Dlatego jest on powszechnie używany do przetwarzania pól liczbowych, ale nie jest szeroko stosowany ze względu na wydajność.

(3). Technologia systemowa

Technologia tłumienia usuwa lub chroni dane, które nie spełniają wymogów ochrony prywatności, ale ich nie publikuje.

- Maskowanie: odnosi się do najpowszechniejszej metody desensytyzacji polegającej na maskowaniu wartości atrybutu, np. numeru przeciwnika, oznaczenia dowodu osobistego gwiazdką lub skrócenia adresu.

- Tłumienie lokalne: odnosi się do procesu usuwania określonych wartości atrybutów (kolumn), usuwania zbędnych pól danych;

- Usuwanie rekordów: odnosi się do procesu usuwania konkretnych rekordów (wierszy) i usuwania zbędnych rekordów danych.

(4). Technologia pseudonimu

Pseudomanning to technika deidentyfikacji, która wykorzystuje pseudonim do zastąpienia identyfikatora bezpośredniego (lub innego wrażliwego identyfikatora). Techniki pseudonimowe tworzą unikalne identyfikatory dla każdego podmiotu informacji, zamiast identyfikatorów bezpośrednich lub wrażliwych.

- Może niezależnie generować losowe wartości odpowiadające oryginalnemu identyfikatorowi, zapisywać tabelę mapowania i ściśle kontrolować dostęp do tabeli mapowania.

- Szyfrowania można używać także do tworzenia pseudonimów, należy jednak pamiętać o prawidłowym przechowywaniu klucza deszyfrującego;

Technologia ta jest powszechnie stosowana w przypadku dużej liczby niezależnych użytkowników danych, takich jak OpenID w scenariuszu otwartej platformy, gdzie różni programiści uzyskują różne identyfikatory OpenID dla tego samego użytkownika.

(5). Techniki generalizacji

Technika generalizacji odnosi się do techniki deidentyfikacji, która zmniejsza szczegółowość wybranych atrybutów w zbiorze danych i zapewnia bardziej ogólny i abstrakcyjny opis danych. Technologia generalizacji jest łatwa do wdrożenia i może chronić autentyczność danych na poziomie rekordu. Jest powszechnie stosowana w produktach danych lub raportach danych.

- Zaokrąglanie: polega na wybraniu podstawy zaokrąglania dla wybranego atrybutu, np. zaokrąglanie w górę lub w dół, co daje wyniki 100, 500, 1K i 10K

- Techniki kodowania górnego i dolnego: Zastąp wartości powyżej (lub poniżej) progu progiem reprezentującym poziom górny (lub dolny), uzyskując wynik „powyżej X” lub „poniżej X”

(6). Techniki randomizacji

Technologia randomizacji, jako rodzaj techniki deidentyfikacji, polega na modyfikacji wartości atrybutu poprzez randomizację, tak aby wartość po randomizacji różniła się od pierwotnej wartości rzeczywistej. Proces ten ogranicza możliwość wyprowadzenia wartości atrybutu z innych wartości atrybutów w tym samym rekordzie danych, ale wpływa na autentyczność uzyskanych danych, co jest powszechne w przypadku danych testowych.


Czas publikacji: 27.09.2022