Jaka jest technologia i rozwiązanie maskowania danych w Network Packet Broker?

1. Koncepcja maskowania danych

Maskowanie danych jest również znane jako maskowanie danych. Jest to techniczna metoda konwertowania, modyfikowania lub ukrywania wrażliwych danych, takich jak numer telefonu komórkowego, numer karty bankowej i innych informacji, jeśli podaliśmy zasady i zasady maskowania. Technikę tę stosuje się przede wszystkim w celu zapobiegania bezpośredniemu wykorzystaniu wrażliwych danych w zawodnych środowiskach.

Zasada maskowania danych: Maskowanie danych powinno zachować oryginalną charakterystykę danych, reguły biznesowe i istotność danych, aby zapewnić, że maskowanie nie będzie miało wpływu na późniejsze opracowywanie, testowanie i analizę danych. Zapewnij spójność i ważność danych przed i po maskowaniu.

2. Klasyfikacja maskowania danych

Maskowanie danych można podzielić na statyczne maskowanie danych (SDM) i dynamiczne maskowanie danych (DDM).

Statyczne maskowanie danych (SDM): Statyczne maskowanie danych wymaga utworzenia nowej bazy danych środowiska nieprodukcyjnego w celu odizolowania go od środowiska produkcyjnego. Wrażliwe dane są pobierane z produkcyjnej bazy danych, a następnie przechowywane w nieprodukcyjnej bazie danych. W ten sposób odczulone dane są izolowane od środowiska produkcyjnego, co spełnia potrzeby biznesowe i zapewnia bezpieczeństwo danych produkcyjnych.

SDM

Dynamiczne maskowanie danych (DDM): Jest powszechnie używany w środowisku produkcyjnym do odczulania wrażliwych danych w czasie rzeczywistym. Czasami do odczytania tych samych wrażliwych danych w różnych sytuacjach wymagane są różne poziomy maskowania. Na przykład różne role i uprawnienia mogą implementować różne schematy maskowania.

DDM

Aplikacja do raportowania danych i maskowania produktów danych

Takie scenariusze obejmują głównie produkty lub billboardy do wewnętrznego monitorowania danych, produkty danych w ramach usług zewnętrznych oraz raporty oparte na analizie danych, takie jak raporty biznesowe i przeglądy projektów.

maskowanie produktu raportowania danych

3. Rozwiązanie do maskowania danych

Typowe schematy maskowania danych obejmują: unieważnianie, wartość losową, zastępowanie danych, szyfrowanie symetryczne, wartość średnią, przesunięcie i zaokrąglanie itp.

Unieważnienie: Unieważnienie odnosi się do szyfrowania, obcinania lub ukrywania wrażliwych danych. Ten schemat zwykle zastępuje dane rzeczywiste specjalnymi symbolami (takimi jak *). Operacja jest prosta, ale użytkownicy nie mogą znać formatu oryginalnych danych, co może mieć wpływ na późniejsze aplikacje danych.

Losowa wartość: Wartość losowa odnosi się do losowej zamiany wrażliwych danych (cyfry zastępują cyfry, litery zastępują litery, a znaki zastępują znaki). Ta metoda maskowania w pewnym stopniu zapewni format danych wrażliwych i ułatwi późniejsze zastosowanie danych. W przypadku niektórych znaczących słów, takich jak imiona osób i miejsc, mogą być potrzebne słowniki maskujące.

Wymiana danych: Zastępowanie danych jest podobne do maskowania wartości zerowych i losowych, z tą różnicą, że zamiast używać znaków specjalnych lub wartości losowych, dane maskujące są zastępowane określoną wartością.

Szyfrowanie symetryczne: Szyfrowanie symetryczne to specjalna odwracalna metoda maskowania. Szyfruje wrażliwe dane za pomocą kluczy szyfrujących i algorytmów. Format tekstu zaszyfrowanego jest zgodny z oryginalnymi danymi w regułach logicznych.

Przeciętny: Schemat przeciętny jest często używany w scenariuszach statystycznych. W przypadku danych liczbowych najpierw obliczamy ich średnią, a następnie losowo rozprowadzamy odczulone wartości wokół średniej, utrzymując w ten sposób stałą sumę danych.

Przesunięcie i zaokrąglenie: Ta metoda zmienia dane cyfrowe poprzez losowe przesunięcie. Zaokrąglanie offsetowe zapewnia przybliżoną autentyczność zakresu przy zachowaniu bezpieczeństwa danych, które jest bliższe rzeczywistym danym niż dotychczasowe schematy i ma ogromne znaczenie w scenariuszu analizy big data.

ML-NPB-5660-数据脱敏

Polecany model”ML-NPB-5660„do maskowania danych

4. Powszechnie stosowane techniki maskowania danych

(1). Techniki statystyczne

Próbkowanie i agregacja danych

- Próbkowanie danych: Analiza i ocena pierwotnego zbioru danych poprzez wybranie reprezentatywnego podzbioru zbioru danych jest ważną metodą poprawy skuteczności technik deidentyfikacji.

- Agregacja danych: jako zbiór technik statystycznych (takich jak sumowanie, liczenie, uśrednianie, maksimum i minimum) stosowanych do atrybutów w mikrodanych, wynik jest reprezentatywny dla wszystkich rekordów w oryginalnym zbiorze danych.

(2). Kryptografia

Kryptografia jest powszechną metodą odczulania lub zwiększania skuteczności odczulania. Różne typy algorytmów szyfrowania mogą osiągnąć różne efekty desensytyzacji.

- Szyfrowanie deterministyczne: nielosowe szyfrowanie symetryczne. Zwykle przetwarza dane identyfikacyjne i w razie potrzeby może odszyfrować i przywrócić oryginalny identyfikator, ale klucz musi być odpowiednio chroniony.

- Szyfrowanie nieodwracalne: Do przetwarzania danych wykorzystywana jest funkcja skrótu, która jest zwykle używana w przypadku danych identyfikacyjnych. Nie można go bezpośrednio odszyfrować i należy zapisać relację mapowania. Ponadto ze względu na funkcję skrótu może wystąpić kolizja danych.

- Szyfrowanie homomorficzne: używany jest algorytm homomorficzny tekstu zaszyfrowanego. Jego cechą charakterystyczną jest to, że wynik operacji na zaszyfrowanym tekście jest taki sam, jak w przypadku operacji na tekście jawnym po odszyfrowaniu. Dlatego jest powszechnie używany do przetwarzania pól numerycznych, ale nie jest powszechnie stosowany ze względu na wydajność.

(3). Technologia systemowa

Technologia tłumienia usuwa lub chroni elementy danych, które nie spełniają wymogów ochrony prywatności, ale ich nie publikuje.

- Maskowanie: odnosi się do najpowszechniejszej metody odczulania mającej na celu zamaskowanie wartości atrybutu, np. numeru przeciwnika, oznaczenia dowodu osobistego gwiazdką lub obcięcia adresu.

- Lokalne tłumienie: odnosi się do procesu usuwania określonych wartości atrybutów (kolumn), usuwania nieistotnych pól danych;

- Tłumienie rekordów: odnosi się do procesu usuwania określonych rekordów (wierszy), usuwania nieistotnych rekordów danych.

(4). Technologia pseudonimów

Pseudomanning to technika deidentyfikacji, która wykorzystuje pseudonim w celu zastąpienia bezpośredniego identyfikatora (lub innego wrażliwego identyfikatora). Techniki pseudonimizacji tworzą unikalne identyfikatory dla każdej indywidualnej osoby, której dotyczą informacje, zamiast bezpośrednich lub wrażliwych identyfikatorów.

- Może niezależnie generować losowe wartości odpowiadające oryginalnemu identyfikatorowi, zapisywać tabelę mapowania i ściśle kontrolować dostęp do tabeli mapowania.

- Możesz także użyć szyfrowania do tworzenia pseudonimów, ale musisz prawidłowo przechowywać klucz deszyfrujący;

Technologia ta jest szeroko stosowana w przypadku dużej liczby niezależnych użytkowników danych, jak np. OpenID w scenariuszu otwartej platformy, gdzie różni programiści uzyskują różne Openidy dla tego samego użytkownika.

(5). Techniki uogólniania

Technika generalizacji odnosi się do techniki deidentyfikacji, która zmniejsza szczegółowość wybranych atrybutów w zbiorze danych i zapewnia bardziej ogólny i abstrakcyjny opis danych. Technologia generalizacji jest łatwa do wdrożenia i może chronić autentyczność danych na poziomie rekordu. Jest powszechnie stosowany w produktach danych lub raportach danych.

- Zaokrąglanie: polega na wybraniu podstawy zaokrąglenia dla wybranego atrybutu, np. w kryminalistyce w górę lub w dół, co daje wyniki 100, 500, 1K i 10K

- Techniki kodowania górnego i dolnego: Zamień wartości powyżej (lub poniżej) progu na próg reprezentujący górny (lub dolny) poziom, dając wynik „powyżej X” lub „poniżej X”

(6). Techniki randomizacji

Jako rodzaj techniki deidentyfikacji, technologia randomizacji odnosi się do modyfikowania wartości atrybutu poprzez randomizację, tak aby wartość po randomizacji różniła się od pierwotnej wartości rzeczywistej. Proces ten ogranicza zdolność osoby atakującej do uzyskania wartości atrybutu na podstawie innych wartości atrybutów w tym samym rekordzie danych, ale wpływa na autentyczność uzyskanych danych, co jest typowe w przypadku danych z testów produkcyjnych.


Czas publikacji: 27 września 2022 r