1. Koncepcja maskowania danych
Maskowanie danych jest również znane jako maskowanie danych. Jest to techniczna metoda konwersji, modyfikacji lub zakrycia poufnych danych, takich jak numer telefonu komórkowego, numer karty bankowej i inne informacje, gdy podaliśmy zasady i polityki maskowania. Ta technika jest stosowana przede wszystkim w celu zapobiegania bezpośredniemu wykorzystywaniu poufnych danych w środowiskach niepewnych.
Zasada maskowania danych: maskowanie danych powinno zachowywać oryginalne cechy danych, reguły biznesowe i istotność danych, aby zapewnić, że późniejsze prace rozwojowe, testowanie i analiza danych nie zostaną naruszone przez maskowanie. Zapewnij spójność i ważność danych przed i po maskowaniu.
2. Klasyfikacja maskowania danych
Maskowanie danych można podzielić na statyczne maskowanie danych (SDM) i dynamiczne maskowanie danych (DDM).
Statyczne maskowanie danych (SDM): Statyczne maskowanie danych wymaga utworzenia nowej bazy danych środowiska nieprodukcyjnego w celu odizolowania jej od środowiska produkcyjnego. Dane wrażliwe są wyodrębniane z bazy danych produkcyjnej, a następnie przechowywane w bazie danych nieprodukcyjnej. W ten sposób odczulone dane są izolowane od środowiska produkcyjnego, co spełnia potrzeby biznesowe i zapewnia bezpieczeństwo danych produkcyjnych.
Dynamiczne maskowanie danych (DDM): Jest on powszechnie używany w środowisku produkcyjnym do odczulania wrażliwych danych w czasie rzeczywistym. Czasami do odczytania tych samych wrażliwych danych w różnych sytuacjach wymagane są różne poziomy maskowania. Na przykład różne role i uprawnienia mogą implementować różne schematy maskowania.
Aplikacja do raportowania danych i maskowania produktów danych
Takie scenariusze obejmują głównie wewnętrzne produkty do monitorowania danych lub billboardy, zewnętrzne produkty usługowe do zarządzania danymi oraz raporty oparte na analizie danych, takie jak raporty biznesowe i przeglądy projektów.
3. Rozwiązanie maskowania danych
Do powszechnie stosowanych metod maskowania danych zalicza się: unieważnianie, wartość losową, zastępowanie danych, szyfrowanie symetryczne, wartość uśrednioną, przesunięcie i zaokrąglenie itp.
Unieważnienie: Unieważnienie odnosi się do szyfrowania, obcinania lub ukrywania poufnych danych. Ten schemat zwykle zastępuje rzeczywiste dane symbolami specjalnymi (takimi jak *). Operacja jest prosta, ale użytkownicy nie mogą znać formatu oryginalnych danych, co może mieć wpływ na późniejsze aplikacje danych.
Wartość losowa: Wartość losowa odnosi się do losowej zamiany wrażliwych danych (liczby zastępują cyfry, litery zastępują litery, a znaki zastępują znaki). Ta metoda maskowania zapewni format wrażliwych danych do pewnego stopnia i ułatwi późniejsze zastosowanie danych. Słowniki maskujące mogą być potrzebne w przypadku niektórych znaczących słów, takich jak imiona osób i miejsca.
Zastępowanie danych:Podmiana danych jest podobna do maskowania wartości zerowych i losowych, z tą różnicą, że zamiast używać znaków specjalnych lub wartości losowych, dane maskujące są zastępowane określoną wartością.
Szyfrowanie symetryczne:Szyfrowanie symetryczne to specjalna odwracalna metoda maskowania. Szyfruje ona poufne dane za pomocą kluczy szyfrujących i algorytmów. Format szyfrogramu jest zgodny z oryginalnymi danymi w regułach logicznych.
Przeciętny: Schemat średniej jest często używany w scenariuszach statystycznych. W przypadku danych liczbowych najpierw obliczamy ich średnią, a następnie losowo rozprowadzamy odczulone wartości wokół średniej, utrzymując w ten sposób stałą sumę danych.
Przesunięcie i zaokrąglenie:Ta metoda zmienia dane cyfrowe poprzez losowe przesunięcie. Zaokrąglanie przesunięcia zapewnia przybliżoną autentyczność zakresu, przy jednoczesnym zachowaniu bezpieczeństwa danych, które są bliższe rzeczywistym danym niż poprzednie schematy i mają duże znaczenie w scenariuszu analizy dużych zbiorów danych.
Model polecanyML-NPB-5660„do maskowania danych
4. Najczęściej stosowane techniki maskowania danych
(1). Techniki statystyczne
Próbkowanie danych i agregacja danych
- Pobieranie próbek danych: Analiza i ocena oryginalnego zestawu danych poprzez wybranie reprezentatywnego podzbioru zestawu danych to ważna metoda poprawy skuteczności technik anonimizacji.
- Agregacja danych: jako zbiór technik statystycznych (takich jak sumowanie, liczenie, uśrednianie, maksima i minima) stosowanych do atrybutów w mikrodanych, wynik jest reprezentatywny dla wszystkich rekordów w oryginalnym zestawie danych.
(2). Kryptografia
Kryptografia jest powszechną metodą odczulania lub zwiększania skuteczności odczulania. Różne typy algorytmów szyfrowania mogą osiągnąć różne efekty odczulania.
- Szyfrowanie deterministyczne: nielosowe szyfrowanie symetryczne. Zwykle przetwarza dane ID i może odszyfrować i przywrócić tekst zaszyfrowany do oryginalnego ID, gdy jest to konieczne, ale klucz musi być odpowiednio chroniony.
- Nieodwracalne szyfrowanie: Funkcja skrótu jest używana do przetwarzania danych, które są zwykle używane do danych identyfikacyjnych. Nie można jej bezpośrednio odszyfrować, a relacja mapowania musi zostać zapisana. Ponadto, ze względu na funkcję skrótu, może wystąpić kolizja danych.
- Szyfrowanie homomorficzne: Używany jest algorytm homomorficzny szyfrogramu. Jego cechą charakterystyczną jest to, że wynik operacji szyfrogramu jest taki sam jak wynik operacji jawnego tekstu po odszyfrowaniu. Dlatego jest powszechnie używany do przetwarzania pól numerycznych, ale nie jest szeroko stosowany ze względu na wydajność.
(3). Technologia systemowa
Technologia tłumienia usuwa lub chroni elementy danych, które nie spełniają wymogów ochrony prywatności, ale nie publikuje ich.
- Maskowanie: odnosi się do najpowszechniejszej metody desensytyzacji polegającej na maskowaniu wartości atrybutu, np. numeru przeciwnika, oznaczenia dowodu osobistego gwiazdką lub skrócenia adresu.
- Lokalne tłumienie: odnosi się do procesu usuwania określonych wartości atrybutów (kolumn), usuwania nieistotnych pól danych;
- Usuwanie rekordów: odnosi się do procesu usuwania określonych rekordów (wierszy) i usuwania nieistotnych rekordów danych.
(4). Technologia pseudonimu
Pseudomanning to technika deidentyfikacji, która wykorzystuje pseudonim do zastąpienia bezpośredniego identyfikatora (lub innego wrażliwego identyfikatora). Techniki pseudonimowe tworzą unikalne identyfikatory dla każdego indywidualnego podmiotu informacji, zamiast bezpośrednich lub wrażliwych identyfikatorów.
- Może niezależnie generować losowe wartości odpowiadające oryginalnemu identyfikatorowi, zapisywać tabelę mapowania i ściśle kontrolować dostęp do tabeli mapowania.
- Szyfrowania można używać również do tworzenia pseudonimów, należy jednak pamiętać o prawidłowym przechowywaniu klucza deszyfrującego;
Technologia ta jest powszechnie stosowana w przypadku dużej liczby niezależnych użytkowników danych, takich jak OpenID w scenariuszu otwartej platformy, gdzie różni programiści uzyskują różne identyfikatory OpenID dla tego samego użytkownika.
(5). Techniki generalizacji
Technika generalizacji odnosi się do techniki de-identyfikacji, która zmniejsza granularność wybranych atrybutów w zestawie danych i zapewnia bardziej ogólny i abstrakcyjny opis danych. Technologia generalizacji jest łatwa do wdrożenia i może chronić autentyczność danych na poziomie rekordu. Jest powszechnie stosowana w produktach danych lub raportach danych.
- Zaokrąglanie: obejmuje wybranie podstawy zaokrąglania dla wybranego atrybutu, np. zaokrąglanie w górę lub w dół, co daje wyniki 100, 500, 1K i 10K
- Techniki kodowania górnego i dolnego: Zastąp wartości powyżej (lub poniżej) progu progiem reprezentującym górny (lub dolny) poziom, uzyskując wynik „powyżej X” lub „poniżej X”
(6). Techniki randomizacji
Jako rodzaj techniki de-identyfikacji, technologia randomizacji odnosi się do modyfikacji wartości atrybutu poprzez randomizację, tak aby wartość po randomizacji była inna niż oryginalna wartość rzeczywista. Ten proces zmniejsza zdolność atakującego do wyprowadzenia wartości atrybutu z innych wartości atrybutów w tym samym rekordzie danych, ale wpływa na autentyczność wynikowych danych, co jest powszechne w przypadku danych testowych produkcji.
Czas publikacji: 27-09-2022