Jaka jest technologia maskowania danych i rozwiązanie w brokerze pakietów sieciowych?

1. Pojęcie maskowania danych

Maskowanie danych jest również znane jako maskowanie danych. Jest to techniczna metoda konwertowania, modyfikowania lub obejmowania poufnych danych, takich jak numer telefonu komórkowego, numer karty bankowej i inne informacje, gdy podaliśmy reguły i zasady maskowania. Technika ta służy przede wszystkim w celu zapobiegania bezpośrednim stosowaniu wrażliwych danych w nierzetelnych środowiskach.

Zasada maskowania danych: Maskowanie danych powinno zachować oryginalne cechy danych, reguły biznesowe i znaczenie danych, aby zapewnić, że maskowanie nie będzie miało wpływu na późniejsze opracowanie, testowanie i analiza danych. Zapewnij spójność danych i ważność przed i po maskowaniu.

2. Klasyfikacja maskowania danych

Maskowanie danych można podzielić na statyczne maskowanie danych (SDM) i dynamiczne maskowanie danych (DDM).

Maskowanie danych statycznych (SDM): Maskowanie danych statyczne wymaga ustanowienia nowej bazy danych środowiska nieprodukcyjnego do izolacji od środowiska produkcyjnego. Wrażliwe dane są wyodrębnione z produkcyjnej bazy danych, a następnie przechowywane w bazie danych nieprodukcyjnych. W ten sposób odczulone dane są odizolowane od środowiska produkcyjnego, które spełnia potrzeby biznesowe i zapewnia bezpieczeństwo danych produkcyjnych.

SDM

Dynamiczne maskowanie danych (DDM): Jest ogólnie używany w środowisku produkcyjnym do odczulania poufnych danych w czasie rzeczywistym. Czasami do odczytu tych samych poufnych danych wymagane są różne poziomy maskowania w różnych sytuacjach. Na przykład różne role i uprawnienia mogą wdrażać różne schematy maskowania.

DDM

Aplikacja do raportowania danych i produktów danych

Takie scenariusze obejmują głównie wewnętrzne produkty do monitorowania danych lub billboard, zewnętrzne produkty danych serwisowych i raporty oparte na analizie danych, takie jak raporty biznesowe i przegląd projektu.

Raportowanie danych maskowanie produktów

3. Rozwiązanie maskowania danych

Wspólne schematy maskowania danych obejmują: nieprawidłowanie, wartość losowa, wymianę danych, szyfrowanie symetryczne, średnia wartość, przesunięcie i zaokrąglanie itp.

Unieważnienie: Nieprzystanie odnosi się do szyfrowania, obcięcia lub ukrywania wrażliwych danych. Ten schemat zwykle zastępuje prawdziwe dane specjalnymi symbolami (takimi jak *). Operacja jest prosta, ale użytkownicy nie mogą znać formatu oryginalnych danych, które mogą wpływać na kolejne aplikacje danych.

Wartość losowa: Wartość losowa odnosi się do losowej wymiany poufnych danych (liczby zastępują cyfry, litery zastępują litery, a znaki zastępują znaki). Ta metoda maskowania zapewni format wrażliwych danych do pewnego stopnia i ułatwi kolejną aplikację danych. Słowniki maskowania mogą być potrzebne dla niektórych znaczących słów, takich jak imiona ludzi i miejsc.

Wymiana danych: Wymiana danych jest podobna do maskowania wartości zerowych i losowych, z tym wyjątkiem, że zamiast używać znaków specjalnych lub losowych, dane maskujące są zastępowane określoną wartością.

Symmetryczne szyfrowanie: Symmetryczne szyfrowanie jest specjalną odwracalną metodą maskowania. Szyfruje poufne dane za pośrednictwem kluczy szyfrowania i algorytmów. Format szyfrowania jest zgodny z oryginalnymi danymi w regułach logicznych.

Przeciętny: Średni schemat jest często stosowany w scenariuszach statystycznych. W przypadku danych numerycznych najpierw obliczamy ich średnią, a następnie losowo rozkładamy odczuwane wartości wokół średniej, zachowując w ten sposób sumę stałej danych.

Przesunięcie i zaokrąglanie: Ta metoda zmienia dane cyfrowe według losowej zmiany. Zaokrąglanie przesunięcia zapewnia przybliżoną autentyczność zakresu, jednocześnie zachowując bezpieczeństwo danych, które są bliższe rzeczywistych danych niż poprzednie schematy, i ma ogromne znaczenie w scenariuszu analizy dużych zbiorów danych.

ML-NPB-5660- 数据脱敏

Model rekomendacji "ML-NPB-5660„W przypadku maskowania danych

4. Powszechnie stosowane techniki maskowania danych

(1). Techniki statystyczne

Próbkowanie danych i agregacja danych

- Próbkowanie danych: Analiza i ocena oryginalnego zestawu danych poprzez wybór reprezentatywnego podzbioru zestawu danych jest ważną metodą poprawy skuteczności technik identyfikacji.

- Agregacja danych: Jako zbiór technik statystycznych (takich jak podsumowanie, zliczanie, uśrednianie, maksimum i minimum) zastosowane do atrybutów w mikrodata, wynik jest reprezentatywny dla wszystkich rekordów w oryginalnym zestawie danych.

(2). Kryptografia

Kryptografia jest powszechną metodą odczulania lub zwiększania skuteczności odczulania. Różne rodzaje algorytmów szyfrowania mogą osiągnąć różne efekty odczulania.

- szyfrowanie deterministyczne: szyfrowanie symetryczne nierandomie. Zazwyczaj przetwarza dane identyfikacyjne i może odszyfrować i przywrócić szyfr tekstów do oryginalnego identyfikatora w razie potrzeby, ale klucz musi być odpowiednio chroniony.

- nieodwracalne szyfrowanie: Funkcja skrótu służy do przetwarzania danych, które są zwykle używane do danych ID. Nie można go bezpośrednio odszyfrować, a związek mapowania musi zostać zapisany. Ponadto, ze względu na funkcję funkcji skrótu, może wystąpić zderzenie danych.

- Szyfrowanie homomorficzne: stosuje się algorytm homomorficzny szyfrowania. Jego cechą jest to, że wynik działania szyfrujnika jest taki sam jak w przypadku operacji zwykłego tekstu po odszyfrowaniu. Dlatego jest powszechnie używany do przetwarzania pól numerycznych, ale nie jest powszechnie stosowany z powodów wydajności.

(3). Technologia systemowa

Technologia tłumienia usuwa lub chroni elementy danych, które nie spełniają ochrony prywatności, ale ich nie publikują.

- Maskowanie: odnosi się do najczęstszej metody odczulania, aby maskować wartość atrybutu, taką jak numer przeciwnika, karta identyfikacyjna jest oznaczona gwiazdką lub adres jest obcięty.

- Lokalna supresja: odnosi się do procesu usuwania określonych wartości atrybutów (kolumn), usuwania nieistotnych pól danych;

- Supresja rekordów: odnosi się do procesu usuwania określonych rekordów (wierszy), usuwania nieistotnych rekordów danych.

(4). Technologia pseudonimu

Pseudomanning to technika identyfikacji, która wykorzystuje pseudonim do zastąpienia bezpośredniego identyfikatora (lub innego wrażliwego identyfikatora). Techniki pseudonimowe tworzą unikalne identyfikatory dla każdego przedmiotu informacji, zamiast bezpośrednich lub wrażliwych identyfikatorów.

- Może generować wartości losowe niezależnie, aby odpowiadały oryginalnemu identyfikatorowi, zapisać tabelę mapowania i ściśle kontrolować dostęp do tabeli mapowania.

- Możesz także użyć szyfrowania do tworzenia pseudonimów, ale musisz prawidłowo zachować klucz do deszyfrowania;

Technologia ta jest szeroko stosowana w przypadku dużej liczby niezależnych użytkowników danych, takich jak OpenId w scenariuszu otwartej platformy, w którym różni programiści uzyskują różne openids dla tego samego użytkownika.

(5). Techniki uogólnienia

Technika uogólnienia odnosi się do techniki de-identyfikacyjnej, która zmniejsza szczegółowość wybranych atrybutów w zestawie danych i zapewnia bardziej ogólny i abstrakcyjny opis danych. Technologia uogólnienia jest łatwa do wdrożenia i może chronić autentyczność danych na poziomie rekordu. Jest powszechnie używany w produktach danych lub raportach danych.

- Zaokrąglanie: polega na wybraniu podstawy zaokrąglonej dla wybranego atrybutu, takiego jak kryminalistyka w górę lub w dół, dając wyniki 100, 500, 1k i 10k

- Techniki kodowania górnego i dolnego: Wymień wartości powyżej (lub poniżej) próg progiem reprezentującym górny (lub dolny) poziom, dając wynik „powyżej x” lub „poniżej x”

(6). Techniki randomizacji

Jako rodzaj techniki de-identyfikacyjnej technologia randomizacji odnosi się do modyfikacji wartości atrybutu poprzez randomizację, tak że wartość po randomizacji różni się od pierwotnej wartości rzeczywistej. Proces ten zmniejsza zdolność atakującego do uzyskania wartości atrybutu z innych wartości atrybutów w tym samym zapisie danych, ale wpływa na autentyczność uzyskanych danych, co jest powszechne w przypadku danych testu produkcyjnego.


Czas po: 27-2022 września