Deduplikacja danych to popularna i powszechnie stosowana technologia przechowywania danych, która optymalizuje pojemność pamięci masowej. Eliminuje ona redundantne dane poprzez usuwanie zduplikowanych danych ze zbioru danych, pozostawiając tylko jedną kopię. Jak pokazano na poniższym rysunku. Technologia ta może znacznie zmniejszyć zapotrzebowanie na fizyczną przestrzeń do przechowywania danych, aby sprostać rosnącemu zapotrzebowaniu na przechowywanie danych. Technologia deduplikacji może przynieść wiele praktycznych korzyści, w tym głównie następujące aspekty:
(1) | Spełnianie wymagań ROI (zwrotu z inwestycji)/TCO (całkowitego kosztu posiadania); |
(2) | Szybki wzrost ilości danych można skutecznie kontrolować; |
(3) | Zwiększenie efektywnej przestrzeni magazynowej i poprawa efektywności magazynowania; |
(4) | Oszczędź na całkowitych kosztach magazynowania i zarządzania; |
(5) | Oszczędzaj przepustowość sieci przy transmisji danych; |
(6) | Oszczędzaj koszty operacyjne i konserwacyjne, takie jak koszty miejsca, zasilania i chłodzenia. |
Technologia dedupe jest szeroko stosowana w systemach tworzenia kopii zapasowych i archiwizacji danych, ponieważ istnieje wiele zduplikowanych danych po wielokrotnym tworzeniu kopii zapasowych danych, co jest bardzo odpowiednie dla tej technologii. W rzeczywistości technologia dedupe może być stosowana w wielu sytuacjach, w tym w przypadku danych online, danych near-line i systemów przechowywania danych offline. Może być wdrażana w systemach plików, menedżerach woluminów, NAS i SAN. Dedupe może być również stosowana do odzyskiwania danych po awarii, transmisji danych i synchronizacji, ponieważ technologia kompresji danych może być stosowana do pakowania danych. Technologia dedupe może pomóc wielu aplikacjom w zmniejszeniu ilości danych przechowywanych w pamięci masowej, oszczędzaniu przepustowości sieci, poprawie wydajności pamięci masowej, skróceniu okna tworzenia kopii zapasowych i obniżeniu kosztów.
Deduplikacja ma dwa główne wymiary: współczynniki deduplikacji i wydajność. Wydajność deduplikacji zależy od konkretnej technologii implementacji, natomiast szybkość deduplikacji jest określana przez charakterystykę samych danych i wzorce aplikacji, jak pokazano w poniższej tabeli. Dostawcy pamięci masowej obecnie podają, że współczynniki deduplikacji mieszczą się w przedziale od 20:1 do 500:1.
Wysoka szybkość deduplikacji | Niski współczynnik deduplikacji |
Dane utworzone przez użytkownika | Dane ze świata przyrody |
Niska dynamika zmian danych | Dane o dużej szybkości zmian |
Dane referencyjne, dane nieaktywne | Aktywne dane |
Aplikacja o niskiej szybkości zmian danych | Aplikacja o dużej szybkości zmian danych |
Pełna kopia zapasowa danych | Przyrostowa kopia zapasowa danych |
Długoterminowe przechowywanie danych | Krótkotrwałe przechowywanie danych |
Szeroki zakres zastosowań danych | Mały zakres zastosowań danych |
Ciągłe przetwarzanie danych biznesowych | Ogólne przetwarzanie danych biznesowych |
Mała segmentacja danych | Segmentacja dużych zbiorów danych |
Wydłużona segmentacja danych | Segmentacja danych o stałej długości |
Postrzegana treść danych | Nieznana zawartość danych |
Deduplikacja danych czasowych | Deduplikacja danych przestrzennych |
Punkty implementacji deduplikacji
Przy opracowywaniu lub stosowaniu technologii Dedupe należy wziąć pod uwagę różne czynniki, ponieważ mają one bezpośredni wpływ na jej wydajność i skuteczność.
(1) | Co | Jakie dane podlegają de-weightingowi? |
(2) | Gdy | Kiedy waga zostanie wyeliminowana? |
(3) | Gdzie | Gdzie jest utrata wagi? |
(4) | Jak | Jak schudnąć? |
Technologia deduplikacji kluczy
Proces deduplikacji systemu pamięci masowej ogólnie wygląda następująco: najpierw plik danych jest dzielony na zestaw danych, dla każdego bloku danych obliczany jest odcisk palca, a następnie na podstawie słów kluczowych wyszukiwania skrótu odcisku palca, dopasowanie wskazuje dane dla zduplikowanych bloków danych, przechowuje tylko numer indeksu bloku danych, w przeciwnym razie oznacza to, że blok danych jest jedynym elementem nowego, przechowywania bloku danych i tworzy odpowiednie metadane. Tak więc plik fizyczny w systemie pamięci masowej odpowiada logicznej reprezentacji zestawu metadanych FP. Podczas odczytywania pliku najpierw odczytaj plik logiczny, a następnie zgodnie z sekwencją FP wyjmij odpowiedni blok danych z systemu pamięci masowej, przywróć kopię pliku fizycznego. Z powyższego procesu można wywnioskować, że kluczowe technologie deduplikacji obejmują głównie segmentację bloku danych pliku, obliczanie odcisku palca bloku danych i pobieranie bloku danych.
(1) Segmentacja bloku danych pliku
(2) Obliczanie odcisku palca bloku danych
(3) Pobieranie bloku danych
Aby znaleźć zalecane modele do rozpoczęcia deduplikacji pakietów sieciowych:
Broker pakietów sieciowych Mylinking™ (NPB) ML-NPB-640048*10GE SFP+ plus 4*40GE/100GE QSFP28, maks. 880 Gb/s
Broker pakietów sieciowych Mylinking™ (NPB) ML-NPB-56606*40GE/100GE QSFP28 plus 48*10GE/25GE SFP28, maks. 1,8 Tbps
Broker pakietów sieciowych Mylinking™ (NPB) ML-NPB-506048*10GE SFP+ plus 2*40GE QSFP, maks. 560 Gb/s
Broker pakietów sieciowych Mylinking™ (NPB) ML-NPB-486048*10GE SFP+, maks. 480 Gb/s, funkcja Plus
Broker pakietów sieciowych Mylinking™ (NPB) ML-NPB-481048*10GE SFP+, maks. 480 Gb/s
Broker pakietów sieciowych Mylinking™ (NPB) ML-NPB-2410P24*10GE SFP+, maks. 240 Gb/s, funkcja DPI
Broker pakietów sieciowych Mylinking™ (NPB) ML-NPB-6400
48*10GE SFP+ plus 4*40GE/100GE QSFP28, maks. 880 Gb/s
Czas publikacji: 18-paź-2022