silvesterlangen.de

Seite
Menü

Datendeduplizierung

Ist eine Technik, die dafür sorgt, dass doppelte Dateien nicht gespeichert werden und nur die Veränderungen der Dateien, falls die gleiche Datei geändert wurde und unter anderem Namen abgespeichert wurde, speichert.

Beispiel:

Mitarbeiter A hat eine Powerpointpräsentation und einige Worddokumente angefertigt und speichert es auf dem Firmen-Fileserver. Weil sein Werk ziemlich gut ist nutzt das die ganze Abteilung und jeder macht sich auf dem Fileserver eine Kopie für sich. Allerdings setzt jeder Mitarbeiter seinen eigenen Namen dort rein und speichert alles ab. Die Änderungen sind also nur der Name und 99 % der Datei sind quasi gleich mit der Originaldatei.

Es macht Sinn nur die Änderung abzuspeichern und einen Link auf die Datei zulegen. Somit hat man also die Datei nicht zwei mal auf der Festplatte sondern nur ein mal und noch ein bisschen obendrauf, weil das die Änderung ist die mit abgespeichert wird. Öffnet Mitarbeiter A seine Datei, dann sieht er seine Datei mit seinem Namen. Öffnet jemand anders aus der Abteilung seine Datei, dann werden nur die Bytes aus der Originaldatei geladen bis zu dem Punkt wo die Änderung ist und dann wird die Änderung geladen. Die Datei besteht quasi also immer aus einem Teil Originaldatei und dann der zweite Teil - die Änderung.

 

Datendeduplizierung hat auf den ersten Blick große Vorteile, da man nur noch einen Bruchteil der eigentlichen Kapazität benötigt. Aber eben nur auf den ersten Blick. Die Nutzung dieser Technik ist tatsächlich in 90 % aller Fälle gar nicht so sinnvoll. Warum?

Sie zielt darauf ab, dass viele Dateien irgendwie immer einen gleichen Anteil haben. Die kopierte Word-Datei wo der Name geändert wurde oder von mir aus eine mpeg-Datei, die mehrfach existiert. Das ist aber leider nicht so oft der Fall wie man denkt.

Darüberhinaus gibt es noch einige Punkte, die man immer bedenken sollte:

  • Man bindet sich an einen Hersteller. Jeder Hersteller dieser Software kocht das gleiche Süppchen eben immer etwas anders. Ein Wechsel zu einer anderen Software kann durchaus großen Aufwand bringen.
  • Die Datendeduplizierung ist nie kostenlos hinsichtlich der Performance. Die Daten müssen vergleichen, geprüft und verwaltet werden.

Bevor man sich für diese Technik entschließt bleibt immer zu prüfen, ob sich das bei dem aktuellen Datenbestand überhaupt lohn. Gibt es denn genug Daten, die sich ziemlich gleichen? Bei Backups kann das durchaus sinnvoll sein. KANN - muss nicht zwangsläufig.  Man sollte immer prüfen, ob man mit dem Preis pro Gigabyte Datenträger besser dran ist, wenn es sich um einfachen Speicher handelt wie er im privaten Bereich üblich ist (einfache Festplatte).

Bei teurem, redundanten Speicher, wie es in Unternehmen üblich ist, sind natürlich anderen Maßstäbe anzulegen. SAS-Festplatten kosten verglichen mit SATA-Platten erheblich mehr. Hier ist zu überlegen wie häufig ähnliche Dateien vorhanden sind. Zur Not muss das in einer Testumgebung ausprobiert werden.

Hier ein Tutorial auf YT von mir.

« vorige Seite Seitenanfang nächste Seite »
Seite
Menü
Earned Certificates:
LPIC-1 LPIC-1 LPIC-1
Powered by CMSimple | Template by CMSimple | Login