Portada

EFEKTYWNA DEDUPLIKACJA DANYCH W HADOOP IBD

WYDAWNICTWO NASZA WIEDZA
09 / 2025
9786202087421
Polaco

Sinopsis

Hadoop jest szeroko stosowany do masowego przechowywania danych. Mimo ?e jest bardzo odporny na awarie, skalowalny i dzia?a na standardowym sprz?cie, nie zapewnia wydajnego i zoptymalizowanego rozwi?zania do przechowywania danych. Gdy u?ytkownik przesy?a pliki o tej samej zawarto?ci do Hadoop, wszystkie pliki s? przechowywane w HDFS (Hadoop Distributed File System), nawet je?li zawarto?? jest taka sama, co prowadzi do powielania tre?ci, a tym samym do marnowania przestrzeni dyskowej. Deduplikacja danych to proces maj?cy na celu zmniejszenie wymaganej pojemno?ci pami?ci, poniewa? przechowywane s? tylko unikalne instancje danych. Proces deduplikacji danych jest szeroko stosowany w serwerach plików, systemach zarz?dzania bazami danych, pami?ciach kopii zapasowych i wielu innych rozwi?zaniach pami?ci masowej. Odpowiednia strategia deduplikacji pozwala na wystarczaj?ce wykorzystanie przestrzeni dyskowej w ramach ograniczonych urz?dze? pami?ci masowej. Hadoop nie zapewnia rozwi?zania w zakresie deduplikacji danych. W niniejszej pracy modu? deduplikacji zosta? zintegrowany z frameworkiem Hadoop w celu uzyskania zoptymalizowanego przechowywania danych.

PVP
60,52