Portada

DESDUPLICAÇAO EFICIENTE DE DADOS NO HADOOP IBD

EDIÇOES NOSSO CONHECIMENTO
09 / 2025
9786202087452
Portugués

Sinopsis

O Hadoop é amplamente utilizado para armazenamento de dados massivamente distribuído. Embora seja altamente tolerante a falhas, escalável e funcione em hardware comum, ele nao oferece uma soluçao de armazenamento de dados eficiente e otimizada. Quando o utilizador carrega ficheiros com o mesmo conteúdo no Hadoop, ele armazena todos os ficheiros no HDFS (Hadoop Distributed File System), mesmo que o conteúdo seja o mesmo, o que leva à duplicaçao de conteúdo e, portanto, ao desperdício de espaço de armazenamento. A deduplicaçao de dados é um processo que reduz a capacidade de armazenamento necessária, uma vez que apenas as instâncias únicas de dados sao armazenadas. O processo de deduplicaçao de dados é amplamente utilizado em servidores de ficheiros, sistemas de gestao de bases de dados, armazenamento de cópias de segurança e muitas outras soluçoes de armazenamento. Uma estratégia de deduplicaçao adequada utiliza suficientemente o espaço de armazenamento em dispositivos de armazenamento limitados. O Hadoop nao oferece uma soluçao de deduplicaçao de dados. Neste trabalho, o módulo de deduplicaçao foi integrado na estrutura do Hadoop para obter um armazenamento de dados otimizado.

PVP
60,52