Portada

LEGENDA DA IMAGEM IBD

EDIÇOES NOSSO CONHECIMENTO
06 / 2024
9786207661046
Portugués

Sinopsis

A legendagem de imagens com áudio surgiu como uma tarefa desafiante mas promissora no domínio da aprendizagem profunda. Este documento propoe uma nova abordagem para lidar com essa tarefa, integrando redes neurais convolucionais (CNNs) para extraçao de recursos de imagem e redes neurais recorrentes (RNNs) para análise de áudio sequencial. Especificamente, utilizamos CNNs pré-treinadas, como VGG, para extrair características visuais de imagens e empregamos representaçoes de espectrogramas acopladas a RNNs, como LSTM ou GRU, para processar entradas de áudio. O nosso modelo proposto baseia-se nao só no seu conteúdo visual, mas também nas pistas de áudio que o acompanham. Avaliamos o desempenho do nosso modelo em conjuntos de dados de referência e demonstramos a sua eficácia na geraçao de legendas coerentes e contextualmente relevantes para imagens com entradas de áudio correspondentes. Além disso, efectuamos estudos de tabulaçao para analisar a contribuiçao de cada modalidade para o desempenho global da legendagem. Os nossos resultados mostram que a fusao das modalidades visual e auditiva melhora significativamente a qualidade da legendagem em comparaçao com a utilizaçao isolada de cada uma das modalidades.

PVP
53,10