multimedia analisar arquivos a partir de uma página HTML (qualquer língua)

https://stackoverflow.com/questions/1105046

12-09-2019
|

Pergunta

Dada uma página HTML que eu gostaria de obter todos os arquivos 'x' que são incorporados no arquivo HTML ou estão ligados por ele, onde 'x' é igual a:

Imagens (JPG, PNG, GIF ...)
Documentos (Word, PowerPoint, PDF ...)
Flash (FLV, SWF)

Como posso fazer isso?

Assim imagens são fáceis de extrato, porque eles são ou ligado a um link que termina em um (.png | .jpg | ....) ou eles são encaixados com uma tag img.
Os documentos não podem ser incorporados, eles só podem ser ligados a (com um link que termina em um .doc | .ppt | .pdf | ...). Então, eles também são fáceis de obter.

Aqui está o meu problema:

Como posso obter os arquivos flash que estão embutidos em páginas web?

Por favor me dê uma pseudo-algoritmo ou um padrão de regex.

Se eu estiver errado em meus pontos acima (1. e 2.) por favor me diga o mesmo.

Obrigado!

Solução

A extensão do Firefox DownThemAll permite que você clique com o botão direito uma página e baixar todos os meios de comunicação de um determinado extensão. É open source, assim você pode querer olhar para o seu código e ver como eles implementou.

Outras dicas

Eu usaria um parser XML baseado em eventos (como SAX) e escrever as regras para as tags e para obter o src e os atributos href.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow