Pergunta

Dada uma página HTML que eu gostaria de obter todos os arquivos 'x' que são incorporados no arquivo HTML ou estão ligados por ele, onde 'x' é igual a:

  • Imagens (JPG, PNG, GIF ...)
  • Documentos (Word, PowerPoint, PDF ...)
  • Flash (FLV, SWF)

Como posso fazer isso?

  1. Assim imagens são fáceis de extrato, porque eles são ou ligado a um link que termina em um (.png | .jpg | ....) ou eles são encaixados com uma tag img.
  2. Os documentos não podem ser incorporados, eles só podem ser ligados a (com um link que termina em um .doc | .ppt | .pdf | ...). Então, eles também são fáceis de obter.

Aqui está o meu problema:

Como posso obter os arquivos flash que estão embutidos em páginas web?

Por favor me dê uma pseudo-algoritmo ou um padrão de regex.

Se eu estiver errado em meus pontos acima (1. e 2.) por favor me diga o mesmo.

Obrigado!

Foi útil?

Solução

A extensão do Firefox DownThemAll permite que você clique com o botão direito uma página e baixar todos os meios de comunicação de um determinado extensão. É open source, assim você pode querer olhar para o seu código e ver como eles implementou.

Outras dicas

Eu usaria um parser XML baseado em eventos (como SAX) e escrever as regras para as tags e para obter o src e os atributos href.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top