multimedia analisar arquivos a partir de uma página HTML (qualquer língua)
-
12-09-2019 - |
Pergunta
Dada uma página HTML que eu gostaria de obter todos os arquivos 'x' que são incorporados no arquivo HTML ou estão ligados por ele, onde 'x' é igual a:
- Imagens (JPG, PNG, GIF ...)
- Documentos (Word, PowerPoint, PDF ...)
- Flash (FLV, SWF)
Como posso fazer isso?
- Assim imagens são fáceis de extrato, porque eles são ou ligado a um link que termina em um (.png | .jpg | ....) ou eles são encaixados com uma tag img.
- Os documentos não podem ser incorporados, eles só podem ser ligados a (com um link que termina em um .doc | .ppt | .pdf | ...). Então, eles também são fáceis de obter.
Aqui está o meu problema:
Como posso obter os arquivos flash que estão embutidos em páginas web?
Por favor me dê uma pseudo-algoritmo ou um padrão de regex.
Se eu estiver errado em meus pontos acima (1. e 2.) por favor me diga o mesmo.
Obrigado!
Solução
A extensão do Firefox DownThemAll permite que você clique com o botão direito uma página e baixar todos os meios de comunicação de um determinado extensão. É open source, assim você pode querer olhar para o seu código e ver como eles implementou.
Outras dicas
Eu usaria um parser XML baseado em eventos (como SAX) e escrever as regras para as tags e para obter o src e os atributos href.