Pergunta

Eu tenho um documento em PDF com conteúdo no idioma árabe e, quando tento pesquisar dentro do documento por uma palavra específica, o Adobe Reader não retorna resultados.

Parece um problema de formato ... como posso consertar isso? obrigado.

Foi útil?

Solução

Existem pelo menos quatro maneiras diferentes de colocar texto em um documento em PDF (em ordem ou probabilidade):

  1. Coloque o texto com operadores de texto padrão e fontes padrão
  2. Coloque o texto com operadores de texto padrão com fontes não padrão
  3. Desenhe uma ou mais imagens que representam o texto
  4. Coloque o texto desenhando manualmente os glifos com vários comandos gráficos em PDF

O caso 1 é normalmente pesquisável. O caso 2 é pesquisável se a fonte e a codificação forem sãs - se não forem (e esse provavelmente é o caso de fontes que não são de latina), provavelmente não há uma maneira confiável de mapear os glifos codificados de volta ao Unicode (e a propósito - PDF é bastante unicode hostil). O caso 3 é totalmente insondável sem saber mais sobre como o PDF foi gerado. O caso 4 é totalmente insondável.

Dito isto, todos os casos são lidos com um mecanismo de OCR que entende o árabe. Eu entendo que o Motor de íris faz árabe.

Outras dicas

Na verdade, pode não ser texto, ou pode estar em um contêiner que o leitor não presta atenção. É especialmente comum expandir objetos de texto em formas vetoriais quando você está lidando com fontes que a maioria das pessoas não terá instalado em seu sistema. Parece o mesmo na tela, mas não é pesquisável.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top