Cómo leer ISBN de libros electrónicos en CHM o archivos PDF
Pregunta
Estoy haciendo una base de datos para almacenar mi colección de libros electrónicos.
La mayoría de ellos tienen el ISBN dentro del texto del libro mismo.
¿Cómo puedo acceder a este contenido?
¿Hay algún código fuente o DLL para hacer eso?
Solución
Lo hice para la aplicación de la biblioteca de libros electrónicos. En primer lugar, necesita extraer texto de chm o archivo pdf. Hay muchas utilidades \ bibliotecas para hacerlo. Aquí hay un artículo sobre CodeProject sobre cómo extraer el contenido de los archivos CHM. Para los archivos PDF utilicé la utilidad pdftotext . Cuando obtenga texto sin formato del libro electrónico, analícelo utilizando expresión regular para encontrar el código ISBN10 / 13.
Otros consejos
Extraer el texto de CHM y PDF archivos es el primer paso. A continuación, puede encontrar el número de ISBN con una expresión regular .