Pregunta

Estoy haciendo una base de datos para almacenar mi colección de libros electrónicos.
La mayoría de ellos tienen el ISBN dentro del texto del libro mismo.
¿Cómo puedo acceder a este contenido?
¿Hay algún código fuente o DLL para hacer eso?

¿Fue útil?

Solución

Lo hice para la aplicación de la biblioteca de libros electrónicos. En primer lugar, necesita extraer texto de chm o archivo pdf. Hay muchas utilidades \ bibliotecas para hacerlo. Aquí hay un artículo sobre CodeProject sobre cómo extraer el contenido de los archivos CHM. Para los archivos PDF utilicé la utilidad pdftotext . Cuando obtenga texto sin formato del libro electrónico, analícelo utilizando expresión regular para encontrar el código ISBN10 / 13.

Otros consejos

Extraer el texto de CHM y PDF archivos es el primer paso. A continuación, puede encontrar el número de ISBN con una expresión regular .

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top