質問
PDFをHTMLに変換するために使用できる適切なライブラリまたはHTMLに簡単に変換できる他の形式はありますか?
同様の質問を検索しましたが、運はありませんでした。
PDF、場合によっては画像からテキストを抽出できるようにしたいです。私はHTML内にPDFを埋め込むことを探していません。
解決
上記のコメントで述べたように、ダウンロードできるツールable2extract7を使用してPDFをHTMLに変換することは間違いなく可能です。 ここ
私はこのツールをほぼ2年間使用していますが、私はそれにかなり満足しています。このツールを使用すると、PDFをWord、Excel、PowerPoint、出版社に変換できます。 HTML, 、ooなど。スクリーンショットを参照してください
IMPノート: :このツールはフリーウェアではありません。
Hth
他のヒント
Linuxを使用している場合は、pdftohtmlをお試しください。
sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html
オープンソースの電子ブックコンバーター 口径 PDFファイルをHTMLに変換することもでき、MacOS、Windows、Linuxで利用できます。
PDFファイルをHTMLに単純に「変換」することは技術的には不可能です。 PDF形式は「キャンバス」に似ており、テキストブロックと画像を「配置」しますが、HTMLはCSSまたは多くのテーブルを必要としてブロックを「配置」します。さらに、PDFファイルは画像を埋め込んでいますが、HTMLは他のファイルを単に呼び出すだけです。
他にも多くの違いの例がありますが、本質的に、テキストが入った画像やビデオを変換するように求めるようなものです。
ただし、PDFファイルから読み取り、ライブラリまたはその他の高度なテクニックを使用して、テキストと画像を抽出できます。 .NETには、たとえばいくつかのライブラリがあります。 http://forums.asp.net/post/2167442.aspx
1つのファイルを1回だけ変換する必要がある場合は、たとえばIllustratorでPDFファイルを開き、HTMLでエクスポートできます。または、すべてのドキュメント(CTRL+A)を選択し、コピーしてWordで貼り付けてから、結果をHTMLに保存することもできます。それは完璧とはほど遠いものになりますが、それは始まりになります。
ダウンロード
- PDFBOX-2.0.3.JAR
- fontbox-2.0.3.jar
- Preflight-2.0.3.Jar
- xmpbox-2.0.3.jar
- PDFBOX-TOOLS-2.0.3.JAR
- PDFBOX-DEBUGGER-2.0.3.JAR
import java.io.InputStream;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.tools.PDFText2HTML;
// .....
try {
InputStream is = // ..... Read PDF file
PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
PDFText2HTML converter = new PDFText2HTML(); // the converter
String html = converter.getText(pdd); // That's it!
pdd.close();
is.close();
} catch (IOException ioe) {
// ......
}
注:画像はHTML出力にプッシュされません。
PDFをHTMLに変換することはそれほど難しくありません。ただし、多くのオンラインオプションがありますが、それはあなたのデータを第三者に公開するかもしれません。これらの手順に従うと、出力は素晴らしいです。
開ける PDF2HTMLEXページ。 (私が言及した次のステップに従うか、ページからの指示に従うことができます。)
パッケージはここからWindows用のダウンロードに利用できます.
利用可能な多くのオプションから、「pdf2htmlex-win32-0.14.6-upx-with-poppler-data.zip(pdf2htmlex.exe」をダウンロードすることをお勧めします。
ダウンロードとZIPPING Conversionをダウンロードした後、CMDコマンドが1つだけ離れています。
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
最終コマンド:
pdf2htmlEX.exe c:\1\abc.pdf
(もちろん、フォルダーの名前を短くすることができますが、ダウンロードを解除した後に表示されるのと同じように保持します。CMDのディレクトリを目的のフォルダーに変更できるか、Googleに変更できると仮定しています。)
ABC.PDFはHTMLに変換され、EXEと同じフォルダーでABC.HTMLとして保存されます。
それが役立つかどうかはわかりませんが、1回限りの変換が必要な場合は、この無料のオンラインツールを試すことができます。 https://www.readkong.com/
このサイトを数回使用しました。 PDF元のソースと同一のHTMLを生成します。非常に複雑なPDFであっても、醜い壊れたマークアップ、HTMLマッシュアップなどはありません。
ええ、それは間違いなく可能です。 Ubuntu Linuxの場合
apt-get install htmltopdf
それから
htmltopdf myFile.pdf myFile.htm -c -noframes
すべてのフラグの意味を確認したい場合は、入力するだけです
htmltopdf
Linuxを使用していない場合、これを実現するために使用できるツールがたくさんあります。