質問
私はこのリンクを見ました:http://www.lucidimagination.com/community/hear-from-the-experts/articles/content-extraction-tika私が手に入れたのは、Solrが検索するためのTikaのスタイルなしで純粋なテキストです。 solrのスタイルでテキストを持つことは可能ですか?つまり、Solrが検索した後、元のスタイルでテキストを表示する必要があります。
解決
考えてみると、PDFの「オリジナルスタイル」とは何ですか? 「スタイル」のどのコンポーネントを保持したいですか?
フォントと重量だけでなく、ストローク、充填、角度、パス、グラフィックス、追跡、透明性、変換などです。あなたがそれをすべて手に入れた場合、あなたはあなたのUI/Webでどのようにそれを表示しますか?
元のPDFを表示する以外に、元のスタイルを実際に複製することはできません。それが、元のフォーマットが必要な場合、人々が通常それをする方法です。
それ以外の場合、彼らは純粋なテキストを使用するだけです。
所属していません StackOverflow