質問

私は、ファイルが特定の文字セットからの文字が含まれているかどうかを検出する方法が必要です。

具体的には、私は一連のファイルにUTF8でエンコードされたキリル文字の存在を検出します。これを行うためのツールはありますか?

おかげ

役に立ちましたか?

解決

あなたは準備ができて解決策を探している場合は、

は、 Enca にしようとする場合があります。

あなたが唯一の可能性(任意の完全なUTF-8の有効性チェックなし)UTF-8キリル文字としてデコードすることができるものの存在を検出したい場合は、

しかし、あなただけの/(\xD0[\x81\x90-\xBF]|\xD1[\x80-\x8F\x91]){のようなもののN ,}/(この正確な正規表現は、のN のその後のUTF8でエンコードされたロシアのキリル文字のためです)。ファイル全体が唯一の有効なUTF-8のデータが含まれていることを追加のチェックのためには、 isutf8(1) <のようなものを使用することができます/ >。

どちらの方法でも、自分の良い面と悪い面を持って、時には間違った結果を与える可能性があります。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top