160ビットの回復可能な情報を含む合成英語のフレーズを作成する

StackOverflow https://stackoverflow.com/questions/4698229

  •  11-10-2019
  •  | 
  •  

質問

160ビットのランダムデータがあります。

楽しみのために、この情報を「保存」するために擬似英語フレーズを生成したいと思います。この情報をフレーズから回復できるようにしたいと思います。

ノート: これはセキュリティの質問ではありません。他の誰かが情報を回復するか、それがそこにあるかどうかを検出できるかどうかは気にしません。

より良いフレーズの基準、最も重要なものから最小まで:

  • 短い
  • 個性的
  • 自然に見える

現在のアプローチが提案されました ここ:

それぞれ1024名の名詞、動詞、形容詞の3つのリストを取得します(最も人気のあるものを選択します)。次のパターンでフレーズを生成し、各単語の20ビットを読み取ります。

Noun verb adjective verb,
Noun verb adjective verb,
Noun verb adjective verb,
Noun verb adjective verb.

今、これは良いアプローチのようですが、フレーズは少し長すぎて、少し鈍いです。

私は言葉のコーパスを見つけました ここ (音声データベースの一部)。

いくつかのアドホックフィルタリングの後、私はこのコーパスが含まれていると計算しました。

  • 50690使用可能な形容詞
  • 123585名詞
  • 15301動詞
  • 13010副詞(パターンには含まれていませんが、回答に記載されています)

これにより、使用することができます

  • 形容詞あたり16ビット(実際には16.9ですが、分数ビットの使用方法がわかりません)
  • 名詞あたり15ビット
  • 動詞あたり13ビット
  • 副詞あたり13ビット

名詞-verb-Adjective-verbパターンの場合、これはフレーズで「文」ごとに57ビットを与えます。これは、このコーパスから得ることができるすべての単語を使用する場合、4つ(160 /57≈2.8)ではなく3つの文を生成できることを意味します。

Noun verb adjective verb,
Noun verb adjective verb,
Noun verb adjective verb.

まだ少し長すぎて鈍い。

何かヒントはどうすれば改善できますか?

私が試すことができると思うもの:

  • エンコードする前に、どういうわけかデータを圧縮してみてください。しかし、データは完全にランダムであるため、一部のフレーズのみが短くなります(そして、それほどではないと思います)。

  • フレーズパターンを改善するため、見栄えが良くなります。

  • いくつかのパターンを使用して、最初の単語をフレーズの単語を使用して、使用されたパターンを将来のデコードのために何らかの形で示します。 (たとえば、最後の文字または単語の長さを使用します。)データの最初のバイトに従ってパターンを選択します。

...私は英語がより良いフレーズパターンを思い付くのはそれほど良くありません。助言がありますか?

  • パターンでより多くの言語学を使用します。異なる時制など

...私は、私が今持っているよりもはるかに良い単語コーパスが必要だと思います。どこで適切なものを手に入れることができますか?

役に立ちましたか?

解決

私はあなたのリストに副詞を追加することを検討します。これが私が思いついたパターンです:

<Adverb>, the
    <adverb> <adjective>, <adverb> <adjective> <noun> and the
    <adverb> <adjective>, <adverb> <adjective> <noun>
<verb> <adverb> over the <adverb> <adjective> <noun>.

これにより、181ビットのデータをエンコードできます。 WordNetデータからしばらく前に作ったリストを使用してこの数字を導き出しました(複合語を含めたので、おそらく少し離れています):

  • 12650使用可能な名詞(13.6ビット/名詞、丸みを帯びています)
  • 5247使用可能な形容詞(12.3ビット/形容詞)
  • 5009使用可能な動詞(12.2ビット/動詞)
  • 1512使用可能な副詞(10.5ビット/副詞)

例文: 「浸透、習慣的に間抜けな、社会的に投機的な見本と恐ろしく激しい激しいsmic。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top