どうして判定する場合ランダムな文字列のない英語でも構わないでしょうか?
-
01-07-2019 - |
質問
私はアルゴリズムを生成する文字列のリストを入力します。い別の文字列をその音のように英語かがでしょうか。ります。廃棄 RDLO つ 藩主.
編集: を明らかにする必要はありませんする実際の言葉を辞書で調べました。な音のように英語です。例えば、 KEAL いを受け付けます。
解決
することで作ることができる、マルコフ連鎖の膨大な英語です。
その後のお食糧を供給することができ言葉のマルコフ連鎖とどのように高い確率の単語は英語です。
こちらをご参照: http://en.wikipedia.org/wiki/Markov_chain
下部のページをご覧のマルコフテキスト機能します。したいものはまったく逆です。
このように:のマルコフ-チェーン店のために各キャラクターの確率の次の文字が行われていく予定です。ウンターまでお問合わせくださいこの考え方や文字まで記憶です。
他のヒント
The easy wayとベイジアンフィル(Python例から http://sebsauvage.net/python/snyppets/#bayesian)
from reverend.thomas import Bayes
guesser = Bayes()
guesser.train('french','La souris est rentrée dans son trou.')
guesser.train('english','my tailor is rich.')
guesser.train('french','Je ne sais pas si je viendrai demain.')
guesser.train('english','I do not plan to update my website soon.')
>>> print guesser.guess('Jumping out of cliffs it not a good idea.')
[('english', 0.99990000000000001), ('french', 9.9999999999988987e-005)]
>>> print guesser.guess('Demain il fera très probablement chaud.')
[('french', 0.99990000000000001), ('english', 9.9999999999988987e-005)]
だがこのアプローチによるtokenizing候補の文字列 bigrams—ペアのadjascent文字、ひとつひとつ確認bigramに対するテーブルの英語bigram周波数です。
- シンプルです:する場合bigramが十分に低い周波数のテーブル(または切り欠席)、拒否の文字列としてimplausible.(文字列が含まれて"QZ"bigram?拒否す!)
- 以シンプルです:計算全体の妥当性の文字列全体の約ください"と言っていたら、製品の周波数のbigramの平均周波数の有効な英語の文字列の長さです。ることができるようになるとともに(a)受け入れを文字列で奇低周波bigramの中でその高周波bigrams、および(b)を拒否する文字列の数がない----------モーニングの閾値bigrams.
のいずれかの者が必要とするチューニングの閾値(s)の技法により初めてとなります。
ることができなくなり、もtrigramsると考えられより強固なものかに伸び率を高めるものとみられるが、やや厳しくな設定が"有効"の文字列です。うことになる勝てなにより異なります。
Bigramとtrigramテーブルに基づく既存研究コーパスが無料でご観覧いただけまたは買っからの自由にご利用だけでなcursory googleことができる計算bigramはtrigramテーブルから自らの良いサイズのコーパスの英語です。ばかクランクを通じて各単語としてのトークンタリー各bigramければ取り扱うことのハッシュ指定されたbigramの鍵として、増分を整数カウンターとしての値にホールドされます。
英語の形態と英語の音声(有名な!) 以下の等尺性ので、この技術ものを文字列"についての英語も面倒なprounciations.この引数trigramsよbigramsの凄味を作解析による音声を使用する複数の文字列を与えた音素削減の場合n-gramでは全体の。とも思わない"埋"または"津波"としては、例えば.)
でも発生しやすい英語の発音単語をマルコフ連鎖におけく逆の集まりに挑戦しています。何の許容誤差のですが。できず、トランスボーダーの共通文字のペアトリプル、グレードしていたんですよ。
すべき研究"pronounceable"パスワード発電機、そしようとしているこの達成は同じです。
Perlいることでしょう Crypt::PassGen, るので、辞書などの電車で様々な言語が必要な場合。この辞書を収集し統計1,2,3をb,r,gの各文字の配列、そして新しいことのはの"言"に基づく相対的に周波数です。
Metaphone や ダブルMetaphone 同SOUNDEXを除き、その期待以上に向けて目標を超 SOUNDEX.うめの"ハッシュ"の言葉に基づく音声"音"は、このための英語でなく、他の言語で、適切な名表記)。
気をつけなければいけないのだと全てのアルゴリズムはこのように非常に敏感なため、最初の文字の言葉です。例えば、だそうとしていることが KEAL は英語で深い一致を 実 で最初の文字が異なります。
うに誘惑されることのsoundexアルゴリズム辞書の英語の言葉のキャッシュの結果、そのsoundex候補者文字列との一戦をします。
によって要求性能、スケジュールを作距離アルゴリズムのためのsoundexコードと文字列も受あります。
Soundexは必見です Wikipedia のためのアルゴリズムです。
実装例として、のしたいことをすることはできない。
def soundex(name, len=4):
digits = '01230120022455012623010202'
sndx = ''
fc = ''
for c in name.upper():
if c.isalpha():
if not fc: fc = c
d = digits[ord(c)-ord('A')]
if not sndx or (d != sndx[-1]):
sndx += d
sndx = fc + sndx[1:]
sndx = sndx.replace('0','')
return (sndx + (len * '0'))[:len]
real_words = load_english_dictionary()
soundex_cache = [ soundex(word) for word in real_words ]
if soundex(candidate) in soundex_cache:
print "keep"
else:
print "discard"
明らかにする必要がありま実装しread_english_dictionary.
編集:おば"KEAL"さま、おめでとうございますので同じsoundexコード(K400として"セガ広報のミクに詳しい馬場に".必要なログイン拒否された言葉を手動で確認したい場合は、マーケティングな失敗します。
いを持つと言われていたが、実際に単語や文字列のようになっている場合には、その英単語とはなにか。
があれば必要のように見え 可能 英語ができるようにな統計解析の実際の英語のテキスト、ある文字の組合せが生じることが多い。お客さま人数小児-幼児に行われる投げることができる文字列も劣がある可能性があることから、リアルでなければなります。
やることができ用辞書および拒否する言葉なので(一部支給のための複数形はその他の変動).
だがそれらを比較するには辞書(無料インターネット)ができるのかかるCPU。その他、わからないし、他のプについて教えてください。
ということも関わる。の私の頭の子音音素のニーズに母音は前後します。決定するなどの音素であるというのは、ちょっと素敵でした。きるので,それを手動で書き出しの一覧です。例えば、"TR"だ"TD"など。
"という評価の各語を用いSOUNDEXアルゴリズムに対するデータベースの英語の言葉です。だがそこには、SQL-serverでも簡単セットアップのデータベースのリストを含むも英語を使用して自由に利用でき辞書)と、サーバを指定してSOUNDEX実施したのに対して、検索アルゴリズムです。
明らかに実践できることを自分でいたい場合、他の言語ででもかなりの作業です。
このように学んの評価はどのくらいの単語の音のように既存の英語の場合として始めたから新築した設定方法は低んでいます。いう考えを組み合わせる方法結果のために複数の単語を使う調整を受け入れ-制限に基づきます。
思いのphi試験及び指数の偶然です。 http://www.threaded.com/cryptography2.htm
いらいくつかの簡単な規則や基準対を励まいているものがいいでしょう。
例えば、英語の発音単語をパターンの母音-子音-母音あdipthongs、標準の子音がペア(th,ie、ei,oo,tr).システムのようにいただくことしてほぼすべての言葉のない音のようになっている場合には、その英語です。さんの身近に検査するだろうして多くの言葉と音のように英語ができ開始までのルールの追加することにより、より広範囲の言葉は、"電車"アルゴリズムです。
いすべて削除し虚偽のネガ例ないと思いますが管理するルールをくれたみなさま、本当にありがと周期'ず明示的に符号化その周期という言葉があり)ができる方法を提供ンです。
私はもと仮定したい文字列のできる英語(理が顕著ではなく文字列が絶対の言葉とし、英語による意味があります。