我被要求制作一个软件,该软件将根据信件进行加密和解密“普通英语”文本 频率.

问题是我在哪里可以找到一些官方频率匹配的文本样本?

到目前为止,我已经尝试过 列夫·托尔斯泰(Lev Tolstoy)的《战争与和平》, ,效果不佳。

LE:我不需要单词列表,我需要一个文本示例来进行一些处理。
LE2:目标是在2000个字符中猜出20个从26个字符中猜出。

有帮助吗?

解决方案

您正在寻找 英文文字语料库, ,例如 http://faculty.washington.edu/ebender/corpora/corpora.html#modern. 。在那里列出的内容中,我知道古腾堡项目是免费的。其他许多可能不是。

我不确定您的官方频率是什么意思 - 频率的目的是匹配您在野外发现的东西,如果不匹配您的频率,那就是频率表的问题。

其他提示

查看 Infochimps;他们有一堆可能有用的免费数据集。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top