我需要针对几种类型的语言处理操作找到的最详尽的英语单词列表,但我在互联网上找不到任何质量足够好的内容。

英语中有 1,000,000 个单词,其中包括外语和/或技术单词。

您能否建议这样一个可以从互联网上下载的可能有点分类的源(或接近 500k 字)?您的语言处理应用程序使用什么输入?

有帮助吗?

解决方案

凯文的生词是最好的,我知道只是单词列表。

共发现是更好,如果你想知道的事情是名词,动词等,同义词等

其他提示

“万字” 诈沿辊”,I看到;-)

如何让你的单词列表更长:给定一个名词,以下内容添加到它的任何:不,伪,半,-arific,-geek,...; 比照了解动词等

我做研究的普渡上控制/自然的英语和语言领域知识处理。

我想借此看看attempto项目: HTTP://attempto.ifi。 uzh.ch/site/description/ 这是一个项目,以帮助建立受控自然英语。

您可以下载他们的整个单词词库http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip 它有〜100000个自然的英语单词。

您也可以提供自己的词库为特定领域的话,这就是我们在我们的研究做到了。他们提供web服务来解析和格式化自然英文文本。

谁告诉你有百万字?根据维基百科,牛津英语词典只有60万元,和OED尝试包括所用的所有技术和俚语。

直接尝试Wikipedia的提取物: http://dbpedia.org

没有太多的基本词(根据这个-171k) 牛津. 。这是我记得在大学计算机科学课程中被告知的内容。但如果包括该词的所有形式,那么它就会大大增加。

也就是说,为什么不自己做一个呢?获取维基百科转储并解析它并创建一组您遇到的所有标记。

不过,预计会有拼写错误——就像所有众包的东西一样,都会有错误。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top