题
我需要针对几种类型的语言处理操作找到的最详尽的英语单词列表,但我在互联网上找不到任何质量足够好的内容。
英语中有 1,000,000 个单词,其中包括外语和/或技术单词。
您能否建议这样一个可以从互联网上下载的可能有点分类的源(或接近 500k 字)?您的语言处理应用程序使用什么输入?
其他提示
我做研究的普渡上控制/自然的英语和语言领域知识处理。
我想借此看看attempto项目: HTTP://attempto.ifi。 uzh.ch/site/description/ 这是一个项目,以帮助建立受控自然英语。
:您可以下载他们的整个单词词库http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip
它有〜100000个自然的英语单词。您也可以提供自己的词库为特定领域的话,这就是我们在我们的研究做到了。他们提供web服务来解析和格式化自然英文文本。
谁告诉你有百万字?根据维基百科,牛津英语词典只有60万元,和OED尝试包括所用的所有技术和俚语。
直接尝试Wikipedia的提取物: http://dbpedia.org
没有太多的基本词(根据这个-171k) 牛津. 。这是我记得在大学计算机科学课程中被告知的内容。但如果包括该词的所有形式,那么它就会大大增加。
也就是说,为什么不自己做一个呢?获取维基百科转储并解析它并创建一组您遇到的所有标记。
不过,预计会有拼写错误——就像所有众包的东西一样,都会有错误。
不隶属于 StackOverflow