Vocabulary Cache
DL4J中处理一般NLP任务的机制。
词汇缓存的工作原理
词汇缓存是DL4J中处理通用自然语言任务的机制,包括普通TF-IDF、单词向量和某些信息检索技术。词汇缓存的目标是成为文本向量化的一站式商店,其中封装了单词袋和单词向量等常用的技术。
词汇缓存通过倒排索引处理词、词统计频率、倒排文档频率和文档出现的存储。InMemoryLookupCache是参考实现。
为了在迭代文本和索引词时使用词汇缓存,你需要确定词是否应该包括在词汇缓存中。该标准通常是如果词出现在语料库中超过一定预先配置的频率。在该频率以下,单个词不是一个词汇缓存的单词,它只是一个词。
我们也跟踪词。为了跟踪词,请执行下列操作:
当你想添加一个词汇缓存的词,按如下做:
向索引添加单词来 设置索引。然后你把它声明为一个词汇缓存单词。(声明它是一个词汇缓存单词,将从索引中拉出单词。)
Last updated