Vocabulary Cache

DL4J中处理一般NLP任务的机制。

词汇缓存的工作原理

词汇缓存是DL4J中处理通用自然语言任务的机制,包括普通TF-IDF、单词向量和某些信息检索技术。词汇缓存的目标是成为文本向量化的一站式商店,其中封装了单词袋和单词向量等常用的技术。

词汇缓存通过倒排索引处理词、词统计频率、倒排文档频率和文档出现的存储。InMemoryLookupCache是参考实现。

为了在迭代文本和索引词时使用词汇缓存,你需要确定词是否应该包括在词汇缓存中。该标准通常是如果词出现在语料库中超过一定预先配置的频率。在该频率以下,单个词不是一个词汇缓存的单词,它只是一个词。

我们也跟踪词。为了跟踪词,请执行下列操作:

    addToken(new VocabWord(1.0,"myword"));

当你想添加一个词汇缓存的词,按如下做:

    addWordToIndex(0, Word2Vec.UNK);
    putVocabWord(Word2Vec.UNK);

向索引添加单词来 设置索引。然后你把它声明为一个词汇缓存单词。(声明它是一个词汇缓存单词,将从索引中拉出单词。)

Last updated