Vocabulary Cache

DL4J中处理一般NLP任务的机制。

词汇缓存的工作原理

词汇缓存是DL4J中处理通用自然语言任务的机制，包括普通TF-IDF、单词向量和某些信息检索技术。词汇缓存的目标是成为文本向量化的一站式商店，其中封装了单词袋和单词向量等常用的技术。

词汇缓存通过倒排索引处理词、词统计频率、倒排文档频率和文档出现的存储。InMemoryLookupCache是参考实现。

为了在迭代文本和索引词时使用词汇缓存，你需要确定词是否应该包括在词汇缓存中。该标准通常是如果词出现在语料库中超过一定预先配置的频率。在该频率以下，单个词不是一个词汇缓存的单词，它只是一个词。

我们也跟踪词。为了跟踪词，请执行下列操作：

    addToken(new VocabWord(1.0,"myword"));

当你想添加一个词汇缓存的词，按如下做：

    addWordToIndex(0, Word2Vec.UNK);
    putVocabWord(Word2Vec.UNK);

向索引添加单词来设置索引。然后你把它声明为一个词汇缓存单词。（声明它是一个词汇缓存单词，将从索引中拉出单词。）

Last updated 5 years ago