概述
DL4J语言处理概述
SentenceIterator 句子迭代器
// 在行的空白处分割来得到单词
TokenizerFactory t = new DefaultTokenizerFactory();
/*
CommonPreprocessor 将以下正则表达式应用于每个词: [\d\.:,"'\(\)\[\]|/?!;]+ 所以,有效地删除所有的数字,标点符号和一些特殊符号。另外它强制
把所有词转小写。
*/分词器
log.info("Building model....");
Word2Vec vec = new Word2Vec.Builder()
.minWordFrequency(5)
.iterations(1)
.layerSize(100)
.seed(42)
.windowSize(5)
.iterate(iter)
.tokenizerFactory(t)
.build();
log.info("Fitting Word2Vec model....");
vec.fit();Vocab词汇
Last updated
Was this helpful?