读取器

阅读不同格式的单独记录。

读取器

读取器从存储中的数据集迭代记录,并将数据加载到数据向量中。除了数据集中的单个条目之外,阅读器的用处包括:如果想要在语料库上训练文本生成器,或是以编程方式将两个条目组合在一起形成新的记录的时候该怎么办?读取器实现对于复杂的文件类型或分布式存储机制是有用的。

读取器返回记录记录中每一列的Writable类。这些类用于将每个记录转换为张量/NDArray 格式。

使用

每个读取器实现都扩展了BaseRecordReader并提供了一个简单的API用于选取数据集中的下一条记录,行为类似于迭代器。

包括以下有用的方法:

  • next: 返回一个批量的 Writable

  • nextRecord: 返回单条记录,RecordMetaData 是可选的。

  • reset: 重置基础迭代器。

  • hasNext: 迭代器方法以确定是否有其他记录可用 。

监听器

你可以将自定义的RecordListener挂钩到记录读取器进行调试或可视化目的。在初始化类之后,立即将你的自定义侦听器传递给addListener基类方法。

最后更新于