只有光头才能变强。php
文本已收录至个人GitHub仓库,欢迎Star:https://github.com/ZhongFuCheng3y/3ypython
回顾前面:git
众所周知,要训练出一个模型,首先咱们得有数据。咱们第一个例子中,直接使用dataset的api去加载mnist的数据。(minst的数据要么咱们是提早下载好,放在对应的目录上,要么就根据他给的url直接从网上下载)。github
通常来讲,咱们使用TensorFlow是从TFRecord文件中读取数据的。api
TFRecord 文件格式是一种面向记录的简单二进制格式,不少 TensorFlow 应用采用此格式来训练数据网络
因此,这篇文章来聊聊怎么读取TFRecord文件的数据。session
首先,咱们来体验一下怎么造一个TFRecord文件,怎么从TFRecord文件中读取数据,遍历(消费)这些数据。数据结构
如今,咱们尚未TFRecord文件,咱们能够本身简单写一个:机器学习
def write_sample_to_tfrecord(): gmv_values = np.arange(10) click_values = np.arange(10) label_values = np.arange(10) with tf.python_io.TFRecordWriter("/Users/zhongfucheng/data/fashin/demo.tfrecord", options=None) as writer: for _ in range(10): feature_internal = { "gmv": tf.train.Feature(float_list=tf.train.FloatList(value=[gmv_values[_]])), "click": tf.train.Feature(int64_list=tf.train.Int64List(value=[click_values[_]])), "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[label_values[_]])) } features_extern = tf.train.Features(feature=feature_internal) # 使用tf.train.Example将features编码数据封装成特定的PB协议格式 # example = tf.train.Example(features=tf.train.Features(feature=features_extern)) example = tf.train.Example(features=features_extern) # 将example数据系列化为字符串 example_str = example.SerializeToString() # 将系列化为字符串的example数据写入协议缓冲区 writer.write(example_str) if __name__ == '__main__': write_sample_to_tfrecord()
我相信你们代码应该是可以看得懂的,其实就是分了几步:函数
参考资料:
ok,如今咱们就有了一个TFRecord文件啦。
其实就是经过tf.data.TFRecordDataset
这个api来读取到TFRecord文件,生成处dataset对象
对dataset进行处理(shape处理,格式处理...等等)
使用迭代器对dataset进行消费(遍历)
demo代码以下:
import tensorflow as tf def read_tensorflow_tfrecord_files(): # 定义消费缓冲区协议的parser,做为dataset.map()方法中传入的lambda: def _parse_function(single_sample): features = { "gmv": tf.FixedLenFeature([1], tf.float32), "click": tf.FixedLenFeature([1], tf.int64), # ()或者[]没啥影响 "label": tf.FixedLenFeature([1], tf.int64) } parsed_features = tf.parse_single_example(single_sample, features=features) # 对parsed 以后的值进行cast. gmv = tf.cast(parsed_features["gmv"], tf.float64) click = tf.cast(parsed_features["click"], tf.float64) label = tf.cast(parsed_features["label"], tf.float64) return gmv, click, label # 开始定义dataset以及解析tfrecord格式 filenames = tf.placeholder(tf.string, shape=[None]) # 定义dataset 和 一些列trasformation method dataset = tf.data.TFRecordDataset(filenames) parsed_dataset = dataset.map(_parse_function) # 消费缓冲区须要定义在dataset 的map 函数中 batchd_dataset = parsed_dataset.batch(3) # 建立Iterator sample_iter = batchd_dataset.make_initializable_iterator() # 获取next_sample gmv, click, label = sample_iter.get_next() training_filenames = [ "/Users/zhongfucheng/data/fashin/demo.tfrecord"] with tf.Session() as session: # 初始化带参数的Iterator session.run(sample_iter.initializer, feed_dict={filenames: training_filenames}) # 读取文件 print(session.run(gmv)) if __name__ == '__main__': read_tensorflow_tfrecord_files()
无心外的话,咱们能够输出这样的结果:
[[0.] [1.] [2.]]
ok,如今咱们已经大概知道怎么写一个TFRecord文件,以及怎么读取TFRecord文件的数据,而且消费这些数据了。
我在学习TensorFlow翻阅资料时,常常看到一些机器学习的术语,因为本身没啥机器学习的基础,因此不少时候看到一些专业名词就开始懵逼了。
当一个完整的数据集经过了神经网络一次而且返回了一次,这个过程称为一个epoch。
这可能使咱们跟dataset.repeat()
方法联系起来,这个方法可使当前数据集重复一遍。好比说,原有的数据集是[1,2,3,4,5]
,若是我调用dataset.repeat(2)
的话,那么咱们的数据集就变成了[1,2,3,4,5],[1,2,3,4,5]
通常来讲咱们的数据集都是比较大的,没法一次性将整个数据集的数据喂进神经网络中,因此咱们会将数据集分红好几个部分。每次喂多少条样本进神经网络,这个叫作batchSize。
在TensorFlow也提供了方法给咱们设置:dataset.batch()
,在API中是这样介绍batchSize的:
representing the number of consecutive elements of this dataset to combine in a single batch
咱们通常在每次训练以前,会将整个数据集的顺序打乱,提升咱们模型训练的效果。这里咱们用到的api是:dataset.shffle();
我从官网的介绍中截了一个dataset的方法图(部分):
dataset的功能主要有如下三种:
map(),flat_map(),zip(),repeat()
等等迭代器能够分为四种:
tf.data.Iterator.from_structure
来进行初始化简单总结:
string handler(可馈送的 Iterator)这种方式是最常使用的,我当时也写了一个Demo来使用了一下,代码以下:
def read_tensorflow_tfrecord_files(): # 开始定义dataset以及解析tfrecord格式. train_filenames = tf.placeholder(tf.string, shape=[None]) vali_filenames = tf.placeholder(tf.string, shape=[None]) # 加载train_dataset batch_inputs这个方法每一个人都不同的,这个方法我就不给了。 train_dataset = batch_inputs([ train_filenames], batch_size=5, type=False, num_epochs=2, num_preprocess_threads=3) # 加载validation_dataset batch_inputs这个方法每一个人都不同的,这个方法我就不给了。 validation_dataset = batch_inputs([vali_filenames ], batch_size=5, type=False, num_epochs=2, num_preprocess_threads=3) # 建立出string_handler()的迭代器(经过相同数据结构的dataset来构建) handle = tf.placeholder(tf.string, shape=[]) iterator = tf.data.Iterator.from_string_handle( handle, train_dataset.output_types, train_dataset.output_shapes) # 有了迭代器就能够调用next方法了。 itemid = iterator.get_next() # 指定哪一种具体的迭代器,有单次迭代的,有初始化的。 training_iterator = train_dataset.make_initializable_iterator() validation_iterator = validation_dataset.make_initializable_iterator() # 定义出placeholder的值 training_filenames = [ "/Users/zhongfucheng/tfrecord_test/data01aa"] validation_filenames = ["/Users/zhongfucheng/tfrecord_validation/part-r-00766"] with tf.Session() as sess: # 初始化迭代器 training_handle = sess.run(training_iterator.string_handle()) validation_handle = sess.run(validation_iterator.string_handle()) for _ in range(2): sess.run(training_iterator.initializer, feed_dict={train_filenames: training_filenames}) print("this is training iterator ----") for _ in range(5): print(sess.run(itemid, feed_dict={handle: training_handle})) sess.run(validation_iterator.initializer, feed_dict={vali_filenames: validation_filenames}) print("this is validation iterator ") for _ in range(5): print(sess.run(itemid, feed_dict={vali_filenames: validation_filenames, handle: validation_handle})) if __name__ == '__main__': read_tensorflow_tfrecord_files()
参考资料:
在翻阅资料时,发现写得不错的一些博客:
乐于输出干货的Java技术公众号:Java3y。公众号内有200多篇原创技术文章、海量视频资源、精美脑图,不妨来关注一下!
下一篇文章打算讲讲如何理解axis~
以为个人文章写得不错,不妨点一下赞!