新闻动态

python读取mnist数据集方法案例详解

发布日期:2022-01-28 18:01 | 文章来源:源码之家

mnist手写数字数据集在机器学习中非常常见,这里记录一下用python从本地读取mnist数据集的方法。

数据集格式介绍

这部分内容网络上很常见,这里还是简明介绍一下。网络上下载的mnist数据集包含4个文件:

前两个分别是测试集的image和label,包含10000个样本。后两个是训练集的,包含60000个样本。.gz表示这个一个压缩包,如果进行解压的话,会得到.ubyte格式的二进制文件。

上图是训练集的label和image数据的存储格式。两个文件最开始都有magic number和number of images/items两个数据,有用的是第二个,表示文件中存储的样本个数。另外要注意的是数据的位数,有32位整型和8位整型两种。

读取方法

.gz格式的文件读取

需要import gzip
读取训练集的代码如下:

def load_mnist_train(path, kind='train'): 
'‘'
path:数据集的路径
kind:值为train,代表读取训练集
‘'‘
 labels_path = os.path.join(path,'%s-labels-idx1-ubyte.gz'% kind)
 images_path = os.path.join(path,'%s-images-idx3-ubyte.gz'% kind)
 #使用gzip打开文件
 with gzip.open(labels_path, 'rb') as lbpath:
	 #使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
	 #这样读到的前两个数据分别是magic number和样本个数
  magic, n = struct.unpack('>II',lbpath.read(8))
  #使用np.fromstring读取剩下的数据,lbpath.read()表示读取所有的数据
  labels = np.fromstring(lbpath.read(),dtype=np.uint8)
 with gzip.open(images_path, 'rb') as imgpath:
  magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
  images = np.fromstring(imgpath.read(),dtype=np.uint8).reshape(len(labels), 784)
 return images, labels

读取测试集的代码类似。

非压缩文件的读取

如果在本地对四个文件解压缩之后,得到的就是.ubyte格式的文件,这时读取的代码有所变化。

def load_mnist_train(path, kind='train'): 
'‘'
path:数据集的路径
kind:值为train,代表读取训练集
‘'‘
 labels_path = os.path.join(path,'%s-labels-idx1-ubyte'% kind)
 images_path = os.path.join(path,'%s-images-idx3-ubyte'% kind)
 #不再用gzip打开文件
 with open(labels_path, 'rb') as lbpath:
	 #使用struct.unpack方法读取前两个数据,>代表高位在前,I代表32位整型。lbpath.read(8)表示一次从文件中读取8个字节
	 #这样读到的前两个数据分别是magic number和样本个数
  magic, n = struct.unpack('>II',lbpath.read(8))
  #使用np.fromfile读取剩下的数据
  labels = np.fromfile(lbpath,dtype=np.uint8)
 with gzip.open(images_path, 'rb') as imgpath:
  magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
  images = np.fromfile(imgpath,dtype=np.uint8).reshape(len(labels), 784)
 return images, labels

读取之后可以查看images和labels的长度,确认读取是否正确。

到此这篇关于python读取mnist数据集方法案例详解的文章就介绍到这了,更多相关python读取mnist数据集方法内容请搜索本站以前的文章或继续浏览下面的相关文章希望大家以后多多支持本站!

国外服务器租用

版权声明:本站文章来源标注为YINGSOO的内容版权均为本站所有,欢迎引用、转载,请保持原文完整并注明来源及原文链接。禁止复制或仿造本网站,禁止在非www.yingsoo.com所属的服务器上建立镜像,否则将依法追究法律责任。本站部分内容来源于网友推荐、互联网收集整理而来,仅供学习参考,不代表本站立场,如有内容涉嫌侵权,请联系alex-e#qq.com处理。

相关文章

实时开通

自选配置、实时开通

免备案

全球线路精选!

全天候客户服务

7x24全年不间断在线

专属顾问服务

1对1客户咨询顾问

在线
客服

在线客服:7*24小时在线

客服
热线

400-630-3752
7*24小时客服服务热线

关注
微信

关注官方微信
顶部