博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
一个处理图片的python脚本:移除所有的非jpg文件
阅读量:6784 次
发布时间:2019-06-26

本文共 1133 字,大约阅读时间需要 3 分钟。

在机器学习中免不了和图片打交道。有时候收集来的图片后缀名和实际类型会存在不一致的情况,这里可能就需要涉及到图片文件的批量处理。简单粗暴上代码:

import struct import osdef gci(filepath):  files = os.listdir(filepath)  for fi in files:    fi_d = os.path.join(filepath,fi)                if os.path.isdir(fi_d):      gci(fi_d)                      else:      tempP = os.path.join(filepath,fi_d)      tp = filetype(tempP)      if tp != 'JPEG':        print(tempP)        os.remove(tempP)        #print tempPdef typeList():    return {      "FFD8FF": "JPEG",      "89504E47": "PNG",    "47494638": "GIF"}      def bytes2hex(bytes):    num = len(bytes)    hexstr = u""    for i in range(num):      t = u"%x" % bytes[i]      if len(t) % 2:        hexstr += u"0"    hexstr += t    return hexstr.upper()  def filetype(filename):    binfile = open(filename, 'rb')   tl = typeList()    ftype = 'unknown'  for hcode in tl.keys():      numOfBytes = len(hcode) / 2     binfile.seek(0)     hbytes = struct.unpack_from("B"*numOfBytes, binfile.read(numOfBytes))    f_hcode = bytes2hex(hbytes)      if f_hcode == hcode:        ftype = tl[hcode]        break  binfile.close()    return ftype  gci('your_img_folder_path')复制代码

转载地址:http://nudgo.baihongyu.com/

你可能感兴趣的文章
lucene的使用详解
查看>>
java每日小算法(14)
查看>>
Docker 命令行和后台参数
查看>>
英雄王座的数据库表格部分成功转换
查看>>
AbstractQueuedSynchronizer的介绍和原理分析
查看>>
python socket 原汁原味代码
查看>>
Kubernetes的service mesh——第一部分:Service的重要指标
查看>>
全链路监控
查看>>
我的友情链接
查看>>
我的IT博客之路
查看>>
深入理解javascript原型和闭包(10)——this
查看>>
系统集成资质培训-论文写作-几个题目如何写?(updated)
查看>>
搭建自己的框架之1:Rxjava2+Retrofit2 实现Android Http请求
查看>>
排序算法-快速排序
查看>>
CSS3 Background 属性介绍
查看>>
frameset 的一些小应用
查看>>
eclipse自动换行
查看>>
Android PDF 阅读器源码
查看>>
我的友情链接
查看>>
silverlight渐隐效果
查看>>