胡琪

为今天工作,为明天投资,为未来孵化一些东西

python遍历某个文件夹下的全部文件

在前面的一小节中,我们谈到了对文件的读写操作,这一节我们谈谈使用python遍历某个文件夹下的全部文件,因为在实际的项目场景中这种情况非常常见,如在apk的逆向工程中可能需要在把dex文件反编译后产生的smali文件中查找某一特定的字符串,然后进行替换操作。这个场景很显然就涉及到了对某一文件夹下所有文件进行遍历的过程。这个过程很显然是对文件,目录,路径进行操作,而这些很显然是属于操作系统管理的范畴,因此这些功能被定义在了python中的os模块和os.path模块,使用前需要import相应的模块。这一小节就讲讲python中这两个模块常用的和文件操作相关的重要函数。

os模块

os.listdir(path)

该函数的功能是返回一个列表,该列表是path路径下的全部文件或者文件夹的名称,注意:返回的列表中是不会包含该path路径下的某个文件夹包含的子文件或者子文件夹,只会包含该路径下的文件夹与文件。path是传入的路径,通常是一个字符串。另外需要注意的是如果path不存在,会出现错误:WindowsError: [Error 3],系统找不到指定路径,因此使用该函数之前一定要对路径是否存在进行判断,代码如下:

os.walk(top, topdown=True, onerror=None, followlinks=False)

该函数的功能是通过遍历top路径以生成一个目录树的文件名(Generate the file names in a directory tree by walking the tree)。该函数参数很多,但是后面几个参数都是带默认值参数,通常我们只需要关心第一个参数top,表示的是传入的top目录的路径。该函数返回一个三元组tuple(dirpath, dirnames, filenames),其中dirpath表示top路径下的全部目录的路径名称,通常是一个字符串,第二个参数表示的是dirpath目录下的全部子文件夹的名称列表(dirnames is a list of the names of the subdirectories in dirpath),filenames表示的是dirpath目录下的非文件夹文件的列表(filenames is a list of the names of the non-directory files in dirpath),需要注意的是第二个参数子目录名和第三个参数文件名都是没带根路径的,因此如果要得到完整的目录名或者文件名需要加上根路径dirpath。遍历某个文件夹下的全部文件的代码如下:

os.sep/os.linesep

  • os.sep 表示的是系统路径分隔符,在不同平台上表示不同,如windows平台上用’\\’表示而linux平台用’/’表示,因此为了保证我们所写的代码能够跨平台运行,请不要在程序中使用’\\’或者’/’来连接路径,而是使用os.sep
  • os.linesep表示的是行结束符,在不同的平台表示不同,如Windows使用’\r\n’,Linux使用’\n’而Mac使用’\r’。另外在上一小节python文件操作中我们也提到了,write()和writelines()写入文件时是不包含行结束符的,因此如果需要在写入文件时插入行结束符的话需要我们要自己处理这些情况

os.path模块

os.path.exists(path)

该函数用来判断path路径指向的文件或者目录是否存在,如果不存在返回false

os.path.isdir(path)/os.path.isfile(path)

  • os.path.isdir(path)判断path是否为目录,如果是返回true否则返回false
  • os.path.isfile(path)判断path是否为文件,如果是返回true否则返回false

那么讲到这里,然后在根据前面我们提到的os模块的os.listdir(path),我们自然可以想到一种递归的方式来遍历某一路径下的全部文件,首先通过os.listdir(path)得到path路径下的全部文件,然后使用os.path.isdir(path)/os.path.isfile(path)来判断,如果该文件为目录那么我们递归调用,否则如果为文件,那么遍历输出,这样就可以实现和前面walk一样的效果。代码如下:

虽然这中方式也可以实现遍历文件夹下的全部文件,但是因为使用的是递归的方式,效率应该比walk要低一些,另外从代码量上看也比使用walk要麻烦一些,唯一的好处就是从逻辑上理解起来比使用walk要清晰明了,因此尽量使用os.walk(path)的方式来替代这种方式。

os.path.join(path, *paths)

用来连接一个或多个目录与文件名/目录,前面说过在不同的平台上路径分隔符不同,因此为了做到跨平台,不要直接使用’\\’或者’/’的方式来连接目录与文件,应该使用os.sep的方式或者使用该函数,这样如果需要连接的字符串很多的时候会更简单

os.path.split(path)

该函数用来分割文件名和目录,如果path是目录,它会将最后一级目录作为文件名而分离,返回的是一个二元祖pair(head,tail),注意该函数不会判断路径是否存在,如果不存在也不会出错,但返回的结果可能不是我们预期的结果

os.path.splitext(path)

该函数用来分离文件名和扩展名,返回的是一个二元组pair(root,ext),其中root+ext==path,因此如果我们要得到一个文件的后缀类型需要这么使用:

这个函数的使用场景很多,如在遍历某一个文件夹下的某一特定类型的文件如.txt,.smali文件。

os.path.basename(path)

该函数用来得到path路径的文件名(如果path为目录则为目录名),如:path=’C:/Users/htq/Desktop’ 则返回’Desktop’,path=’C:/Users/htq/Desktop/test.py’则返回’test.py’,如果path是以路径分隔符结尾,那么返回一个空字符串,如path=’C:/Users/htq/Desktop/’ ,则返回空字符串”。

代码实例

应用场景:将某一文件夹及其子文件夹下的全部的txt文件中的某个字符串替换为指定的字符串,这个实例综合了上一节和这一节的内容,在实际项目的文件操作中很常见。

 

打赏

点赞

发表评论

电子邮件地址不会被公开。 必填项已用*标注