这是使用 Python 获取唯一版本的文件名的最佳方法吗？

https://stackoverflow.com/questions/183480

06-07-2019
|

题

仍在“深入”Python，并希望确保我没有忽略某些内容。我编写了一个脚本，从多个 zip 文件中提取文件，并将提取的文件一起保存在一个目录中。为了防止重复的文件名被覆盖，我编写了这个小函数 - 我只是想知道是否有更好的方法来做到这一点？谢谢！

def unique_filename(file_name):
counter = 1
file_name_parts = os.path.splitext(file_name) # returns ('/path/file', '.ext')
while os.path.isfile(file_name): 
    file_name = file_name_parts[0] + '_' + str(counter) + file_name_parts[1]
    counter += 1
return file_name

我真的做要求文件位于单个目录中，并且在我的情况下对重复项进行编号绝对是可以接受的，所以我不是在寻找更强大的方法（尽管我认为任何指针都是受欢迎的），但只是为了确保这是什么成就就是以正确的方式完成任务。

解决方案

一个问题是上面的代码中存在竞争条件，因为测试存在和创建文件之间存在差距。这可能会对安全性产生影响（想想有人恶意地将符号链接插入到他们无法覆盖的敏感文件中，但是你的程序运行时具有更高的权限）这样的攻击就像os.tempnam这样的东西。）已被弃用。

要解决它，最好的方法是实际尝试创建文件，以便在失败时获得异常，并在成功时返回实际打开的文件对象。这可以通过传递os.O_CREAT和os.O_EXCL标志来实现低级os.open函数。打开后，返回您创建的实际文件（以及可选的文件名）。例如，这里修改了你的代码以使用这种方法（返回（文件，文件名）元组）：

def unique_file(file_name):
    counter = 1
    file_name_parts = os.path.splitext(file_name) # returns ('/path/file', '.ext')
    while 1:
        try:
            fd = os.open(file_name, os.O_CREAT | os.O_EXCL | os.O_RDRW)
            return os.fdopen(fd), file_name
        except OSError:
            pass
        file_name = file_name_parts[0] + '_' + str(counter) + file_name_parts[1]
        counter += 1

[编辑] 实际上，更好的办法是为你处理上述问题，可能是使用tempfile模块，尽管你可能会失去对命名的控制权。以下是使用它的示例（保持类似的界面）：

def unique_file(file_name):
    dirname, filename = os.path.split(file_name)
    prefix, suffix = os.path.splitext(filename)

    fd, filename = tempfile.mkstemp(suffix, prefix+"_", dirname)
    return os.fdopen(fd), filename

>>> f, filename=unique_file('/home/some_dir/foo.txt')
>>> print filename
/home/some_dir/foo_z8f_2Z.txt

这种方法唯一的缺点是你总会得到一个带有一些随机字符的文件名，因为没有尝试先创建一个未修改的文件（/home/some_dir/foo.txt）。您可能还想查看tempfile.TemporaryFile和NamedTemporaryFile，它们将执行上述操作，并在关闭时自动从磁盘中删除。

其他提示

是的，对于可读但唯一的文件名，这是一个很好的策略。

一个重要的更改：您应该将 os.path.isfile 替换为 os.path.lexists ！正如现在所写，如果有一个名为/foo/bar.baz的目录，你的程序将尝试使用新文件覆盖它（这将无效）...因为 isfile 只检查文件而不是目录。 lexists 检查目录，符号链接等...基本上如果有任何原因导致无法创建文件名。

编辑：@Brian提供了一个更好的答案，在竞争条件方面更安全，更强大。

两个小小的变化......

base_name, ext = os.path.splitext(file_name)

你得到两个具有不同含义的结果，给它们不同的名称。

file_name = "%s_%d%s" % (base_name, str(counter), ext)

它不会更快或更短。但是，当您想要更改文件名模式时，模式位于一个位置，并且更容易使用。

如果您想要可读的名称，这看起来是一个不错的解决方案。
有一些例程可以返回唯一的文件名，例如。临时文件，但它们会产生长的随机名称。

如果你不在乎可读性，uuid.uuid4（）就是你的朋友。

import uuid

def unique_filename(prefix=None, suffix=None):
    fn = []
    if prefix: fn.extend([prefix, '-'])
    fn.append(str(uuid.uuid4()))
    if suffix: fn.extend(['.', suffix.lstrip('.')])
    return ''.join(fn)

怎么样

def ensure_unique_filename(orig_file_path):    
    from time import time
    import os

    if os.path.lexists(orig_file_path):
        name, ext = os.path.splitext(orig_file_path)
        orig_file_path = name + str(time()).replace('.', '') + ext

    return orig_file_path

time（）以毫秒为单位返回当前时间。结合原始文件名，即使在复杂的多线程情况下也是如此。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow