Как я могу перечислить все файлы каталога в Python и добавить их в list?

3467
duhhunjonn 8 Июл 2010 в 23:31
27
 – 
rds
5 Янв 2012 в 13:32

20 ответов

Я предпочитаю использовать модуль glob, поскольку он выполняет сопоставление с образцом и расширение.

import glob
print(glob.glob("/home/adam/*"))

Он интуитивно выполняет сопоставление с образцом

import glob
# All files and directories ending with .txt and that don't begin with a dot:
print(glob.glob("/home/adam/*.txt")) 
# All files and directories ending with .txt with depth of 2 folders, ignoring names beginning with a dot:
print(glob.glob("/home/adam/*/*.txt")) 

Он вернет список с запрошенными файлами и каталогами:

['/home/adam/file1.txt', '/home/adam/file2.txt', .... ]

Обратите внимание, что glob игнорирует файлы и каталоги, начинающиеся с точки ., так как они считаются скрытыми файлами и каталогами, если шаблон не похож на .*.

Используйте glob.escape, чтобы избежать строк, которые не предназначены быть узорами:

print(glob.glob(glob.escape(directory_name) + "/*.txt"))
2372
Flimm 11 Янв 2022 в 16:56
20
Это ярлык для listdir + fnmatch docs.python.org/library/fnmatch.html # fnmatch.fnmatch
 – 
Stefano
1 Июл 2011 в 17:03
1
Связано: рекурсивный поиск файлов с помощью glob: stackoverflow.com/a/2186565/4561887
 – 
Gabriel Staples
3 Сен 2018 в 06:25
11
Не отвечает на этот вопрос. glob.glob("*") будет.
 – 
Jean-François Fabre
17 Май 2019 в 21:36
2
Есть ли способ гарантировать, что элементы, возвращаемые из glob, являются только файлами? Я спрашиваю насчет случая, когда файлы могут существовать без расширений (или другие сценарии, в которых файлы и папки неотличимы только от их строк пути). Я отмечаю, что это подходящее разъяснение здесь, поскольку OP не указывал, есть ли у их файлов расширения.
 – 
aamailhot
12 Авг 2021 в 00:57

Один мудрый учитель сказал мне однажды, что:

Когда существует несколько устоявшихся способов сделать что-либо, ни один из них не подходит для всех случаев.

Таким образом, я добавлю решение для подмножества проблемы: довольно часто мы хотим только проверить, соответствует ли файл начальной и конечной строкам, не заходя в подкаталоги. Таким образом, нам нужна функция, которая возвращает список имен файлов, например:

filenames = dir_filter('foo/baz', radical='radical', extension='.txt')

Если вы хотите сначала объявить две функции, это можно сделать:

def file_filter(filename, radical='', extension=''):
    "Check if a filename matches a radical and extension"
    if not filename:
        return False
    filename = filename.strip()
    return(filename.startswith(radical) and filename.endswith(extension))

def dir_filter(dirname='', radical='', extension=''):
    "Filter filenames in directory according to radical and extension"
    if not dirname:
        dirname = '.'
    return [filename for filename in os.listdir(dirname)
                if file_filter(filename, radical, extension)]

Это решение можно легко обобщить с помощью регулярных выражений (и вы можете добавить аргумент pattern, если вы не хотите, чтобы ваши шаблоны всегда оставались в начале или в конце имени файла).

11
fralau 24 Мар 2019 в 10:17
import os
import os.path


def get_files(target_dir):
    item_list = os.listdir(target_dir)

    file_list = list()
    for item in item_list:
        item_dir = os.path.join(target_dir,item)
        if os.path.isdir(item_dir):
            file_list += get_files(item_dir)
        else:
            file_list.append(item_dir)
    return file_list

Здесь я использую рекурсивную структуру.

10
Andrew Rohne 18 Июл 2018 в 16:44
То же самое можно сделать всего в одной строке с помощью pathlib: filter(Path.is_file, Path().rglob('*'))
 – 
Georgy
17 Май 2019 в 12:37

Получение полных путей к файлам из каталога и всех его подкаталогов

import os

def get_filepaths(directory):
    """
    This function will generate the file names in a directory 
    tree by walking the tree either top-down or bottom-up. For each 
    directory in the tree rooted at directory top (including top itself), 
    it yields a 3-tuple (dirpath, dirnames, filenames).
    """
    file_paths = []  # List which will store all of the full filepaths.

    # Walk the tree.
    for root, directories, files in os.walk(directory):
        for filename in files:
            # Join the two strings in order to form the full filepath.
            filepath = os.path.join(root, filename)
            file_paths.append(filepath)  # Add it to the list.

    return file_paths  # Self-explanatory.

# Run the above function and store its results in a variable.   
full_file_paths = get_filepaths("/Users/johnny/Desktop/TEST")

  • Путь, который я указал в приведенной выше функции, содержал 3 файла - два из них в корневом каталоге, а другой в подпапке с именем «SUBFOLDER». Теперь вы можете делать такие вещи, как:
  • print full_file_paths, который распечатает список:

    • ['/Users/johnny/Desktop/TEST/file1.txt', '/Users/johnny/Desktop/TEST/file2.txt', '/Users/johnny/Desktop/TEST/SUBFOLDER/file3.dat']

При желании вы можете открывать и читать содержимое или сосредотачиваться только на файлах с расширением «.dat», как в приведенном ниже коде:

for f in full_file_paths:
  if f.endswith(".dat"):
    print f

/Users/johnny/Desktop/TEST/SUBFOLDER/file3.dat

154
Johnny 26 Сен 2019 в 05:29

Начиная с версии 3.4 для этого есть встроенные итераторы , которые намного эффективнее, чем os.listdir():

pathlib: Новое в версии 3.4.

>>> import pathlib
>>> [p for p in pathlib.Path('.').iterdir() if p.is_file()]

Согласно PEP 428, цель pathlib библиотека должна предоставить простую иерархию классов для обработки путей файловой системы и обычных операций, выполняемых пользователями. Над ними.

os.scandir(): Новое в версии 3.5 .

>>> import os
>>> [entry for entry in os.scandir('.') if entry.is_file()]

Обратите внимание, что os.walk() использует os.scandir() вместо os.listdir() из версии 3.5, а его скорость увеличилась в 2-20 раз согласно PEP 471.

Позвольте мне также рекомендовать прочитать комментарий ShadowRanger ниже.

100
Peter Mortensen 23 Май 2018 в 21:41
7
Примечание. Решение os.scandir будет более эффективным, чем os.listdir, с проверкой os.path.is_file и т.п., даже если вам понадобится list (так что вы не получите от ленивой итерации), потому что os.scandir использует API, предоставляемые ОС, которые бесплатно предоставляют вам информацию is_file во время итерации, без обращения к диску для каждого файла, чтобы stat их вообще ( в Windows DirEntry предоставляют полную информацию stat бесплатно, в системах * NIX требуется stat для получения информации, помимо is_file, is_dir и т. д. ., но для удобства DirEntry кэшируется на первом stat).
 – 
ShadowRanger
21 Ноя 2015 в 01:38
1
Вы также можете использовать entry.name, чтобы получить только имя файла, или entry.path, чтобы получить его полный путь. Больше никаких os.path.join () повсюду.
 – 
user136036
28 Мар 2017 в 23:26

Другой очень читаемый вариант для Python 3.4+ - использование pathlib.Path.glob:

from pathlib import Path
folder = '/foo'
[f for f in Path(folder).glob('*') if f.is_file()]

Это просто сделать более конкретным, например ищите только исходные файлы Python, которые не являются символическими ссылками, также во всех подкаталогах:

[f for f in Path(folder).glob('**/*.py') if not f.is_symlink()]
7
Peter Mortensen 23 Май 2018 в 22:25

Я предоставлю образец одного вкладыша, в котором в качестве входных данных можно указать путь к исходному тексту и тип файла. Код возвращает список имен файлов с расширением csv. Используйте . , если необходимо вернуть все файлы. Это также будет рекурсивно сканировать подкаталоги.

[y for x in os.walk(sourcePath) for y in glob(os.path.join(x[0], '*.csv'))]

При необходимости измените расширения файлов и исходный путь.

3
Vinodh Krishnaraju 12 Дек 2017 в 08:30
1
Если вы собираетесь использовать glob, просто используйте glob('**/*.csv', recursive=True). Нет необходимости комбинировать это с os.walk() для рекурсии (recursive и ** поддерживаются, начиная с Python 3.5).
 – 
Martijn Pieters
5 Дек 2018 в 14:09

dircache устарел, начиная с версии 2.6: Модуль dircache был удален из Python 3.0. "

import dircache
list = dircache.listdir(pathname)
i = 0
check = len(list[0])
temp = []
count = len(list)
while count != 0:
  if len(list[i]) != check:
     temp.append(list[i-1])
     check = len(list[i])
  else:
    i = i + 1
    count = count - 1

print temp
1
Georgy 17 Май 2019 в 23:30

Для Python 2:

pip install rglob

Тогда делай

import rglob
file_list = rglob.rglob("/home/base/dir/", "*")
print file_list
4
Peter Mortensen 8 Фев 2021 в 19:00
3
Когда можно избежать внешнего депривации, сделайте это. В чем добавленная стоимость использования внешней зависимости, когда все, что вам нужно, уже есть в языке?
 – 
Eric
30 Мар 2021 в 16:45

Мне очень понравился ответ Адама, в котором предлагается использовать glob() из одноименного модуля. Это позволяет вам иметь сопоставление с образцом с * s.

Но, как отмечали другие люди в комментариях, glob() может споткнуться из-за непоследовательных направлений косой черты. Чтобы помочь с этим, я предлагаю вам использовать функции join() и expanduser() в модуле os.path и, возможно, функцию getcwd() в модуле os, как хорошо.

В качестве примеров:

from glob import glob

# Return everything under C:\Users\admin that contains a folder called wlp.
glob('C:\Users\admin\*\wlp')

Вышеупомянутое ужасно - путь был жестко запрограммирован и будет работать только в Windows между именем диска и \, жестко запрограммированными в путь.

from glob    import glob
from os.path import join

# Return everything under Users, admin, that contains a folder called wlp.
glob(join('Users', 'admin', '*', 'wlp'))

Вышеуказанное работает лучше, но оно зависит от имени папки Users, которое часто встречается в Windows и не так часто встречается в других ОС. Он также полагается на то, что у пользователя есть определенное имя, admin.

from glob    import glob
from os.path import expanduser, join

# Return everything under the user directory that contains a folder called wlp.
glob(join(expanduser('~'), '*', 'wlp'))

Это отлично работает на всех платформах.

Еще один отличный пример, который отлично работает на разных платформах и делает кое-что другое:

from glob    import glob
from os      import getcwd
from os.path import join

# Return everything under the current directory that contains a folder called wlp.
glob(join(getcwd(), '*', 'wlp'))

Надеюсь, эти примеры помогут вам увидеть всю мощь некоторых функций, которые вы можете найти в стандартных модулях библиотеки Python.

49
Community 23 Май 2017 в 14:47
4
Дополнительное удовольствие: начиная с Python 3.5, ** работает, пока вы устанавливаете recursive = True. См. Документацию здесь: docs.python.org/3.5/library/glob .html # glob.glob
 – 
ArtOfWarfare
26 Янв 2015 в 06:24

Однострочное решение для получения только списка файлов (без подкаталогов):

filenames = next(os.walk(path))[2]

Или абсолютные пути:

paths = [os.path.join(path, fn) for fn in next(os.walk(path))[2]]
185
ohe 22 Сен 2019 в 23:40
7
Только однострочник, если вы уже import os. Мне кажется менее лаконичным, чем glob().
 – 
ArtOfWarfare
28 Ноя 2014 в 23:22
4
Проблема с glob заключается в том, что папка с именем something.something будет возвращена glob ('/ home / adam /*.*')
 – 
Remi
1 Дек 2014 в 12:08

Использование генераторов

import os
def get_files(search_path):
     for (dirpath, _, filenames) in os.walk(search_path):
         for filename in filenames:
             yield os.path.join(dirpath, filename)
list_files = get_files('.')
for filename in list_files:
    print(filename)
8
shantanoo 17 Май 2017 в 18:35
БЛАГОДАРНОСТЬ! именно то, что мне нужно. Многие ответы вверху устарели и не работают с Python 3.9 :)
 – 
Wlad
14 Окт 2021 в 11:01

os.listdir() возвращает все содержимое каталога, включая как файлы, так и каталоги.

os.path< /a> isfile() можно использовать только для списка файлов:

from os import listdir
from os.path import isfile, join
onlyfiles = [f for f in listdir(mypath) if isfile(join(mypath, f))]

Кроме того, os.walk() выдает два списка для каждого посещаемого каталога — один для файлов и один для каталогов. Если вам нужен только верхний каталог, вы можете сломать его в первый раз:

from os import walk

f = []
for (dirpath, dirnames, filenames) in walk(mypath):
    f.extend(filenames)
    break

Или, короче:

from os import walk

filenames = next(walk(mypath), (None, None, []))[2]  # [] if no file
5953
Mateen Ulhaq 19 Апр 2022 в 04:55
128
Немного проще: (_, _, filenames) = walk(mypath).next() (если вы уверены, что прогулка вернет хотя бы одно значение, которое должно).
 – 
misterbee
15 Июл 2013 в 00:56
187
f.extend(filenames) на самом деле не эквивалентно f = f + filenames. extend изменит f на месте, тогда как добавление создает новый список в новом месте памяти. Это означает, что extend обычно более эффективен, чем +, но иногда это может привести к путанице, если несколько объектов содержат ссылки на список. Наконец, стоит отметить, что f += filenames эквивалентно f.extend(filenames), не f = f + filenames.
 – 
Benjamin Hodgson
22 Окт 2013 в 12:55
43
@misterbee, ваше решение - лучшее, только одно небольшое улучшение: _, _, filenames = next(walk(mypath), (None, None, []))
 – 
bgusach
5 Мар 2015 в 10:36
6
f += filenames эквивалентно расширению, а не наоборот ??? Боже.
 – 
Umagon
12 Июл 2020 в 12:18
1
Второй пример НАМНОГО быстрее
 – 
FloPinguin
12 Авг 2020 в 21:52

Список в текущем каталоге

С listdir в модуле os вы получаете файлы и папки в текущем каталоге

import os

arr = os.listdir()

Поиск в каталоге

arr = os.listdir('c:\\files')

С glob вы можете указать тип файла для перечисления, как это

import glob

txtfiles = []
for file in glob.glob("*.txt"):
    txtfiles.append(file)

Или

mylist = [f for f in glob.glob("*.txt")]

Получить полный путь только к файлам в текущем каталоге

import os
from os import listdir
from os.path import isfile, join

cwd = os.getcwd()
onlyfiles = [os.path.join(cwd, f) for f in os.listdir(cwd) if 
os.path.isfile(os.path.join(cwd, f))]
print(onlyfiles) 

['G:\\getfilesname\\getfilesname.py', 'G:\\getfilesname\\example.txt']

Получение полного имени пути с помощью os.path.abspath

Вы получаете взамен полный путь

 import os
 files_path = [os.path.abspath(x) for x in os.listdir()]
 print(files_path)
 
 ['F:\\documenti\applications.txt', 'F:\\documenti\collections.txt']

Прогулка: просмотр подкаталогов

Os.walk возвращает корень, список каталогов и список файлов, поэтому я распаковал их в r, d, f в цикле for; Затем он ищет другие файлы и каталоги во вложенных папках корневого каталога и так далее, пока не останется вложенных папок.

import os

# Getting the current work directory (cwd)
thisdir = os.getcwd()

# r=root, d=directories, f = files
for r, d, f in os.walk(thisdir):
    for file in f:
        if file.endswith(".docx"):
            print(os.path.join(r, file))

Чтобы подняться в дереве каталогов

# Method 1
x = os.listdir('..')

# Method 2
x= os.listdir('/')

Получить файлы из определенного подкаталога с помощью os.listdir()

import os

x = os.listdir("./content")

Os.walk ('.') - текущий каталог

 import os
 arr = next(os.walk('.'))[2]
 print(arr)
 
 >>> ['5bs_Turismo1.pdf', '5bs_Turismo1.pptx', 'esperienza.txt']

Next (os.walk ('.')) и os.path.join ('dir', 'file')

 import os
 arr = []
 for d,r,f in next(os.walk("F:\\_python")):
     for file in f:
         arr.append(os.path.join(r,file))

 for f in arr:
     print(files)

>>> F:\\_python\\dict_class.py
>>> F:\\_python\\programmi.txt

Следующий ... прогулка

 [os.path.join(r,file) for r,d,f in next(os.walk("F:\\_python")) for file in f]
 
 >>> ['F:\\_python\\dict_class.py', 'F:\\_python\\programmi.txt']

Os.walk

x = [os.path.join(r,file) for r,d,f in os.walk("F:\\_python") for file in f]
print(x)

>>> ['F:\\_python\\dict.py', 'F:\\_python\\progr.txt', 'F:\\_python\\readl.py']

Os.listdir () - получить только txt файлы

 arr_txt = [x for x in os.listdir() if x.endswith(".txt")]
 

Использование glob для получения полного пути к файлам

from path import path
from glob import glob

x = [path(f).abspath() for f in glob("F:\\*.txt")]

Использование os.path.isfile для исключения каталогов в списке

import os.path
listOfFiles = [f for f in os.listdir() if os.path.isfile(f)]

Использование pathlib из Python 3.4

import pathlib

flist = []
for p in pathlib.Path('.').iterdir():
    if p.is_file():
        print(p)
        flist.append(p)

С list comprehension:

flist = [p for p in pathlib.Path('.').iterdir() if p.is_file()]

Используйте метод glob в pathlib.Path ()

import pathlib

py = pathlib.Path().glob("*.py")

Получить все и только файлы с помощью os.walk: проверяет только третий возвращаемый элемент, то есть список файлов

import os
x = [i[2] for i in os.walk('.')]
y=[]
for t in x:
    for f in t:
        y.append(f)

Получить только файлы со следующим в каталоге: возвращает только файл в корневой папке

 import os
 x = next(os.walk('F://python'))[2]

Получить только каталоги с помощью next и пройти по каталогу, потому что в элементе [1] есть только папки

 import os
 next(os.walk('F://python'))[1] # for the current dir use ('.')
 
 >>> ['python3','others']

Получить все имена subdir с помощью walk

for r,d,f in os.walk("F:\\_python"):
    for dirs in d:
        print(dirs)

os.scandir() из Python 3.5 и выше

import os
x = [f.name for f in os.scandir() if f.is_file()]

# Another example with `scandir` (a little variation from docs.python.org)
# This one is more efficient than `os.listdir`.
# In this case, it shows the files only in the current directory
# where the script is executed.

import os
with os.scandir() as i:
    for entry in i:
        if entry.is_file():
            print(entry.name)
1477
xxx 12 Апр 2022 в 20:41
3
Хорошо, как можно скорее я посмотрю на свой ответ и постараюсь сделать его более чистым и с более полезной информацией о различиях между методами и т. Д.
 – 
PythonProgrammi
29 Янв 2020 в 22:56
4
Такие компиляции могут быть полезны, но этот ответ, в частности, не добавляет ценности существующим ответам. Чтобы привести пример, [f for f in glob.glob("*.txt")] эквивалентен glob.glob("*.txt") и не требует дополнительных разделов в этой статье. Он также очень многословный и с большим количеством пробелов. Можно было бы улучшить, добавив пояснения или указав различия вместо того, чтобы перечислять еще один вариант.
 – 
Turun Ambartanen
12 Окт 2020 в 13:20
files_path = [os.path.abspath(x) for x in os.listdir(directory)] это не дает полный путь к абс, он опускает directory в пути к файлу
 – 
Nivesh Krishna
9 Дек 2020 в 21:33
Хорошо, я признаю, что это слишком длинно, и я постараюсь сделать какой-то порядок как можно скорее, но я думаю, что все примеры связаны с вопросом, но я думаю, что все это зависит от мнения, поэтому я серьезно отнесусь к вашему комментарию.
 – 
PythonProgrammi
18 Авг 2021 в 21:09
[os.path.abspath(x) для x в os.listdir()] не дает полного пути
 – 
D C
14 Авг 2022 в 00:04
import os
os.listdir("somedirectory")

Вернет список всех файлов и каталогов в "somedirectory".

960
csano 13 Июл 2016 в 22:05
12
Это возвращает относительный путь к файлам по сравнению с полным путем, возвращаемым glob.glob
 – 
xji
17 Май 2016 в 17:32
25
@JIXiang: os.listdir() всегда возвращает простые имена файлов (а не относительные пути). То, что возвращает glob.glob(), определяется форматом пути входного шаблона.
 – 
mklement0
30 Ноя 2016 в 21:14
def list_files(path):
    # returns a list of names (with extension, without full path) of all files 
    # in folder path
    files = []
    for name in os.listdir(path):
        if os.path.isfile(os.path.join(path, name)):
            files.append(name)
    return files 
39
Apogentus 7 Окт 2014 в 22:30

Если вы ищете Python-реализацию find , я довольно часто использую этот рецепт:

from findtools.find_files import (find_files, Match)

# Recursively find all *.sh files in **/usr/bin**
sh_files_pattern = Match(filetype='f', name='*.sh')
found_files = find_files(path='/usr/bin', match=sh_files_pattern)

for found_file in found_files:
    print found_file

Поэтому я сделал из него пакет PyPI, а также есть репозиторий GitHub. Я надеюсь, что кто-то сочтет это потенциально полезным для этого кода.

25
Peter Mortensen 29 Май 2017 в 02:17

Для лучших результатов вы можете использовать метод listdir() модуля os вместе с генератором (генератор - это мощный итератор, который сохраняет свое состояние, помните?). Следующий код отлично работает с обеими версиями: Python 2 и Python 3.

Вот код:

import os

def files(path):  
    for file in os.listdir(path):
        if os.path.isfile(os.path.join(path, file)):
            yield file

for file in files("."):  
    print (file)

Метод listdir() возвращает список записей для данного каталога. Метод os.path.isfile() возвращает True, если данная запись является файлом. И оператор yield завершает выполнение функции, но сохраняет ее текущее состояние и возвращает только имя записи, обнаруженной как файл. Все вышесказанное позволяет нам перебрать функцию генератора.

15
Georgy 17 Май 2019 в 12:23

Возвращение списка абсолютных путей к файлам без рекурсии в подкаталоги

L = [os.path.join(os.getcwd(),f) for f in os.listdir('.') if os.path.isfile(os.path.join(os.getcwd(),f))]
11
Cristian Ciupitu 28 Дек 2014 в 06:27
2
Примечание: os.path.abspath(f) будет несколько более дешевой заменой os.path.join(os.getcwd(),f).
 – 
ShadowRanger
6 Май 2017 в 03:14
1
Я был бы еще более эффективным, если бы вы начали с cwd = os.path.abspath('.'), а затем использовали бы cwd вместо '.' и os.getcwd(), чтобы избежать множества избыточных системных вызовов.
 – 
Martijn Pieters
5 Дек 2018 в 13:46

Вот моя универсальная функция для этого. Он возвращает список путей к файлам, а не имен файлов, поскольку я обнаружил, что это более полезно. У него есть несколько необязательных аргументов, которые делают его универсальным. Например, я часто использую его с такими аргументами, как pattern='*.txt' или subfolders=True.

import os
import fnmatch

def list_paths(folder='.', pattern='*', case_sensitive=False, subfolders=False):
    """Return a list of the file paths matching the pattern in the specified 
    folder, optionally including files inside subfolders.
    """
    match = fnmatch.fnmatchcase if case_sensitive else fnmatch.fnmatch
    walked = os.walk(folder) if subfolders else [next(os.walk(folder))]
    return [os.path.join(root, f)
            for root, dirnames, filenames in walked
            for f in filenames if match(f, pattern)]
3
MarredCheese 7 Дек 2017 в 23:10