Как я могу перечислить все файлы каталога в Python и добавить их в list
?
20 ответов
Я предпочитаю использовать модуль glob
, поскольку он выполняет сопоставление с образцом и расширение.
import glob
print(glob.glob("/home/adam/*"))
Он интуитивно выполняет сопоставление с образцом
import glob
# All files and directories ending with .txt and that don't begin with a dot:
print(glob.glob("/home/adam/*.txt"))
# All files and directories ending with .txt with depth of 2 folders, ignoring names beginning with a dot:
print(glob.glob("/home/adam/*/*.txt"))
Он вернет список с запрошенными файлами и каталогами:
['/home/adam/file1.txt', '/home/adam/file2.txt', .... ]
Обратите внимание, что glob
игнорирует файлы и каталоги, начинающиеся с точки .
, так как они считаются скрытыми файлами и каталогами, если шаблон не похож на .*
.
Используйте glob.escape
, чтобы избежать строк, которые не предназначены быть узорами:
print(glob.glob(glob.escape(directory_name) + "/*.txt"))
glob.glob("*")
будет.
Один мудрый учитель сказал мне однажды, что:
Когда существует несколько устоявшихся способов сделать что-либо, ни один из них не подходит для всех случаев.
Таким образом, я добавлю решение для подмножества проблемы: довольно часто мы хотим только проверить, соответствует ли файл начальной и конечной строкам, не заходя в подкаталоги. Таким образом, нам нужна функция, которая возвращает список имен файлов, например:
filenames = dir_filter('foo/baz', radical='radical', extension='.txt')
Если вы хотите сначала объявить две функции, это можно сделать:
def file_filter(filename, radical='', extension=''):
"Check if a filename matches a radical and extension"
if not filename:
return False
filename = filename.strip()
return(filename.startswith(radical) and filename.endswith(extension))
def dir_filter(dirname='', radical='', extension=''):
"Filter filenames in directory according to radical and extension"
if not dirname:
dirname = '.'
return [filename for filename in os.listdir(dirname)
if file_filter(filename, radical, extension)]
Это решение можно легко обобщить с помощью регулярных выражений (и вы можете добавить аргумент pattern
, если вы не хотите, чтобы ваши шаблоны всегда оставались в начале или в конце имени файла).
import os
import os.path
def get_files(target_dir):
item_list = os.listdir(target_dir)
file_list = list()
for item in item_list:
item_dir = os.path.join(target_dir,item)
if os.path.isdir(item_dir):
file_list += get_files(item_dir)
else:
file_list.append(item_dir)
return file_list
Здесь я использую рекурсивную структуру.
pathlib
: filter(Path.is_file, Path().rglob('*'))
Получение полных путей к файлам из каталога и всех его подкаталогов
import os
def get_filepaths(directory):
"""
This function will generate the file names in a directory
tree by walking the tree either top-down or bottom-up. For each
directory in the tree rooted at directory top (including top itself),
it yields a 3-tuple (dirpath, dirnames, filenames).
"""
file_paths = [] # List which will store all of the full filepaths.
# Walk the tree.
for root, directories, files in os.walk(directory):
for filename in files:
# Join the two strings in order to form the full filepath.
filepath = os.path.join(root, filename)
file_paths.append(filepath) # Add it to the list.
return file_paths # Self-explanatory.
# Run the above function and store its results in a variable.
full_file_paths = get_filepaths("/Users/johnny/Desktop/TEST")
- Путь, который я указал в приведенной выше функции, содержал 3 файла - два из них в корневом каталоге, а другой в подпапке с именем «SUBFOLDER». Теперь вы можете делать такие вещи, как:
print full_file_paths
, который распечатает список:['/Users/johnny/Desktop/TEST/file1.txt', '/Users/johnny/Desktop/TEST/file2.txt', '/Users/johnny/Desktop/TEST/SUBFOLDER/file3.dat']
При желании вы можете открывать и читать содержимое или сосредотачиваться только на файлах с расширением «.dat», как в приведенном ниже коде:
for f in full_file_paths:
if f.endswith(".dat"):
print f
/Users/johnny/Desktop/TEST/SUBFOLDER/file3.dat
Начиная с версии 3.4 для этого есть встроенные итераторы , которые намного эффективнее, чем os.listdir()
:
pathlib
: Новое в версии 3.4.
>>> import pathlib
>>> [p for p in pathlib.Path('.').iterdir() if p.is_file()]
Согласно PEP 428, цель pathlib
библиотека должна предоставить простую иерархию классов для обработки путей файловой системы и обычных операций, выполняемых пользователями. Над ними.
os.scandir()
: Новое в версии 3.5 .
>>> import os
>>> [entry for entry in os.scandir('.') if entry.is_file()]
Обратите внимание, что os.walk()
использует os.scandir()
вместо os.listdir()
из версии 3.5, а его скорость увеличилась в 2-20 раз согласно PEP 471.
Позвольте мне также рекомендовать прочитать комментарий ShadowRanger ниже.
os.scandir
будет более эффективным, чем os.listdir
, с проверкой os.path.is_file
и т.п., даже если вам понадобится list
(так что вы не получите от ленивой итерации), потому что os.scandir
использует API, предоставляемые ОС, которые бесплатно предоставляют вам информацию is_file
во время итерации, без обращения к диску для каждого файла, чтобы stat
их вообще ( в Windows DirEntry
предоставляют полную информацию stat
бесплатно, в системах * NIX требуется stat
для получения информации, помимо is_file
, is_dir
и т. д. ., но для удобства DirEntry
кэшируется на первом stat
).
entry.name
, чтобы получить только имя файла, или entry.path
, чтобы получить его полный путь. Больше никаких os.path.join () повсюду.
Другой очень читаемый вариант для Python 3.4+ - использование pathlib.Path.glob:
from pathlib import Path
folder = '/foo'
[f for f in Path(folder).glob('*') if f.is_file()]
Это просто сделать более конкретным, например ищите только исходные файлы Python, которые не являются символическими ссылками, также во всех подкаталогах:
[f for f in Path(folder).glob('**/*.py') if not f.is_symlink()]
Я предоставлю образец одного вкладыша, в котором в качестве входных данных можно указать путь к исходному тексту и тип файла. Код возвращает список имен файлов с расширением csv. Используйте . , если необходимо вернуть все файлы. Это также будет рекурсивно сканировать подкаталоги.
[y for x in os.walk(sourcePath) for y in glob(os.path.join(x[0], '*.csv'))]
При необходимости измените расширения файлов и исходный путь.
glob
, просто используйте glob('**/*.csv', recursive=True)
. Нет необходимости комбинировать это с os.walk()
для рекурсии (recursive
и **
поддерживаются, начиная с Python 3.5).
dircache устарел, начиная с версии 2.6: Модуль dircache был удален из Python 3.0. "
import dircache
list = dircache.listdir(pathname)
i = 0
check = len(list[0])
temp = []
count = len(list)
while count != 0:
if len(list[i]) != check:
temp.append(list[i-1])
check = len(list[i])
else:
i = i + 1
count = count - 1
print temp
Для Python 2:
pip install rglob
Тогда делай
import rglob
file_list = rglob.rglob("/home/base/dir/", "*")
print file_list
Мне очень понравился ответ Адама, в котором предлагается использовать glob()
из одноименного модуля. Это позволяет вам иметь сопоставление с образцом с *
s.
Но, как отмечали другие люди в комментариях, glob()
может споткнуться из-за непоследовательных направлений косой черты. Чтобы помочь с этим, я предлагаю вам использовать функции join()
и expanduser()
в модуле os.path
и, возможно, функцию getcwd()
в модуле os
, как хорошо.
В качестве примеров:
from glob import glob
# Return everything under C:\Users\admin that contains a folder called wlp.
glob('C:\Users\admin\*\wlp')
Вышеупомянутое ужасно - путь был жестко запрограммирован и будет работать только в Windows между именем диска и \
, жестко запрограммированными в путь.
from glob import glob
from os.path import join
# Return everything under Users, admin, that contains a folder called wlp.
glob(join('Users', 'admin', '*', 'wlp'))
Вышеуказанное работает лучше, но оно зависит от имени папки Users
, которое часто встречается в Windows и не так часто встречается в других ОС. Он также полагается на то, что у пользователя есть определенное имя, admin
.
from glob import glob
from os.path import expanduser, join
# Return everything under the user directory that contains a folder called wlp.
glob(join(expanduser('~'), '*', 'wlp'))
Это отлично работает на всех платформах.
Еще один отличный пример, который отлично работает на разных платформах и делает кое-что другое:
from glob import glob
from os import getcwd
from os.path import join
# Return everything under the current directory that contains a folder called wlp.
glob(join(getcwd(), '*', 'wlp'))
Надеюсь, эти примеры помогут вам увидеть всю мощь некоторых функций, которые вы можете найти в стандартных модулях библиотеки Python.
**
работает, пока вы устанавливаете recursive = True
. См. Документацию здесь: docs.python.org/3.5/library/glob .html # glob.glob
Однострочное решение для получения только списка файлов (без подкаталогов):
filenames = next(os.walk(path))[2]
Или абсолютные пути:
paths = [os.path.join(path, fn) for fn in next(os.walk(path))[2]]
import os
. Мне кажется менее лаконичным, чем glob()
.
Использование генераторов
import os
def get_files(search_path):
for (dirpath, _, filenames) in os.walk(search_path):
for filename in filenames:
yield os.path.join(dirpath, filename)
list_files = get_files('.')
for filename in list_files:
print(filename)
os.listdir()
a> возвращает все содержимое каталога, включая как файлы, так и каталоги.
os.path
< /a> isfile()
можно использовать только для списка файлов:
from os import listdir
from os.path import isfile, join
onlyfiles = [f for f in listdir(mypath) if isfile(join(mypath, f))]
Кроме того, os.walk()
выдает два списка для каждого посещаемого каталога — один для файлов и один для каталогов. Если вам нужен только верхний каталог, вы можете сломать его в первый раз:
from os import walk
f = []
for (dirpath, dirnames, filenames) in walk(mypath):
f.extend(filenames)
break
Или, короче:
from os import walk
filenames = next(walk(mypath), (None, None, []))[2] # [] if no file
(_, _, filenames) = walk(mypath).next()
(если вы уверены, что прогулка вернет хотя бы одно значение, которое должно).
f.extend(filenames)
на самом деле не эквивалентно f = f + filenames
. extend
изменит f
на месте, тогда как добавление создает новый список в новом месте памяти. Это означает, что extend
обычно более эффективен, чем +
, но иногда это может привести к путанице, если несколько объектов содержат ссылки на список. Наконец, стоит отметить, что f += filenames
эквивалентно f.extend(filenames)
, не f = f + filenames
.
_, _, filenames = next(walk(mypath), (None, None, []))
f += filenames
эквивалентно расширению, а не наоборот ??? Боже.
Список в текущем каталоге
С listdir
в модуле os
вы получаете файлы и папки в текущем каталоге
import os
arr = os.listdir()
Поиск в каталоге
arr = os.listdir('c:\\files')
С glob
вы можете указать тип файла для перечисления, как это
import glob
txtfiles = []
for file in glob.glob("*.txt"):
txtfiles.append(file)
Или
mylist = [f for f in glob.glob("*.txt")]
Получить полный путь только к файлам в текущем каталоге
import os
from os import listdir
from os.path import isfile, join
cwd = os.getcwd()
onlyfiles = [os.path.join(cwd, f) for f in os.listdir(cwd) if
os.path.isfile(os.path.join(cwd, f))]
print(onlyfiles)
['G:\\getfilesname\\getfilesname.py', 'G:\\getfilesname\\example.txt']
Получение полного имени пути с помощью os.path.abspath
Вы получаете взамен полный путь
import os
files_path = [os.path.abspath(x) for x in os.listdir()]
print(files_path)
['F:\\documenti\applications.txt', 'F:\\documenti\collections.txt']
Прогулка: просмотр подкаталогов
Os.walk возвращает корень, список каталогов и список файлов, поэтому я распаковал их в r, d, f в цикле for; Затем он ищет другие файлы и каталоги во вложенных папках корневого каталога и так далее, пока не останется вложенных папок.
import os
# Getting the current work directory (cwd)
thisdir = os.getcwd()
# r=root, d=directories, f = files
for r, d, f in os.walk(thisdir):
for file in f:
if file.endswith(".docx"):
print(os.path.join(r, file))
Чтобы подняться в дереве каталогов
# Method 1
x = os.listdir('..')
# Method 2
x= os.listdir('/')
Получить файлы из определенного подкаталога с помощью os.listdir()
import os
x = os.listdir("./content")
Os.walk ('.') - текущий каталог
import os
arr = next(os.walk('.'))[2]
print(arr)
>>> ['5bs_Turismo1.pdf', '5bs_Turismo1.pptx', 'esperienza.txt']
Next (os.walk ('.')) и os.path.join ('dir', 'file')
import os
arr = []
for d,r,f in next(os.walk("F:\\_python")):
for file in f:
arr.append(os.path.join(r,file))
for f in arr:
print(files)
>>> F:\\_python\\dict_class.py
>>> F:\\_python\\programmi.txt
Следующий ... прогулка
[os.path.join(r,file) for r,d,f in next(os.walk("F:\\_python")) for file in f]
>>> ['F:\\_python\\dict_class.py', 'F:\\_python\\programmi.txt']
Os.walk
x = [os.path.join(r,file) for r,d,f in os.walk("F:\\_python") for file in f]
print(x)
>>> ['F:\\_python\\dict.py', 'F:\\_python\\progr.txt', 'F:\\_python\\readl.py']
Os.listdir () - получить только txt файлы
arr_txt = [x for x in os.listdir() if x.endswith(".txt")]
Использование glob
для получения полного пути к файлам
from path import path
from glob import glob
x = [path(f).abspath() for f in glob("F:\\*.txt")]
Использование os.path.isfile
для исключения каталогов в списке
import os.path
listOfFiles = [f for f in os.listdir() if os.path.isfile(f)]
Использование pathlib
из Python 3.4
import pathlib
flist = []
for p in pathlib.Path('.').iterdir():
if p.is_file():
print(p)
flist.append(p)
С list comprehension
:
flist = [p for p in pathlib.Path('.').iterdir() if p.is_file()]
Используйте метод glob в pathlib.Path ()
import pathlib
py = pathlib.Path().glob("*.py")
Получить все и только файлы с помощью os.walk: проверяет только третий возвращаемый элемент, то есть список файлов
import os
x = [i[2] for i in os.walk('.')]
y=[]
for t in x:
for f in t:
y.append(f)
Получить только файлы со следующим в каталоге: возвращает только файл в корневой папке
import os
x = next(os.walk('F://python'))[2]
Получить только каталоги с помощью next и пройти по каталогу, потому что в элементе [1] есть только папки
import os
next(os.walk('F://python'))[1] # for the current dir use ('.')
>>> ['python3','others']
Получить все имена subdir
с помощью walk
for r,d,f in os.walk("F:\\_python"):
for dirs in d:
print(dirs)
os.scandir()
из Python 3.5 и выше
import os
x = [f.name for f in os.scandir() if f.is_file()]
# Another example with `scandir` (a little variation from docs.python.org)
# This one is more efficient than `os.listdir`.
# In this case, it shows the files only in the current directory
# where the script is executed.
import os
with os.scandir() as i:
for entry in i:
if entry.is_file():
print(entry.name)
[f for f in glob.glob("*.txt")]
эквивалентен glob.glob("*.txt")
и не требует дополнительных разделов в этой статье. Он также очень многословный и с большим количеством пробелов. Можно было бы улучшить, добавив пояснения или указав различия вместо того, чтобы перечислять еще один вариант.
files_path = [os.path.abspath(x) for x in os.listdir(directory)]
это не дает полный путь к абс, он опускает directory
в пути к файлу
import os
os.listdir("somedirectory")
Вернет список всех файлов и каталогов в "somedirectory".
glob.glob
os.listdir()
всегда возвращает простые имена файлов (а не относительные пути). То, что возвращает glob.glob()
, определяется форматом пути входного шаблона.
def list_files(path):
# returns a list of names (with extension, without full path) of all files
# in folder path
files = []
for name in os.listdir(path):
if os.path.isfile(os.path.join(path, name)):
files.append(name)
return files
Если вы ищете Python-реализацию find , я довольно часто использую этот рецепт:
from findtools.find_files import (find_files, Match)
# Recursively find all *.sh files in **/usr/bin**
sh_files_pattern = Match(filetype='f', name='*.sh')
found_files = find_files(path='/usr/bin', match=sh_files_pattern)
for found_file in found_files:
print found_file
Поэтому я сделал из него пакет PyPI, а также есть репозиторий GitHub. Я надеюсь, что кто-то сочтет это потенциально полезным для этого кода.
Для лучших результатов вы можете использовать метод listdir()
модуля os
вместе с генератором (генератор - это мощный итератор, который сохраняет свое состояние, помните?). Следующий код отлично работает с обеими версиями: Python 2 и Python 3.
Вот код:
import os
def files(path):
for file in os.listdir(path):
if os.path.isfile(os.path.join(path, file)):
yield file
for file in files("."):
print (file)
Метод listdir()
возвращает список записей для данного каталога. Метод os.path.isfile()
возвращает True
, если данная запись является файлом. И оператор yield
завершает выполнение функции, но сохраняет ее текущее состояние и возвращает только имя записи, обнаруженной как файл. Все вышесказанное позволяет нам перебрать функцию генератора.
Возвращение списка абсолютных путей к файлам без рекурсии в подкаталоги
L = [os.path.join(os.getcwd(),f) for f in os.listdir('.') if os.path.isfile(os.path.join(os.getcwd(),f))]
os.path.abspath(f)
будет несколько более дешевой заменой os.path.join(os.getcwd(),f)
.
cwd = os.path.abspath('.')
, а затем использовали бы cwd
вместо '.'
и os.getcwd()
, чтобы избежать множества избыточных системных вызовов.
Вот моя универсальная функция для этого. Он возвращает список путей к файлам, а не имен файлов, поскольку я обнаружил, что это более полезно. У него есть несколько необязательных аргументов, которые делают его универсальным. Например, я часто использую его с такими аргументами, как pattern='*.txt'
или subfolders=True
.
import os
import fnmatch
def list_paths(folder='.', pattern='*', case_sensitive=False, subfolders=False):
"""Return a list of the file paths matching the pattern in the specified
folder, optionally including files inside subfolders.
"""
match = fnmatch.fnmatchcase if case_sensitive else fnmatch.fnmatch
walked = os.walk(folder) if subfolders else [next(os.walk(folder))]
return [os.path.join(root, f)
for root, dirnames, filenames in walked
for f in filenames if match(f, pattern)]
Похожие вопросы
Связанные вопросы
Новые вопросы
python
Python — это мультипарадигмальный многоцелевой язык программирования с динамической типизацией. Он предназначен для быстрого изучения, понимания и использования, а также обеспечивает чистый и унифицированный синтаксис. Обратите внимание, что Python 2 официально не поддерживается с 01.01.2020. Если у вас есть вопросы о версии Python, добавьте тег [python-2.7] или [python-3.x]. При использовании варианта Python (например, Jython, PyPy) или библиотеки (например, Pandas, NumPy) укажите это в тегах.