Я пытаюсь скачать PDF, используя скрипт Python. Я пытался использовать urlib, pdfkit, а также curl. Пока я пытаюсь скачать pdf, я получаю html / js содержимое страницы вместо pdf файла. Пожалуйста, помогите мне решить эту проблему.
Используя pdfkit:
import pdfkit
pdfkit.from_url('http://www.kubota.com/product/BSeries/B2301/pdf/B01_Specs.pdf', 'out.pdf', options = {'javascript-delay':'10000'})
Используя urllib:
import urllib2
response = urllib2.urlopen('http://www.kubota.com/product/BSeries/B2301/pdf/B01_Specs.pdf')
file = open("out.pdf", 'wb')
file.write(response.read())
file.close()
2 ответа
Вы можете использовать библиотеку urllib3
import urllib3
def download_file(download_url):
http = urllib3.PoolManager()
response = http.request('GET', download_url)
f = open('output.pdf', 'wb')
f.write(response.data)
f.close()
if __name__ == '__main__':
download_file('http://www.kubota.com/product/BSeries/B2301/pdf/B01_Specs.pdf')
Вы должны быть в состоянии сделать это с запросами довольно легко
import requests
r = requests.get('http://www.axmag.com/download/pdfurl-guide.pdf') #your url here
with open('your_file_path_here.pdf', 'wb') as f:
f.write(r.content)
Похожие вопросы
Новые вопросы
python
Python - это многопарадигмальный, динамически типизированный, многоцелевой язык программирования. Он разработан для быстрого изучения, понимания и использования, а также для обеспечения чистого и единообразного синтаксиса. Обратите внимание, что Python 2 официально не поддерживается с 01.01.2020. Тем не менее, для вопросов о Python, связанных с версией, добавьте тег [python-2.7] или [python-3.x]. При использовании варианта Python (например, Jython, PyPy) или библиотеки (например, Pandas и NumPy) включите его в теги.