В python3 и beautifulsoup4 я хочу получать информацию с сайта, после выполнения запросов. Я так и сделал:
import requests
from bs4 import BeautifulSoup
req = requests.get('https://sisgvarmazenamento.blob.core.windows.net/prd/PublicacaoPortal/Arquivos/201901.htm').text
soup = BeautifulSoup(req,'lxml')
soup.find("h1").text
'\r\n CÃ\x82MARA MUNICIPAL DE SÃ\x83O PAULO'
Я не знаю, что такое кодировка, но это сайт с бразильским португальским, поэтому он должен быть utf-8 или latin1
Пожалуйста, есть ли способ узнать, какая кодировка правильная?
И тогда, как Beautifulsoup правильно читает эту кодировку?
2 ответа
Когда вы используете запросы, вы можете использовать функцию encoding , например:
req = requests.get('https://sisgvarmazenamento.blob.core.windows.net/prd/PublicacaoPortal/Arquivos/201901.htm')
encoding = req.encoding
text = req.content
decoded_text = text.decode(encoding)
Связанные вопросы
Новые вопросы
python
Python - это многопарадигмальный, динамически типизированный, многоцелевой язык программирования. Он разработан для быстрого изучения, понимания и использования, а также для обеспечения чистого и единообразного синтаксиса. Обратите внимание, что Python 2 официально не поддерживается с 01.01.2020. Тем не менее, для вопросов о Python, связанных с версией, добавьте тег [python-2.7] или [python-3.x]. При использовании варианта Python (например, Jython, PyPy) или библиотеки (например, Pandas и NumPy) включите его в теги.