В python3 и beautifulsoup4 я хочу получать информацию с сайта, после выполнения запросов. Я так и сделал:

import requests
from bs4 import BeautifulSoup

req = requests.get('https://sisgvarmazenamento.blob.core.windows.net/prd/PublicacaoPortal/Arquivos/201901.htm').text

soup = BeautifulSoup(req,'lxml')

soup.find("h1").text
'\r\n                        CÃ\x82MARA MUNICIPAL DE SÃ\x83O PAULO'

Я не знаю, что такое кодировка, но это сайт с бразильским португальским, поэтому он должен быть utf-8 или latin1

Пожалуйста, есть ли способ узнать, какая кодировка правильная?

И тогда, как Beautifulsoup правильно читает эту кодировку?

1
Reinaldo Chaves 30 Май 2019 в 23:41

2 ответа

Лучший ответ

Когда вы используете запросы, вы можете использовать функцию encoding , например:

req = requests.get('https://sisgvarmazenamento.blob.core.windows.net/prd/PublicacaoPortal/Arquivos/201901.htm')

encoding = req.encoding
text = req.content

decoded_text = text.decode(encoding)
1
simonjansson 30 Май 2019 в 21:15
56385353