Beautiful Soup - это пакет Python для анализа HTML / XML. Последняя версия этого пакета - версия 4, импортированная как bs4.

Подробнее про beautifulsoup...

Мне нужно очистить веб-сайт http://drd.ba.ttu.edu/isqs3358/hw /hw1/ и введите данные в файл csv. В моем выводе есть только заголовки, но нет данных, и я не знаю, что делаю неправильно. import requests import csv from bs4 import BeautifulSoup import time # Settings base_url = "http://drd.ba.ttu.ed...
26 Сен 2023 в 01:54
Я пытаюсь очистить заклинания со страницы dnd в фрейм данных pd и преобразовать указанный фрейм данных в базу данных SQLite. Это мой код: from bs4 import BeautifulSoup from urllib.request import urlopen import re import csv from random import randint import pandas as pd url1 = "http://dnd5e.wikidot...
25 Сен 2023 в 22:08
Я новичок в парсинге веб-страниц. Мне удалось сделать этот код, но нет возможности получить текст Любая помощь или совет? import requests from bs4 import BeautifulSoup import pandas as pd url = 'https://www.tfrrs.org/results/xc/22268/_FURMAN_XC_INVITE' header = { "User-Agent": "Mozilla/5....
25 Сен 2023 в 15:07
Я пытаюсь получить несколько значений для веб-сайта с помощью Beautifulsoup. Я могу идентифицировать класс и экспортировать его. К сожалению, ключевые ценности отсутствуют. Сможет ли кто-нибудь здесь помочь понять, как я могу получить все значения из этого класса? Это веб-сайт: https://www.hvz.ba...
25 Сен 2023 в 11:32
Итак, я делаю проект, в котором мне нужно получить несколько CSV-файлов с определенного веб-сайта. Проблема в том, что я получаю не все ссылки. Я выполнял этот процесс один за другим (до третьего), но когда я попытался сделать это с помощью цикла for, потому что здесь 60 ссылок, и для каждой ссылк...
Я хотел удалить веб-сайт с помощью селена, но не получаю html-содержимое. from selenium import webdriver from selenium.webdriver.chrome.options import Options import time options = Options() options.headless = True from bs4 import BeautifulSoup options = webdriver.ChromeOptions() options.add_argume...
Я пытаюсь очистить веб-сайт power of 10, для веб-сайта требуется имя/фамилия и клуб, я это сделаю получите все это от Python. Я хочу автоматически выполнить поиск на этом веб-сайте и ввести данные, а затем нажать кнопку поиска, чтобы отобразились все данные о спортсменах. Хотелось бы получить все...
23 Сен 2023 в 15:45
фрагмент кода Я пытался использовать метод find() для извлечения информации из элемента html, но он показывает, что find() не принимает аргументов Ошибка: 5 обзор = суп.find_all('article', itemprop = 'обзор') 6 для просмотра в обзорах: ----> 7 date_flown = review.find('td', class_ = 'review-value ')...
22 Сен 2023 в 16:41
Я успешно очистил страницу для всех li и создал фрейм данных. Часть, с которой у меня возникли проблемы, — это извлечение и сохранение части «url_for_rowN» в каждой строке. Мне нужен файл .csv, который фиксирует два текстовых поля и URL-адрес, примененный к одному из них; пример формата приведен ...
21 Сен 2023 в 21:50
import requests from bs4 import BeautifulSoup # Function to scrape user tags (programming languages) from a page def scrape_user_tags(page_url): response = requests.get(page_url).text soup = BeautifulSoup(response, 'lxml') user_tags = [] # Find the div with the specific class ...
У меня есть файл метаданных, который выглядит следующим образом: <?xml version='1.0' encoding='utf-8'?> <package xmlns="http://www.idpf.org/2007/opf" unique-identifier="uuid_id" version="2.0"> <metadata xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:opf="http://www.idpf.org/2007/opf"> ...
20 Сен 2023 в 17:33
Раньше я мог использовать beautifulsoup и запросы для очистки и анализа этой страницы: https://www.fangraphs.com/leaders/major-league?pos=all&stats=pit&lg=all&qual=y&type=36& Season=2023&month=0& Season1=2023&ind=0 С этим кодом: import pandas as pd import requests from datetime import date, timedelt...
20 Сен 2023 в 17:17
Я прохожу онлайн-стажировку по парсингу веб-сайтов для этого веб-сайта: https://www. proflowers.com/blog/types-of-flowers/, Сайт цветов и их основные моменты, но парсинг не дал результатов, я добавил функции отладки и вот результат: < /а>сильный> Итак, мой вопрос заключается в том, что в этой част...
Я пытаюсь получить некоторую информацию из онлайн-симулятора, используя Python и Selenium, но взаимодействие не работает. На этом веб-сайте (https://www.wizink.pt/public/creditos#/), мне нужно нажать на кнопку «плюс» (+), чтобы получить разные значения на симуляторе, но кажется, что ничего не работ...
Пример того, что я хочу очистить: <li class="property-card__detail-item property-card__detail-room js-property-detail-rooms"> <span class="property-card__detail-value js-property-card-value"> 3 </span> <span class="property-card__detail-text js-property-card-detail-text"> Quartos </span> ...
18 Сен 2023 в 03:37
У меня есть следующая функция, которая принимает URL-адрес и находит первую таблицу и ее строки (tr): def get_team_table(url): page = urlopen(url) soup = BeautifulSoup(page, 'lxml') data_rows = [row for row in soup.find("table", "datatable").find_all("tr")] return data_rows Функция использу...
16 Сен 2023 в 22:19
[python] Итерация продуктов не работает! просто делаю это для одной страницы... URL-адрес в ссылке (дан веб-сайт Lazada) Он работает для одного элемента, но не в цикле! import time from selenium import webdriver from selenium.webdriver.common.by import By from bs4 import BeautifulSoup url = 'https...
15 Сен 2023 в 18:44
Я извлекаю текст из электронных публикаций с помощью BeautifulSoup, и иногда в нем отсутствуют разрывы строк. В исходном коде я вижу строку, заканчивающуюся на <br/><br/>, и средство просмотра Caliber показывает там пустую строку, но когда я получаю текст в BeautifulSoup, там есть только одна новая...
15 Сен 2023 в 11:56
Вот мой код BeautifulSoup: from bs4 import BeautifulSoup import requests html = requests.get("https://vt.tiktok.com/ZSLvos3x2/").text soup = BeautifulSoup(html, 'html.parser') image = soup.find("meta", {"property":"og:image"}) print(image) Содержимое результата пусто: <meta content="" data-rh="...
Контекст: у меня есть следующий небольшой запрос в Beautiful Soup, а затем я создаю на его основе список, полный кортежей. Это отлично работает: tags = soup.find_all('span', {'class': 'tags-links'}) title_text_list = [(tag['title'], tag.text) for tag in tags] Вопрос: Почему мы обращаемся к заголов...
15 Сен 2023 в 08:15
Я пытаюсь получить значения второго рейтинга со следующего URL-адреса: https://www.kununu.com/de/pan-dacom-networking4/bewertung/40726463-005e-45d9-af11-37e7afbd5110 HTML-структура страницы включает в себя некоторые атрибуты рейтинга, которые мне нужно извлечь. Однако у меня возникли проблемы с пол...
15 Сен 2023 в 00:27
Я новичок в Python и хочу разработать что-то автоматическое, чтобы открывать список ключевых слов в формате txt/csv, искать каждое ключевое слово, собирать только первую ссылку и сохранять первую ссылку каждого первого ключа. Как я могу это сделать? После долгих исследований я нашел этот код, но он ...
14 Сен 2023 в 23:53
Я практикую парсинг веб-страниц. Я хочу удалить ненужные элементы и получить только те данные, которые мне нужны. Итак, я использую разложение, чтобы удалить эти элементы, но beautifulSoup не может найти элемент. Я проверил вручную, используя элемент проверки, и он показывает, что class = 'over_h...
14 Сен 2023 в 19:17
Я установил pip и beautifulsoup4, но все равно не могу их запустить. Я проверил, что beautifulsoup4 установлен как: python3 -m pip show beautifulsoup4 Имя: beautifulsoup4 Версия: 4.12.2 Краткое описание: Библиотека очистки экрана Домашняя страница: Автор: Электронная почта автора: Леонард Ричардсон ...
14 Сен 2023 в 16:17
У меня есть html-файл со структурой ниже. Как вы видите, заголовок и совпадения под каждым заголовком не сгруппированы в отдельные элементы div. <div class="basketball"> <div class="header"> <span class="event_title">Playoff</span> </div> <div class="match"> <div cl...
14 Сен 2023 в 10:50