Скрепление веб-страниц - это процесс извлечения конкретной информации из веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу со скребком» (например, с Excel VBA), должны быть * тщательно изучены *, поскольку доступны многочисленные примеры функционального кода. Методы очистки веб-страниц включают сторонние приложения, разработку специального программного обеспечения или даже стандартный сбор данных вручную.
Мне нужно очистить веб-сайт http://drd.ba.ttu.edu/isqs3358/hw /hw1/, и я не знаю, что указать в качестве userdetail[].text и стоит ли вообще его использовать. Я также получаю AttributeError: объект «NoneType» не имеет атрибута «find_all».
import requests as r
from bs4 import BeautifulSoup
import c...
26 Сен 2023 в 08:40
У меня есть список из 100 000 URL-адресов веб-сайта, я уже обнаружил все классы элементов (как их выбрать). Нет, какие библиотеки могут найти самый быстрый способ удалить все это?
Я уже использовал селен, но это займет минимум месяц, мой клиент захочет получить его в течение следующих 48 часов....
26 Сен 2023 в 04:29
Мне нужно очистить веб-сайт http://drd.ba.ttu.edu/isqs3358/hw /hw1/ и введите данные в файл csv. В моем выводе есть только заголовки, но нет данных, и я не знаю, что делаю неправильно.
import requests
import csv
from bs4 import BeautifulSoup
import time
# Settings
base_url = "http://drd.ba.ttu.ed...
26 Сен 2023 в 01:54
Я пытаюсь собрать данные о пользователях, оставивших отзывы о продуктах, вот мой код:
from requests import Session
prod_link = 'https://aliexpress.ru/aer-jsonapi/review/v2/desktop/product/reviews?
product_id=1005002273741565&_bx-v=2.5.3'
headers = {
'Accept': 'application/json, text/plain',
...
25 Сен 2023 в 18:13
Я пытаюсь получить несколько значений для веб-сайта с помощью Beautifulsoup. Я могу идентифицировать класс и экспортировать его. К сожалению, ключевые ценности отсутствуют. Сможет ли кто-нибудь здесь помочь понять, как я могу получить все значения из этого класса?
Это веб-сайт: https://www.hvz.ba...
25 Сен 2023 в 11:32
Я пытаюсь очистить веб-сайт для выполнения домашнего задания, и сначала возвращается Ошибка 403 Запрещено, код:
from urllib.request import urlopen, Request
from bs4 import BeautifulSoup
url = "https://www.imdb.com/chart/top"
request = Request(url)
response = urlopen(request)
Результаты пробега:
в...
25 Сен 2023 в 11:09
Я пытаюсь создать сценарий приложения для анализа новых входящих писем. Я проверил свой сценарий на уже существующих электронных письмах от определенного отправителя, и он работает нормально, но поскольку я изменил его в работающий сценарий, он выдает мне ошибку: An error occurred: 'utf-8' codec can...
25 Сен 2023 в 08:48
Я пытаюсь войти в Web of Science: https://mjl. clarivate.com/login;createAccount=false;referrer=%2Fhome
Мне нужно заполнить поля «Адрес электронной почты» и «Пароль» своими данными, и я использую Selenium Webscaper на Python. Я пробовал использовать xpath, css_selector и class_name, но результат о...
24 Сен 2023 в 17:40
Итак, я делаю проект, в котором мне нужно получить несколько CSV-файлов с определенного веб-сайта. Проблема в том, что я получаю не все ссылки. Я выполнял этот процесс один за другим (до третьего), но когда я попытался сделать это с помощью цикла for, потому что здесь 60 ссылок, и для каждой ссылк...
24 Сен 2023 в 06:26
Я пытаюсь получить финансовые данные из таблиц на сайте https://www. .barchart.com/stocks/quotes/IBM/income-statement/
Используя элемент проверки, я не увидел никаких запросов XHR/fetch, но похоже, что данные генерируются через js-файл с именем global-MBHFEFVQ.js, но сложно проследить за запутанным...
24 Сен 2023 в 04:43
После того, как я нажму кнопку See all hours, расположенную в верхнем левом углу рядом с кнопкой Closed now в этом веб-страница, появится окно с расписанием. Я создал скрипт в Selenium, чтобы имитировать эти шаги. Однако результаты, которые дает сценарий, случайны. Я хочу получить оттуда таблично...
23 Сен 2023 в 20:50
Я пытаюсь очистить веб-сайт power of 10, для веб-сайта требуется имя/фамилия и клуб, я это сделаю получите все это от Python. Я хочу автоматически выполнить поиск на этом веб-сайте и ввести данные, а затем нажать кнопку поиска, чтобы отобразились все данные о спортсменах. Хотелось бы получить все...
23 Сен 2023 в 15:45
Я использую цикл for для очистки данных таблицы.
https://money.rediff.com/gainers
values = driver.find_elements(By.XPATH,"//a[contains(text(), 'Rainbow Foundati')]/ancestor::tr/following-sibling::*")
ls =[]
for value in values:
ls.append(value.text)
Известно, что цикл for медленнее, чем вычисл...
22 Сен 2023 в 20:34
Собираю отзывы о ресторанах Рима, Милана и Бергамо. Для каждого из этих городов есть отдельный URL-адрес, содержащий 30 или более ресторанов. Скребок начинает сканировать рестораны Рима, но никогда не переключается на другие города. Он корректно вычищает все рестораны и отзывы из Рима, но потом п...
22 Сен 2023 в 15:42
Я проверил ряд сайтов напрямую и с помощью Puppeteer с этим кодом Как я могу захватывать все сетевые запросы и полные данные ответов при загрузке страницы в Chrome? Начиная с https://www.oddsportal.com/ до https://www.freelancer.com/ Результат всегда отличался от прямого просмотра, например
При к...
22 Сен 2023 в 14:22
Я хочу извлечь следующую информацию из ссылки https://www .betashares.com.au/fund/high-interest-cash-etf/
Я написал следующий код:
link <- "https://www.betashares.com.au/fund/high-interest-cash-etf"
read_html(link) %>%
html_nodes('div') %>%
html_nodes('script') %>%
.[5] %>%
html_text() -...
22 Сен 2023 в 10:17
Я пишу веб-сканер для сбора информации с досок объявлений. Я завершил работу над своим первым сканером, но у него есть еще несколько проблем, которые нужно решить.
Для названий некоторых компаний в результате я получаю это ПАО\xa0. Этот текст на кириллице, но я запрашиваю и сохраняю его в кодировк...
22 Сен 2023 в 06:32
Во-первых, я не очень знаком с этим пакетом. Я обнаружил, что метод use_plugin('JavaScript') потребляет много памяти через профилировщик. Я заменил этот метод на плагин («JavaScript»), хотя потребление памяти было ниже, я не мог пройти через форму страницы входа на веб-сайты, которые я должен удал...
22 Сен 2023 в 05:05
Я пытаюсь заставить этого паука просмотреть список из 1600 URL-адресов, содержащихся в CSV-файле, и извлечь со страницы электронные письма и номера телефонов. Если у кого-нибудь уже есть такая программа, я был бы рад ее использовать, но также мне хотелось бы знать, где я ошибся. Вот мой код, я пер...
22 Сен 2023 в 01:09
Я хочу посетить список из 5000 веб-сайтов и сделать снимки экрана. Прежде чем сделать снимок экрана, я хочу, чтобы вся страница была загружена и возможное всплывающее окно cookie было удалено с помощью расширения, которое я указал в драйвере селена. Проблема в том, что я не знаю, как позволить сел...
21 Сен 2023 в 23:06
Последние пару дней я пытался спарсить ссылки на исходные изображения игроков со страницы https://www.premierleague.com/players.
Я понимаю, что эта веб-страница является динамической, и при прокрутке вниз загружается и отображается больше игроков.
Я надеюсь, что смогу получить исполняемый код на R и...
21 Сен 2023 в 13:45
import requests
from bs4 import BeautifulSoup
# Function to scrape user tags (programming languages) from a page
def scrape_user_tags(page_url):
response = requests.get(page_url).text
soup = BeautifulSoup(response, 'lxml')
user_tags = []
# Find the div with the specific class
...
21 Сен 2023 в 01:27
Сегодня я собирался внести некоторые изменения в то, что я уже реализовал ранее, и в последний раз, когда я проводил техническое обслуживание, оно работало нормально. Но когда я провел тестовый запуск, прежде чем что-либо изменять, я понял, что файлы, которые раньше загружались без проблем, начали ...
20 Сен 2023 в 19:15
Раньше я мог использовать beautifulsoup и запросы для очистки и анализа этой страницы:
https://www.fangraphs.com/leaders/major-league?pos=all&stats=pit&lg=all&qual=y&type=36& Season=2023&month=0& Season1=2023&ind=0
С этим кодом:
import pandas as pd
import requests
from datetime import date, timedelt...
20 Сен 2023 в 17:17
Некоторое время назад я нашел этот код R, отредактированный Грегом (здесь), и он работал очень хорошо в течение долгого времени. К сожалению, некоторое время назад он перестал работать (по крайней мере, у меня), и мне интересно, может ли кто-нибудь помочь решить проблему, если это возможно.
library...
20 Сен 2023 в 15:32