Скрепление веб-страниц - это процесс извлечения конкретной информации из веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу со скребком» (например, с Excel VBA), должны быть * тщательно изучены *, поскольку доступны многочисленные примеры функционального кода. Методы очистки веб-страниц включают сторонние приложения, разработку специального программного обеспечения или даже стандартный сбор данных вручную.

Подробнее про web-scraping...

Вот код, который я пытаюсь использовать для очистки данных с веб-сайта FRED, чтобы загрузить данные временных рядов в формате CSV, но он перенаправляет меня на другую страницу. from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By from selenium.....
Я новичок в веб-скрапинге, я действительно пытаюсь очистить его для практики. Но я сталкиваюсь с проблемой, я хочу очистить только название должности, но она очищает весь диапазон, включая «новое». Ниже мой код from bs4 import BeautifulSoup as bs import requests def extract(page): url = f'http....
15 Окт 2021 в 04:07
Мне нужно написать сценарий, который суммирует значения из каждого столбца (каждый столбец - это отдельный день). Кроме того, я хочу разделить значения на плановые (синий цвет) и внеплановые (красный цвет). В коде HTML я обнаружил, что незапланированные значения имеют имя класса как «colBox cal-un....
14 Окт 2021 в 10:30
Мы пытаемся очистить таблицу отсюда - https://www.nba.com/stats/teams/advanced/?sort=W&dir=-1&Season=2020-21&SeasonType=Regular%20Season - в R. Вот что мы пробовали далеко: # get request from API found in network tab - this doesn't work, the request hangs httr::GET(url = 'https://stats.nba.com/stat....
14 Окт 2021 в 02:48
У меня проблемы с определением индекса для заголовков в таблице, которые я хочу очистить и вывести в файл csv, поэтому мне нужен столбец, классифицированный как ResidualMaturity и Last, и я могу получить только основной заголовок таблицы вместо суб. Я пробовал использовать df[('Yield', 'Last'), но....
13 Окт 2021 в 14:33
Я пытаюсь очистить значение data-ppu из этой строки HTML-кода под названием trade_data: <input class="tradeForm" data-id="10397992" data-ppu="3893" data-toggle="tooltip" maximum="16450" name="rcustomamount" title="Enter Your Desired Amount" type="number" value="16450"/> Я использую Python 3 и Beaut....
13 Окт 2021 в 06:22
Я хочу извлечь время из гонки: [https://www.datasport.com/live/ranking/?lang=en&racenr=23466#1_5584A2 provided[1] До сих пор, изучая HTML-код, я обнаружил, что каждая строка в таблице находится внутри тега <tr class="Hover LastRecordLine" style="cursor: pointer;">. Кроме того, все индивидуальные вр....
12 Окт 2021 в 19:35
Я хотел бы сделать веб-скрэппинг Поэтому я делаю простой запрос: import urllib.request fp = urllib.request.urlopen("https://www.iadfrance.fr/trouver-un-conseiller") mybytes = fp.read() mystr = mybytes.decode("utf8") faa = open("demofile2.txt", "a") faa.write(mystr) faa.close() fp.close() Но Я....
11 Окт 2021 в 18:58
Я новичок в веб-сканировании с помощью R, и мне нужна помощь, чтобы справиться с этой задачей. Я пытаюсь очистить данные с этой конкретной веб-страницы, и я застрял на определенном этапе всего процесса. Вот URL: веб-страница По сути, я пытаюсь захватить 3 элемента с веб-страницы: (1) Тип комнаты (с....
10 Окт 2021 в 21:46
Я новичок в scrapy, изучаю банкомат, и я пытаюсь получить доступ к данным JSON на странице html и поместить их в Python dict и работать с данными позже, поэтому я попробовал сервальные вещи, все не удалось, был бы признателен, если бы кто-нибудь мог помочь я с этим Я нашел response.css для желаемог....
10 Окт 2021 в 16:55
Я хочу поскрести некоторую информацию на разных страницах. Приведенный ниже код может помочь мне очистить информацию с помощью функции print (). Проблема в том, что я получаю данные только с последней страницы. Результат предыдущих страниц нельзя записать в файл CSV. Что я должен делать? Спасибо....
9 Окт 2021 в 21:56
Я пытаюсь очистить technical detail table из информации о продукте, но они предоставят мне пустой список, ссылка на страницу, на которой я пытаюсь очистить таблицу, https://www.amazon.com/Hammermill-Letter-Bright-Sheets-113640C/dp/B072FVQNWM/ref=sr_1_6?dchild=1&76qid=16off -products & sr = 1-6 imp....
9 Окт 2021 в 13:04
Я пытаюсь извлечь четыре поля с веб-страницы, используя Библиотека BeautifulSoup. Трудно идентифицировать поля по отдельности, и поэтому я обращаюсь за помощью. Иногда присутствуют оба адреса электронной почты, но это не всегда так. В этом примере я использовал индексирование для захвата электрон....
9 Окт 2021 в 10:08
Всем привет, так что этот скрипт ниже предназначен для Selenium, но он очень медленный и невозможен для большого количества URL-адресов, может ли кто-нибудь сказать, как преобразовать его в быстрый скрипт Bs4, и может ли Beautiful Soup очистить кнопки Click To Show? Спасибо всем за помощь! from sel....
9 Окт 2021 в 03:50
import requests from bs4 import BeautifulSoup import pandas as pd articlelist = [] url = 'https://www.angrybirds.com/blog/get-ready-angry-birds-movie-2-premiere-new-game-events/' r = requests.get(url) #print(r.status_code) soup = BeautifulSoup(r.content, features='lxml') articles = soup.find_all(....
8 Окт 2021 в 16:03
Я использую Selenium для очистки веб-страницы, и у меня возникли проблемы с настройкой некоторых атрибутов. Страница, которую я пытаюсь очистить, выглядит так: <div> <span abc> content </span> <span def> content2 </span> <div> Моей целью было бы получить текст в теге «span abc», не выбирая....
8 Окт 2021 в 13:14
Привет, пожалуйста, кто-нибудь может помочь мне с этим списком. Я хочу разделить данные на три части, все данные ниже расположены в одном индексе списка, так что каждый индекс списка имеет данные такого рода. [website='https://stackoverflow.com/questions/20084356/python-3-email-extracting-search-eng....
7 Окт 2021 в 21:25
Я пытаюсь запустить этот практический код scrapy, но он постоянно выдает эту ошибку. Это дает мне ошибку AttributeError: объект селектора не является повторяемой ошибкой Вот код: from scrapy import Spider class WikiSpider(Spider): name = 'wiki' allowed_domains = ['wikipedia.com'] star....
7 Окт 2021 в 14:30
Я хочу найти максимальное количество страниц (то есть 20) Но не может найти элемент. Ссылка на веб-сайт Код: from functools import total_ordering from pandas.core.base import DataError from selenium import webdriver from selenium.webdriver.common.keys import Keys import csv import time from sel....
Я пытаюсь получить показания цены и одометра для автомобилей, перечисленных на сайте автомобильных продаж, чтобы отслеживать, когда конкретная модель была указана в списке, а когда она исчезла. Страница может возвращать 1 или несколько автомобилей. Я новичок как в python, так и в BeautifulSoup, и,....
7 Окт 2021 в 11:40
Я продолжаю составлять таблицу годовой выручки, тогда как я собирался составлять квартальную выручку. Пожалуйста, может кто-нибудь объяснить, что я делаю неправильно? (Код ниже) url='https://www.macrotrends.net/stocks/charts/TSLA/tesla/revenue' html_data=requests.get(url).text soup=BeautifulSoup....
6 Окт 2021 в 17:09
Я пытаюсь прочитать таблицу и получить значения для столбцов адреса и значения. Возвращается ошибка «Не удается найти элемент». Страница: https://etherscan.io/token/0xB8c77482e45F1F5231DE443DB8C77482e45F1F52C08DE08 Код Мой код: driver=webdriver.Firefox() ga=pandas.read_csv("contracts/adresses.cs....
Я хочу извлечь контент с веб-сайта, на котором указана следующая ссылка: "www.example.com/getpublicreport?date=2021-10-01" Использование запросов, каким должен быть код для извлечения данных с нескольких страниц, по которым я мог бы перемещаться, используя дату в URL-адресе. Например, если я хочу из....
Привет, я пытаюсь прочитать документы 13F в базе данных SEC edgar, используя пакет R edgar Проблема, с которой я столкнулся, заключается в том, что я просматриваю старые документы (~ 2000 г.). https://www.sec.gov/edgar/browse/?CIK=1087699 < / а> Они имеют дерьмовый формат txt, отличный от сегодня....
6 Окт 2021 в 09:06
Я хочу получить ссылку на всю статью с https://www.cnnindonesia.com/search?query=covid вот мой код: links = [] base_url = requests.get(f"https://www.cnnindonesia.com/search?query=covid") soup = bs(base_url.text, 'lxml') cont = soup.find_all('div', class_='l_content') for l in cont: lm_row_cont....