Скрепление веб-страниц - это процесс извлечения конкретной информации из веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу со скребком» (например, с Excel VBA), должны быть * тщательно изучены *, поскольку доступны многочисленные примеры функционального кода. Методы очистки веб-страниц включают сторонние приложения, разработку специального программного обеспечения или даже стандартный сбор данных вручную.

Подробнее про web-scraping...

Я пытаюсь извлечь текст из первого тега <td>, но в строке есть несколько одинаковых тегов class, из которых у меня возникают проблемы с извлечением одного (окончательный счет в гольф от игрока в гольф, -19 в примере ниже). Я не могу заставить python забрать его вообще. У меня есть имя игрока в го...
27 Ноя 2022 в 05:50
Я пытаюсь запустить следующий скрипт python для извлечения данных из Google Scholar. Однако, когда я запускаю код, я получаю пустой список в качестве ответа json. Обратите внимание, что все необходимые библиотеки установлены. headers = { 'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A...
27 Ноя 2022 в 05:26
Я пытаюсь извлечь название некоторых продуктов, но это не работает, и каждый раз выдает пустой список. Я попытался захватить css и xpath «заголовка», используя расширение selectorgadget, но потерпел неудачу, попытался захватить путь, проверив элемент, но мне это не удалось. Вот некоторые пути css, ...
27 Ноя 2022 в 01:29
Я пытаюсь просмотреть историческую цену с помощью python с этого URL-адреса. https://www.dotproperty.co.th/en/condo/2945/nai-harn-beach-condominium Я проверил инструменты разработчика в браузере Chrome, есть информация, которую я хотел бы получить в <script>, которая находится под <div id="market-st...
26 Ноя 2022 в 20:46
Я изучаю Selenium Python и пытаюсь получить свойство имени со страницы Linkedin, чтобы позже получить его индекс. Это HTML: Вот как я пытаюсь это сделать: all_span = driver.find_elements(By.TAG_NAME, "span") all_span = [s for s in all_span if s.get_attribute("aria-hidden") == "true"] counter = 1 ...
Я пытаюсь извлечь видео с любого URL, введенного пользователем. Проблема в том, что, поскольку я не знаю названия видео или конкретного веб-сайта, я понятия не имею, что ищу. Я пытался использовать BeautifulSoup следующим образом: import requests from bs4 import BeautifulSoup r = requests.get(We...
26 Ноя 2022 в 17:34
Я хочу автоматически загружать все zip-файлы из Интернета и сохранять их под своими именами в определенной папке, но я новичок в очистке веб-страниц. Как я могу исправить свой код? Это ошибка: Error in rawToChar(out) : embedded nul in string: '<!DOCTYPE html>\n<html dir="rtl" lang="fa-IR">\n<hea...
26 Ноя 2022 в 11:45
Я работаю над проектом очистки, в котором есть некоторые данные между двумя разными div и двумя разными тегами, и мы хотим получить все, что находится между ними. Пример задачи 1: <div id ="startID"></div> <table> <tr> data </tr> </table> <p>Paragraph data</p> <div id="endID"></div>...
26 Ноя 2022 в 11:12
Я пытаюсь создать скрипт Python, который будет проверять наличие встреч и информировать меня, когда откроется более ранняя дата. Это сайт: https://pabs.calgarylabservices.com/pabs/appointment/medicaltestscreening Я застрял на 4-й странице выбора локаций. Кажется, я не могу щелкнуть «регионы», что...
Например (вот код, над которым я работаю): from bs4 import BeautifulSoup from string import digits import requests joke_of_the_day = [] a = [] url_joke_of_the_day = "https://www.womansday.com/life/entertainment/a38635408/corny-jokes/" page_joke_of_the_day = requests.get(url_joke_of_the_day) soup_jo...
26 Ноя 2022 в 03:11
Я хочу получить списки вакансий из Google Jobs, и у меня есть скрипт, который частично работает, но он получает только первые несколько списков: from selenium import webdriver from selenium.webdriver.chrome.options import Options import re import time driver = webdriver.Chrome() opts = Options() op...
Я пытаюсь найти вакансию в LinkedIn на основе URL-адреса и определенного количества вакансий. В приведенном ниже коде используется бесконечная прокрутка и прокрутка до страницы 39, что создает 1000 элементов в моих 'jobs; потерян, но мне нужно только 500. Как я могу остановить его, чтобы он прокру...
26 Ноя 2022 в 01:14
Я использую Selenium в Python для очистки видео с веб-сайтов каналов Youtube. Ниже представлен набор кодов. Строка videos = driver.find_elements(By.CLASS_NAME, 'style-scope ytd-grid-video-renderer') повторно не возвращает ссылок на видео (она же print(videos) после вывода пустого списка). Как бы ...
Не обращайте внимания на португальские комментарии from selenium import webdriver from time import sleep from bs4 import BeautifulSoup from selenium.webdriver.common.by import By driver=webdriver.Chrome('C:/Users/LENOVO/Desktop/WEB SCRAPPING/Selenium/chromedriver.exe')#padrão driver.get('https://st...
25 Ноя 2022 в 22:31
Я хочу собрать информацию об играх. Однако название некоторых игр содержит "@", например игра "Ampers@t" . Когда я пытаюсь очистить название таких игр, код возвращает мне «[email protected]». Видимо, мой код не распознает, что это название игры, а не электронная почта. Здесь используются мои коды...
25 Ноя 2022 в 22:02
В Beautifulsoup я получаю список divs. Каждый из этих div включает span: <div role="news_item" class="ni_nav_9tg"> <span class="nav_element_new_S5g">Germany vs. Japan</span> </div> ... <div role="news_item" class="ni_nav_9tg"> <span class="nav_element_new_S5g">Brasil vs. Serbia</span> </div> ...
25 Ноя 2022 в 22:00
Моя цель — разобрать страницу предложения «funpay.com». Это должно быть легко, потому что все имена предложений находятся внутри одного класса 'tc-item'. Однако я не могу использовать запросы bs4+, потому что эта страница загружается только в том случае, если вы вошли в систему, что я делаю с помощ...
Я пытаюсь создать паука, который собирает информацию о стартапах. Поэтому я написал Python-скрипт со scrapy, который должен получить доступ к веб-сайту и сохранить информацию в словаре. Я думаю, что код должен работать с точки зрения логики, но почему-то я не получаю никаких результатов. Мой код:...
25 Ноя 2022 в 21:16
driver.get( 'https://app.quantdata.us/login') cookies = driver.get_cookies() driver.implicitly_wait(20) driver.find_element("id","username").send_keys(username)#works driver.find_element("id","password").send_keys(password)#works driver.find_element("id","submit").click() #not working driver.fi...
Я делаю следующий небольшой проект для изучения - это то, что я пытаюсь сделать в последние несколько дней, но безуспешно. Я хочу составить список опалов, их цены... и скачать их изображения с сайта. В конце (вероятно) есть два способа: назначить опалы изображениям (в word или excel) или просто со...
25 Ноя 2022 в 17:15
Итак, у меня есть очень простой код node.js, который пытается очистить веб-сайт от данных, чтобы создать API. Но ответ зависит от узла или зашифрован, могу ли я что-то сделать? Мой код app.get('/p', (req, res) => { axios.get('https://www.matchi.se/facilities/rck?date=2022-05-18&sport=5') .then(...
25 Ноя 2022 в 15:32
Я хочу извлечь ключи IPA во французском разделе вики-страницы: https://en.wiktionary.org/wiki/son#French Мне нужны только данные во французском разделе. from bs4 import BeautifulSoup from bs4 import BeautifulSoup import requests import pandas as pd def main(): test_url_page = 'https://en...
25 Ноя 2022 в 10:29
Итак, у меня есть код, который вырезает названия и цены полезных ископаемых с 14 страниц (на данный момент) и сохраняет их в файл .txt. Сначала я пробовал только с Page1, затем я хотел добавить больше страниц для большего количества данных. Но тогда код захватывал то, что не должен был захватывать...
25 Ноя 2022 в 10:17
Я создал скрипт, используя «concurrent.futures», чтобы очистить некоторые точки данных с веб-сайта. Скрипт работает безупречно в том виде, в котором я его сейчас использую. Однако я хочу предоставлять ссылки в виде списка в блок «future_to_url», а не по одной ссылке за раз. Вот как я сейчас пытаюс...
Я очень новичок в python и понятия не имею, с чего начать решение этой проблемы. Мне удалось получить несколько страниц таблиц, отформатированных в фрейме данных pandas, но я бы хотел, чтобы они находились в одном большом фрейме данных, а не в нескольких маленьких. from bs4 import BeautifulSoup imp...
25 Ноя 2022 в 06:37