Скрепление веб-страниц - это процесс извлечения конкретной информации из веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу со скребком» (например, с Excel VBA), должны быть * тщательно изучены *, поскольку доступны многочисленные примеры функционального кода. Методы очистки веб-страниц включают сторонние приложения, разработку специального программного обеспечения или даже стандартный сбор данных вручную.

Подробнее про web-scraping...

введите описание изображения здесь from selenium import webdriver import pandas as pd import time import requests from selenium.common.exceptions import ElementClickInterceptedException driver = webdriver.Chrome(executable_path ="D:\\chromedriver_win32\chromedriver.exe") url = "https://www.fynd.com....
2 Июн 2021 в 20:57
Я изучаю, как сделать базовый веб-соскабливание с Python 3, и в этом примере я пытался сбрать все имена автора с сайта http://quotes.toscrape.com. Я пытался создать код, где я не знал общее количество страниц, которые были на сайте. Однако, когда я пытаюсь построить его, редактор не отвечает. Есть л....
2 Июн 2021 в 16:22
У меня есть несколько URL, такие как: https://www.ine.es/jaxiT3/Tabla.htm?t=30656&L=0 https://www.ine.es/jaxiT3/Tabla.htm?t=30813&L=0 И т.п. В правом верхнем углу каждой из ссылок есть значок загрузки. После нажатия, он дает возможность загрузить в формате JSON. Ссылка JSON выглядит как: https://se....
2 Июн 2021 в 14:09
Я пытаюсь Scrape Статистика игроков этой игры: "https://siege.gg/matches/5694-invitational-in-faze-clan-vs-team-liquid" Но похоже на мой код не извлекает все HTML Может кто-то помочь мне, пожалуйста? headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, li....
2 Июн 2021 в 12:56
Я новичок в Beautifulsoup Я использую BS4 и Pyhton 3.6 Моя проблема в том, что есть страница поиска YT, и я хочу получить ссылку первого видео в нем, поэтому я нашел после проверки того, что идентификатор этого привязки {{{x0 }} И я использовал этот параметр, чтобы обнаружить, что тег, использующий ....
Пытаясь отформатировать «данные вакцин» от URL для PandaS DataFrame https://www.mygov.in/sites/default/files/covid/vaccine/covid_vaccine_timeline.json.json. Вот родительский сайт https://www.mygov.in/ Вывод образца {"vaccine_data":[{"day":"2021-03-01","india_dose1":12256337,"india_dose2":2597799,"in....
2 Июн 2021 в 10:37
Я пытаюсь получить шансы игры MLB и общие пробежки с ротовии. Я пробовал два подхода, и пока я могу приблизиться, не могу совсем выяснить, что мне нужно сделать дальше. Первый подход выглядит так, будто я должен соскрести к укомплектовому классу «Композитная прятка». Другой подход, который я взял, в....
2 Июн 2021 в 05:21
Я пытаюсь получить названия чипов с этого целевого рынка ссылка И пытаясь автоматически получить все 28 фишек на первой странице. Я написал этот код. Открывает ссылку, прокручивает вниз (чтобы получить имена и изображения) и пытается получить имена; import time from selenium import webdriver from se....
Я пытаюсь извлечь ссылки со следующей веб-страницы: https://www.ine.es/dynt3/inebase/index.htm?padre=5608&capsel=5608#. Например, используя Барселону, я бы имел: 2.9.1 Indicadores de renta media y mediana https://www.ine.es/jaxiT3/Tabla.htm?t=30896&L=0 2.9.2 Distribución por fuente de ingresos https....
1 Июн 2021 в 15:06
import requests URL = 'https://www.moneycontrol.com/india/stockpricequote/cigarettes/itc/ITC' response = requests.get(URL) soup = BeautifulSoup(response.text,'html.parser') # time.sleep(5) var1 = float(soup.find('td', attrs={'class': 'espopn'}).get_text().replace(",","")) С помощью этого код....
Я пытаюсь в настоящее время Scrape https://rl.insider.gg/en/xbox и пытаясь определить «тенденцию» предметов на странице Я как-то встал до такой степени, что у меня были ссылки, но не могли понять, как их разбирать. Я хотел и хотел извлечь последнюю часть из них и хранить два значения в двух переменн....
1 Июн 2021 в 11:42
Я работаю над извлечением ссылки и текста из якорного тега с помощью красивого супа Код ниже, откуда я должен извлечь данные из якорного тега, который является ссылкой и текстом <a href="https://indianexpress.com/article/cities/mumbai/mumbai-vaccination-figures-surge-in-private-hospitals-stagnate-....
1 Июн 2021 в 10:24
Скажем, у меня есть следующая структура страницы: В этой структуре у меня есть следующая вложенная структура: Я написал offers = response.xpath('//li[@class = "search-page__result"]') Попробовать и создать список Intrebleable. Эта часть успешна, я верю, потому что если я скажу for offer in offers....
1 Июн 2021 в 00:01
Я пытался соскрести веб-сайт, используя Python, но я не могу соскрести параметры в функции onclick. HTML выглядит следующим образом <table width="100%" border="0" cellpadding="5" cellspacing="1" class="tabsborder2"> <tbody><tr class="cleft-link1" height="20"> <td width="3%">S/N</td> ....
31 Май 2021 в 19:12
Я пытаюсь Scrape Ссылки на источник изображения, используя красивый суп из Amazon, но не получая правильный вывод, ссылка от того места, где я соскоб есть: https: // www .amazon.in / s? bbn = 1389401031 & amp; Rh = N% 3A1389401031% 2CP_36% 3A1318505031 & AMP; Rnid = 1318502031 & amp; ref = lp_13....
https://www.bestbuy.com/site/proomo/health-fitness-deals. Я хочу зацикливаться через эти 10 страниц и соскрести их имена, а HREFS ниже мой код, который только скрепляет 1-й страницу непрерывно 10 раз: def name(): for i in range(1, 11): tag = driver.find_elements_by_xpath('/html/body/div....
После открытия Введите описание ссылки здесь Я могу видеть API называться CRONG> Возвращает некоторые данные в формате JSON. Прилагается, вы можете увидеть также. Я пытаюсь вызвать эту API, используя свой сценарий Python следующим образом. payload={ "sort" : "tendersTotal.desc" , "filter"....
31 Май 2021 в 13:16
Я пытаюсь извлечь лицензию информацию от репозитория GitHub. Если лицензия позволяет использовать REPO, я буду соскребать его. Есть ли уже существующие API для этого? Если нет, я ищу любую отправную точку или идею приблизиться. Я также думаю об использовании скребка Python, чтобы искать файл лицензи....
31 Май 2021 в 10:22
Благодаря справочной помощи пользователю Stackoverflow мне удалось получить векку, работающую для очистки HTML в серии URL. Вот мой код: from urllib.request import urlopen import re allpages = ["https://www.metrolyrics.com/bob-dylan-alpage-1.html", "https://www.metrolyrics.com/bob-dylan-alpage-2.ht....
31 Май 2021 в 04:34
Я хотел бы использовать Python, чтобы соскрести все ссылки на Гражданский директор URL Из кода Монтана аннотирован, а также все страницы, связанные на этой странице, и в конечном итоге захватывают существенный текст на последней ссылке. Проблема в том, что базовый URL ссылается на главы, которые т....
31 Май 2021 в 04:10
Итак, я написал кусок кода, который извлекает набор укороченного HTML из желаемого URL: from urllib.request import urlopen import re url = "https://www.metrolyrics.com/bob-dylan-alpage-1.html" page = urlopen(url) html_bytes = page.read() html = html_bytes.decode("utf-8") start_index = html.fin....
30 Май 2021 в 23:50
Я хотел бы проверить это Веб-сайт периодически, если есть открытие, чтобы дать мне предупреждение в случае открытия. Нет клиентской сторон HTML-запроса (XHR) от API, чтобы использовать, следовательно, я решил Scrape веб-сайт, однако, я не вижу частей HTML-кода в ответ, который я получаю от моего з....
Я пытаюсь перебраться с помощью загруженного HTML-кода, используя красивую супскую библиотеку, чтобы извлечь определенные элементы текста. Конкретный элемент, который я стремлюсь, требует вложенного для цикла, чтобы убедиться, что я получаю правильную. Вот текущий код: elist = [] if package.find(....
30 Май 2021 в 14:25
Привет, ребята, я пытаюсь найти элемент на сайте, но по какой-то причине это не позволяет мне. Веб-страница - это форма входа в систему Reddit, я пытаюсь ввести свое имя пользователя и пароль, но когда я перечисляю все входы, которые оно только отображается верхняя панель поиска. Я полагаю, что это ....
Я пытаюсь Scrape Список 100 университета с этого сайта (топовка) . Использование =IMPORTXML("https://www.topuniversities.com/university-rankings/usa-rankings/2021","//*[@id='ranking-data-load']/div[1]/div/div/div/div[2]") Показывает ошибку: Imported content is empty. Как использовать XPath, чт....