Скрепление веб-страниц - это процесс извлечения конкретной информации из веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу со скребком» (например, с Excel VBA), должны быть * тщательно изучены *, поскольку доступны многочисленные примеры функционального кода. Методы очистки веб-страниц включают сторонние приложения, разработку специального программного обеспечения или даже стандартный сбор данных вручную.
Я использую Python Google Colab и пытаюсь прочитать файл csv по этой ссылке: https://www.macrotrends.net/stocks/charts/AAPL/apple/stock-price-history Если вы немного прокрутите вниз, вы будете способный .......
4 Мар 2021 в 12:39
Я работаю с красивым супом на питоне, и я работаю над проектом, который извлекает из моего школьного расписания. Это плохо написанный сайт. Это таблица HTML, каждая ячейка которой содержит другую таблицу. .......
3 Мар 2021 в 23:33
Импортный лом class BookSpider (scrapy.Spider): name = "books" start_urls = ['http://books.toscrape.com/catalogue/page-1.html'] def parse (self, response): .......
3 Мар 2021 в 22:45
Я очищаю эту страницу https://www.elcorteingles.es/supermercado/alimentacion-general/, но каждый раз, когда браузер не загружает страницу или веб-сайт недоступен. Как я мог решить эту проблему? .......
3 Мар 2021 в 12:29
Я пытаюсь заполнить текстовое поле в Web WhatsApp с помощью Javascript, но оно не работает в соответствии с моими требованиями.
Я хочу написать текст в текстовом поле, а затем программно нажать кнопку «Отправить» с помощью JS.
Это возможно?
Я пробовал следующий код в консоли,
document.getElementsByC....
3 Мар 2021 в 09:37
Я пытаюсь вытащить ссылки href из таблицы, которые мне позже нужно щелкнуть по одной, чтобы получить доступ к данным внутри каждой ссылки. Но я не могу придумать, как это сделать. Я пробовал find_all и получаю сообщение "объект ResultSet не имеет ошибки атрибута"% s ".
HTML: (Действительно длинный....
3 Мар 2021 в 07:00
Я слежу за этим руководство по поиску в LinkedIn и Google. С момента создания руководства в HTML-код результатов поиска Google были внесены некоторые изменения, поэтому мне пришлось немного повозиться с кодом. Я сейчас нахожусь в точке, где мне нужно получить ссылки из результатов поиска, но я ст....
3 Мар 2021 в 06:06
Я пытаюсь создать простой поисковый робот, который просматривает эту страницу https://en.wikipedia.org/wiki/Web_scraping, а затем извлекает 19 ссылок из раздела «О программе». Это мне удается, .......
3 Мар 2021 в 01:59
Для группового проекта я пытаюсь очистить таблицу зарплат в https: // www. .basketball-reference.com / Players / a / allenra02.html.
Я пробовал несколько селекторов CSS и Xpath, таких как
#all_salaries > tbody > tr:nth-child(1)
#all_salaries > tbody
#all_salaries > tbody > tr:nth-child(1) > td.righ....
2 Мар 2021 в 20:45
Я столкнулся с проблемой, когда пытался очистить веб-сайт от данных. Веб-сайт находится здесь. Данные - это скорее просто тексты, разделенные запятыми (дата и цена), и я собирался использовать python, чтобы очистить их и сохранить как csv / xlsx, чтобы я мог построить их позже.
Вот как это выгляди....
2 Мар 2021 в 16:30
Я пытаюсь очистить это table в R.
Я читаю данные с помощью библиотеки XML с помощью следующей команды.
acsi <- htmlParse("https://www.theacsi.org/index.php?option=com_content&view=article&id=147&catid=&Itemid=212&i=Wireless+Telephone+Service")
Однако сразу получаю вот это: Warning: XML content doe....
2 Мар 2021 в 16:07
Я новичок в веб-парсинге с использованием Python. Я успешно научился собирать информацию с некоторых веб-сайтов, например, https://www.jameda.de и википедия. Но я наткнулся на веб-сайт, который не открывает новую ссылку при поиске определенных данных. Я не понимаю, как очистить этот сайт. Любая....
2 Мар 2021 в 15:53
Когда я просто использую метод soup.find (), я получаю желаемый результат, когда я пытаюсь выполнить цикл и использовать find_all (), когда что-то идет не так.
source = requests.get('https://www.mononews.gr/').text
soup = BeautifulSoup(source,'lxml')
find = soup.find_all('section',class_="story....
2 Мар 2021 в 15:30
У меня есть следующий HTML-код: я хочу выполнить цикл для данных между значениями li, в частности, я хочу получить идентификатор, поэтому в первом элементе я хочу получить id = "product-38350" и размер соответствует 36 ЕС . Затем я хочу добавить его сыну. Я могу справиться с этой частью, но мне....
1 Мар 2021 в 19:54
Я пытаюсь получить данные во втором столбце с кодом "CATAC2021", где "aaaa" - это четыре следующие буквы (например, aaaa, aaab и т. Д.) В Shakemap Site с использованием Python. Это ID события.
Я попытался использовать следующий код ниже, чтобы получить доступ ко второму столбцу таблицы и получить д....
1 Мар 2021 в 18:57
В настоящее время изучаю scrapy и с небольшими знаниями по извлечению тегов a и, но нуждается в помощи, когда дело доходит до извлечения ul и li, например:
response.css('a.example')
response.css('div.example')
Но какова команда для 'ul' и 'li "?....
1 Мар 2021 в 13:20
Я пытаюсь написать оператор If Elif Else и, возможно, подхожу к нему неправильно. Я создал DataFrame с помощью Pandas, и я пытаюсь указать в столбце 1 из 3 статусов. Специальный заказ, готов к отправке, и просто пробел или дефис. Я пробовал это несколькими разными способами, но не могу заставить ....
1 Мар 2021 в 04:31
Я успешно получил данные из этой таблицы из THRIVEN:
Но, как вы можете видеть, в столбце Net% эти отрицательные / положительные значения определяются некоторым CSS (в который я верил и не смог найти их там, где они расположены).
Как я могу извлечь эти данные и поместить их в свой Excel как отриц....
1 Мар 2021 в 02:38
Предисловие: это первый сценарий XPath и DOM, над которым я когда-либо работал.
Следующий код работает до определенной степени.
Если child-> nodevalue, который должен быть ценой, пуст, он отбрасывает остальные элементы, и оттуда происходит просто снежный ком. Я часами читал, переписывал и не мог пр....
1 Мар 2021 в 02:19
Вот сценарий, я использую cheerio scraper для очистки веб-сайта, содержащего объявления о недвижимости .
В каждом объявлении есть ссылка на следующее объявление, поэтому перед очисткой текущей страницы я добавляю следующую страницу в очередь запросов. Что всегда происходит в определенный и случайн....
28 Фев 2021 в 14:03
Я пытаюсь выполнить приложение для веб-сканирования, но при инициализации объектов браузера и страницы они не определены после возврата из функции init(). Вот отрывок:
Браузер и страница инициализируются в верхней части моего файла: с browser = null и page = null поэтому я хочу использовать эти гл....
27 Фев 2021 в 22:26
Название говорит о большей части того, что я пытался понять в JQuery. Я уже сделал подобное решение того, что хочу, но проблема в том, что я не хочу назначать его активу в моем HTML. Итак, как бы я хотел сохранить эту страницу как массив, каждая строка на странице является новой строкой в перем....
27 Фев 2021 в 13:49
Для университетских исследований я пытаюсь очистить таблицу FDA (robots.txt позволяет очистить этот контент)
В таблице 19 строк и 2 столбца: https: //www.accessdata.fda. gov / scripts / cdrh / cfdocs / cfpmn / pmn.cfm? ID = K203181.
Формат, который я пытаюсь извлечь:
col1 col2 ....
27 Фев 2021 в 02:55
Я пытаюсь очистить список подержанных автомобилей с ценами и названиями, за исключением тех, которые опубликованы дилерским центром. У меня проблемы, так как я хотел бы поместить это во фрейм данных с помощью panda, но могу сделать это только после того, как смогу получить правильную информацию. В....
27 Фев 2021 в 00:08
Вот базовый код, использующий пакет селена в python.
import time
from selenium import webdriver as wd
def main():
driver_c = wd.Chrome(executable_path='C:\\Web Drivers\\chromedriver\\chromedriver.exe')
driver_c.get('file:///D:/Website%20Code/Knight/Knight/index.html')
button = driv....
26 Фев 2021 в 22:48