Скрепление веб-страниц - это процесс извлечения конкретной информации из веб-сайтов, которые не предоставляют API или другие методы автоматического поиска данных. Вопросы о том, «Как начать работу со скребком» (например, с Excel VBA), должны быть * тщательно изучены *, поскольку доступны многочисленные примеры функционального кода. Методы очистки веб-страниц включают сторонние приложения, разработку специального программного обеспечения или даже стандартный сбор данных вручную.

Подробнее про web-scraping...

Я использую Python Google Colab и пытаюсь прочитать файл csv по этой ссылке: https://www.macrotrends.net/stocks/charts/AAPL/apple/stock-price-history Если вы немного прокрутите вниз, вы будете способный .......
Я работаю с красивым супом на питоне, и я работаю над проектом, который извлекает из моего школьного расписания. Это плохо написанный сайт. Это таблица HTML, каждая ячейка которой содержит другую таблицу. .......
3 Мар 2021 в 23:33
Импортный лом class BookSpider (scrapy.Spider): name = "books" start_urls = ['http://books.toscrape.com/catalogue/page-1.html'] def parse (self, response): .......
3 Мар 2021 в 22:45
Я очищаю эту страницу https://www.elcorteingles.es/supermercado/alimentacion-general/, но каждый раз, когда браузер не загружает страницу или веб-сайт недоступен. Как я мог решить эту проблему? .......
3 Мар 2021 в 12:29
Я пытаюсь заполнить текстовое поле в Web WhatsApp с помощью Javascript, но оно не работает в соответствии с моими требованиями. Я хочу написать текст в текстовом поле, а затем программно нажать кнопку «Отправить» с помощью JS. Это возможно? Я пробовал следующий код в консоли, document.getElementsByC....
Я пытаюсь вытащить ссылки href из таблицы, которые мне позже нужно щелкнуть по одной, чтобы получить доступ к данным внутри каждой ссылки. Но я не могу придумать, как это сделать. Я пробовал find_all и получаю сообщение "объект ResultSet не имеет ошибки атрибута"% s ". HTML: (Действительно длинный....
3 Мар 2021 в 07:00
Я слежу за этим руководство по поиску в LinkedIn и Google. С момента создания руководства в HTML-код результатов поиска Google были внесены некоторые изменения, поэтому мне пришлось немного повозиться с кодом. Я сейчас нахожусь в точке, где мне нужно получить ссылки из результатов поиска, но я ст....
3 Мар 2021 в 06:06
Я пытаюсь создать простой поисковый робот, который просматривает эту страницу https://en.wikipedia.org/wiki/Web_scraping, а затем извлекает 19 ссылок из раздела «О программе». Это мне удается, .......
3 Мар 2021 в 01:59
Для группового проекта я пытаюсь очистить таблицу зарплат в https: // www. .basketball-reference.com / Players / a / allenra02.html. Я пробовал несколько селекторов CSS и Xpath, таких как #all_salaries > tbody > tr:nth-child(1) #all_salaries > tbody #all_salaries > tbody > tr:nth-child(1) > td.righ....
2 Мар 2021 в 20:45
Я столкнулся с проблемой, когда пытался очистить веб-сайт от данных. Веб-сайт находится здесь. Данные - это скорее просто тексты, разделенные запятыми (дата и цена), и я собирался использовать python, чтобы очистить их и сохранить как csv / xlsx, чтобы я мог построить их позже. Вот как это выгляди....
2 Мар 2021 в 16:30
Я пытаюсь очистить это table в R. Я читаю данные с помощью библиотеки XML с помощью следующей команды. acsi <- htmlParse("https://www.theacsi.org/index.php?option=com_content&view=article&id=147&catid=&Itemid=212&i=Wireless+Telephone+Service") Однако сразу получаю вот это: Warning: XML content doe....
2 Мар 2021 в 16:07
Я новичок в веб-парсинге с использованием Python. Я успешно научился собирать информацию с некоторых веб-сайтов, например, https://www.jameda.de и википедия. Но я наткнулся на веб-сайт, который не открывает новую ссылку при поиске определенных данных. Я не понимаю, как очистить этот сайт. Любая....
2 Мар 2021 в 15:53
Когда я просто использую метод soup.find (), я получаю желаемый результат, когда я пытаюсь выполнить цикл и использовать find_all (), когда что-то идет не так. source = requests.get('https://www.mononews.gr/').text soup = BeautifulSoup(source,'lxml') find = soup.find_all('section',class_="story....
2 Мар 2021 в 15:30
У меня есть следующий HTML-код: я хочу выполнить цикл для данных между значениями li, в частности, я хочу получить идентификатор, поэтому в первом элементе я хочу получить id = "product-38350" и размер соответствует 36 ЕС . Затем я хочу добавить его сыну. Я могу справиться с этой частью, но мне....
1 Мар 2021 в 19:54
Я пытаюсь получить данные во втором столбце с кодом "CATAC2021", где "aaaa" - это четыре следующие буквы (например, aaaa, aaab и т. Д.) В Shakemap Site с использованием Python. Это ID события. Я попытался использовать следующий код ниже, чтобы получить доступ ко второму столбцу таблицы и получить д....
В настоящее время изучаю scrapy и с небольшими знаниями по извлечению тегов a и, но нуждается в помощи, когда дело доходит до извлечения ul и li, например: response.css('a.example') response.css('div.example') Но какова команда для 'ul' и 'li "?....
1 Мар 2021 в 13:20
Я пытаюсь написать оператор If Elif Else и, возможно, подхожу к нему неправильно. Я создал DataFrame с помощью Pandas, и я пытаюсь указать в столбце 1 из 3 статусов. Специальный заказ, готов к отправке, и просто пробел или дефис. Я пробовал это несколькими разными способами, но не могу заставить ....
1 Мар 2021 в 04:31
Я успешно получил данные из этой таблицы из THRIVEN: Но, как вы можете видеть, в столбце Net% эти отрицательные / положительные значения определяются некоторым CSS (в который я верил и не смог найти их там, где они расположены). Как я могу извлечь эти данные и поместить их в свой Excel как отриц....
1 Мар 2021 в 02:38
Предисловие: это первый сценарий XPath и DOM, над которым я когда-либо работал. Следующий код работает до определенной степени. Если child-> nodevalue, который должен быть ценой, пуст, он отбрасывает остальные элементы, и оттуда происходит просто снежный ком. Я часами читал, переписывал и не мог пр....
1 Мар 2021 в 02:19
Вот сценарий, я использую cheerio scraper для очистки веб-сайта, содержащего объявления о недвижимости . В каждом объявлении есть ссылка на следующее объявление, поэтому перед очисткой текущей страницы я добавляю следующую страницу в очередь запросов. Что всегда происходит в определенный и случайн....
28 Фев 2021 в 14:03
Я пытаюсь выполнить приложение для веб-сканирования, но при инициализации объектов браузера и страницы они не определены после возврата из функции init(). Вот отрывок: Браузер и страница инициализируются в верхней части моего файла: с browser = null и page = null поэтому я хочу использовать эти гл....
27 Фев 2021 в 22:26
Название говорит о большей части того, что я пытался понять в JQuery. Я уже сделал подобное решение того, что хочу, но проблема в том, что я не хочу назначать его активу в моем HTML. Итак, как бы я хотел сохранить эту страницу как массив, каждая строка на странице является новой строкой в ​​перем....
27 Фев 2021 в 13:49
Для университетских исследований я пытаюсь очистить таблицу FDA (robots.txt позволяет очистить этот контент) В таблице 19 строк и 2 столбца: https: //www.accessdata.fda. gov / scripts / cdrh / cfdocs / cfpmn / pmn.cfm? ID = K203181. Формат, который я пытаюсь извлечь: col1 col2 ....
27 Фев 2021 в 02:55
Я пытаюсь очистить список подержанных автомобилей с ценами и названиями, за исключением тех, которые опубликованы дилерским центром. У меня проблемы, так как я хотел бы поместить это во фрейм данных с помощью panda, но могу сделать это только после того, как смогу получить правильную информацию. В....
27 Фев 2021 в 00:08
Вот базовый код, использующий пакет селена в python. import time from selenium import webdriver as wd def main(): driver_c = wd.Chrome(executable_path='C:\\Web Drivers\\chromedriver\\chromedriver.exe') driver_c.get('file:///D:/Website%20Code/Knight/Knight/index.html') button = driv....