Я хочу отразить страницы Википедии с помощью команды Linux wget Я использовал эту команду

wget --mirror -p --convert-links -P ./folder-mirror /https://en.wikipedia.org/wiki/Portal:Contents/A–Z_index

Но я получаю только этот файл robots.txt

1
almgwary 4 Май 2016 в 21:17

2 ответа

Лучший ответ

Исключение роботов включено по умолчанию в {{X0} } чтобы люди не были придурками и рекурсивно поглощали чужую веб-страницу и ее пропускную способность.

Вы можете отключить его в файле .wgetrc или использовать переключатель -e в wget, например: -e robots=off

Это не означает, что Википедия не имеет дополнительных защитных мер, чтобы гарантировать, что ваш wget не загружает все рекурсивно, но это не позволит wget соблюдать robots.txt и meta.

Если вы все еще упираетесь в стену, то, возможно, возитесь с пользовательским агентом или чем-то в этом роде.

1
JNevill 4 Май 2016 в 18:53

Не делай этого. Это создает огромную нагрузку на веб-серверы Википедии, и ваш IP-адрес будет заблокирован.

Если вам нужно зеркало Википедии, загрузите дамп их базы данных со страницы https://dumps.wikimedia.org/. Самый последний полный дамп английской вики на данный момент доступен по адресу:

https://dumps.wikimedia.org/enwiki/20160407/

Если вам нужны данные только с определенных страниц, рассмотрите возможность использования MediaWiki API.

5
duskwuff -inactive- 4 Май 2016 в 19:07