Uložení webu

Občas si člověk potřebuje uložit nějaký web, aby si jej mohl prohlížet offline, nebo proto, že tuší, že by mohl nastat jeho výpadek. Metod je samozřejmě velké množství, ale jednou z těch nejjednodušších je použití programu wget.

Instalace na linuxu je velice jednoduchá a dost často je wget přítomen jako předinstalovaný balíček. Jak se instaluje na Windows jsem nikdy nezjišťoval, ale myslím, že i pro něj existuje.

wget \
--recursive \
--no-clobber \
--page-requisites \
--html-extension \
--convert-links \
--restrict-file-names=unix \
--domains example.com \
--no-parent \
-e robots=off
www.example.com

Z příkladu je vidět, že jeho použití je skutečně jednoduché. --recursive říká, že se bude procházet celý web --no-clobber, že se nemají přepisovat soubory. --page-requisites je pro nás důležitý neboť zajišťuje, že se kromě HTML stáhne i CSS a obrázky. --html-extension přidává souborům koncovku html a --convert-links zajišťuje, že odkazy budou lokální, tedy budeme moci procházet stažený obsah. --restict-file-names není zas tak důležitá volba, ale předcházíme tak tomu, že by soubor měl název, který není použitelný na našem systému. --domains určuje doménu ze které se stahuje (aby jsme nestáhli celý internet). Volba --no-parent pak říká, že se nemají stahovat předci. Pokud tedy budeme v mypage.org/user/hefay tak se nebude stahovat obsah jako mypage.org/user. A -e robots=off dohromady tvoří volbu, která zakáže používání robots.txt. A konečně, poslední volbou je web, který stahujeme.

Share

Napsat komentář

Vaše emailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *