WGet
WGet je užitečná konzolová aplikace určená ke stahování souborů z WWW a FTP.
Přehled základního použití HTTP:
GNU Wget 1.11.1, program pro neinteraktivní stahování souborů. Použití: wget [PŘEPÍNAČ]… [URL]…
# wget http://www.domena.cz - stažení výchozího souboru z adresy http://www.domena.cz (index.html, ...)
# wget -c http://domena.cz/soubor.iso - naváže přerušené stahování souboru (soubor.iso)
# wget -P /home/data/downloads http://www.domena.cz/soubor.txt - uloží stažené soubory do jiného adresáře (/home/data/downloads)
# wget -i seznam.txt - stažení souborů z adres uvedených v seznam.txt
# wget http://www.domena.cz/soubor.txt -O novejmeno.txt - přejmenování stahovaného souboru
# wget --http-user=UŽIVATEL --http-password=HESLO http://www.domena.cz/soubor.txt - stažení souboru soubor.txt ze serveru vyžadujícího HTTP autentifikaci
# wget --proxy-user=UŽIVATEL --proxy-password=HESLO http://www.domena.cz/soubor.txt - stahování přes zabespečenou proxy
# wget --limit-rate=30k http://www.domena.cz/soubor.txt - omezení rychlosti stahování
# wget --referer=URL http://www.domena.cz/soubor.txt - zahrne hlavičku "Referer" do HTTP požadavku (Referer = adresa stránek, ze kterých jsme se dostali na požadovanou stránku)
# wget --user-agent="Mozilla/5.0 (X11; U; Linux x86_64; cs; rv:1.8.1.14) Gecko/20080420 Firefox/2.0.0.14" http://www.domena.cz.org - stažení souboru se změněnou identifikcí wgetu (pro stažení webů, které obsahují test na user-agenta)
Ukázka z manuálové stránky wgetu o HTTP:
Přepínače pro HTTP:
--http-user=UŽIVATEL nastaví přihlašovací jméno uživatele
pro HTTP na UŽIVATELE.
--http-password=HESLO nastaví heslo pro HTTP na HESLO.
--no-cache zakáže kešování na straně serveru.
-E, --html-extension HTML dokumenty ukládá s příponou „.html“.
--ignore-length ignoruje hlavičku „Content-Length“.
--header=ŘETĚZEC ke hlavičkám přidá ŘETĚZEC.
--max-redirect maximum přesměrování povolených
na stránku.
--proxy-user=UŽIVATEL nastaví UŽIVATELE jako přihlašovací jméno
uživatele pro proxy.
--proxy-password=HESLO nastaví HESLO jako heslo pro proxy.
--referer=URL zahrne hlavičku „Referer: URL“ do
HTTP požadavku.
--save-headers hlavičky HTTP uloží do souboru.
-U, --user-agent=AGENT identifikuje se jako AGENT místo Wget/VERZE.
--no-http-keep-alive zakáže HTTP keep-alive (trvalá spojení).
--no-cookies nepoužívá cookies.
--load-cookies=SOUBOR před relací načte cookies ze SOUBORU.
--save-cookies=SOUBOR po relaci uloží cookies do SOUBORU.
--keep-session-cookies načte a uloží cookies relace (ne-trvalé).
--post-data=ŘETĚZEC použije metodu POST, jako data pošle ŘETĚZEC.
--post-file=SOUBOR použije metodu POST, pošle obsah SOUBORU.
--content-disposition při volbě jména místního souboru vezme v úvahu
hlavičku Content-Disposition (POKUSNÉ).
--auth-no-challenge Posílá údaje Basic HTTP autentizace, aniž by
čekal na výzvu od serveru
Přehled základního použití FTP:
# wget ftp://ftp.domena.cz/soubor.txt - stažení souboru (soubor.txt) z ftp
# wget --ftp-user=UŽIVATEL --ftp-password=HESLO ftp://ftp.domena.cz/soubor.txt - stažení souboru soubor.txt ze serveru vyžadujícího FTP autentifikaci
# wget ftp://uzivatel:heslo@domena.cz/soubor.txt - stažení souboru soubor.txt ze serveru vyžadujícího autentifikaci
Ukázka z manuálové stránky wgetu o FTP:
Přepínače FTP:
--ftp-user=UŽIVATEL nastaví přihlašovací jméno na UŽIVATELE.
--ftp-password=HESLO nastaví heslo pro FTP na HESLO.
--no-remove-listing neodstraňuje soubory „.listing“.
--no-glob neexpanduje jména FTP souborů.
--no-passive-ftp zakáže pasivní režim přenosu.
--retr-symlinks při rekurzi stáhne soubory (adresáře ne),
na které odkazuje symbolický odkaz.
--preserve-permissions zachová přístupová práva ze serveru.
Rekurzivní stahování webů:
# wget --mirror http://www.domena.cz - stáhne kompletní web (pouze na zadaném serveru)
# nohup wget -m http://www.domena.cz & - stáhne kompletní web (pouze na zadaném serveru) a bude pokračovat i po odlogování z terminálu.
# wget --span-hosts --recursive --level=3 --convert-links --page-requisites http://www.domena.cz - stáhne kompletní web, bude procházet i jiné servery
na které jsou odkazy do hloubky 3 a zkonvertuje odkazy ve stažených souborech aby fungovali vrámci uložené kopie webu
(Zkrácený zápis příkazu: wget -H -r 3 -k -p http://www.domena.cz)
# wget -A txt,pdf -r -l 2 http://www.domena.cz - rekurzivně, do druhé úrovně stáhne soubory s příponama txt a pdf z webu http://www.domena.cz
Ukázka z manuálové stránky wgetu o rekurzivním stahování:
Rekurzivní stahování:
-r, --recursive zapne rekurzivní stahování.
-l, --level=POČET maximální hloubka rekurze
(„inf“ nebo „0“ pro nekonečno).
--delete-after smaže soubory lokálně po té, co dokončí stahování.
-k, --convert-links učiní odkazy v HTML odkazující na místní soubory.
-K, --backup-converted před konverzí souboru X jej zazálohuje jako X.orig.
-m, --mirror zkratka pro -N -r -l inf --no-remove-listing.
-p, --page-requisites získá všechny obrázky apod. potřebné pro
zobrazení HTML stránky.
--strict-comments zapne přísné zacházení s HTML komentáři podle SGML.
Rekurzivní povolení/zakázání:
-A, --accept=SEZNAM čárkou oddělený seznam povolených přípon.
-R, --reject=SEZNAM čárkou oddělený seznam zakázaných přípon.
-D, --domains=SEZNAM čárkou oddělený seznam povolených domén.
--exclude-domains=SEZNAM čárkou oddělený seznam zakázaných domén.
--follow-ftp následuje FTP odkazy z HTML dokumentů.
--follow-tags=SEZNAM čárkou oddělený seznam HTML značek určených
k následování.
--ignore-tags=SEZNAM čárkou oddělený seznam ignorovaných
HTML značek.
-H, --span-hosts při rekurzi přechází i na jiné počítače.
-L, --relative následuje jen relativní odkazy.
-I, --include-directories=SEZNAM
seznam povolených adresářů.
-X, --exclude-directories=SEZNAM
seznam zakázaných adresářů.
-np, --no-parent nestoupá do nadřízeného adresáře
Wget toho umí ještě mnohem více a proto doporučuji prostudovat kompletní manuálové stránky.





















