wget
Comando para baixar arquivos
wget -crp www.site.com.br
O comando acima baixará todo os site www.site.com.br, usando recursividade "-r" e deixando os links locais "-p", continuando em caso de queda do link "-c"
Limitando a taxa de dowload no wget
wget --limit-rate=10k -c http://algumendereco
wget -c --progress=bar --limit-rate=10k http://site/arquivo-a-ser-baixado
Fonte: http://www.fg.med.br/linux/wgett.html
O GNU-Wget é um utilitário não-interativo para download de arquivos da Web. Suporta os protocolos HTTP, HTTPS, e FTP, assim como proxy HTTP. Sendo não-interativo, o Wget pode rodar em background enquanto o usuário não está logado.
Wget pode seguir links em páginas HTML e criar uma cópia local do site Web (download recursivo). Ou pode converter os links dos arquivos HTML e criar uma versão local para consulta offline.
!Mais exemplos
<verbatim>
echo 'wget url' | at 01:00 Download url at 1AM to current dir
Veja abaixo algumas opções de uso:
Uso: wget opção URL
Opção de início:
-b, --background rodar em background após início.
Log e arquivo de entrada:
-i FILE, --input-file=FILE ler URLs do arquivo FILE. Neste caso não é preciso especificar URL na linha de comando. As URLs devem ser listadas sequencialmente.
-o FILE, --output-file=FILE fazer log das mensagens para o arquivo FILE.
-q, --quiet modo silencioso.
Opções de download:
-t NUMBER, --tries=NUMBER ajustar o número de tentativas para NUMBER (0 sem limites).
-c, --continue retoma download de arquivo parcialmente baixado.
-N, --timestamping não refaz download de arquivos a não ser que mais novos que os locais.
-Y, --proxy=on/off habilita ou não proxy.
-nc, --no-clobber não substituir arquivos existentes.
Diretórios:
-nd --no-directories não cria diretórios.
-x, --force-directories força a criação de diretórios.
Opções HTTP:
--http-user=USER fornece nome de usuário =USER.
--http-passwd=PASS fornece senha http =PASS.
Opções FTP:
--retr-symlinks normalmente quando wget encontra um link ele faz uma cópia local do link, não fazendo download do arquivo apontado. Esta opção faz com que o arquivo linkado seja salvo no lugar do link.
--passive-ftp usar modo de transferência "passivo".
Download recursivo:
-r, --recursive download recursivo. O padrão são 5 níveis.
-l NUMBER, --level=NUMBER download recursivo até o nível NUMBER (inf ou 0 para infinito).
-k, --convert-links converter links não-relativos para relativos.
-p, --page-requisites fazer download de todas as imagens, etc necessárias para mostrar a página HTML.
Opções para aceitar/rejeitar recursivos:
--follow-ftp segue links FTP em páginas HTML. O padrão é ignorar links FTP.
-H, --span-hosts ir para outros domínios quando recursivo.
-L, --relative seguir somente links relativos. Útil para download de uma homepage específica, sem qualquer distração.
-np, --no-parent não subir para o diretório-pai. O download é feito somente dos arquivos abaixo da hierarquia.
Alguns exemplos:
$ wget -r -l0 -k -L
Iniciar download recursivo de , convertendo links, pegando todos os arquivos porém seguindo somente links relativos.
$ wget --convert-links -r -o arquivo-log
Fazer download de convertendo os links, recursivo 5 níveis, salvando o log em arquivo-log.
$ wget -E -H -k -K -p http:///
Download de página específica, com todos os seus requisitos (mesmo se eles estiverem em outro website).
$ wget -r -l1 --no-parent -A.gif http://www.server.com/dir/
Download de todos os arquivos GIF presentes em um diretório.
$ wget -nc -r
Retomar download de sem pegar arquivos já presentes.
Dicas
Download seletivo de arquivos com wget
Colaboração: Gentil de Bortoli Júnior <>
Algumas pessoas têm necessidade de fazer o download de apenas determinados tipos de arquivos como, por exemplo, PDFs ou imagens.
Isso pode ser feito de maneira muito simples, utilizando o wget. Uma pessoa que deseja baixar todos os PDFs do endereço http://ldp.conectiva.com.br pode fazer algo como:
Explicando:
-A -> Baixe somente os arquivos com a extensão fornecida.
-r -> Siga os links recursivamente
-nd -> Não crie hierarquia de diretórios.
outra dica: ignorar os robots.txt que fazem com
o que o wget "desista" de entrar em alguns lados:
wget -e robots=0 -r -nd ...
Mudando a identificação do wget para o servidor
wget -t 7 -w 5 --waitretry=14 --random-wait --user-agent="Mozilla/5.0
(Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111
Firefox/1.5.0.1" -m -k -K -e robots=off
Como resultado desse comando, dentro do diretório LDP_PDFs você terá todos os PDFs que podem ser encontrados seguindo os links no site em questão.
Man page traduzida
GNU Wget 1.5.3.1, um recuperador não interativo de rede.
Uso: WGET [OPCAO]... [URL]...
Argumentos exigidos para opções longas são exigidos para opções curtas também.
Inicialização:
-V, --version exibe informação de versão do Wget e sai.
-h, --help imprime esse help.
-b, --background executa em segundo plano.
-e, --execute=COMMAND executa um comando `.wgetrc'.
Logging e arquivo de entrada:
-o, --output-file=FILE loga a saída em FILE.
-a, --append-output=FILE acrescenta saída em FILE.
-d, --debug exibe informações de debug.
-q, --quiet quieto (sem saída).
-v, --verbose ser detalhista na saída (padrão).
-nv, --non-verbose não ser nem detalhista nem 'quieto'.
-i, --input-file=FILE ler URL-s de entrada a partir de FILE.
-F, --force-html tratar entrada como HTML.
Download:
-t, --tries=NUMBER configurar tentativas igual a NUMBER (0=ilimitado).
-O --output-document=FILE gravar documento como FILE.
-nc, --no-clobber don't clobber existing files.
-c, --continue continuar arquivo existente.
--dot-style=STYLE ajusta estilo de exibição da recuperação (retrieve).
-N, --timestamping não recuperar arquivos remotos mais antigos que os locais.
-S, --server-response exibir as respostas do servidor.
--spider não baixar (download) nada.
-T, --timeout=SECONDS ajusta o tempo de expiração para SECONDS.
-w, --wait=SECONDS aguarda SECONDS entre retentativas.
-Y, --proxy=on/off torna o proxy ligado/desligado.
-Q, --quota=NUMBER ajusta a cota de recuperação para NUMBER.
Diretórios:
-nd --no-directories não criar diretorios.
-x, --force-directories força criação de diretorios.
-nH, --no-host-directories não criar diretorio do hospedeiro (host).
-P, --directory-prefix=PREFIX salvar arquivos em PREFIX/...
--cut-dirs=NUMBER ignorar NUMBER componentes de diretorios remotos.
Opções HTTP:
--http-user=USER ajustar usuário http para USER.
--http-passwd=PASS ajustar senha http para PASS.
-C, --cache=on/off permite/inibe dados de cache do servidor (normalmente
permitido).
--ignore-length ignorar campo de cabeçalho `Content-Length'.
--header=STRING inserir STRING entre o cabeçalho.
--proxy-user=USER ajusta USER como usuario proxy.
--proxy-passwd=PASS ajusta PASS como senha proxy.
-s, --save-headers salvar cabeçalhos HTTP para arquivo.
-U, --user-agent=AGENT idtentifica-se como AGENT em vez de Wget/VERSION.
Opções FTP:
--retr-symlinks recuperar links simbólicos do FTP.
-g, --glob=on/off turn file name globbing on or off.
--passive-ftp usar modo de transferência "passivo".
Recuperação recursiva:
-r, --recursive chupador-web recursivo -- use com cuidado!.
-l, --level=NUMBER nível máximo de profundidade (0=ilimitado).
--delete-after excluir arquivos após baixar.
-k, --convert-links converter links não relativos para relativos.
-m, --mirror ligar opções apropriadas para espelhamento.
-nr, --dont-remove-listing não remover arquivos `.listing'.
Opções de aceitação/rejeição recursivas:
-A, --accept=LIST lista de extensões aceitas.
-R, --reject=LIST lista de extensões rejeitadas.
-D, --domains=LIST lista de domínios aceitos.
--exclude-domains=LIST lista (separada por vírgula) de domínios rejeitados.
-L, --relative seguir apenas links relativos.
--follow-ftp seguir links FTP a partir de documentos HTML.
-H, --span-hosts ir para hospedeiros estrangeiros quando em modo
recursivo.
-I, --include-directories=LIST lista de diretórios permitidos.
-X, --exclude-directories=LIST lista de diretórios excluídos.
-nh, --no-host-lookup não faça a procura de DNS.
-np, --no-parent não subir para diretórios pais.
Envie relatórios de erros ee sugestões para <bug-wget@gnu.org>.
------- Notas do tradutor --------
Como estamos acostumados a conhecer o significado de algumas palavras do inglês sem pensar
na tradução, inclui abaixo uma tabela de alguns termos e como os trabuzi.
Retrieve - recuperação
Foreing - estrangeiro
Host - hospedeiro
DNS-Lookup - procura de DNS
Parent directories - diretórios pai
Append - acrescentar
Tradução: Felipe Machado Cardoso <felipemc@faesa.br>
Quando usar o download recursivo tente a opção
Onde "profundidade" é até que ponto o wget desca na árvore do site a ser baixado
veja também
Comments (0)
You don't have permission to comment on this page.