| 
  • If you are citizen of an European Union member nation, you may not use this service unless you are at least 16 years old.

  • You already know Dokkio is an AI-powered assistant to organize & manage your digital files & messages. Very soon, Dokkio will support Outlook as well as One Drive. Check it out today!

View
 

wget

Page history last edited by PBworks 16 years, 8 months ago

wget

Comando para baixar arquivos

    wget -crp www.site.com.br

O comando acima baixará todo os site www.site.com.br, usando recursividade "-r" e deixando os links locais "-p", continuando em caso de queda do link "-c"

 

Limitando a taxa de dowload no wget 
 wget --limit-rate=10k -c http://algumendereco

 wget -c --progress=bar --limit-rate=10k http://site/arquivo-a-ser-baixado

Fonte: http://www.fg.med.br/linux/wgett.html
O GNU-Wget é um utilitário não-interativo para download de arquivos da Web. Suporta os protocolos HTTP, HTTPS, e FTP, assim como proxy HTTP. Sendo não-interativo, o Wget pode rodar em background enquanto o usuário não está logado.
Wget pode seguir links em páginas HTML e criar uma cópia local do site Web (download recursivo). Ou pode converter os links dos arquivos HTML e criar uma versão local para consulta offline.



!Mais exemplos
<verbatim>
echo 'wget url' | at 01:00	Download url at 1AM to current dir

 

 

 

Veja abaixo algumas opções de uso:

 

Uso: wget opção URL

 

Opção de início:

-b, --background rodar em background após início.

 

Log e arquivo de entrada:

-i FILE, --input-file=FILE ler URLs do arquivo FILE. Neste caso não é preciso especificar URL na linha de comando. As URLs devem ser listadas sequencialmente.

-o FILE, --output-file=FILE fazer log das mensagens para o arquivo FILE.

-q, --quiet modo silencioso.

 

Opções de download:

-t NUMBER, --tries=NUMBER ajustar o número de tentativas para NUMBER (0 sem limites).

-c, --continue retoma download de arquivo parcialmente baixado.

-N, --timestamping não refaz download de arquivos a não ser que mais novos que os locais.

-Y, --proxy=on/off habilita ou não proxy.

-nc, --no-clobber não substituir arquivos existentes.

 

Diretórios:

-nd --no-directories não cria diretórios.

-x, --force-directories força a criação de diretórios.

 

Opções HTTP:

--http-user=USER fornece nome de usuário =USER.

--http-passwd=PASS fornece senha http =PASS.

 

Opções FTP:

--retr-symlinks normalmente quando wget encontra um link ele faz uma cópia local do link, não fazendo download do arquivo apontado. Esta opção faz com que o arquivo linkado seja salvo no lugar do link.

--passive-ftp usar modo de transferência "passivo".

 

Download recursivo:

-r, --recursive download recursivo. O padrão são 5 níveis.

-l NUMBER, --level=NUMBER download recursivo até o nível NUMBER (inf ou 0 para infinito).

-k, --convert-links converter links não-relativos para relativos.

-p, --page-requisites fazer download de todas as imagens, etc necessárias para mostrar a página HTML.

 

Opções para aceitar/rejeitar recursivos:

--follow-ftp segue links FTP em páginas HTML. O padrão é ignorar links FTP.

-H, --span-hosts ir para outros domínios quando recursivo.

-L, --relative seguir somente links relativos. Útil para download de uma homepage específica, sem qualquer distração.

-np, --no-parent não subir para o diretório-pai. O download é feito somente dos arquivos abaixo da hierarquia.

 

Alguns exemplos:

 

$ wget -r -l0 -k -L

 

Iniciar download recursivo de , convertendo links, pegando todos os arquivos porém seguindo somente links relativos.

 

$ wget --convert-links -r -o arquivo-log

 

Fazer download de convertendo os links, recursivo 5 níveis, salvando o log em arquivo-log.

 

$ wget -E -H -k -K -p http:///

 

Download de página específica, com todos os seus requisitos (mesmo se eles estiverem em outro website).

 

$ wget -r -l1 --no-parent -A.gif http://www.server.com/dir/

 

Download de todos os arquivos GIF presentes em um diretório.

 

$ wget -nc -r

 

Retomar download de sem pegar arquivos já presentes.

 

 

Dicas

Download seletivo de arquivos com wget

 

Colaboração: Gentil de Bortoli Júnior <>

 

Algumas pessoas têm necessidade de fazer o download de apenas determinados tipos de arquivos como, por exemplo, PDFs ou imagens.

 

Isso pode ser feito de maneira muito simples, utilizando o wget. Uma pessoa que deseja baixar todos os PDFs do endereço http://ldp.conectiva.com.br pode fazer algo como:

 

$ mkdir LDP_PDFs ; cd LDP_PDFs

$ wget -A .pdf -r -nd http://ldp.conectiva.com.br

 

Explicando:

 

-A -> Baixe somente os arquivos com a extensão fornecida.

-r -> Siga os links recursivamente

-nd -> Não crie hierarquia de diretórios.

 

outra dica: ignorar os robots.txt que fazem com

o que o wget "desista" de entrar em alguns lados:

 

wget -e robots=0 -r -nd ...

 

Mudando a identificação do wget para o servidor

 

wget -t 7 -w 5 --waitretry=14 --random-wait --user-agent="Mozilla/5.0

(Windows; U; Windows NT 5.1; en-US; rv:1.8.0.1) Gecko/20060111

Firefox/1.5.0.1" -m -k -K -e robots=off

 

Como resultado desse comando, dentro do diretório LDP_PDFs você terá todos os PDFs que podem ser encontrados seguindo os links no site em questão.

 

Man page traduzida

GNU Wget 1.5.3.1, um recuperador não interativo de rede.
  Uso: WGET [OPCAO]... [URL]...
  
  Argumentos exigidos para opções longas são exigidos para opções curtas também.
  
  Inicialização:
    -V,  --version           exibe informação de versão do Wget e sai.
    -h,  --help              imprime esse help.
    -b,  --background        executa em segundo plano.
    -e,  --execute=COMMAND   executa um comando `.wgetrc'.
  
  Logging e arquivo de entrada:
    -o,  --output-file=FILE     loga a saída em FILE.
    -a,  --append-output=FILE   acrescenta saída em FILE.
    -d,  --debug                exibe informações de debug.
    -q,  --quiet                quieto (sem saída).
    -v,  --verbose              ser detalhista na saída (padrão).
    -nv, --non-verbose          não ser nem detalhista nem 'quieto'.
    -i,  --input-file=FILE      ler URL-s de entrada a partir de FILE.
    -F,  --force-html           tratar entrada como HTML.
  
  Download:
    -t,  --tries=NUMBER           configurar tentativas igual a NUMBER (0=ilimitado).
    -O   --output-document=FILE   gravar documento como FILE.
    -nc, --no-clobber             don't clobber existing files.
    -c,  --continue               continuar arquivo existente.
         --dot-style=STYLE        ajusta estilo de exibição da recuperação (retrieve).
    -N,  --timestamping           não recuperar arquivos remotos mais antigos que os locais.
    -S,  --server-response        exibir as respostas do servidor.
         --spider                 não baixar (download) nada.
    -T,  --timeout=SECONDS        ajusta o tempo de expiração para SECONDS.
    -w,  --wait=SECONDS           aguarda SECONDS entre retentativas.
    -Y,  --proxy=on/off           torna o proxy ligado/desligado.
    -Q,  --quota=NUMBER           ajusta a cota de recuperação para NUMBER.
  
  Diretórios:
    -nd  --no-directories            não criar diretorios.
    -x,  --force-directories         força criação de diretorios.
    -nH, --no-host-directories       não criar diretorio do hospedeiro (host).
    -P,  --directory-prefix=PREFIX   salvar arquivos em PREFIX/...
         --cut-dirs=NUMBER           ignorar NUMBER componentes de diretorios remotos.
  
  Opções HTTP:
         --http-user=USER      ajustar usuário http para USER.
         --http-passwd=PASS    ajustar senha http para PASS.
    -C,  --cache=on/off        permite/inibe dados de cache do servidor (normalmente
  permitido).
         --ignore-length       ignorar campo de cabeçalho `Content-Length'.
         --header=STRING       inserir STRING entre o cabeçalho.
         --proxy-user=USER     ajusta USER como usuario proxy.
         --proxy-passwd=PASS   ajusta PASS como senha proxy.
    -s,  --save-headers        salvar cabeçalhos HTTP para arquivo.
    -U,  --user-agent=AGENT    idtentifica-se como AGENT em vez de Wget/VERSION.
  
  Opções FTP:
         --retr-symlinks   recuperar links simbólicos do FTP.
    -g,  --glob=on/off     turn file name globbing on or off.
         --passive-ftp     usar modo de transferência "passivo".
  
  Recuperação recursiva:
    -r,  --recursive             chupador-web recursivo -- use com cuidado!.
    -l,  --level=NUMBER          nível máximo de profundidade (0=ilimitado).
         --delete-after          excluir arquivos após baixar.
    -k,  --convert-links         converter links não relativos para relativos.
    -m,  --mirror                ligar opções apropriadas para espelhamento.
    -nr, --dont-remove-listing   não remover arquivos `.listing'.
  
  Opções de aceitação/rejeição recursivas:
    -A,  --accept=LIST                lista de extensões aceitas.
    -R,  --reject=LIST                lista de extensões rejeitadas.
    -D,  --domains=LIST               lista de domínios aceitos.
         --exclude-domains=LIST       lista (separada por vírgula) de domínios rejeitados.
    -L,  --relative                   seguir apenas links relativos.
         --follow-ftp                 seguir links FTP a partir de documentos HTML.
    -H,  --span-hosts                 ir para hospedeiros estrangeiros quando em modo
  recursivo.
    -I,  --include-directories=LIST   lista de diretórios permitidos.
    -X,  --exclude-directories=LIST   lista de diretórios excluídos.
    -nh, --no-host-lookup             não faça a procura de DNS.
    -np, --no-parent                  não subir para diretórios pais.
  
  Envie relatórios de erros ee sugestões para <bug-wget@gnu.org>.
  
   ------- Notas do tradutor -------- 
  Como estamos acostumados a conhecer o significado de algumas palavras do inglês sem pensar
  na tradução, inclui abaixo uma tabela de alguns termos e como os trabuzi.
  Retrieve -           recuperação
  Foreing -            estrangeiro
  Host -               hospedeiro
  DNS-Lookup -         procura de DNS
  Parent directories - diretórios pai
  Append -             acrescentar
  
  
  Tradução: Felipe Machado Cardoso <felipemc@faesa.br>

 

Quando usar o download recursivo tente a opção

--level=profundidade

Onde "profundidade" é até que ponto o wget desca na árvore do site a ser baixado

 

veja também

Comments (0)

You don't have permission to comment on this page.