Usando wget y Linux para bajar sitios web completos 22

wget: Bajando sitios enteros facilmente

Unos trucos para lograr bajar automaticamente los sitios que necesites desde el internet a tu pc.

Wget es una herramienta que viene en cualquier linux, es usada para bajar archivos desde internet. Su forma basica de uso es: wget http://www.guatewireless.org/crack.exe

Esta es la manera en la cual wget se utiliza normalmente, pero tambien puede ser utilizado recursivamente, esto es su poder escondido. wget puede conectarse a los sitios y recursivamente bajar todas las paginas (imagenes y otro tipo de datos) que esten linkeadas en la pagina principal:

wget -r http://www.guatewireless.org/

Sin embargo, existen muchos sitios los cuales nos deniegan poder bajar el sitio completo. Para prevenir esto, los sitios verifican la identificacion de los navegadores. Para evitar estas molestias wget tiene la opcion -U.

wget  -r -p -U Mozilla http://www.guatewireless.org/

Seria bueno que agregaran las opciones –limit-rate= y –wait=. Lo anterior es para hacer pausa entre cada pagina, ya que de lo contrario el dueno del sitio puede darse cuenta que con un simple comando wget le estamos bajando el sitio completamente. Sin embargo, nadie se dara cuenta si limitan la velocidad de descarga y hacen pausa entre archivos.

wget --wait=20 --limit-rate=20K -r -p -U Mozilla http://www.guatewireless.org/

Use –no-parent

–no-parent esta opcion garantiza de que wget no descargara archivos por debajo del directorio que deseamos descargar.

Terminos de busqueda

  • wget linux
  • linux wget
  • descargar web wget
  • wget descargar sitio completo
  • descargar web linux
  • descargar web con wget
  • wget descargar web
  • wget en linux
  • comando wget linux
  • wget
  • 22 thoughts on “Usando wget y Linux para bajar sitios web completos

    1. Reply roy May 23,2008 16:27

      esta bueno el tutorial

    2. Reply gurzaf Aug 23,2008 16:57

      Muchas gracias amigo, me ha servido mucho este post…

    3. Reply Pedro O. Sep 27,2008 09:11

      Y que pasa con las paginas php, ¿ las baja igual?

      Saludos

    4. Reply Miguel Carmona Nov 10,2008 08:43

      funciona bien, pero veo que no descarga ni enlaza bien los css ni los js.
      ¿Hay alguna manera de que los descargue y enlace también?

    5. Reply fercho Dec 19,2008 16:08

      Pedro O no seas webon …

      el codigo en el explorador es html capa 7 de aplicacion del modelo OSI

      claro que no te baja el php, aprende a programar ……..webon

      • Reply ladilla Jan 9,2009 08:53

        fercho no seas gilipollas…
        no a todo el mundo lo pare su madre siendo ingeniero informático
        el chaval sólo preguntaba, aprende educación, no hace falta insultar… gilipollas.

        Por si a alguien le interesa, wget está tambien para windows
        http://pages.interlog.com/~tcharron/wgetwin.html

        • Reply fercho Jan 12,2009 09:05

          gran respuesta carnal si hubieses omitido el gilipollas tu comentario no aplicaria ati jeje….. Pedro O mis disculpas

          • Reply Pedro O. Jan 12,2009 09:48

            La verdad que yo tambien redacté mal mi pregunta. porque la idea era saber si bajaba las “paginas generadas por php”. Ya que he conocido otras herramientas que cuando ven una pagina php, se cuelgan.. Obviamente sé los de las capas de red, ya que soy un programador.
            Acepto tus disculpas fercho

      • Reply nek Mar 21,2010 22:15

        y para colmo, capa 7 es hardware jajajajajaja

    6. Reply yeison julian hernandez Aug 10,2009 10:13

      Muchas gracias por la informacion dada, fue de mucha utilidad

    7. Reply Rovix Aug 24,2009 01:21

      Y como paras la descarga ?
      Yo cierro la terminal, me indica que esto matará el proceso, pero mirando sigue aun en memoria, tengo que matarlo a mano desde el monitor del sistema.
      Perdonad si parece tonta la pregunta, pero uno no es muy diestro en estos temas.
      Gracias

    8. Reply Pedro O. Aug 25,2009 01:26

      Rovix, creo que la opciones es:
      (1)debes apretar jutamente las teclas: “Ctrl” + “c”.

      Cuando cierras una terminal los procesos siguen en segundo plano

    9. Reply Narsil Jan 8,2010 14:50

      Me sirvió de mucho la información, que bueno que exista personas que compartan el conocimiento de esta forma, Saludos desde la UCLV, Cuba !!!!!!!!!

    10. Reply Martin Jan 21,2010 17:21

      Muchas gracias. Estaba buscando esto hace tiempo.

    11. Reply Anibal Jul 29,2010 22:04

      que bueno que estas cosas sirvan!
      que bueno compartir nuestros los conocimientos!
      que bueno seguir conectados!

      @Narsil: saludos desde Argentina a nuestrxs hermanxs, al pueblo Cubano!

    12. Reply parrjos504 Nov 9,2010 19:10

      Gracias amigo, pero perdon la ignorancia, en donde guarda los archivos que se van descargando?

    13. Reply miguel Dec 24,2010 17:51

      gracias por el dato pero una duda como hago para que descarga hasta las paginas que estan en los link por ejemplo que me descarge la pagina que tiene un link en una imagen

    14. Reply martin Mar 18,2011 06:46

      Muy bueno, funciona perfecto.

    15. Reply Hosting Jan 24,2012 20:16

      Saludos,

      Los archivos los guarda en el directorio que te escuentres en el SSH, para cambiar cd NombreCarpeta

    16. Reply oswaldo Dec 1,2012 13:06

      una pregunta
      Espero me puedan ayudar porque es para el lunes 3 de diciembre del 2012

      Es para un examen y no se como hacerlo solo nos dijo el profesor que es lo que se iba hacer.

      Reubicacion de un sitio web ajustando las referencias href.
      1.-Considerando un sitio Web, descargar el sitio completo a un directorio local mediante el comando wget. Y mediante un script de su autoría realizar las siguientes operaciones:

      1.1.-Crear un directorio independiente para cada tipo de contenido: imágenes gif, imágenes jpeg, etc, vídeos avi, vídeos mpg, etc, audio mp3, audio wav, etc., contenido web (HTML, javascript, etc).

      1.2.-Una vez que se ha reubicado cada uno de estos contenidos, llevar a cabo el ajuste de las referencias hacía las ubicaciones locales de cada recurso del sitio.

      1.3.-Activar un servidor Web, y configurar el directorio raíz en donde se encuentra el respaldo del sitio Web como el directorio root del servidor Web local.

      1.4.-Nota: el comando wget solo se podrá usar con las opciones siguientes:
      –recursive
      –domains
      –page-requisites
      Si por alguna razón son necesario mas comandos, utilizar los necesarios.

    17. Reply wiggin Feb 9,2013 04:39

      esta muy bien, pero te has olvidado de explicar la opcion k, para poder navegar en la pagina des en local sin tener acceso a internet

    Comentario, Preguntas o agradecimientos?

    %d bloggers like this: