Comment utiliser la commande wget Linux pour télécharger des pages Web et des fichiers
ce qu’il faut savoir
- Pour télécharger le site complet, utilisez la commande suivante et l’URL du site : wget-r [site address]
- Pour exécuter wget en arrière-plan, utilisez : wget-b [site address]
Caractéristiques de la commande wget
Vous pouvez télécharger le site entier avec wget Et convertissez les liens vers des ressources locales afin de pouvoir consulter le site hors ligne. L’utilitaire wget réessaye également le téléchargement lorsque la connexion est perdue et reprend là où il s’était arrêté lorsque la connexion revient, si possible.
Les autres fonctions de wget sont les suivantes :
- Téléchargez des fichiers via HTTP, HTTPS et FTP.
- Le téléchargement continue.
- Convertissez les liens absolus des pages de téléchargement en URL relatives afin que le site Web puisse être consulté hors ligne.
- Les proxys HTTP et les cookies sont pris en charge.
- Les connexions HTTP persistantes sont prises en charge.
- Il peut s’exécuter en arrière-plan même si vous n’êtes pas connecté.
- Disponible pour Linux et Windows.
Comment utiliser wget pour télécharger un site Web
L’utilitaire wget utilise la ligne de commande Linux pour télécharger des pages Web, des fichiers et des images à partir du Web. Vous pouvez utiliser une seule commande wget pour télécharger à partir d’un site ou définir un fichier d’entrée pour télécharger plusieurs fichiers sur plusieurs sites.
Selon la page de manuel, wget peut être utilisé même si l’utilisateur est déconnecté du système. Pour ce faire, utilisez la commande nohup.
Pour ce guide, vous apprendrez comment télécharger ce blog Linux :
wget www.everydaylinuxuser.com data-type= »code »>
Avant de commencer, utilisez la commande mkdir pour créer un dossier sur votre machine, puis utilisez la commande cd pour vous déplacer dans le dossier.
Par exemple:
mkdir dailylinuxuser
cd dailylinuxuser
wget www.everydaylinuxuser.com data-type= »code »>
Le résultat est un fichier index.html dont le contenu est extrait de Google. Les images et les feuilles de style sont conservées sur Google.
Pour télécharger le site complet et toutes les pages, utilisez la commande suivante :
wget -r www.everydaylinuxuser.com data-type= »code »>
Cela télécharge les pages de manière récursive, jusqu’à un maximum de 5 couches. Cinq niveaux de profondeur peuvent ne pas être suffisants pour tout obtenir d’un site.utiliser -l commutateur pour définir le nombre de niveaux que vous souhaitez atteindre, comme suit :
wget -r -l10 www.everydaylinuxuser.com data-type= »code »>
Si vous voulez récurser à l’infini, utilisez cette commande :
wget -r -l inf www.everydaylinuxuser.com data-type= »code »>
Vous pouvez également remplacer information et 0Ça veut dire la même chose.
j’ai encore une question. Vous pouvez obtenir toutes les pages localement, mais les liens dans les pages pointent vers l’emplacement d’origine. Impossible de cliquer nativement entre les liens d’une page.
Pour résoudre ce problème, utilisez -k Basculez pour convertir les liens de la page en liens équivalents aux téléchargements locaux, comme ceci :
wget -r -k www.everydaylinuxuser.com data-type= »code »>
Si vous souhaitez obtenir un miroir complet d’un site Web, utilisez le commutateur ci-dessous, il supprime le besoin d’utiliser -r, -ket -l changer.
wget -m www.everydaylinuxuser.com data-type= »code »>
Si vous avez un site Web, vous pouvez effectuer une sauvegarde complète avec cette simple commande.
Exécutez wget en tant que commande d’arrière-plan
Vous pouvez exécuter wget en tant que commande d’arrière-plan afin de pouvoir continuer à travailler dans la fenêtre du terminal pendant le téléchargement du fichier. Utilisez les commandes suivantes :
wget -b www.everydaylinuxuser.com data-type= »code »>
Vous pouvez combiner des commutateurs. Pour exécuter la commande wget en arrière-plan lors de la mise en miroir du site, utilisez la commande suivante :
wget -b -m www.everydaylinuxuser.com data-type= »code »>
Vous pouvez encore simplifier comme ceci :
wget -bm www.everydaylinuxuser.com data-type= »code »>
enregistrement
Si vous exécutez la commande wget en arrière-plan, vous ne verrez aucun message normal qu’elle envoie à l’écran. Pour envoyer ces messages dans un fichier journal afin que vous puissiez vérifier la progression à tout moment, utilisez la commande tail.
Pour afficher les informations de la commande wget dans un fichier journal, utilisez la commande suivante :
wget -o /path/to/mylogfile www.everydaylinuxuser.com data-type= »code »>
Au contraire, il n’y a pas besoin d’enregistrer du tout, et pas besoin de sortir à l’écran. Pour omettre toutes les sorties, utilisez la commande suivante :
wget -q www.everydaylinuxuser.com data-type= »code »>
Télécharger à partir de plusieurs sites
Vous pouvez configurer un fichier d’entrée à télécharger à partir de nombreux sites différents. Ouvrez le fichier avec votre éditeur préféré ou la commande cat et listez le site ou le lien à télécharger sur chaque ligne du fichier. Enregistrez le fichier, puis exécutez la commande wget suivante :
wget -i /path/to/inputfile data-type= »code »>
Il est peu probable que vous souhaitiez télécharger un site Web entier, autre que de sauvegarder votre site Web ou de trouver quelque chose à télécharger pour une lecture hors ligne. Vous êtes plus susceptible de télécharger une seule URL contenant une image ou de télécharger des fichiers tels que des fichiers zip, des fichiers ISO ou des fichiers image.
Dans cet esprit, vous n’avez pas besoin de saisir ce qui suit dans le fichier d’entrée, car cela prend du temps :
- http://www.myfileserver.com/file1.zip
- http://www.myfileserver.com/file2.zip
- http://www.myfileserver.com/file3.zip
Si vous savez que l’URL de base est la même, spécifiez ce qui suit dans le fichier d’entrée :
- fichier 1.zip
- fichier 2.zip
- fichier3.zip
Vous pouvez ensuite fournir l’URL de base dans le cadre de la commande wget comme ceci :
wget -B http://www.myfileserver.com -i /path/to/inputfile data-type= »code »>
options de nouvelle tentative
Si vous configurez une file d’attente de fichiers à télécharger dans le fichier d’entrée et laissez l’ordinateur fonctionner pour télécharger le fichier, le fichier d’entrée peut se bloquer et réessayer le téléchargement pendant votre absence. Vous pouvez spécifier le nombre de tentatives avec les commutateurs suivants :
wget -t 10 -i /path/to/inputfile data-type= »code »>
Combinez la commande ci-dessus avec -T La bascule spécifie un délai d’attente en secondes, comme suit :
wget -t 10 -T 10 -i /path/to/inputfile data-type= »code »>
La commande ci-dessus réessayera 10 fois et se connectera pendant 10 secondes pour chaque lien de fichier.
C’est également gênant lorsque vous téléchargez 75% d’un fichier de 4 Go sur une connexion haut débit lente, simplement déconnectée. Pour utiliser wget pour réessayer à partir de l’endroit où le téléchargement s’est arrêté, utilisez la commande suivante :
wget -c www.myfileserver.com/file1.zip data-type= »code »>
Si vous touchez le serveur, l’hôte peut ne pas l’aimer et bloquer ou tuer votre demande. Vous pouvez spécifier un temps d’attente pour spécifier le temps d’attente entre chaque récupération, comme suit :
wget -w 60 -i /path/to/inputfile data-type= »code »>
La commande ci-dessus attend 60 secondes entre chaque téléchargement. Ceci est utile si vous téléchargez de nombreux fichiers à partir d’une seule source.
Certains hébergeurs Web peuvent repérer la fréquence et vous bloquer. Vous pouvez randomiser le temps d’attente pour donner l’impression que vous n’utilisez pas le programme comme ceci :
wget –random-wait -i /path/to/inputfile data-type= »code »>
Protéger les restrictions de téléchargement
De nombreux fournisseurs de services Internet imposent des limites de téléchargement sur l’utilisation du haut débit, en particulier pour ceux qui vivent en dehors des villes. Vous devrez peut-être ajouter un quota pour éviter de dépasser la limite de téléchargement. Vous pouvez le faire en :
wget -q 100m -i /path/to/inputfile data-type= »code »>
Ce -q La commande ne fonctionne pas sur un seul fichier.Si votre fichier téléchargé fait 2 Go, utilisez -q 1000 mètres Les téléchargements de fichiers ne sont pas bloqués.
Les quotas ne sont appliqués que lors du téléchargement récursif à partir d’un site ou de l’utilisation de fichiers d’entrée.
par sécurité
Certains sites Web nécessitent que vous vous connectiez pour accéder au contenu que vous souhaitez télécharger. Utilisez les commutateurs suivants pour spécifier le nom d’utilisateur et le mot de passe.
wget –user=votrenom d’utilisateur –password=votremotdepasse data-type= »code »>
Sur un système multi-utilisateurs, lorsque quelqu’un exécute ps commande, ils peuvent voir votre nom d’utilisateur et votre mot de passe.
Autres options de téléchargement
par défaut, -r switch télécharge récursivement du contenu et crée des répertoires. Pour télécharger tous les fichiers dans un seul dossier, utilisez les commutateurs suivants :
wget -nd -r datatype= »code »>
Le contraire consiste à forcer la création d’un répertoire, ce qui peut être réalisé avec la commande suivante :
wget -x -r datatype= »code »>
Comment télécharger certains types de fichiers
Si vous souhaitez télécharger de manière récursive à partir d’un site, mais que vous ne souhaitez télécharger que des types de fichiers spécifiques, tels que des images telles que MP3 ou PNG, utilisez la syntaxe suivante :
wget -A « *.mp3 » -r type de données= »code »>
Le contraire est d’ignorer certains fichiers. Peut-être que vous ne voulez pas télécharger l’exécutable. Dans ce cas, utilisez la syntaxe suivante :
wget -R « *.exe » -r type-de-données= »code »>
Craigie
Il existe un module complémentaire Firefox appelé cliget. Pour l’ajouter à Firefox :
-
Visitez https://addons.mozilla.org/en-US/firefox/addon/cliget/ et cliquez ajouter à firefox bouton.
-
Cliquez sur Installer apparaît, puis redémarrez Firefox.
-
Pour utiliser cliget, visitez la page ou le fichier que vous souhaitez télécharger et faites un clic droit.Un menu contextuel appelé cliget apparaît et des options sont disponibles pour copier wget et copier pour boucler.
-
Cliquez sur copier dans wget option, ouvrez une fenêtre de terminal, puis cliquez avec le bouton droit et sélectionnez pâteLa commande wget appropriée est collée dans la fenêtre.
Cela vous évite d’avoir à taper les commandes vous-même.
généraliser
La commande wget a plusieurs options et commutateurs. Pour lire la page de manuel de wget, saisissez ce qui suit dans une fenêtre de terminal :
homme wget
class= »syntaxe-ql »>
Merci de nous en informer!
Dites-nous pourquoi !
D’autres détails ne sont pas assez difficiles à comprendre