Aspirateur de site

Installation, configuration et utilisation des logiciels que vous souhaitez installer.
Malynou
Messages : 264
Enregistré le : mar. 13 sept. 2016 06:05

Re: Aspirateur de site

Message par Malynou »

Dernier message de la page précédente :

Non non.
Je voudrais récupérer le site avec ses docs etc que je pourrais consulter en local.
Mais là, ça semble pas prendre les "données". Juste le "contenant".
:cry:
PC 1 : DELL Latitude E4310 | Linux Mint 21.3 Virginia | Cinnamon 6.0.4 | 5.15.0-94-generic x86_64 | dual core Intel Core i5 M 560 | 3 Go | Intel Core Processor Integrated Graphics
PC 2 : HP Pavilion dv5 Notebook | Linux Mint 21.3 Virginia | Cinnamon 6.0.4 | 5.15.0-92-generic x86_64 | dual core AMD Turion X2 Ultra | 3 Go | AMD RV620/M82 [Mobility Radeon HD 3450/3470]

mpedro
Messages : 1517
Enregistré le : dim. 8 nov. 2015 22:13
Contact :

Re: Aspirateur de site

Message par mpedro »

Malynou ta demande n'est pas assez précise. Si les docs correspondent à des renvois de liens externes au site ça n'est pas possible. Tu ne peux aspirer que les pages du site qui y sont hébergées liens ou pas liens. Comme en parle Arghlub.
Stretch 32bits cinnamon/Fedora25/Sarah
Compaq 8510p/MSI GE70/Raspberry Pi2

Malynou
Messages : 264
Enregistré le : mar. 13 sept. 2016 06:05

Re: Aspirateur de site

Message par Malynou »

Coucou les garçons !
Désolée, surbookage, ici avec l'assoc dont je fais partie.
Donc... C'est compliqué de donner de plus amples détails...
Ptêt un screenshot de ce que j'ai en ligne et de ce que je récupère en local vous aidera à m'aider (trop fort :lol: )
Voici donc, par exemple, ce que j'obtiens connectée :
Image
puis
Image
puis, en cliquant sur le premier cours "Subdivision des temps géologiques" :
Image

Et voici ce que j'ai réceptionné en local en premier cours "Subdivision des temps géologiques" : Image
C'est vide...

J'ai utilisé la commande

Code : Tout sélectionner

wget -r -p -l5 -k -E "http://adresse-du-site"
pour "aspirer".

Voilà voilà...

En espérant avoir été plus précise...

Belle journée à vous !
:B
PC 1 : DELL Latitude E4310 | Linux Mint 21.3 Virginia | Cinnamon 6.0.4 | 5.15.0-94-generic x86_64 | dual core Intel Core i5 M 560 | 3 Go | Intel Core Processor Integrated Graphics
PC 2 : HP Pavilion dv5 Notebook | Linux Mint 21.3 Virginia | Cinnamon 6.0.4 | 5.15.0-92-generic x86_64 | dual core AMD Turion X2 Ultra | 3 Go | AMD RV620/M82 [Mobility Radeon HD 3450/3470]

mpedro
Messages : 1517
Enregistré le : dim. 8 nov. 2015 22:13
Contact :

Re: Aspirateur de site

Message par mpedro »

Aspirer un logiciel site, plusieurs ont des scripts ou différentes méthodes pour éviter les aspirateurs mais c'est pas systématique. Essaie avec pas wget mais autre chose. Httrack il a été cité
Stretch 32bits cinnamon/Fedora25/Sarah
Compaq 8510p/MSI GE70/Raspberry Pi2

Avatar du membre
Christian_B
Messages : 438
Enregistré le : lun. 7 nov. 2016 10:44
Localisation : Paris

Re: Aspirateur de site

Message par Christian_B »

Malynou a écrit :Je voudrais récupérer le site avec ses docs etc que je pourrais consulter en local.
Mais là, ça semble pas prendre les "données". Juste le "contenant".
Je ne suis pas sûr de comprendre ce que tu appelles "les docs" d'un site ainsi que "les données" et "le contenant".
HTTrack a des possibilités de config multiples et subtiles (je n'ai pas tout compris et quelquefois j'y vais au radar). Mais les sites ont des structures et des réactions très diverses et il n'y a pas de recette miracle. Souvent par exemple les images et même certains fichiers html sont sur un domaine différent de la page d'origine. On se trouve souvent entre le risque de télécharger beaucoup trop (y compris les fichiers de divers sites auxquels renvoie le site d'origine pour des raisons de pub ou autres) et celui de ne pas avoir les fichiers que l'on veut. En pratique il faut d'abord regarder comment est fait un site, par exemple en examinant l''adresse à chaque étape dans un navigateur (y compris en faisant par exemple "Afficher l'image" si on cherche des images). Et souvent aller voir le code source d'une sélection de ce qu'on veut prendre.
Il peut être opportun de mettre plusieurs adresses de départ, par exemple une par page si un site a des pages chaînées par des boutons de type "suivant" sinon on devrait mettre une profondeur beaucoup trop grande pour passer d'une page à l'autre par HTTrack, avec un résultat souvent catastrophique. Ou encore de mettre dans la partie filtre des informations sur les domaines utilisés, etc.
La doc incorporée à HTTrack donne pas mal d'indications mais c'est rarement simple.
S'il s'agit d'un petit site "artisanal" où tout est sur un seul domaine et organisé dans une arborescence directe, ça peut marcher facilement avec un ou deux ajustements. Mais souvent il y a des complications : redirections, scripts, fichiers robots.txt (directives notamment pour les moteurs de recherche) et dans certains car des protections justement contre le chargement automatisé ...
Donc difficile de t'en dire plus sans savoir à quel genre de site tu penses.
Nota : en réalité il y a 3 versions différentes sous Linux :
- HTTrack (en mode commande, pas essayé, vu la complexité des option ce doit être infernal)
- HTTraQt : il réorganise localement les fichiers à sa manière tout en maintenant une hiérarchie et des fichiers html parfois très modifiés par rapport à ceux du site. Le plus pratique si le but est de charger des lots de fichiers. Celui que j'utilise d'habitude.
- WebHTTrack : Si j'ai bien compris il vise à créer un site local assez ressemblant au site (ou à la partie de site) parcouru. Pour autant pas identique puisque pas de php, etc comme indiqué dans les réponses précédentes. Je connais mal.
Linux Mint 21.3 Mate 1.26.0. Carte Gigabyte H81N.
Intel Core i7-4770 : 4x2 cœurs + Xeon E3-1200 (= circuit 4600), sans carte graphique.
Mémoire 8 Go Dual channel, SSD 120Go, HD 2To.
Les armes nucléaires sont interdites depuis le 22 janvier 2021. Y a plus qu'à ...

Répondre