Screaming Frog SEO Spider : comment crawler plus de 150 000 URLs ?

La version gratuite de Screaming Frog SEO Spider est limitée à 500 urls.
La version payante n’a pas de limite, mais dans la pratique il est bien difficile de dépasser 150 000 URLs.
Si votre bécane est en 64 bits, vous pouvez crawler beaucoup plus d’URLs
Etape 1 – Java 64 Bits

Etape 2 – Edition du fichier de configuration de Screaming Frog

  • Lancer un éditeur de fichier type Notepad ou Notepad++ (un éditeur qui fait des merveilles) en mode Administrateur : clic droit sur Notepad ou autre puis « Executer en tant qu’Administrateur »
  • Editer le fichier de configuration Screaming Frog, qui se trouve dans le même répertoire que le fichier exe (probablement C:\Program Files (x86)\Screaming Frog SEO Spider )
  • Modifier la quantité de RAM à allouer.
  • Sauvegarder.

Etape 3 – Vérification

  • Lancer Screaming Frog
  • Help -> Debug
  • La quantité de mémoire devrait être précisée

Etape 4

  • Enjoy 🙂
  • En cas de problème, RTFMG 🙂

PS : Si votre site est vraiment trop gros, pensez à l’analyse de logs avec Kelogs.

5 réflexions au sujet de « Screaming Frog SEO Spider : comment crawler plus de 150 000 URLs ? »

  1. Ça marche théoriquement mais en pratique on se rend compte que même avec ces paramètres il est difficile de dépasser 200 000 URLs. Il faut un ordi avec au moins 16Go de Ram. Je loue sur AWS les machines avec 32Go et là, j’ai crawlé 1 300 000 URLs. Par contre les fichiers d’export (csv ou xls) ne s’ouvrent plus 😉 Il faut utiliser les regex.

    1. Hello Alexandre,

      Je te confirme qu’il faut beaucoup de RAM 🙂

      J’ai réussi à crawlé 700 000 URL, dont 400 000 en HTML, avec 8Go de RAM, et une limitation à 4500 M dans Screaming Frog.
      La grenouille était stable pour crawlé, j’ai pu sauvegardé le tout.
      L’exploitation des data est quant à elle un peu hasardeuse, ça plante trop souvent…

      Je viens d’investir dans un portable avec 16 G de RAM, je te dirai quoi 🙂

      1. Bon, j’ai stoppé le crawl à 500 000 URLs, ça fonctionnait bien, export CSV ok.
        J’ai ensuite sauvegardé le crawl et tenté de recharger… et là ça plante.
        SAV informé. Réponse après quelques échanges : ils préparent quelque chose pour les sites à gros volume de pages 😉

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *