HTTrack lädt viel zu viel herunter

vom 03.08.2011, 10:19 Uhr

Ich nutze immer HTTTrack, um mir einfach LInks und eben gleich ein paar Artikel von den Websiten herunterzuladen. Eigentlich klappt das auch immer recht gut, aber ich habe eben immer das Problem, dass ich mir beinahe das ganze World Wide Web auf meinen Computer lade, sofern ich denn nicht den Abbrechen-Knopf drücke. Denn in den Einstellungen muss einfach irgend ein Fehler versteckt sein, aber ich kann ihn nicht finden.

Ich bin mir sicher, dass ich doch irgendwo einstellen kann, wie viele Links ich noch einstellen kann. Also das bedeutet, wieviele Links das Ganze denn im Endeffekt herunterlädt. Aber ich habe beinahe die kompletten Einstellungen durchforstet und bin zu keinerlei Ergebnis gekommen. Kann jemand die richtigen Einstellungen hier posten? Ich würde einfach gerne die ersten Links herunterladen und danach eben noch einen weiteren Link auf den jeweiligen Seiten, aber nicht mehr. Im Moment ist es eben falsch eingestellt, sodass ich immer noch einen und dann wieder noch einen Link herunterlade. Was mache ich falsch bei dem Programm? Ich möchte nämlich nicht immer manuell vorgehen, um den ganzen Prozess zu beenden.

Benutzeravatar

» fcbtill » Beiträge: 4713 » Talkpoints: 21,47 » Auszeichnung für 4000 Beiträge



Standardmäßig lädt das Programm gar keine externen Webseiten und beschränkt sich auf eine möglichst vollständige Kopie der Startdomain - eingeschränkt nur durch die Option "Maximum mirroring depth", welche festlegt wieviele Folgeseiten noch nach Links durchsucht und geladen werden sollen. Dabei handelt es sich natürlich um ein exponentiales Wachstum und dies trifft auch auf die Option "Maximum external depth" zu, was möglicherweise dazu führt, dass du "beinahe das ganze World Wide Web" lädtst ;)

Unter -> set Options und dem Registerblatt "Limits" kannst du die beiden bereits angesprochenen Einstellungen für dein aktuelles Projekt tätigen. Normalerweise steht die mirroring depth für externe Links auf 0, diese Option wird nur dann umgangen, wenn eine bestimmte Webseite in den Filter-Optionen (Registerblatt "Scan Rules") speziell festgelegt wurde. Mit einer Filter-Tiefe von externe Links 1 werden alle externen Links aufgerufen und gespeichert, die irgendwo auf den "internen" Seiten der Start-Domain vorhanden sind.

Aber auch das kann sehr viel Traffic verursachen: stelle dir mal vor, du willst das deutsche Wikipedia komplett lokal speichern, dann musst du in diesem Fall neben 1,2 Millionen Artikeln und einer Vielzahl an Grafiken auch noch mit etwa 20 Millionen internen Links und mehreren Millionen externen Referenzen (ich rechne in diesem Beispiel mit mindestens 5 Mio) rechnen.

Wie du also sehen kannst, ist so ein Web-Grabber nicht immer problemlos zu bedienen, denn durch die große Anzahl an Links kann ein einfaches Projekt in einen Monsterdownload ausarten. Mein Tipp wäre, die externen Links auf die bereits erwähnte Tiefe von 1 zu beschränken und wenn auch das noch zuviel ist, dann fügst die nicht benötigten externen Seiten in die Filterliste hinzu.

Benutzeravatar

» Reaper » Beiträge: 576 » Talkpoints: 1,11 » Auszeichnung für 500 Beiträge


Das hat alles ganz gut geklappt mit dem Download. Allerdings habe ich nun eben das Problem, dass die Linktiefe eben auch noch nicht wirklich ausreicht, sodass ich es dann doch eher mit der Linktiefe 2 versuchen werde, denn damit habe ich dann auch noch ein wenig mehr Tiefe bei den Seiten, die ich herunterlade. Dafür nehme ich dann auch schon einmal die längere Wartezeit und die größeren Mengen in Kauf, aber du hast natürlich Recht, wenn man sich an Projekte wie die deutsche Wikipedia heranmacht, dann kann das eher zu einem unerwünschten Ergebnis führen, das stimmt.

Benutzeravatar

» fcbtill » Beiträge: 4713 » Talkpoints: 21,47 » Auszeichnung für 4000 Beiträge



Ähnliche Themen

Weitere interessante Themen

^