Suchmaschine, die sich nicht an Metatags und robots.txt hält

vom 11.10.2007, 16:41 Uhr

Hallo
kennt jemand eine Suchmaschine, die wirklich alle Seiten indexiert, die ihr unter den Nagel kommen? Quasi auch, wenn diese in der robots.txt oder in den Metatags sagen, dass die Seite nicht indexiert werden soll?
bzw. gibt es eine andere Möglichekeit, den Inhalt einer Seite zu durchsuchen?

wäre toll, wenn jemand so etwas kennt und es mir mitteilen könnte.
mfg Schmiedl

Benutzeravatar

» Schmiedl » Beiträge: 101 » Talkpoints: -0,17 » Auszeichnung für 100 Beiträge



Also eine Suchmaschine die alle Seiten indexiert wirst Du nicht finden, das schafft selbst Google nicht (liegt wohl daran dass Google beim Indexieren in letzter Zeit etwas schläft, sollten mal ihre Serverfarmen ausbauen) - und bestimmte Seiten können sich auch dagegen schützen, so findet man z. B. ein anderes Forum in dem ich aktiv bin über keine einzige Suchmaschine :wink:. Aber die wollen auch nicht so bzw. überhaupt gefunden werden.

Ansonsten kannst Du alternativ zu Google auf Webcrawler und WebSpider oder auch nur Crawler und Spider ausweichen, die aber oft genug auch von Google selbst benutzt werden. Nur die bauen auch auf der robots.txt und Meta Tags auf. Aber nicht alle Crawler halten sich an dieses Protokoll :wink:. Es gibt noch fokussierte Crawler, welche aber jede Menge Kinderkrankheiten haben und nicht wirklich zufriedenstellende Ergebnisse liefern.

Ansonsten könnte man solche Seiten nur noch über Harvester, Wrapper oder Software Agents finden. Oder auch MetaSuchmachinen, wie MetaGer.de, MetaGer2.de, Metacrawler.com oder Metacrawler.de finden - die kombinieren einfach alle anderen Suchmaschinen und Suchmethoden, jedoch kommt da auch viel Müll.

Benutzeravatar

» Subbotnik » Beiträge: 9308 » Talkpoints: -7,05 » Auszeichnung für 9000 Beiträge


der Zusatz "die ihr unter den Nagel kommen" ist durchaus mit Hintergrund geschrieben worden ;)

danke für die Antwort schonmal.

Dann präzisieren wir das ganze ein bischen: wie kann ich eine Seite durchsuchen, die nicht in Suchmaschinen indexiert wurde? gibt es da möglichkeiten? z.B: auf dem Server erstellte Verzeichnisse und Datein herauszufinden, auf die auf der Hauptseite nicht gelinkt wird.

mfg Schmiedl

Benutzeravatar

» Schmiedl » Beiträge: 101 » Talkpoints: -0,17 » Auszeichnung für 100 Beiträge



Wenn Du die Seite weißt, dann über den Index (der Seite) bzw. den Pfad, kann man auch erzwingen, diesen aufzurufen - wenn nicht, wird es sehr schwer, bzw. mit gängigen Suchmaschinen fast unmöglich, da es sich wie bei Rapid share verhält. Hier haben dann nur Leute Zutritt, die Kenntnis haben.

Und das was ich noch an Möglichkeiten kenne, bewegt sich außerhalb des legalen Rahmens, da man hier mehr oder weniger "in fremde Netzte eindringen" muss, was illegal ist.

Benutzeravatar

» Subbotnik » Beiträge: 9308 » Talkpoints: -7,05 » Auszeichnung für 9000 Beiträge



Dachte ich mir schon, dass man da schnell in die nicht mehr legalen Bereiche abschweift.
Wie kann man diesen Pfad erzwingen? Das ganze kann man warscheinlich nicht machen, wenn Verzeichnisse auf dem Server nicht öffentlich zugänglich sind oder?

mfg Schmiedl

Benutzeravatar

» Schmiedl » Beiträge: 101 » Talkpoints: -0,17 » Auszeichnung für 100 Beiträge


Ähnliche Themen

Weitere interessante Themen

^