|
Technische Daten
Die
Robots sind in Perl geschrieben, das ist nicht sonderlich fix, aber fix
genug, um ihre Aufgaben zu lösen. Bei der Analyse der Seiten, also dem
Checking, werden auch komplexe Seiten berücksichtigt, etwa FrameSets
oder Serverweiterleitungen. Nur unter bestimmten Bedingungen werden
Angaben in Javascript wahrgenommen. Nicht interpretiert werden Inhalte
von Flash-Applikationen, da sie auch wenig Sinn machen. Also, rein
HTML, XML oder andere Standard-Text-Formate. Die Robots sind
Eigenentwicklung der Blinden Kuh.
Der
Robot Sendet an den Server folgende Daten:
HTTP_USER_AGENT
= blinde-kuh/x.xx (Versionsnummer)
HTTP_OWNER =
http://www.blinde-kuh.de/robots.html
(Adresse dieser Seite hier)
Diese
Angaben müssten in der Logfile des Servers auftauchen, es sei denn, er
ist nicht entsprechend konfiguriert.
Weitere
Angaben:
TIMEOUT
= 7 sec (variiert je nach Quellserver)
MAXSIZE = 100000 Bytes (variiert je nach Quellserver)
Je
nach Quellserver werden die einzelnen Robots in bestimmten Zyklen
gestartet. So laufen z.b.: alle Stunde die Robots, die Aktuelle
Nachrichten einsammeln sollen. Ein mal am Tag laufen die Robots, die
Glossare, und Tipps (etwa Basteltipps oder Buchbesprechungen)
einsammeln. Einmal in der Woche starten die Robots, die ganze Archive
auslutschen.
Es
gibt natürlich eine Begrenzung in der Anzahl der zu crawlenden Urls,
damit sich das Ganze nicht totläuft.
Es
gibt bei der Blinden Kuh nur ein gezieltes Crawlverhalten, also keine
WildCrawls. Gecrawlt werden nur Sites, die für den Suchraum der
Blinden Kuh einen Mehrwert darstellen. Da das Crawlen auf
Vereinbarungen mit den jeweiligen Contentanbieter basieren, hält der
Crawler sich nicht unbedingt an die Robots Exclusions. Eine robots.txt
oder Anweisungen in den Metatags der Webseiten werden bei dem
kontrollierten Crawlverfahren nicht berücksichtigt.
Alle
sich im Dienst befindlichen Robots der Blinden Kuh sind
Handanfertigungen und berücksichtigen eine optimale Indexierung der
besuchten Quellserver. Diese Arbeit erfolgt ehrenamtlich seitens der
Blinden Kuh, um den Suchraum der Blinden Kuh ein Stückchen kompetenter
für die Suchanfragen von Tausenden von Kindern täglich zu machen. Im
Gegenzug kommen die jeweiligen Anbieter der Blinden Kuh insoweit
entgegen, dass sie ihr spezielle Schnittstellen ermöglicht, die es
erlauben, ein Parsing der Webseite (Inhaltliche Erkennung an den
vorgegebenen Strukturen) nicht allzu intelligent und selbstdenkend oder
gar hellsehend werden zu lassen.
Ein
Anspruch auf diese Methoden, um in den Suchraum der Blinden Kuh zu
gelangen, besteht nicht. Ebenso kann man diesen Anspruch auch nicht
erkaufen.
Beispiel-Angebote,
die so in den Suchraum der Blinden Kuh gebracht werden, sind:
Ansprechpartner
für die Robots der Blinden Kuh ist
Stefan
R. Müller
maschinist@blinde-kuh.de
|