Die Blinde Kuh - Suchmaschine für Kinder
Die Suchmaschine für Kinder - ©1997 Birgit Bachmann und Stefan R. Müller
Informationen zur Blinden Kuh : Unsere Robots
BK Startseite (www.blinde-kuh.de)
BK Informationen
Impressum
 

Das robot-basierende System der Blinden Kuh

Ein Großteil der Einträge in der Suchmaschine erfolgt manuell.

Einen attraktiven und vor allem aktuellen und auch umfangreichen Suchraum so aufbauen zu wollen, kann man natürlich des Aufwandes wegen vergessen. 

Aus diesem Grunde werden Teile des Suchraumes über vertrauliche Websites automatisch und regelmäßig zusammengesetzt. Jede dieser Websites ist meist höchst individuell aufgebaut, so dass ein Standard-Crawler keine Chance hätte, sich da durchzuwühlen. Aus diesem Grund enthält die Blinde Kuh meist mehr Seiten von speziellen Sites, als Standard-Crawler-Systeme und weniger Seiten, wie etwa Forenbeiträge und solche Dinge.

Siehe auch: Schnittstellen der Blinden Kuh
 

Grobe Funktionsweise

Ausgehend einer oder gar mehreren Index-Dateien (Startseite oder Inhaltsverzeichnis) liest ein solcher BK-Robot sämtliche Einträge (Links) auf dieser Seite ein, zieht dabei alle Urls, die in einem bestimmten Wunschverzeichnis liegen, heraus, und sammelt diese in einer Tabelle. Dabei wird teils seitenweise auch weitergeblättert, wenn sich das Inhaltsverzeichnis auf mehreren Seiten befindet, oder auch schon mal den internen Links gefolgt. Je nachdem, wie es im Einzelfall Sinn macht. Das Verfahren kann man Crawling nennen.

In einem zweiten Schritt werden dann die Seiten jeder einzelnen ermittelten Url abgeholt, und analysiert. Je nach Quellserver werden dabei die Angaben für den Titel, die Beschreibung, die Stichworte, das Erstellungsdatum, und andere Daten ermittelt. Alles zusammen wird dann in die schon genannte Tabelle geschrieben, die so ähnlich aussieht, wie die händisch erstellten Tabellen der redaktionellen Verschlagwortung. Dieses Verfahren kann man Indexing nennen.

Um nicht dauernd die selben Seiten zu holen, werden die Einträge gespeichert und je nachdem nur neue Urls entsprechend besucht. Dieses Verfahren kann man Caching nennen.

Bevor es in den Suchraum geht, werden diese automatisch generierten Tabellen genauso wie die redaktionell erstellen Tabellen, mit ein wenig "Intelligenz" erweitert. Etwa was die Zuordnung von Mehrzahl/Einzahl oder Oberbegriff/Unterbegriff betrifft, oder eine Englische Übersetzung, um die Trefferwahrscheinlichkeit nachher bei der Suchmaschine zu erhöhen. Dieses Verfahren nennen wir Stemming.

Wenn das alles dann hübsch fertig ist, werden die Einträge in den Tabellen in die Datenbank der Suchmaschine geschoben. Einträge die nicht mehr sind, weil etwa die Seiten dazu nicht mehr existierten, werden in der Datenbank automatisch gelöscht.

In einem weiteren Verfahren, werden alle Einträge in der Datenbank in regelmäßigen Abständen besucht, um den Status der Seiten zu überprüfen. Dabei werden die dazugehörigen Seiten formal nach Gültigkeit geprüft, aber auch einige inhaltlichen Analysen erfolgen, um möglichst schnell inhaltlich bedenklich gewordene Seiten zu erkennen. Schließlich ist das eine Suchmaschine für Kinder. Dieses Verfahren nennen wir Checking.

 

Technische Daten

Die Robots sind in Perl geschrieben, das ist nicht sonderlich fix, aber fix genug, um ihre Aufgaben zu lösen. Bei der Analyse der Seiten, also dem Checking, werden auch komplexe Seiten berücksichtigt, etwa FrameSets oder Serverweiterleitungen. Nur unter bestimmten Bedingungen werden Angaben in Javascript wahrgenommen. Nicht interpretiert werden Inhalte von Flash-Applikationen, da sie auch wenig Sinn machen. Also, rein HTML, XML oder andere Standard-Text-Formate. Die Robots sind Eigenentwicklung der Blinden Kuh.

Der Robot Sendet an den Server folgende Daten:

HTTP_USER_AGENT = blinde-kuh/x.xx (Versionsnummer)
HTTP_OWNER = http://www.blinde-kuh.de/robots.html (Adresse dieser Seite hier)

Diese Angaben müssten in der Logfile des Servers auftauchen, es sei denn, er ist nicht entsprechend konfiguriert.

Weitere Angaben:

TIMEOUT = 7 sec (variiert je nach Quellserver)
MAXSIZE = 100000 Bytes (variiert je nach Quellserver)

Je nach Quellserver werden die einzelnen Robots in bestimmten Zyklen gestartet. So laufen z.b.: alle Stunde die Robots, die Aktuelle Nachrichten einsammeln sollen. Ein mal am Tag laufen die Robots, die Glossare, und Tipps (etwa Basteltipps oder Buchbesprechungen) einsammeln. Einmal in der Woche starten die Robots, die ganze Archive auslutschen.

Es gibt natürlich eine Begrenzung in der Anzahl der zu crawlenden Urls, damit sich das Ganze nicht totläuft.

Es gibt bei der Blinden Kuh nur ein gezieltes Crawlverhalten, also keine WildCrawls. Gecrawlt werden nur Sites, die für den Suchraum der Blinden Kuh einen Mehrwert darstellen. Da das Crawlen auf Vereinbarungen mit den jeweiligen Contentanbieter basieren, hält der Crawler sich nicht unbedingt an die Robots Exclusions. Eine robots.txt oder Anweisungen in den Metatags der Webseiten werden bei dem kontrollierten Crawlverfahren nicht berücksichtigt.

Alle sich im Dienst befindlichen Robots der Blinden Kuh sind Handanfertigungen und berücksichtigen eine optimale Indexierung der besuchten Quellserver. Diese Arbeit erfolgt ehrenamtlich seitens der Blinden Kuh, um den Suchraum der Blinden Kuh ein Stückchen kompetenter für die Suchanfragen von Tausenden von Kindern täglich zu machen. Im Gegenzug kommen die jeweiligen Anbieter der Blinden Kuh insoweit entgegen, dass sie ihr spezielle Schnittstellen ermöglicht, die es erlauben, ein Parsing der Webseite (Inhaltliche Erkennung an den vorgegebenen Strukturen) nicht allzu intelligent und selbstdenkend oder gar hellsehend werden zu lassen.

Ein Anspruch auf diese Methoden, um in den Suchraum der Blinden Kuh zu gelangen, besteht nicht. Ebenso kann man diesen Anspruch auch nicht erkaufen.

Beispiel-Angebote, die so in den Suchraum der Blinden Kuh gebracht werden, sind:

Ansprechpartner für die Robots der Blinden Kuh ist 

Stefan R. Müller
maschinist@blinde-kuh.de

 
Meinungen Presse Seiten Anmelden
Über die Blinde Kuh
Impressum
Blinde Kuh
Spiele
Kids-E-Zine
Kinder-Post
Kinder-Küche
Die Blinde Kuh - Erste deutschsprachige Suchmaschine speziell für Kinder
www.blinde-kuh.de © 1997-2003 Birgit Bachmann und Stefan R. Müller