Wie das Web funktioniert

von Stephen Turner

Original: How the web works
aus: Readme for Analog 5.32
Übersetzung: Thomas Stich

Dieser Artikel handelt davon was passiert, wenn jemand eine Website besucht, welche Spuren er dabei hinterlässt und welche er nicht hinterlässt. Dazu gibt es sehr unterschiedliche Annahmen. Nicht schuldlos daran sind Statistik-Programme, die Daten präsentieren, die überhaupt nicht bestimmt werden können, sondern nur auf vagen Vermutungen beruhen. Eine schlichte Tatsache ist, dass bestimmte Daten, die wir gerne hätten, einfach nicht zu erhalten sind. Und die Schätzungen einiger Programme sind nicht nur sehr grob, sondern können sehr, sehr falsch liegen. Ein Beispiel (warum wird unten beschrieben): wenn ein AOL-Benutzer eine Webseite besucht, die 10 Grafiken enthält, machen die meisten Statistik-Progamme daraus 11 unterschiedliche Besucher.

Dieser Artikel ist ziemlich lang, aber er ist es wert gelesen zu werden. Nur wer die Grundlagen versteht, wie das Web funktioniert, wird auch verstehen, was Web-Statistiken wirklich aussagen können.

1. Die Grundlagen

Nehmen wir an, ich besuche deine Website. Ich folgte einem Link irgendwo her auf deine Startseite, lese einige Seiten und folge dann einem Link weg zu einer anderen Site.

So, und was weisst du jetzt davon? Als erstes habe ich eine Anfrage (Request) nach deiner Startseite gemacht. Du kennst das Datum und die Zeit der Anfrage, die Seite die ich sehen wollte (na klar) und die Internet-Adresse meines Computers (meinen Host), an den die angeforderte Seite ausgeliefert wird. Wahrscheinlich habe ich dir auch die Seite angegeben, von der ich zu dir gelangt bin (Referrer), sowie den Namen und die Version meines Browsers und das Betriebssystem meines Computers. Ich habe dir nicht meinen Namen oder meine E-Mail-Adresse mitgeteilt.

Dann habe ich (oder vielmehr mein Browser) auf deiner Seite nachgeguckt, ob sie Bilder enthält. Wenn dem so ist und ich die Anzeige von Grafiken in meinem Browser nicht abgestellt habe, kontaktiere ich für jedes dieser Bilder erneut deinen Server. Ich bin nicht fest mit deiner Webseite verbunden: Ich stelle nacheinander mehrere Verbindungen her und mache meine Anfrage, eine für jede Datei die ich herunter laden will. Nach jeder Anfrage und Auslieferung der Datei ist die Verbindung wieder beendet. Die anfragende Seite, der Referrer, für jede dieser Grafiken ist dabei deine Startseite. Nehmen wir an, deine Seite enthält 10 Grafiken. Dann habe ich bis jetzt 11 einzelne Anfragen an deinen Server gerichtet. Dazu kommen weitere Anfragen, wenn die Seite externe Stylesheets, Scripte, Icons oder Applets verwendet.

Anschliessend verlasse ich die Startseite und besuche einige andere deiner Seiten. Für jede Seite und jede Grafik die sie enthält ergibt sich eine neue Anfrage. Irgendwann verlasse ich deine Site über einen Link woanders hin. Welcher Link und wann das ist, das erfährst du nicht. Ich klicke mich einfach von deiner Website weg ohne dass du es merkst.

2. Cache-Speicher

Doch ganz so einfach ist es noch nicht. Ein zusätzliches Problem ist das Cachen, das Zwischenspeichern. Es gibt zwei Hauptarten dieses Speicherns.

Zunächst einmal speichert mein Browser alle Dateien die er lädt. Wenn ich das nächste Mal, sagen wir am nächsten Tag, eine deiner Seiten wieder besuchen will, brauche ich sie und alle enthaltenen Grafiken nicht erneut aus dem Web herunter zu laden. Abhängig von der Konfiguration meines Browsers prüfe ich eventuell nur, ob die Seite unverändert ist. Dann gibt es nur eine einzige neue Anfrage an deinen Server. Oder mein Browser ist so eingestellt, dass er nicht auf Aktualisierungen prüft: dann stelle ich deine Seite aus meinem Cache heraus dar ohne dass du etwas davon erfährst.

Eine andere Art von Cache hat eine noch größere Bedeutung. Fast jeder ISP (Internet Service Provider, der Anbieter, der die Verbindung zum Internet herstellt) hat seinen eigenen Zwischenspeicher. Das bedeutet, wenn ich deine Webseite besuchen will und irgend jemand anderes hat sie über den selben ISP bereits kürzlich geladen, dann liegt sie bereits in dessen Cache und wird zu mir ausgeliefert, ohne dass dein Server etwas davon merkt. Auch das hängt von den Einstellungen meines Browsers und denen des Servers meines ISP ab. So können eventuell hunderte von Besuchern deine Webseite ansehen, obwohl sie nur einmal von deinem Server angefordert wurde.

3. Was du erfahren kannst

Die einzigen Dinge, die du sicher erfahren kannst, sind die Anzahl der Anfragen an deinen Server, wann sie gemacht wurden, nach welchen Dateien gefragt wurde und von welchen Hosts die Requests kamen.

Dann kannst du noch erfahren, was die Browser deiner Besucher von sich selbst und ihrem Betriebssystem behaupten und von welcher Seite sie angeben gekommen zu sein. Du solltest aber wissen, dass einige Browser ihre Identität verleugnen oder behaupten, ein anderer zu sein. Manche Benutzer können ihre Browserkennung sogar beliebig einstellen. Einige Browser melden falsche Referrer und behaupten von Seiten zu kommen auf denen sie vorher nicht waren (Referrer-Spam). Und es gibt Besucher die "Anonymisierer" benutzen, die grundsätzlich keine oder falsche Browser, Betriebssysteme und verweisende Seiten melden.

4. Was du nicht erfahren kannst

  • Du weisst nichts über die Identität deiner Besucher. Ausser wenn du für einen mit einem Passwort geschützten Bereich ausdrücklich diese Daten von deinen Besuchern erbittest, kannst du niemals wissen, wer dich besucht oder wie ihre E-Mail-Adresse ist. Und auch dann können die Angaben noch falsch sein.
  • Du weisst nicht, wie viele Besucher du hast. Du kannst die Zahl höchstens raten anhand der unterschiedlichen Hostnamen, die Dateien von deinem Server abrufen. Das ist genau das, was viele Pogramme angeben, wenn sie "Besuche" auf deiner Website melden. Doch das ist aus drei Gründen ein sehr ungenauer Schätzwert: Erstens können Besucher deine Seite aus einem Cache heraus aufrufen, davon erfährst du gar nichts. Zweitens können mehrere Besucher mit der selben Host-Adresse deine Seite besuchen, ohne das du das erkennen kannst, etwa Mitarbeiter einer Firma, die über einen gemeinsamen Router ins Internet gehen, eines ISP oder Benutzer des selben Cache-Servers. Und drittens melden sich einzelne Besucher unter verschiedenen Host-Adressen bei deinem Server. AOL zum Beispiel vergibt unterschiedliche Hostnamen für jeden Request (genauer: AOL benutzt für jeden Request unterschiedliche Proxy-Cache-Server, T.S.). Wenn ein AOL-Benutzer eine Webseite besucht, die 10 Grafiken enthält, machen die meisten Statistik-Progamme daraus 11 unterschiedliche Besucher.
  • Du weisst nicht, wie viele Besucher du hattest. Viele Programme, die dem Wunsch der Kunden (oder der Werbewirtschaft) nach einer genauen Besucherzahl nachkommen wollen, definieren einen "Besuch" (oder eine "Session") als eine Folge von Requests vom selben Host innerhalb einer bestimmten Zeit, etwa einer halben Stunde. Das ist aus mehreren Gründen eine sehr unsolide Methode. Erstens wird davon ausgegangen, dass ein Hostname mit einer eindeutigen Person in Verbindung gebracht werden kann und umgekehrt. Das ist, wie im letzten Abschnitt gezeigt, in der Realität einfach nicht der Fall. Zweitens wird davon ausgegangen, dass während des Besuchs einer Website keine halbstündige Pause erfolgt. Auch das ist, vor allem in Zeiten von Flatrate und Standleitungen, eine sehr zweifelhafte Aussage. Verfolgt man nicht oft einen externen Link zu einer anderen Website in einem neuen Browserfenster oder Tab und kehrt später zur ersten Seite zurück und liest dort weiter? Erledigt man nie zwischendurch ein wichtiges Telefongespräch? Ist es entscheidend, ob dieses 29 oder 31 Minuten dauert? Und schließlich gehen diese Programme davon aus, dass die Logdateien chronologisch sauber aufgebaut sind, was nicht immer der Fall ist.
  • Cookies lösen die Probleme nicht. Einige Sites zählen ihre Besucher mit Hilfe von Cookies. Das vermindert die Fehler. Aber es löst das Problem erst, wenn du deine Seite für Besucher sperrst, die keine Cookies akzeptieren können oder wollen. Und du hast keine Ahnung, was die User während des Besuchs mit ihrem Cookie alles machen.
  • Du kannst den Klickpfad der Besucher durch deine Website nicht verfolgen. Selbst wenn man eine 1-zu-1-Verbindung zwischen Host und Besucher annehmen würde, kannst du ihren Weg durch deine Site nicht nachvollziehen. Es ist üblich, auf Seiten zurück zu kehren, die man bereits besucht und geladen hat. Von diesen wiederholten Besuchen erfährst du nichts, denn sie werden aus dem Cache des Browsers geholt. Und schon ist der Klickpfad lückenhaft und unvollständig.
  • Du weisst oft nicht, auf welcher Seite ein Besucher deine Website betritt und warum er dort landete. Wenn er einen Zwischenspeicher benutzt, entweder den lokalen Cache oder einen Cache-Server, werden hier vor allem deine Startseite und einige oft besuchte Seiten bereit gehalten, nicht aber alle Unterseiten, die der Besucher vielleicht sehen will. Und so wird die erste Seite, die er anfordert, erst nach einiger Zeit des Aufenthalts auf deiner Site von deinem Server geladen.
  • Du weisst nicht, wie und wo der Besuch deine Website verlässt und wohin er dann geht. Der Klick auf einen externen Link wird deinem Server nicht gemeldet und du wirst es nie erfahren.
  • Du weisst nicht, wie lange ein Besuch sich auf einer Seite aufhält. Noch einmal, du kannst nicht fest stellen, wie viele Seiten zwischen zwei Requests besucht werden. Man kann Seiten lesen, die bereits früher geladen wurden und sich nun im Cache befinden. Man kann eine fremde Website aufrufen und später zurück kommen. Man kann zwischendurch eine Runde Minesweeper spielen. Du weisst es einfach nicht.
  • Du weisst nicht, wie lange sich ein Besuch insgesamt auf deiner Website aufhält. Neben all den bisher aufgeführten Problemen ist diese Frage der ganz grosse Spielverderber. Programme, die diese Angabe zu machen versprechen, benutzen die Zeit zwischen der ersten und der letzten Anfrage durch einen Host. Aber sie können nicht die Zeit angeben, die auf der letzten Seite verbracht wurde. Und diese Seite ist häufig der Hauptgrund für den ganzen Besuch.

5. Echte Daten

Natürlich ist die entscheidende Frage, wie stark diese Schwierigkeiten das Ergebnis von statistischen Aussagen verfälschen. In einem etwas älteren aber immer noch aktuellen Artikel (World Wide Web, 2, 29-45 (1999): PDF 228 KB) haben Peter Pirolli und James Pitkow vom Xerox Palo Alto Research Center dieses Problem mit Hilfe der Logdatei über 10 Tage von der Website von xerox.com untersucht. Eine ihrer Ausagen war, dass die am häufigsten verwendeten Methoden sehr unterschiedliche Ergebnisse hervor bringen. Als man zum Beispiel versuchte, die durchschnittliche Länge eines Besuchs zu bestimmen, bekam man Ergebnisse zwischen 137 und 629 Sekunden, je nachdem, wie man einen neuen "Besuch" definiert. Und dabei haben sie nur eine einzige Logdatei untersucht. Hätte man auch unterschiedliche Server-Konfigurationen und Cache-Einstellungen einbezogen, würden die Ergebnisse noch mehr differieren.

6. Schlussfolgerung

HTTP ist und bleibt ein zustandsloses Protokoll (stateless protocol). Das bedeutet, dass Besucher keine feste Verbindung zu einer Website aufbauen um dort verschiedene Dokumente zu holen. Sie stellen für jede Datei die sie anfordern eine eingenständige Verbindung her, die anschließend wieder beendet wird. Und meist verhalten sie sich auch gar nicht so, als wären sie fest in eine Site eingeloggt. Die Realität im Netz ist viel chaotischer als so ein einfache Modell zu erklären versucht. Und darum liefert ein Logfile-Analyseprogramm wie Analog nur die Requests, d.h. was wirklich auf dem Server passiert, und keine Spekulationen über ein mögliches Verhalten der Besucher.

Befürworter einer Auswertung von Besuchen und Klickpfaden behaupten, es gäbe nur geringfügige Abweichungen. Dem stimme ich nicht zu. Zum Beispiel hat heutzutage fast jeder Zugriff auf das Web über einen Cache. Und wenn 50% aller Anfragen nach einer Webseite vom Cache bedient werden (und das ist keine unrealistische Annahme), dann erfährt dein Server von der Hälfte aller Requests gar nichts.

Andere Befürworter behaupten, diese Angaben seien trotzdem nützlich, denn du erfährst irgend etwas, was du mit anderen Sites vergleichen kannst. Aber dieses setzt voraus, dass die Grundbedingungen vergleichbar wären, und das ist ganz und gar nicht der Fall. Die Ergebnisse der Untersuchungen von Pirolli & Pitkow zeigen, dass die Statistiken nicht nur davon abhängen, wie du die Angaben bewertest, sondern auch wie die Server-Konfiguration aussieht. Und selbst wenn man sich über diese Methoden einigen würde, so zeigen verschiedene User auf verschiedenen Sites doch sehr unterschiedliche Surf-Verhalten. So haben Pirolli & Pitkow zum Beispiel deutliche Unterschiede an Wochentagen und an Wochenenden beobachtet.

Dann wird behauptet, man könne im Laufe der Zeit zumindest Trends erkennen. Aber auch das muss nicht wahr sein, wenn sich die Grundbedingungen inzwischen ändern. Stelle dir vor was passiert, wenn ein grosser ISP die Konfiguration seines Proxy-Servers umstellt. Die Anzahl deiner Besucher würde sich scheinbar deutlich verändern, obwohl der Trafic deiner Site gleich bliebe.

Vielleicht wirst du enttäuscht sein, was du alles nicht heraus finden kannst. Und trotzdem sind Web-Statistiken noch immer informativ. Du darfst nur nicht von "Diese Seite wurde 30.000 mal angefordert" auf "Diese Seite wurde von 30.000 Menschen gelesen" schließen. In mancher Hinsicht sind diese Probleme des Webs gar nicht so neu - sie gibt es bei den gedruckten Medien schon immer. So weisst du zum Beispiel genau, wie viele Exemplare einer Zeitschrift verkauft werden, nicht aber, wie viele Leute sie wirklich gelesen haben. Im Druckbereich hat man mit dieser Tatsache zu leben gelernt, man muss mit den zur Verfügung stehenden Daten auskommen. Das sollten wir auch im Web berücksichtigen anstatt auf spekulative Angaben zu setzen.

7. Danksagung und weitere Quellen

Viele andere Leute sind zum gleichen Schluss gekommen. Als ich ursprünglich diesen Artikel schrieb, profitierte ich von drei früheren Untersuchungen: Interpreting WWW Statistics von Doug Linder; Getting Real about Usage Statistics von Tim Stehle und Making Sense of Web Usage Statistics von Dana Noonan. (Die beiden letzten scheinen nicht mehr im Web zur Verfügung zu stehen.)

Ein weiteres sehr lesbares Dokument zum Thema ist Measuring Web Site Usage: Log File Analysis von Susan Haigh und Janette Megarity. Es liegt auf einer kanadischen Regierungs-Site und ist auf Englisch und Französisch verfügbar. Und für einen noch negativeren Standpunkt empfehle ich Why Web Usage Statistics are (Worse Than) Meaningless von Jeff Goldberg.

Stephen Turner
23 March 2003

Übersetzung ins Deutsche von Thomas Stich
Kleine Ergänzungen wurden vorgenommen zum Verständnis für Anfänger

 

weitere deutschsprachige Informationen

Sinn und Unsinn von Web-Statistiken
Tipps zu Statistiken
Browserstatistiken im WWW