Wie viel Ankertext haben unterschiedliche Websites gemeinsam?

Tauchen gewisse Phrasen in bestimmten Marktsektoren vermehrt auf?

Wir haben das Glück, im Entwicklungsteam von Majestic zu arbeiten. So ist die Antwort häufig zum Greifen nah, wenn Fragen zu Aspekten des Internets aufkommen. Für alle Informationen, die wir benötigen, braucht es nicht mehr als einige API-Aufrufe und eine Handvoll Programmzeilen – und mit Tools wie Wordle ist eine gute Visualisierung oft nur einen Klick entfernt.

Um Beziehungen zwischen Ankertext von Websites innerhalb eines Marktsegments zu untersuchen, habe ich ein kurzes Programm geschrieben. Dieses veranlasst den Majestic-API-Befehl „GetAnchorText“, die Top-250-Ankertextphrasen für eine Reihe verschiedener Websites abzurufen. Die ausgegebenen Ergebnisse der „GetAnchorText“-Aufrufe wurden dann analysiert, um Ankertext zu identifizieren, der auf mehreren Websites gleich ist. Anschließend hat Wordle mithilfe der erweiterten Datenimportfunktion eine Datenvisualisierung durchgeführt.

Ich habe dann den Ankertext für vier populäre Blogging-Webseiten unter die Lupe genommen: blogger.com, tumblr.com, wordpress.org und livejournal.com.

Wordle of anchor text used on blogsites
Wortwolke mit Ankertext, der auf Blogseiten verwendet wir.

Das Ergebnis ist ziemlich „bloggig“, aber auch irgendwie öde – „Read more via my blog here“? (Und ich frage mich, wer Sarah sein soll?)

Angesichts der schieren Vielfalt an Content auf all diesen Blogging-Seiten unterscheiden sich auch die Ankertexte erheblich voneinander und das macht es sehr unwahrscheinlich, dass wir in den Top-250-Matches der einzelnen Websites viele korrelierende Phrasen finden werden.

Daraufhin beschäftigte ich mich mit einem spezielleren Thema – den Websites der deutschen Autohersteller Audi, BMW, Mercedes Benz und Volkswagen.

Wordle of anchor text used on the sites of German Car Manufacturers
Wortwolke mit Ankertext, der auf den Seiten deutscher Autohersteller zu finden ist.

Da ich die deutsche Sprache nicht beherrsche, musste ich mir „probefahrt vereinbaren“ erstmal mit Google-Übersetzer ins Englische übersetzen lassen. Sie können sich meine Freude vorstellen, als ein Kollege schließlich „deutsche Automobilhersteller“ aus der Wortwolke erriet.

Voller Enthusiasmus experimentierte ich dann mit Nachrichtenseiten in zwei verschiedenen Ländern – den USA und Großbritannien. Für die USA testete ich das Wall Street Journal, die New York Times, Huffington Post und die Washington Post. Und für Großbritannien waren es der Guardian, der Telegraph, die Times und der Independent:

Wordle of common anchor text used on the sites of some US news sites.
Wortwolke mit Ankertext, der auf einigen US-Nachrichtenseiten häufig vorkommt.

 

Wordle of common anchor text used on the sites of popular UK Broadsheets
Wortwolke mit Ankertext, der auf Webseiten von bekannten britischen Zeitungen häufig vorkommt.

Interessant war, dass auf beiden Seiten des Atlantiks einige Publikationen der Zeitungsbranche anscheinend mit dem Ankertext eines Wettbewerbers verlinkt sind, wobei dies zum Teil sicherlich mit den Gewichtungs-Algorithmen und den Werten zusammenhing, mit denen die Wortwolke erstellt wurde. Nimmt man bei verweisenden Domains für eine Phrase einen Grundwert von Null an, so bedeutet das Folgendes: Wenn 60.000 Websites mit der Phrase „the Guardian“ mit dem Guardian verlinken und eine Seite mit dem gleichen Ankertext versehentlich mit dem Telegraph verlinkt, wird der Guardian eine ziemlich herausragende Position in der Grafik erzielen…

Wie wäre es also, so überlegte ich, wenn wir die Anzahl der Websites erweitern und anstatt zwei gleichen Begriffen von vier Websites meinetwegen vier übereinstimmende Phrasen von allen oben genannten Nachrichtenseiten heranziehen? Hier ist das Ergebnis:

Wordle of anchor text used on UK and US news sites
Wortwolke mit Ankertext, der auf Nachrichtenseiten in den USA und Großbritannien verwendet wird.

Wenn man die Beispieldaten und Werte erhöht, scheint sich tatsächlich ein Nachrichten-„Fingerabdruck“ herauszubilden. Außerdem lässt dieser Prozess erkennen, dass „here“ weitaus häufiger vorkommt als „click here“ – zumindest im Fall der oben verwendeten Beispieldaten. Ob das vielleicht an einer allzu wörtlichen Auslegung einer W3C-Empfehlung liegt?