In diesem Artikel werde ich Sie auf eine faszinierende Reise mitnehmen, um zu verstehen, wie Suchmaschinen funktionieren. Dies ist nicht Ihre typische Beschreibung von Web-Bots  und wie sie Websites durchforsten, sondern wie sie Inhalte verarbeiten. Bevor wir weitermachen, möchte ich Ihnen erklären, warum dies für Sie und Ihre Karriere als Suchmaschinenvermarkter wichtig ist.

Warum jeder Suchmaschinen-Vermarkter diesen Artikel lesen sollte

Viele Digital Marketers, Social Media Manager und SEOs haben keinen technischen Hintergrund und wissen nichts über Informatik. Wir alle schaffen es, unsere Arbeit zu erledigen und sind mehr oder weniger erfolgreich gewesen, ohne diesen Jargon zu kennen.

Bisher haben Sie sich vielleicht in Ihrem Job wohl gefühlt und haben wahrscheinlich nicht das Bedürfnis, etwas über Computerprogrammierung oder Informatik zu wissen.

Dennoch glaube ich, dass wir als Suchmaschinenvermarkter uns bemühen sollten, zu verstehen, was innerhalb einer Suchmaschine vor sich geht. Vor einigen Jahren beschloss ich, dass meine Lernreise (etwas) Computerprogrammierung beinhalten sollte. Es war eine Herausforderung, aber die Mühe hat sich gelohnt.

Es ist unerlässlich, an der Spitze der Entwicklungen zu bleiben und als Fachleute zu gedeihen, um eine Kommerzialisierung zu vermeiden. Ich sehe, wie sich die Suchlandschaft rasch verändert. Wenn Sie an der Spitze bleiben, werden Sie Ihren Wettbewerbsvorteil erhalten und ausbauen.

Ich vertraue darauf, dass dieser Artikel inspirierend sein und Ihre Ambitionen entzünden wird.

Ich habe beschlossen, diese Erkenntnisse mit Ihnen zu teilen, um Ihre Neugier zu kitzeln und darüber nachzudenken, wo Sie auf Ihrem beruflichen Weg stehen. Dieser Artikel wird ein neues Licht auf SEO werfen und hoffentlich Gedanken über Ihre Zukunft auslösen.

Dieser Artikel wird eine Tür zu einem unbekannten Universum öffnen, in dem Worte und Sprache auf die binäre Welt von Bits & Bytes treffen. Was Sie in diesem Artikel lesen werden, ist eine Beschreibung dessen, was ich – vielleicht unpassend – als echten Cyberspace bezeichne, wo Code Poesie ist, wo Maschinen den Menschen verstehen und umgekehrt. Mein Ehrgeiz ist es, Sie auf eine sehr persönliche und wesentliche Reise zu schicken.

Ich ermutige Sie, sich auf diese Reise zu begeben und sich den Aufruhr zu eigen zu machen, den sie verursachen kann. Veränderung ist immer eine Herausforderung. Ohne Schmerz kein Gewinn. 

Wir leben in einer Welt, in der Erfolg eine Kombination aus Ihrem Willen ist, sich an Situationen anzupassen und widrige Ereignisse und Umstände zu überwinden:

Anpassen und Überwinden (Zitat: The Snipermind – David Amerland S. 217)

Viel Glück.

Was Sie aus diesem Artikel lernen werden

Dieser Artikel ist eine qualitative und sehr rudimentäre Beschreibung des Indizierungsprozesses von Suchmaschinen. Ich werde beschreiben und Ihnen zeigen, wie aus Wörtern Zahlen werden. Es ist mehr eine Entdeckung als alles andere.

Ich bin kein Informatiker; ich bin ein Search Marketer wie Sie selbst. Ich habe weder den Hintergrund noch die Erfahrung, um die Wissenschaft oder die Technologie im Detail zu erklären. Mein Ziel ist es, Ihnen zu zeigen, wie der Wandel stattfindet, und Überlegungen zu den Auswirkungen auszutauschen.

Moderne Suchmaschinen: vom Volltext zur natürlichen Sprache

Web-Suchmaschinen sind seit Beginn der kommerziellen Nutzung des Internets online. Es bestand ein unmittelbarer Bedarf an Werkzeugen, um Daten, Nachrichten und Informationen online zu finden und zu sammeln. Viele von Ihnen waren 1993 noch nicht geboren, als ich meinen ersten Koaxialkabelanschluss am ESTEC erhielt und im prähistorischen Web surfte. Es war das “Internet”. Damals war das Internet eine “lose” Verbindung von Netzwerken. Eine typische Online-Sitzung bestand aus einer Punkt-zu-Punkt-Navigation zwischen Sites: Man musste wissen, wohin man ging. 

Der erste Versuch, Ressourcen online zu organisieren, war die Entwicklung von Gophers. Gophers bestand aus kuratierten Sammlungen von Internet-URLs, die in einem Menüformat angeordnet waren. 

In dem Versuch, einen Katalog von World Wide Web (WWW)-Ressourcen zu erstellen, entwickelte sich eine Taxonomie mit bibliothekarischem Beigeschmack. Es entstand eine Flut anderer Übergangstechnologien, die einen Internet-Herzschlag aushielten: Archie, Veronica, Jughead. Es war 1994, als das Internet seine erste erfolgreiche Volltext-Suchmaschine willkommen hieß: WebCrawler.

Der WebCrawler ist der Beginn der modernen Web-Suchtechnologie. Es war ein entscheidender Moment, der die zukünftigen Generationen der Suche im Allgemeinen geprägt hat. Bis dahin hatte eine ausgewählte Clique von Experten Zugang zu Online-Diensten wie DIALOG oder LEXIS-NEXIS.

Weder der WebCrawler noch andere Suchmaschinen, die darauf folgten, nutzten die bereits erwähnten stabilen und robusten Technologien, die von den Diensten verwendet wurden, und die umfangreichen Fachklassifikationstaxonomien, die sich in über einem Jahrhundert entwickelt hatten.

Web-Suchmaschinen hatten die Berufung, dem Gelegenheitssuchenden zu dienen, der mit den ausgeklügelten Regeln und Funktionen wie Booleschen oder Regulären Ausdrücken nicht vertraut war. Diese Berufung, dem Gelegenheitsserver zu dienen, hat sich zu dem Ziel entwickelt, Menschen zu verstehen, die ihre “natürliche” Sprache benutzen, um Daten, Informationen, Waren und Dienstleistungen zu finden.

Die Suchmaschinen sind von einer einfachen Volltextsuche zum Verständnis der natürlichen Sprache übergegangen. Dies ist ein radikaler Technologiewandel mit direkten Auswirkungen auf die Verfahren und Methoden der Suchmaschinenoptimierung.

In 26 Jahren hat die Suchtechnologie Fortschritte mit exponentiellen Wachstumsraten erzielt. SEO war damals viel einfacher.

Es wäre albern, wenn wir diese Technologien und dieses Know-how, die von Tausenden von Doktoranden weltweit vorangetrieben werden, verstehen oder – noch schlimmer – in irgendeiner Weise nachzuahmen versuchen würden. Wir können den Prozess jedoch verstehen und einige Überlegungen zur Größenordnung extrapolieren.

Computer verstehen keine Sprache.

Computer verstehen Zahlen. Ein durchschnittlicher Computer kann in einer Minute mehr Zahlen verarbeiten als ein ganzes Heer von Menschen in einem Leben, aber sie verstehen keine Sprachen. Moderne Suchmaschinen verstehen jedoch nicht nur Sprachen, sondern extrahieren auch nützliche Informationen auf der Grundlage der vom Benutzer durch eine Abfrage ausgedrückten Bedürfnisse.

Sprachen sind Systeme der Kommunikation

Sprache spielt eine wesentliche Rolle in unserem Leben. Die Menschen haben konventionelle Wege und schreiben Wörtern, die mit ihrer Kultur zusammenhängen, traditionelle Bedeutungen zu. Sprachen sind ein komplexes System von Regeln (Struktur und Grammatik). Es gibt viele Dimensionen in einer Sprache. Zum Beispiel sind Sprachen gekennzeichnet durch:

  • Domänenspezifität: ein gemeinsames Verständnis von Wörtern. Terminologie und Eigenschaften bestimmter Begriffe, die Teil einer Kultur oder eines Berufs sind.
  • Kontextabhängigkeit: Alles, was wir sagen oder schreiben, hängt vom Kontext der Diskussion ab, von dem Dokument oder Buch, das wir lesen.

Das Web ist ein unordentlicher Ort

Das Web ist das lebendige Bild von uns selbst und unserem Leben: es ist chaotisch. Ich würde schätzen, dass mehr als 90% der Online-Inhalte strukturlos sind. Webseiten sind in minderwertigem HTML und oft in schlechter Sprache geschrieben, mit vielen domänenspezifischen und kontextbezogenen Wörtern und Sätzen. Die Informatik kann unseren Inhalten mit Natural Language Processing (NLP) einen Sinn geben. NLP ist die Technologie, die verwendet wird, um Computern eine Sprache “beizubringen”. Aber zuerst müssen wir Computer mit Wörtern füttern.

Einen Computer mit Wörtern füttern

Unser erster Schritt auf dieser faszinierenden Reise ist die Eingabe von Worten in einen Computer.

The breakdown of a document to phrases into words in NLP - Natural Language Processing
Von Dokumenten zu Wörtern in der Verarbeitung natürlicher Sprache

Betrachten wir eine typische Webseite. Zunächst einmal muss eine Suchmaschine oder ein Benutzer die Seite herunterladen.

Einmal heruntergeladen, müssen wir die Dinge “bereinigen”. Nur um Ihnen eine Vorstellung zu geben, hier ist eine kurze Liste von Aktivitäten, die erforderlich sind, um ein Dokument in endliche “Bits” zu zerlegen, die ein Computer verstehen kann:

  • Extrahieren des Inhalts aus der Auszeichnungssprache, in der er eingebettet ist. Im vorigen Abschnitt haben wir das Herunterladen einer Webseite erwähnt. Wir müssen den Inhalt aus der unterstützenden HTML-Auszeichnungssprache extrahieren, die zur Positionierung des Inhalts (einschließlich Bilder, Video und anderer Elemente) benötigt wird.
  • Entfernen Sie alle Zeichensetzung und Symbole, die unnötig sind, wie z.B. Emoticons und andere irrelevante Elemente.
  • Entfernen Sie “Stoppwörter”. Stoppwörter sind: das, in, bei, das, welches, und, auf, oder und dergleichen. Es sind Wörter, die nicht dazu beitragen, die Bedeutung des Textes zu vermitteln.
  • Erstellen Sie ein Vokabular von Begriffen, die in unserem Dokument vorkommen. Ein Vokabular ist nicht ein einfaches Inventar von Wörtern, sondern ein Auszug aller Wörter, die nach der Durchführung von Stemming und Lemmatisierung vorhanden sind. Stemming ist der Prozess der Kombination von Wörtern mit ähnlicher Bedeutung. Lemmatisierung ist in der Linguistik der Prozess der Gruppierung der verschiedenen Formen eines Wortes, damit sie als ein einziger Begriff behandelt werden können.

Wie Sie sich vorstellen können, ist die Verarbeitung natürlicher Sprache artikuliert, komplex und mit einer Menge von Daten-Scrubbing verbunden. Sie können keine schmutzigen Daten verarbeiten. Denken Sie daran, dass das Web ein chaotischer Ort ist.

Es würde den Rahmen dieses Artikels sprengen, sich in die Details der Programmierung und Technologie zu vertiefen. Sie müssen nicht wissen, wie es entwickelt wurde, aber verstehen, wie man es benutzt.

Also lasst es uns tun! Beachten Sie die folgenden drei Sätze:

  • Majestic is a link intelligence platform
  • Find backlinks to your website with Majestic
  • Sante is a Majestic Brand Ambassador

Sehen wir uns an, wie aus den drei Sätzen Zahlen werden und wie die Umwandlung erfolgt.

Beginnen wir mit dem Vokabular

Wir müssen unser Vokabular erstellen, das aus allen in den Phrasen verwendeten Wörtern besteht. Unser Vokabular ist:

{‘ambassador’, ‘backlinks’, ‘brand’, ‘find’, ‘intelligence’, ‘link’, ‘majestic’, ‘platform’, ‘sante’, ‘website’}

Um der Einfachheit und Klarheit willen ist dies unser Vokabular. Wir haben typische Stoppwörter entfernt. Unser Wortschatz besteht aus zehn Wörtern.

Achten Sie jetzt darauf, denn hier geschieht die Magie.

Ordnen wir die drei Sätze in getrennten Zeilen und die Wörter unseres Vokabulars in Spalten so an:

Sie können dies mit jedem beliebigen Stück Inhalt tun, tun Sie es jetzt gleich.

  1. Wählen Sie eine Gruppe von Phrasen
  2.  Stoppwörter entfernen
  3.  Zeichnen Sie eine Tabelle und setzen Sie eine 1 in die Entsprechung eines Wortes in der Phrase und eine 0 an anderer Stelle
  4.  Wiederholen Sie den Vorgang für jede Phrase.

Schauen wir uns diese Tabelle mit Nullen und 1en genauer an: es ist eine Matrix!

Ein Vektorraum-Modell des Inhalts

Wir haben ein Vektorraummodell unseres Inhalts:

Unsere Worte sind zu Zahlen geworden

Jetzt können wir lineare Algebra auf die Matrix anwenden. Wir können Sätze vergleichen, die jetzt Vektoren sind. Wir können zahlreiche Analysen durchführen. Wir können zum Beispiel die Ähnlichkeit von Sätzen in unserem Dokument bestimmen. Wir können auch Stichwortzählungen, Stimmungsanalysen und vieles mehr durchführen.

Als Suchmaschinenvermarkter müssen wir nicht die ganze Wissenschaft kennen, aber wir müssen die Prinzipien verstehen und die Mittel zur Durchführung der Analyse beherrschen.

Schlussfolgerungen

In diesem Artikel habe ich veranschaulicht, wie aus Wörtern Zahlen werden – der allererste Schritt, den jede Suchmaschine unternimmt, um Webseiten zu verstehen. Wenn Sie die vorhergehende Übung gemacht haben, sehen Sie sich die Phrasen und dann die Zahlentabelle an. Es gibt nichts, worauf wir uns als Menschen beziehen können. Diese Überlegung hat die Art und Weise verändert, wie ich den Inhalt sehe, wie ich redaktionelle Richtlinien zusammenstelle und wie ich On-Page-Optimierung durchführe.

Die Komplexität dieser Aufgabe wird noch deutlicher, wenn Sie auch nur über minimale Programmierkenntnisse verfügen. Das Schreiben elementarer Algorithmen in Python oder einer Computersprache Ihrer Wahl zeigt, wie viel Mühe es kostet, mit einem Computer zu “reden” und ihn Aufgaben in unserem Namen ausführen zu lassen.

Letztlich hat mich dieser Prozess gelehrt, auch auf die kleinsten Details beim Schreiben von Texten zu achten. Manchmal können selbst kleine, scheinbar unbedeutende Änderungen einen erheblichen Einfluss auf die organische Leistung haben. Was uns wie eine kleine Veränderung erscheinen mag, ist eine Variation in der Position dieser 1er und 0er in der Matrix, die sie zu etwas völlig anderem macht. Am anderen Ende (im Computer) gibt es niemanden, der etwaige Fehlinterpretationen interpretieren und korrigieren wird.

Und schließlich denken Sie daran, dass die Technologie nicht perfekt ist und sich ständig weiterentwickelt: Wir wissen, wie sie funktionieren sollte, aber die Ergebnisse sind nicht immer das, was wir erwarten und uns wünschen.

Sante Achille
Follow me!

THANK YOU!
If you have any questions in the meantime, please contact help@majestic.com
You have successfully registered for a Majestic Demo. A Customer Advisor will contact you shortly to schedule a suitable time to connect.