Denk wie Google

Denken wie Google: Was wir über das Verhalten der Suchmaschine, nach 6 Milliarden Protokollzeilen, herausgefunden haben

Wie kann eine Website für die Suchmaschine attraktiver werden? Basierend auf den Ergebnissen einer Studie zur Analyse von Protokollen, mit einer Länge von einem Jahr und 300 Millionen geprüften Seiten.

Stellen Sie sicher, welche Seiten Ihrer Website in die Suchergebnisse gelangen und welche nicht. Sie können nur die gesamte Website für die Indizierung prüfen. Wenn Sie jedoch 10 oder 20 Millionen Seiten haben, kann das Überprüfen jeder Seite viel Geld kosten.

Stattdessen wenden wir uns der Protokollanalyse zu. Die Funktionsweise von JetOctopus mit einer Kunden-Webseite hat folgende Mechanismen: Wir crawlen die Seite wie die Google-Suchbots und dann werden die Site-Protokolle der letzten sechs Monate analysiert. Die Protokolle zeigen an, ob ein Suchbot die Seite besucht hat, wenn ja, welche Seiten, wie lange und wie oft.

Crawling ist der Prozess, durch den der Such-Bot (Crawler) Ihre Site besucht, alle Links verfolgt und sie der Indexwarteschlange hinzufügt.

Es vergleicht die Liste der URL-Seiten mit denen, die bereits im Index enthalten sind. Bei Bedarf werden deren Inhalte aktualisiert, neue hinzugefügt und alte gelöscht. Erst danach entscheidet die Suchmaschine, ob Ihre Seiten in den Suchmaschinenindex und von dort zu den Suchergebnissen gelangen.

Dann ist alles einfach – wenn der Bot nicht auf der Seite war, wird er höchstwahrscheinlich nicht im Index enthalten sein. Aber wenn der Bot nicht nur auf der Seite war, sondern mehrmals am Tag, müssen solche Seiten maximal beachtet werden.

Zusammenfassend ergibt sich aus diesen Informationen ein allgemeines Bild darüber, was die Website daran hindert, organisch zu wachsen und sich zu entwickeln und zum ersten Mal nicht blind technische Änderungen an den Seiten der Website und ihrer Struktur vorzunehmen.

Wir arbeiten nur mit großen Websites, und es gibt einen Grund dafür: Wenn die Site weniger als 50.000 Seiten umfasst, wird der Suchbot aller Wahrscheinlichkeit nach früher oder später alle Seiten besuchen.

Webseiten mit 100.000 Seiten sind jedoch mit der Tatsache konfrontiert, dass der Webcrawler die Seiten durchgeht, deren Existenz die Webseitenbesitzer nicht vermuten und sie wertvolles Budget für das Crawlen von Websites ausgeben. Während Seiten, die für die Indexierung notwendig und wichtig sind, für den jedoch Bot unpraktisch platziert werden können, wird er sie niemals finden und indexieren.

Das Suchsystem als Ganzes hat sich nicht das Ziel gesetzt, die Website vollständig zu durchdringen, es ist das Ziel, Antworten auf die Fragen der Nutzer mit minimalen Kosten zu geben.

Ein Crawling-Budget ist eine bestimmte Menge an Ressourcen, die Googlebot zum Crawlen Ihrer Website ausgibt. Es ist wichtig zu priorisieren, was und wann geprüft werden soll und wie viele Ressourcen für das Scannen dem Hosting der Website zugewiesen werden können.

Die Höhe des Budgets hängt von verschiedenen Faktoren ab: der Größe der Site, der Geschwindigkeit der Seitengenerierung, strukturellen Faktoren, dem Volumen der Anfragen, für die die Seite bewertet wird, ihrer Häufigkeit und anderen.

Den Such-Bot beobachten

Im vergangenen Jahr haben wir 300 Millionen Seiten gescannt und 6 Milliarden Blockleitungen großer Standorte analysiert. Basierend auf diesen Daten haben wir Trends im Verhalten des Bots festgestellt: Welche Art von Seite er verfehlt und was er gerne öfter besucht, worauf er achtet und was nicht wichtig ist.

Alle unten aufgeführten Informationen sind das Ergebnis, unserer eigenen Analyse und Schlussfolgerungen zu denen wir gelangt sind. Alle Schlussfolgerungen, die wir in dieser Zeit getroffen haben, werden zur Vereinfachung durch die entsprechenden Diagramme unterstützt.

Was beeinflusst also das Verhalten der Bots? Worauf kommt es an, geht es auf Ihre spezifische Seiten oder nicht? Wir haben mehrere Faktoren identifiziert.

DFI

DFI steht für die Entfernung vom Index (distance from index), das heißt wie weit Ihre Seite in Klicks von der Hauptseite entfernt ist. Dies ist einer der wichtigsten Parameter für die Beliebtheit einer Seite von einem Crawler-Bot.

Es ist wichtig zu verstehen, dass dieser Bereich nicht durch das Verschachteln von Verzeichnissen wie z.B.

https://site.com/shop/iphone/iphoneX.html. Sie wird anhand der Anzahl der Klicks von der Hauptseite aus gemessen: https://site.com iPhones Katalog → https://site.com/shop/iphone iPhone X → https://site.com/shop/iphone/iphoneX.html.

Unten in der Grafik können Sie sehen, wie das Interesse der Google-Suchmaschine an der Seite mit der Entfernung von der Hauptseite für den letzten Monat und für sechs Monate nach und nach schwindet.

Interesse der Google-Suchmaschine an der Seite

Die Daten basieren auf einer Analyse von 6 Milliarden Protokollzeilen, 300 Millionen gecrawlten Seiten

Wie wir sehen, crawlt der Google-Bot mit einem Abstand von fünf oder sechs Klicks von der Hauptseite bereits nur die Hälfte der Seiten. Je weiter, desto weniger ist der Prozentsatz. Die Werte dieser Diagramme werden für 18 Millionen Seiten gemittelt, die zum Zeitpunkt der Erstellung des Diagramms analysiert wurden. Natürlich hängt alles von der Nische einer bestimmten Webseite ab.

Was tun (machen)

Offensichtlich ist die beste Strategie in diesem Fall, DFI über fünf zu vermeiden, die Struktur der Website sorgfältiger zu bestimmen, besonderes Augenmerk auf das Verlinken zu richten und so weiter.

Die Wahrheit ist jedoch, dass dies bei Webseiten mit über 100.000 Seiten schwer zu erreichen ist. Normalerweise handelt es sich dabei um Webseiten, die ihren eigenen Verlauf haben, während derer sie die Struktur geändert haben, darum darf man nicht einfach Seiten aus DFI 10, 20 oder sogar 30 zu entfernen. Auch das wird das Problem nicht lösen, wenn Sie einen Link anbringen, der auf Sie führt.

Der beste Weg, um hohe DFI zu bekämpfen, wäre, diese Seiten anzusehen und zu verstehen, wie wichtig sie sind und welche Positionen diese Seiten im Ranking haben.

Seiten mit einem großen DFI, aber ein guter Platz für die Suchergebnisse haben mehr Potenzial als ähnliche Seiten, die auf Suchergebnisse hundertste Plätze einnehmen.

Um die Anwesenheit potenziell interessanter Seiten in Suchergebnisse zu erhöhen, müssen Links von benachbarten Seiten eingefügt werden. Ein oder zwei Links werden es hier nicht helfen. Die folgende Grafik zeigt, dass die Verlinkung im Durchschnitt ab 11 und mehr Links zu der Seite beginnt zu wirken.

Verlinkung

wichtiger ist die Anzahl der Links

Natürlich, je größer die Webseite ist, desto wichtiger ist die Anzahl der Links, die zu einer bestimmten Seite führen. Diese Daten sind für Webseiten ab einer Million Seiten relevant.

Wenn Sie feststellen, dass weniger als zehn Links zu wichtigen Seiten auf Ihrer großen Webseite führen, sollten Sie keine dringenden Maßnahmen ergreifen. Prüfen Sie zunächst, ob alle diese Seiten von hoher Qualität sind. Wenn dies der Fall ist, fügen Sie ihnen in kleinen Wiederholungen langsam Links hinzu, und überprüfen Sie jedes Mal das Ergebnis Ihrer Aktionen mithilfe von Protokollen.

Inhaltsgröße

Dies ist vielleicht der bekannteste Aspekt der SEO-Analyse. Je mehr Inhalte Sie auf Ihrer Webseite haben, desto besser. Die Grafik zeigt, wie der Wert des Crawl-Verhältnisses auf Seiten mit weniger als 500 Wörtern kritisch abfällt.

Crawl Verhältniss Was tun

Unsere Erfahrung nach sind in der Hälfte der Fälle, Seiten mit einem Inhalt von bis zu 500 Wörtern nur Müll. Wir hatten einen Fall, als wir auf der Kundenseite 70.000 Seiten fanden, die nur die Kleidergröße enthielten, und einige dieser Seiten befanden sich im Index.

Prüfen Sie daher zunächst, ob Sie solche Seiten benötigen. Wenn ja, muss der Text- Inhalt hinzugefügt werden. Wenn es nichts zum hinzuzufügen gibt, akzeptieren und lassen Sie alles so, wie es ist. Manchmal ist das besser, als zu versuchen mit einem unbrauchbaren Text zu benutzen.

Zusätzliche Faktoren

Darüber hinaus haben die folgenden Fakten einen spürbaren Einfluss auf die Durchforstungsquote:

Ladezeit der Seite

Die erste ist die Geschwindigkeit beim Laden der Seite. Der Bot muss wie ein normaler Benutzer auf das Laden Ihrer Seite warten und seine eigenen Ressourcen dafür ausgeben. Wenn Ihre Webseite mehr als eine Million Seiten umfasst, ist es sehr wahrscheinlich, dass ein Bot lieber fünf Seiten pro Sekunde lädt als eine Seite, die fünf Sekunden lang geladen wird.

Was tun

Dies ist ein rein technisches Problem und es gibt keine einfache Lösung für einen größeren Server. Das Hauptprinzip besteht jedoch darin, dass jede Optimierung mit der Profilerstellung gestartet werden muss d. H. zu verstehen, wo die Engpässe liegen, was genau langsamer wird, und dann Maßnahmen zu ergreifen.

Nützlicher Inhalt oder Seitenvorlage

Wichtiger ist das Verhältnis von nützlichem Inhalt und Seitenvorlage. Häufig bestehen Webseiten, die beispielsweise Kindernamen oder Hundenamen enthalten, aus einer Seite mit langen und komplexen Vorlagen, aber es gibt eine kleine Menge nützlichen Inhalts: entweder eine Liste oder eine kurze Beschreibung eines der Elemente. Wie viele Inhalte werden Sie über Hundenamen sammeln? Auf solchen Seiten möchten Bots ihre Ressourcen nicht nutzen.

Was tun

Gleichgewicht behalten. Auf den Seiten mit großen komplexen Vorlagen, mit einer großen Anzahl von Links von Drittanbietern und dem fast gänzlichen Mangel an nützlichen Inhalten mögen nicht nur Bots.

Orphan Pages – Verwaiste Seiten

 Orphan Pages – verwaiste Seiten mit schwierigen Schicksalen, die Suchmaschinen nicht kennen. Es ist am besten zu verstehen, was Orpgan-Seiten sind, die Eulerkreise im Bild unten helfen es zu verstehen.

Orpgan-Seiten

Dies ist die normale Situation für eine junge Website, die keine Zeit hatte, ihre Struktur fünfmal zu ändern: Die tatsächliche Größe der Website beträgt 900 Tausend Seiten, von denen 400 Tausend Seiten Ihnen und dem Such-Bot Google bekannt sind, und 500 Tausend sind noch nicht bekannt. Wenn Sie diese 500.000 Seiten in den Index bringen, werden Sie garantiert mehr Traffic gewinnen.

Bitte beachten Sie, dass es auch in diesem Fall ein kleines Stück Seiten (blauer Bereich in der Abbildung) gibt, über das Sie nichts wissen und das Sie nie auf Ihrer Website finden werden, sondern nur Google. Und das könnte alles sein. Zum Beispiel die Ergebnisse einer fehlgeschlagenen Benutzersuche. Aber große Websites sehen selten so ordentlich aus. Die meisten Websites mit eine Geschichte sehen so aus.

Google weiß mehr über Ihre Webseite als Sie

Hier gibt ein anderes Problem: Google weiß mehr über Ihre Webseite als Sie. Es können gelöschte Seiten sein, Seiten mit JavaScript oder AJAX, Seiten mit irrelevanter Weiterleitung oder der Teufel weiß was noch. Wir hatten eine Situation, als aufgrund eines Programmierfehlers eine Liste mit einer halben Million defekter Links in die Sitemap kam. Drei Tage später wurde ein Fehler gefunden und diese Liste von dort entfernt, aber der Googlebot ging für weitere sechs Monate weiter auf diese defekten Links.

Oft wird das Crawling-Budget, von dem wir so viel reden, nicht nur auf die effizienteste Art und Weise ausgegeben – es wird für diese verwaisten Seiten (Orphan Pages) ausgegeben.

Was tun

Es gibt zwei Möglichkeiten. Der erste ist der kanonische Weg – Ordnung schaffen. Die Struktur der Webseite in Ordnung bringen, Verlinkung erstellen, verwaiste Seiten mit Links zu häufig besuchten Seiten zu verbinden – Aufgaben für Programmierer stellen und warten auf die Neuindexierung.

Der zweite, operative Vorgang besteht darin, eine Liste der URLs dieser Seiten zu sammeln, zu überprüfen, ob sie funktionieren. Wenn ja, daraus eine Sitemap generieren und an Google senden. Das geht einfach und schnell, aber nur die Hälfte davon wird in den Index aufgenommen.

Nächstes Level

Algorithmen und Technologien von Suchmaschinen entwickeln sich seit zwei Jahrzehnten, und es wäre naiv zu glauben, dass selbst so einfache Dinge wie das Crawln einer Webseite in Paar Grafiken beschrieben werden können.

Wir erfassen für jede Seite mehr als 200 verschiedene Parameter und bis Ende des Jahres wird sich diese Anzahl verdoppeln. Wenn wir die Webseite als eine Tabelle mit 1 Million Zeilen (Seiten) multipliziert mit 200 Spalten (Parametern) präsentieren, wird deutlich, dass einfache Samples hier nicht ausreichen werden.

Wir gingen weiter und verwendeten maschinelles Lernen, um den Einfluss von Faktoren auf das Googlebot-Crawln in jedem konkreter Fall zu ermitteln.

Googlebot Crawln

Bei einigen Webseiten spielt der Inhalt eine bedeutende Rolle, bei anderen wirkt sich das Verlinkung stärker aus.

Das ultimative Ziel dieser Aufgabe ist es, einfache Antworten aus komplexen Daten zu liefern – was das Verhalten des Bots am stärksten beeinflusst, welche Seitencluster durch gemeinsame Faktoren verknüpft sind, um sie umfassend zu bearbeiten und so weiter.

Fazit

Bevor wir die Protokolle unserer Webseiten selbst heruntergeladen und analysiert haben, erschien uns diese Geschichte über verwaiste Seiten unglaubwürdig, die Suchmaschinen sehen, die wir aber nicht sehen. Die reale Situation erwies sich jedoch als noch unglaublicher, als wir es uns hätten vorstellen können. Zum Beispiel hatten wir in Crawler-Anzeige auf unsere Webseite 500 Seiten mit 301 Weiterleitungen, und Google hatte 700 Tausend solcher Seiten!

Techniker möchten keine Protokolle führen, angeblich “ lädt es die Laufwerke „, große Volumen usw. Aber objektiv: Auf den meisten Webseiten mit einer Besucherzahl von bis zu 10 Millionen pro Monat funktioniert die Protokollierung mit den Standardeinstellungen einwandfrei. In der Zukunft können historische Protokolle sehr hilfreich sein, um Probleme und die Auswirkungen der nächsten Google-Updates zu analysieren.

Daher empfehlen wir Ihnen dringend, die Protokollanalyse auszuprobieren. Sicher, er wird Sie überraschen.


Denk wie Google

jetoctopus demo