Erweiterte Crawlability: Don’t waste robot-time!

erweiterte CrawlabilityFür den Google-Crawler spielt die Geschwindigkeit der zu crawlenden Webseiten eine wichtige Rolle: Denn je schneller diese sind, umso mehr Seiten kann er sich einverleiben. Deshalb möchte ich hier so etwas wie den Gedanken der „Erweiterten Crawability“ von Webseiten darstellen. Da spielen Technik, Struktur und interne Verlinkung die wichtigste Rolle. crawlability

Das Problem ist eigentlich der Scheduler

Jo Müller, der „europäische Matt Cutts“, zeigt auf seinen Präsentationen gerne den komplexen Weg, den eine Seite durch die Google-Server nehmen muss, um gecrawlt zu werden. Ganz am Anfang steht da der „Scheduler“, sozusagen der Vorarbeiter des Robots, der dessen Zeit einteilt. Vermutlich ist die Zeitmenge, die der Robot pro Webseite hat, abhängig von ihrer Autorität (und damit wieder von den Backlinks). Was er aber in dieser Zeit zu sehen bekommt, haben wir selber in der Hand. Und ist diese Zeit abgelaufen, wird der Robot zurück gepfiffen und muss woanders crawlen.

Zeitsparprogramm für den Robot

Ein wichtiges Ziel der Google-Optimierung ist also, dem Robot in möglichst kurzer Zeit möglichst viele relevante Seiten zu zeigen. Und da spielen eine Menge Faktoren eine Rolle:

  • Alle Seiten sollten schnell ausgeliefert werden. Hierbei ist es nicht entscheidend, wie groß die Seiten sind – sondern wie schnell der Crawler sie sehen kann.
  • Neue und veränderte Seiten müssen ihm zuerst „vorgelegt“ werden,
  • danach aber auch alle anderen wichtigen Seiten.
  • Duplicate Content ist kein Grund für eine Penalty – sondern die Verschwendung von kostbarer Crawler-Zeit.
  • Das gilt auch für unnötige Index- bzw. gefilterte Seiten.
  • Und auf den eigentlichen Beitragsseiten sollte der Robot möglichst schnell und übersichtlich die zur Einordnung wichtigen Informationen erkennen können.

Das ist eigentlich schon alles 😉

Viel Arbeit für die Crawlability…

Selbstverständlich ist das für Kunden mit mehreren Hundertausend Unterseiten und einem komplexen Content Management System eine gigantische Herausforderung. Das kostet Geld und Zeit. Aber, hey, es muss nun mal sein…

Ich kann und will in diesem Übersichts-Artikel nicht auf die Details eingehen, aber die drei wichtigsten Arbeitsbereiche möchte ich schon kurz darstellen:

  1. Seitengeschwindigkeit“ heit auf Englisch „Page Speed“ und ich kann jedem nur das gleichnamige Tool von Google sowie „ySlow“ von Yahoo empfehlen. Wem das Installieren von Firefox-Erweiterungen zu kompliziert ist, dem empfehle ich „Pagetest“ als Einstieg…
  2. Duplicate Content & unnötige Index-Seiten findet man am besten mit dem viruosen Einsatz des „site“-Befehls (wobei ich diesen Artikel unbedingt  aktualisieren muss….). Ziel hier sollte es nicht sein, möglichst viele Seiten in den Index zu bekommen – sondern unique und relevante Seiten. Das macht man in der robots.txt, mit Meta-Angaben für den Robot („noindex“ bzw. „noindex,follow“) und/oder mit dem geschickten Einsatz der Google Webmaster Tools.
  3. Die Seitenstruktur sollte die Relevanz abdecken. Wichtige und aktuelle Seiten sind möglichst „nahe“ der Home – weniger wichtige Seiten aber trotzdem erreichbar. Und wer jetzt sagt, dass er dafür einfach eine Sitemap mit allen Unterseiten an Google liefert, dem empfehle ich, diesen Artikel noch mal oben zu beginnen…
  4. Der Code ist nicht nur schlank sondern auch eindeutig. Wer viele Überschriften und kiloweise Text in die Randspalten packt, braucht sich nicht darüber zu wundern dass der Robot den Kontext für wichtiger hält als die eigentliche Information. Am besten präsentieren wir unsere Seiten ohne Javaskript, mit eindeutigen Hinweisen auf den „eigentlichen“ Content und gut strukturiert. HTML 5 wird uns da möglicherweise in Zunft helfen.

Das soll es heute mal gewesen sein. Einen Credit will ich noch los werden: Solche Themen wie „Crawlability“ sind für Konferenzen meist zu komplex und bringen  nicht so viel Credibility wie irgendwelche Pseudo-Blackhat-SEM-Themen. Deshalb habe ich mich sehr über den Einsatz von Alexander Holl und Boris Bergmann von 121Watt auf dem vergangenen Konferenz-Marathon gefreut!

GD Star Rating
loading...
Erweiterte Crawlability: Don't waste robot-time!, 3.0 out of 5 based on 3 ratings

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Kommentare (17)

  1. Pingback: Confluence: Search Engine Optimization

  2. Eric Kubitz (Beitrag Autor)

    Hey Confluence, ich hätte noch eine Idee für Ideensammlung: Ausschalten der Trackback-Funktion wenn man in einem geschützten Bereich arbeitet 😉

    eric

  3. Pingback: Webseiten-Crawlability verbessern - SEO.at

  4. jens

    Inhaltlich stimme ich Dir zu. Hinsichtlich der Wahrnehmung der Themen auf der SMX aber nicht. Der Vortrag von Johannes und mir zum Thema Search Engine Friendly Design, wovon Dein Thema ja nur einen Aspekt darstellt, war sehr gut besucht obwohl parallel zu der WotR Abschiedsshow lief.

    Vor allem große Firmen / Unternehmen sind bei solchen Vorträgen stark vertreten. Dieser Personenkreis schreibt aber nicht so oft über die Vorträge. Deshalb nehmen wir in unseren Blogs die Gewichtung nicht wirklich korrekt war.

    IMHO wird das Thema sehr gut wahrgenommen, da Deine Analyse zur Priorisierung der Themen für große Websites nicht nur korrekt sondern von den Besitzern solcher Angebote auch geteilt wird.

    P.S.Sehr schöner Artikel!

  5. Eric

    Mmmh, hast wohl Recht. Die Konferenzen waren schon reichhaltig. Man hat halt immer so seine Vorurteile…

    Danke aber für die Blumen zum Beitrag.

    Eric

  6. Pingback: SEO-Tipp „Crawlability“: Mach dem Suchmaschinen-Crawler das Leben leichter! » t3n News

  7. Pingback: Erweiterte Crawlability — shortseo

  8. Pingback: Crawlability von Webseiten optimieren « AdClicks-Agent.de

  9. Pingback: "SEO ist sehr speziell und fordert ein spezifisches Fachwissen. Gutes SEO ist alles, was darüber hinaus geht." Astrid Staats | Maclites

  10. Pingback: Nun auch “offziell”: Seitengeschwindigkeit ist Rankingfaktor | Technik Sonstiges | Seo Book

  11. Lars Heinemann

    Sehr guter Beitrag.

  12. Pingback: Crawlability der Webseite verbessern « SEOMarketing.H

  13. Pingback: Crawlability der Webseite verbessern « Der Unternehmensblog von adocom

  14. Mario Träger

    Danke, interessanter Artikel.
    Vorallem wieder ein Grund die Website auf Performance bzw. Ladezeit zu optimieren.

    Mario

  15. Pingback: Flowchart zu Duplicate Content, canonical-Link und 301-Redirect | Nikolas' wordpress

  16. Pingback: [Interview] “SEO ist sehr speziell und fordert ein spezifisches Fachwissen. Gutes SEO ist alles, was darüber hinaus geht.” – Astrid Staats – Maclites Magazin

  17. Pingback: On-Site SEO: Werkzeuge für bessere Crawlability

Schreiben Sie einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *