Crawl-Budget-Optimierung: Wie Du Dein Budget optimal ausnutzt! [Search Camp Episode 88]

25. Juni 2019 | Von in Podcast "Search Camp", SEO

Um die Optimierung des Crawl-Budgets kümmern sich nur wenige Unternehmen. Gerade bei größeren Websites sollte man aber schon genau darauf schauen, welche Ressourcen Google crawlt. Warum ist das Thema relevant? Was passiert, wenn man Budget verschwendet? Und wie geht man an die Thematik heran?

 

 

Die wichtigsten Podcast-Links:

 

Shownotes

  1. Der On Page Training Day am 10. Oktober 2019: Mit dem Coupon-Code OPTD-10 jetzt 10% sparen
  2. Hilfreicher Beitrag von Google: What Crawl Budget Means for Googlebot

 

Transcript

Moin! Herzlich willkommen zu Search Camp, dem Online-Marketing Podcast, Markus Hövener hier mit guter Laune ehrlichgesagt. Ich habe euch heute ein Thema mitgebracht, und zwar Crawl Budget Optimierung. Ich sage gleich ein bisschen was dazu, warum ich mir das ausgesucht habe. Ich denke, es ist für dich wichtig sich damit zu beschäftigen. Je nach Größe der Website wird’s immer wichtiger, also große Websites müssen da mehr drüber nachdenken, kleine nicht so unbedingt dolle. Aber trotzdem, du musst wissen, was es ist, du musst dich damit beschäftigen und alles, was du wissen musst, gibt’s nach diesem Pling Pling jetzt.

Und jetzt machen wir ja auch schon weiter. Danke fürs Dranbleiben. Thema ist heute Crawl Budget oder Crawl Budget (englisch), ich sage immer eher Crawl Budget, beides ist natürlich vollkommen richtig. Crawling erstmal ist ein Thema, mit dem beschäftige ich mich in diesem Jahr vermehrt. Vielleicht gibt’s noch ein paar Sachen von mir dazu, es wird auf jeden Fall noch ein paar Podcast-Folgen zu dem Thema geben. Und einer der Hintergründe ist auch der, ich konzentriere mich gerade ein bisschen auf das Thema Crawling, ich habe viele Seminare zum Screaming Frog gegeben in diesem Jahr, werde auch noch viele geben. Und es gibt noch ein neues Produkt von mir, das ist der OnPage Training Day am 10. Oktober. Kurzer Mini-Werbeblock, es sei mir gestattet, in einer Minute geht’s dann mit dem Content weiter. Worum geht’s mir? Maximal 20 Teilnehmer und ich will konkrete Fälle, konkrete Websites mit euch durchspielen und dann gucken, wie optimieren wir das Ganze eigentlich? Denn und das merke ich in der Praxis immer wieder gerade, so viele Seminare von mir, und dass schon relativ Wissen da ist. Also jemand weiß, was eine robots.txt ist, was sie macht, man weiß was ein Robots Metatag ist, aber wenn man dann an so einem konkreten Fall steht, dann wissen viele einfach nicht, was nehme ich denn jetzt davon oder 404, 410, oder ich weiß nicht, auch so Themen wie hreflang, Search Intent, all diese Themen, und die möchte ich wirklich an einem Tag an konkreten Cases durchspielen. Da habe ich schon relativ viele zusammengestellt, mein Team muss die im Moment alle mit mir einmal durchspielen, damit die auch alle geprüft und getestet sind. Und wie gesagt einen Tag wirklich Druckbetankung, ihr müsst fleißig mitarbeiten, also ohne Laptop wird das Ganze denke ich für euch nichts, und ich kann euch nur versprechen, ihr werdet was mitnehmen. An wen richtet sich das Ganze? An Inhouse- und Agentur-SEOs, die natürlich mehr über OnPage lernen möchten, die schon vielleicht eine gewisse Vorbildung haben, also absolute Einsteiger glaube ich sehe ich da eher nicht. Aber wenn ihr schon ein gewisses Grundwissen habt, aber euch fehlt vielleicht noch die Erfahrung, also dann will ich euch da sehen. Punkt. Link packe ich euch in die Shownotes und ich packe euch auch noch einen Gutscheincode dazu, damit könnt ihr dann das Ding vergünstigt buchen. Wie gesagt will ich euch sehen. So, aber das war jetzt wie gesagt der Werbeblock, diesmal wenigstens nichts mit Matratzen oder so, sondern nur für meinen eigenen Scheiß.

Thema Crawl Budget Optimierung, ja, ist ein spannendes Thema. Ich merke in der Praxis, dass da sehr viel Halbwissen vorhanden ist und manchmal auch falsche Schlüsse gezogen werden und deswegen habe ich gedacht für euch, Tada! mache ich mal eine Folge nur über das Thema. Ich fange mal an, Crawl Budget. Jetzt wird’s total banal, aber es geht um Crawling, und das muss man sich immer vor Augen führen. Es geht nicht darum, was später im Index landet, ich meine, das eine hat mit dem anderen zu tun, es geht auch nicht darum, was später rankt, sondern es geht wirklich nur darum, womit beschäftigt sich der Crawler?

Jetzt muss man wissen, Crawl Budget, das Ganze ist limitiert, Google holt pro Tag im Schnitt nur x Kilobyte oder y Ressourcen ab, mehr nicht. Das stimmt nicht ganz, das ist jetzt nicht so eine harte Grenze, die es da gibt, aber es gibt trotzdem ich sag mal einen Korridor. Wie groß dieser Korridor ist, das bestimmt Google selber, das heißt, ihr habt erstmal keine Möglichkeit das direkt zu beeinflussen. Ihr könnt jetzt nicht irgendwo den Hahn aufdrehen und sagen, lieber Google, crawl doch bitte mehr bei uns, das ist leider nicht möglich. Das, was da als Crawl Budget vorhanden ist, das könnt ihr im Moment noch über die alte Google Search Console einsehen, da gibt’s die Crawling Statistiken. Wenn ihr das ihr hört, ist das Ding vielleicht schon weg, keiner weiß genau, wie dieses Tool in der neuen Google Search Console aussehen wird, naja.

Es gibt ein paar Situationen, da werdet ihr allerdings feststellen, dass dieser Korridor, den es typischerweise gibt, auf einmal breiter wird. Google spricht dann eben vom sogenannten Crawl Demand, das heißt, das, was eigentlich als Crawl Budget festgelegt wurde, reicht dann nicht mehr aus. Zum Beispiel ihr habt einen Relaunch gemacht, go live, und jetzt merkt Google, alles hat sich geändert auf der Website, und eigentlich bei dem aktuellen Crawl Budget, was du hast, wird es irgendwie 30 Tage dauern bis er das halbwegs alles durch hätte, dann wird der Hahn aufgedreht und für einen beschränkten Zeitraum hast du dann einfach mehr Crawl Budget. Später geht’s dann allerdings wieder zurück auf normal, je nachdem wie die Website aussieht natürlich. Aber grundsätzlich, wenn dieser Crawl Demand vorbei ist, kommst du wieder auf den alten Wert zurück.

Wichtig, es gibt eigentlich keine harte Metrik dafür, wie gesagt man kann über Kilobyte reden oder Megabyte oder überhaupt, wie viele Ressourcen, aber nochmal, es gibt keine Zahl da dran, das ist natürlich ein bisschen blöd. Eine Möglichkeit mehr Budget zu erhalten, ist übrigens eine recht banale Möglichkeit, nämlich die Website schneller machen. Google spricht auch von der Crawl Rate, gibt’s dieses Statement „making a site faster improves the user’s experience while also increasing crawl rate“. Den Link dazu habe ich euch auch noch in die Shownotes reingepackt, dann könnt ihr das noch mal nachlesen. Also wenn eine Website langsam ist oder auf einmal ganz viele 503 Fehler passieren zum Beispiel, dann setzt Google diese Crawl Rate runter, dann werden einfach weniger Seiten oder Ressourcen pro Tag oder pro Zeiteinheit gecrawlt, wenn eine Website schnell ist, kriegt ihr halt mehr durch in der gleichen Zeit. Also das noch mal so eine klassische Empfehlung, ich meine, Page Speed ist sowieso für jeden da draußen ein Thema, aber das wäre nochmal ein Thema, wo man sagt, okay, ich will einfach mehr rausholen aus dem Ding.

So, nächste große Frage dazu ist:

Warum ist es eigentlich relevant über Crawl Budget nachzudenken?

Oder andersherum, was passiert eigentlich, wenn man mehr Ressourcen als Crawl Budget hat? Also, weiß nicht, Google sagt, ich hole nur am Tag 1000 Seiten ab, aber du hast irgendwie 10.000. Naja, was passiert wohl? Google wird eben manche Seiten erst morgen, übermorgen oder in 5 Tagen crawlen. Der Effekt kann dann einfach sein, neue Seiten kommen verspätet in den Index oder geänderte Seiten werden später aktualisiert, beides kann passieren. Grundsätzlich kann man sagen, fast alle Websites haben natürlich mehr Ressourcen als sie Budget haben. Ist auch relativ logisch, Google versucht einfach das Budget optimal auszunutzen. Zum Beispiel, wenn du eine Seite hast, die sich oft ändert, dann wird Google auch öfter crawlen, wenn es andersrum ist, also wenn es wenig Änderungen gibt, wird Google seltener crawlen. Wenn Seiten weit oben in der Hierarchie sind, dann könnte es ein Argument sein, warum diese Seite häufiger gecrawlt wird. Das ist natürlich jetzt alles auch kein Argument jetzt Seiten künstlich nach oben zu hieven oder sie künstlich jeden Tag zu ändern. Denn nochmal, das hat nichts mit Rankings zu tun, sondern erstmal nur mit dem Crawling. Also Seiten werden gecrawlt, kommen dann idealerweise in den Index, ranken dann idealerweise. Aber trotzdem nochmal, Crawl Budget Optimierung führt nicht kausal zu besseren Rankings. Es ist kein Rankingfaktor. Pagespeed natürlich schon, aber nochmal, wenn Google es nicht schafft, einem Tag deine ganze Website zu crawlen und dann muss das nicht schlecht für deine Website sein. Punkt. Es kann eben nur dazu führen, dass eben Seiten verspätet in den Index kommen oder verspätet aktualisiert werden.

So, nächste große Frage:

Wie und womit kann man Budget eigentlich verschwenden?

Auch das ist natürlich relativ klar, Google wird erstmal versuchen alles zu crawlen, was sie auf deiner Website finden. Die fangen auf der Startseite an, folgen allen Links in die Tiefe, erstmal wirklich allen Links, und da können sie natürlich über Seiten stolpern, die jetzt eigentlich nicht gecrawlt werden müssen, die eigentlich auch gar nicht in den Index müssen. Also klassisch bei einem Online-Shop zum Beispiel eine Wishlist oder eine Recommend-Funktion, eine Print-Funktion oder Filter-Seiten oder sowas, alles, was nicht indexiert werden soll und auch nicht gecrawlt werden soll, das verschwendet halt erstmal Crawl Budget. Also, wann immer Google eine URL lädt, die in Bezug auf SEO nicht relevant ist, habe ich eigentlich mein Budget verschwendet.

Es gibt auch so Fälle, wo ich zum Beispiel AMP nutze. AMP, zu jeder URL gibt’s noch eine Alternate URL, also jede Seite gibt es eigentlich zweimal. Auch da geht natürlich oft mal ein Crawl Budget. Es ist natürlich voll okay, ist auch schwierig da jetzt was zu optimieren, auch selbst, wenn man auf AMP verzichten möchte. Aber auch das muss einem klar sein, also wenn man solche Technologien benutzt, dann halbiert das quasi erstmal mein Crawl Budget, weil es jede Seite zweimal gibt. Aber eben auch Sachen wie Ajax Calls, CSS-Dateien, JavaScript-Dateien, quasi alle diese Ressourcen gehen erstmal zu Lasten meines Crawl Budgets. Davon sind ein paar Sachen natürlich relativ schwierig kontrollierbar und deswegen klassisch würde man sich das mit den irrelevanten Seiten auf jeden Fall erstmal angucken, also quasi was immer Google da crawlt kritisch überprüfen, ob das wirklich gecrawlt werden muss. Man muss grundsätzlich immer finde ich 3 Fälle angucken. Also Google crawlt jetzt eine URL und was passiert eigentlich, nachdem sie das Ding gecrawlt haben? Fall 1 ist eigentlich der schöne Fall, der Inhalt landet im Index oder wurde für das Rendern einer Seite gebraucht, also auf jeden Fall alles ist gut gelaufen, also alles ist gut. Das ist der schöne Fall. Jetzt gibt’s noch den 2. Fall, zum Beispiel wir haben einen Inhalt, der steht auf noindex. Ist erstmal schlecht fürs Budget, denn die Seite muss trotzdem gecrawlt werden und sie wird auch nicht nur einmal gecrawlt, sondern regelmäßig, weil das noindex könnte ja irgendwann sich mal ändern. Ist auch Verschwendung von Crawl Budget. Oder ich habe Fall 3, ich habe vielleicht eine Seite, die hat einen Canonical-Tag auf eine andere Seite. Das ist grundsätzlich gut, weil dafür ist das Canonical-Tag ja eigentlich da, um Duplicate Content abzufedern, aber auch das ist wieder schlecht fürs Budget. Und natürlich grundsätzlich, jeder Fall, wo eben eine Seite jetzt gecrawlt wird oder eine Ressource wird gecrawlt, liefert einen 404 Fehler oder ein 503 oder ein 301, also wann immer quasi etwas ungleich 200 liefert, hat sich der Crawler mit irgendwas beschäftigt und es hat eigentlich manchmal einfach zu nichts geführt. Auch schlecht.

So, wann immer man sich diese Fälle hier anguckt, muss man grundsätzlich sagen, erstmal es gibt immer 3 Lösungen, wie ich das Ganze optimieren kann. Lösung Nummer 1, das ist die einfachste, ich nutze meine robots.txt. Die robots.txt ist die einzige Möglichkeit einfach das Crawling zu beschränken. Das hat leider einen negativen Effekt, und zwar Seiten, die ich durch die robots.txt gesperrt habe, können trotzdem im Index landen. Das sind dann so ja Leerseiten, weil Google hat sie ja nicht gecrawlt, Google hat eigentlich keine Informationen da drüber. Die haben dann auch in den Suchergebnissen überhaupt kein Snippet, weil nochmal, Google hat das Ding nicht heruntergeladen. Das passiert nicht oft, aber es kann passieren. Grundsätzlich muss man immer sich sagen, häufig ist es so, das robots.txt ist besser zu benutzen als ein noindex Tag. Wenn ich 100.000 Seiten per robots.txt sperren kann, würde ich das immer machen und würde nicht noindex setzen, weil nochmal, noindex heißt, Google lädt die Seite herunter und schmeißt sie wieder weg. Crawl Budget verschwendet, nichts gewonnen, blöde Sache. Die 2. Lösung, die ich mir auch angucken sollte, ist in der Google Search Console, nochmal, wir sind immer noch bei der alten Google Search Console, das URL Parameter Handling, dafür gibt’s einen Report, der funktioniert auch gut, der funktioniert leider nur für Google. Bing hat was ähnliches, also in den Bing Webmaster Tools gibt’s eine ähnliche Funktion, wo ich URL Parameter und auch die erzeugen natürlich wieder Duplicate Content oder haben Canonical-Tag oder sowas, wo ich URL Parameter quasi ausschalten kann. Kann sagen, dieser Parameter hier, der ist nicht so gemeint, also der sollte da eigentlich gar nicht sein. Und Lösung Nummer 3 natürlich, die Programmierung der Website zu ändern. Dafür muss ich natürlich erstmal wissen, was da jetzt schiefläuft, aber es gibt für alles oder für viele Sachen gibt es eigentlich auch relativ gute Lösungen. Wenn ich zum Beispiel einen bestimmten URL-Parameter dran habe, der eigentlich irrelevant ist, muss ich mich natürlich fragen, warum ist der eigentlich da hinten dran? Brauche ich den unbedingt oder kann der auch weg? Das sind so die klassischen Lösungen.

Nächste Frage, nächste große Frage:

Warum sollte man über Crawl Budget Optimierung eigentlich auch noch drüber nachdenken?

Wir haben gerade oder ein paar Effekte haben wir schon genannt. Es gibt natürlich nochmal, nochmal der Hinweis von mir, die Verschwendung von Crawl Budget hat nicht per se negative Konsequenzen, aber eine Sache muss man noch erwähnen, und zwar das Thema Server-Last. Denn Google crawlt irrelevante Seiten, ich hatte eben schon das Beispiel mit dem noindex, Google muss das Ding crawlen und crawlt nochmal und nochmal und nochmal und jedes Mal wird die Seite weggeschmissen. Das erzeugt natürlich Server-Last und kann natürlich ein Problem sein. Ich hatte gerade, im letzten Jahr war es glaube ich, einen relativ krassen Fall, wo jemand von 10 Millionen Seiten auf der Website 9,9 Millionen per noindex gesperrt hatte, was irgendwie komplett irre war. Und allein für das stetige Überprüfen dieser 9,9 Millionen Seiten wurde wirklich eine Serverlast erzeugt, die wirklich nicht mehr schön war. Habe ich so, also in der Praxis sieht man das relativ selten. Aber das war ein relativ harter Fall, wo ich nochmal gesagt habe, dieses ganze noindex-Getue ist dann manchmal eben doch ein bisschen nachteilig auf der anderen Seite.

Nächste große Frage:

Wie kann man sich dem Thema eigentlich nähern?

Das ist mein Crawling-Jahr, habe ich eben schon gesagt, und eine Sache ist natürlich wirklich einfach mal die Website zu crawlen mit idealerweise dem Screaming Frog SEO Spider. Vorher bitte das JavaScript-Handling einschalten, also das JavaScript-Rendering, damit halt auch wirklich der Frog genauso funktioniert wie es der Google-Bot macht.

Und dann sollte ich idealerweise einen Schritt vollziehen, nämlich meinen Crawl abgleichen mit der XML-Sitemap. Also XML-Sitemap heißt ja, ist eine Liste aller wichtigen Seiten und im Crawl sind die Seiten oder alle URLs, an die der Crawler irgendwie drankommt, an die Google wahrscheinlich auch drankommt. Der Idealfall ist, der eigentlich nie passiert, beide Mengen, also die gecrawlten URLs und die URLs in der XML-Sitemap sind identisch. Passiert relativ selten. Man kann das gut mit dem Frog machen, diesen Testlauf, also diese beiden Mengen miteinander vergleichen. Was muss man machen? Erstmal in den Einstellungen „respect noindex“ ausschalten, „respect canonical“ ausschalten, „respect robots.txt“ einschalten und beim URL-Rewriting muss man alle Parameter analog zur Google Search Console eintragen. Das heißt, wenn ich einen Parameter in der Google Search Console als irrelevant markiert habe, trage ich ihn da auch ein. So wird der Crawler eigentlich genauso funktionieren wie Google es auch macht. Jetzt crawle ich die ganze Website einmal durch, ich habe natürlich auch eingeschaltet, dass die XML-Sitemap auch gecrawlt werden soll, auch das ein super Feature mittlerweile vom Frog, und dann schaue ich mal nach. Ich schaue mal nach, welche Inhalte und wie viele vor allem stehen eigentlich auf noindex? Das kann ich irgendwie unter dem Tab „Directives“ und „noindex“ machen. Und da immer im Großen denken. Wenn ich 3 Seiten, die auf noindex stehen, vollkommen egal, 3 Millionen eher nicht. Und nochmal, oft ist es besser die robots.txt zu nutzen, einfach weil es Crawl Budget einspart.

Als zweites würde ich mir mal angucken, wo, an welchen Stellen wird eigentlich kanonisiert? Also gehe ich in den Tab „Canonical Tag“ und wähle den Filter „canonicalized“ aus und guck mal nach, wo ist das jetzt hier passiert? Und nochmal, jeder Fall, wo etwas canonicalized wird, also wo eine URL gecrawlt wird, die ungleich dem Canonical Tag ist, ist eigentlich eine Verschwendung von Crawl Budget. Und dann muss ich halt gucken, diese URLs da, geht das eigentlich auch anders? Also ist da zum Beispiel ein URL-Parameter dran, der da hinten gar nicht drangehört? Kann ich das vielleicht anders lösen? Das kriege ich mit diesem Analyseschritt raus.

Und als drittes würde ich mir noch angucken, wo gibt es eigentlich irrelevante Inhalte, die noch nicht per robots.txt gesperrt sind? Wie kriege ich das raus? Das ist klar, eine Möglichkeit ist, ich habe ja meinen Crawl mit der XML-Sitemap abgeglichen und dann kann ich zum Beispiel in dem Sitemap-Tab gehen, in den Filter „not in Sitemap“, dann habe ich alle URLs, die sich nicht in der XML-Sitemap befinden. Also nochmal, das sind dann quasi alle URLs, die nicht wichtig sind. Naja, und dann muss ich halt gucken, sind da vielleicht URLs dabei, die ich per robots.txt sperren könnte? Da muss ich natürlich extrem vorsichtig sein, dass ich mir da nicht irgendwas wegkloppe, was vielleicht relevant ist. Deswegen immer in der Google Search Console im Report Leistung erstmal prüfen, wenn ich etwas sperre, schaue ich bitte nochmal nach, ob ich mir damit wehtue, also haue ich mir damit irgendwelche Traffic weg? Häufig ist das nicht so, wenn ich jetzt irgendwelche Print-Seiten wegsperre, egal, aber trotzdem, bitte prüft das nach, weil damit kann man sich schon mal richtig wehtun, wenn man einfach denkt, das kann weg, das kann weg, das kann weg und das, und bums sind irgendwie 20 Prozent vom Traffic flöten und die kriegst du auch so schnell nicht wieder. Also deswegen immer vorsichtig sein.

Aber nochmal, dieser Abgleich von Crawl und XML-Sitemap ist eine unglaublich sexy Funktion, die man wirklich sehr gut nutzen kann, um einfach mal zu gucken, was crawlt man eigentlich, was wird auf meiner Website gecrawlt, was nicht relevant ist?

Und jetzt komme ich noch zur letzten Frage oder zum letzten Aspekt, nämlich: Logfile Analyse Tools. Auch das ist natürlich ein sehr guter Weg, um herauszufinden, womit beschäftigt sich der Crawler eigentlich alles? Denn, auch das muss man ja sagen, wenn ich jetzt im Screaming Frog meine Website crawlen lasse, dann sind das nicht zwangsweise die URLs, mit denen Google sich beschäftigt. Denn Google hat ja auch noch einen historischen Index oder eine historische Datenbank, das heißt, die überprüfen natürlich URLs, die vielleicht früher mal gültig waren vor 5 Jahren und crawlen die immer noch und immer noch, um zu gucken, ob sie irgendwann mal wieder auftauchen, Google bastelt auch einfach mal einfach wild URLs zusammen oder rät auch manchmal einfach URLs. Also ich habe schon die absurdesten Fälle gesehen, was Google alles crawlt auf einmal. Und das sehe ich natürlich nicht mit meinem Screaming Frog SEO Spider, muss man an dieser Stelle sagen, aber eben mit dem Logfile Analyse Tool.

Da gibt’s von Screaming Frog natürlich auch eine Lösung, den Logfile Analyzer. Ehrlichgesagt finde ich den gar nicht mal so gut, weil der eigentlich relativ wenig Funktionen bietet. Es gibt da zwar immer Updates, aber so richtig muss ich sagen, so richtig geil geworden ist das Tool noch nicht. Also das, was beim SEO Spider wirklich, wo du sagst oder wo du eigentlich bei jeder Version das Gefühl hast, wow, da ist richtig ein Schritt dazugekommen, beim Screaming Frog Logfile Analyzer muss ich sagen, nee, eigentlich nicht, finde ich nicht spannend.

Zwei Tools zu empfehlen, einmal der Crawl Optimizer, ist ein Tool aus Österreich, wenn ich nicht vollkommen daneben liege. Sehr spannendes Ding. Ist offensichtlich auch von einem SEO entwickelt worden, weil quasi alle Reports, die du dir ziehst, haben eigentlich immer einen direkten SEO-Bezug und beantworten eigentlich auch immer direkt eine sehr konkrete SEO-Frage. Und natürlich von RYTE gibt’s jetzt BotLogs, sehr geniales Tool, wo du auf einmal gar keine Logfiles mehr brauchst, also das macht das Tool quasi auf Server-Ebene. Sehr spannend. Ich finde, zumindest zu dem Zeitpunkt, wo ich es mir das letzte Mal angeguckt habe, also vor ein paar Wochen, von den Funktionen her noch nicht so spannend, aber von dem Datensammeln. Also du hast wirklich Echtzeitdaten da verfügbar, sehr geil. Guckt euch das mal an, da gibt’s auch so regelmäßig Webinare von RYTE, wo man sich das Tool mal angucken kann. Sehr spannend. Dann nochmal, wenn du es wirklich richtig machen willst, dann musst du dir wirklich angucken, womit sich der Google-Bot konkret beschäftigt, denn das wirst du bei einem Crawl näherungsweise hinbekommen, überhaupt keine Frage, damit kommst du auch schon sehr, sehr weit, überhaupt kein Ding, aber gerade wenn es so ums Thema Altlasten geht, und ich habe selber so ein Sample laufen, was unsere eigene Website bloofusion.de betrifft, wo ich mich regelmäßig wundern muss, was der alles für URLs überprüft, die noch nie existiert haben. Ist bei der Website jetzt vollkommen egal, weil so viele Seiten haben wir nicht, der kann gerne mal den ganzen Schrott durcharbeiten, gar kein Thema, aber wenn du halt eine sehr, sehr große Website hast, 1 Million Seiten und du willst wirklich, dass sich Google mit den korrekt relevanten richtigen Seiten beschäftigt, dann sind solche Analyseschritte viel, viel wichtiger.

So, das war eigentlich das, was ich euch zum Thema Crawl Budget erzählen wollte. Zusammenfassung eigentlich nochmal nach wie vor, Crawl Budget hat nichts mit Rankings zu, heißt einfach nur, wenn ihr Crawl Budget verschwendet, ist das nicht nachteilig für die Website, es kann eben nur dazu sorgen, dass ganz bestimmte Seiten verspätet in den Index kommen oder aktualisiert werden. Und grundsätzlich müsst ihr halt das Instrumentarium kennen, ihr müsst halt wissen zum Beispiel, mit einer robots.txt könnt ihr arbeiten oder eben auch mit dem URL-Parameter Report in der Google Search Console, solange er noch existiert. Ich bin übrigens super frustriert, was die Google Search Console angeht und dass es ewig dauert. Ich weiß nicht, finde ich, Google jetzt nicht würdig, was da ehrlichgesagt passiert. Finde ich extrem seltsam und sehr befremdlich. Gut. Ja, wie gesagt, ich habe euch ein paar URLs in die Shownotes mit reingepackt, wenn ihr da noch mal nachlesen wollt, make it so. Ansonsten, wie schon eingangs im Werbeblock gesagt, würde mich freuen, wenn ihr zu meinem OnPage Training Day kommt, wenn ihr mehr crawlen wolle, wenn ihr Bock habt auf sowas, euch damit zu beschäftigen, was passiert in ganz bestimmten Fällen. Ich habe echt geile Sachen mitgebracht, wie gesagt, wäre einfach cool, wenn ihr da Lust drauf habt. Ich werde noch ein paar Mal dafür Werbung machen, also ihr kommt nicht wirklich daran vorbei. 10. Oktober, be there or be square, in diesem Sinne. Vielen Dank fürs Zuhören. Ich hoffe, ich konnte euch alles Relevante zum Thema Crawl Budget Optimierung erzählen. Und in diesem Sinne, bis bald. Ciao!

The following two tabs change content below.
Avatar-Foto

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

4 Kommentare zu “Crawl-Budget-Optimierung: Wie Du Dein Budget optimal ausnutzt! [Search Camp Episode 88]”

  1. Avatar-Foto Stefanie

    Hallo Markus
    Danke war wie immer sehr toll zu hören, wie das andere so machen. Hast Du noch Tipps zur Umsetzung wenn wir im Logfile URL’s finden?
    LG Stefanie

  2. Avatar-Foto Markus Hövener

    Ich hoffe, dass Ihr dort URLs findet 🙂

    Im Ernst: Du meinst wahrscheinlich URLs, die nicht zu den primären URLs gehören. Da gibt es die üblichen Möglichkeiten:

    – Wenn es irrelevante URL-Parameter gibt -> über das URL-Parameter-Handling in der Google Search Console ausschalten
    – Wenn die Inhalte komplett irrelevant sind -> per robots.txt oder noindex sperren (fürs Crawl-Budget ist die robots.txt natürlich die bessere Wahl, siehe Podcast)

    Und natürlich immer gerne an den Ursachen forschen: Wie kommt Google an bestimmte URLs heran? Kann man das vielleicht ändern?

  3. Avatar-Foto Ildiko Eori

    Super Podcast 😉

  4. Avatar-Foto Stefan Zepter

    Sehr hilfreicher Podcast…. Das Thema ist auch über ein Jahr später noch top aktuell! Vielen Dank!

Kommentieren