„Gecrawlt/gefunden – zurzeit nicht indexiert“ – und jetzt? [Search Camp Episode 217]

22. Februar 2022 | Von in Podcast "Search Camp", SEO

In der Google Search Console gibt es im Report „Abdeckung“ die beiden Meldungen „Gecrawlt – zurzeit nicht indexiert“ und „Gefunden – zurzeit nicht indexiert“. Was bedeutet das? Wie geht man damit um? Und wie kann die neue URL Inspection API dabei helfen?

 

Die wichtigsten Podcast-Links:

 

Shownotes

 

„Gecrawlt/gefunden – zurzeit nicht indexiert“ – und jetzt?

Ich habe ein Thema für euch mitgebracht, eines, was ich merke, dass es viele Leute beschäftigt. Über Seminare kriege ich viel rein, aber auch die SEO Sprechstunde und verschiedene andere Möglichkeiten, wo ich einfach sehe, Leute nutzen – und das ist erst mal die gute Nachricht – die Google Search Console, um Probleme ihrer Websites zu identifizieren. Da nutzen sie eben auch den Report „Abdeckung“.

Und da gibt’s zwei Fehlermeldungen, nennen wir sie einfach nur Meldungen, die heißen „Gecrawlt – zurzeit nicht indexiert“ und „Gefunden – zurzeit nicht indexiert“. Damit tun sich sehr viele schwer, weil sie dann einfach nicht wissen: Was mache ich jetzt eigentlich damit?

 

Bekannte vs. eingereichte Seiten

Es gibt eine wichtige Sache, die man vor allem wissen muss. Wenn man in diesem Report ist, dann gibt es oben links einen Filter, und der ist typischerweise eingestellt auf „alle bekannten Seiten“. Das sind Seiten oder URLs, mit denen sich Google so beschäftigt. Das kann eine Seite sein, die es heute gibt, das kann aber auch noch eine sein, die es vor zwei Jahren mal gab, die es schon lange nicht mehr gibt. Deswegen ist es immer ungeschickt, diesen Filter da oben zu benutzen, sondern man muss eigentlich den Filter „alle eingereichten Seiten“ nutzen. Der greift dann nämlich auf die XML-Sitemap zu oder XML-Sitemaps.

Wenn man kurz davon ausgeht, dass diese Sitemaps funktionieren und auch nur indexierbare URLs beinhalten, dann kriege ich ein deutlich intelligenteres Bild mit diesem Report „Abdeckung“. Also das erstmal der Fix Nummer 1: Wähle diesen Filter, denn ansonsten kriegst du in der Regel ziemlich unsinnige Daten. Vielleicht ist der Fehler dann auch schon weg. Meistens nicht, aber könnte sein.

 

Discovery, Crawling, Indexierung

Jetzt müssen wir uns trotzdem mal kurz damit beschäftigen: Was sagt denn dieser Fehler eigentlich aus? Was heißt denn das, worüber die da sprechen? Bis etwas im Index landet, müssen verschiedene Schritte nacheinander passieren.

Das heißt, erst muss eine URL gefunden werden, man nennt das auch Discovery. Das heißt, Google muss einfach wissen, hier ist eine URL und die gibt es. Google rät ja nicht einfach URLs ins Blaue hinein, sondern irgendwie muss Google eine URL finden. Und das passiert in der Regel über interne Links. Also Google crawlt irgendwie die Startseite, findet dabei einen Link auf eine Seite, diese Seite kennt Google nicht: Ah! Dann habe ich sie schon mal gefunden.

Als nächstes muss Google seinen Crawler losschicken, den Googlebot. Der muss diese Seite einmal herunterladen. Dann laufen noch ein paar andere Schrittchen und das muss angeguckt werden, was da jetzt heruntergeladen wurde, und wird bewertet.

Wenn alles gut läuft, dann wird das auch indexiert. Nur, wenn das indexiert ist, kann es auch gefunden werden.

 

Die beiden Meldungen

Und jetzt gibt’s eben diese beiden Meldungen. Gucken wir uns erstmal an, was sagt Google denn eigentlich? Also ich habe mal in der Google Hilfe nachgeguckt und „Gecrawlt – zurzeit nicht indexiert“ heißt laut Google:

„Die Seite wurde von Google gecrawlt, aber nicht indexiert. Sie könnte jedoch in Zukunft indexiert werden. Sie brauchen diese URL nicht noch einmal zum Crawling einzureichen.“

Aha! Dann gibt es das Ding „Gefunden – zurzeit nicht indexiert“. Also:

„Die Seite wurde von Google gefunden, aber noch nicht gecrawlt. Google kennt die URL, hat sie aber nicht runtergeladen. Wird diese Begründung angegeben, hat Google normalerweise versucht die URL zu crawlen, aber das hätte die Website überlastet. Daher hat Google das Crawling neu geplant, aus diesem Grund ist das Feld mit dem letzten Crawling-Datum im Bericht leer.“

Aha! Was ist da anscheinend passiert? Google hat die Seite gefunden, wollte sie crawlen, konnte in dem Augenblick nicht crawlen, weil vielleicht schlechtes Wetter war oder weil es der Website nicht gut ging. Zumindest schreiben sie das jetzt erst mal so. Also Google kennt die URL, aber Google hat sie einfach noch nicht gecrawlt, nicht heruntergeladen.

Was machen wir jetzt erstmal damit? Erstmal muss einem klar sein, dass alle Reports in der Google Search Console einen Zeitverzug haben. Das ist nicht sekundenaktuell, sondern es hat einen Zeitverzug. Das merkt man relativ schnell, nämlich wenn man sich mal URLs anguckt der Fehlerkategorie „Gecrawlt – zurzeit nicht indexiert“. Und man geht in die URL-Prüfung rein, dann sagt das Tool relativ schnell: Ah ja, diese Seite habe ich eben doch indexiert.

Das ist kein Widerspruch, denn zu der Zeit, als dieser Reporteintrag da erzeugt wurde, war sie noch nicht indexiert, mittlerweile ist sie es aber. Das heißt, diesen Zeitverzug, den habe ich erst mal immer da drin. Den kriege ich auch nicht weg. Ein bisschen kriege ich den weg, aber nur weil da steht „zurzeit nicht indexiert“, heißt das nicht, dass es zurzeit nicht indexiert ist.

 

Die Einträge validieren – mit der URL Inspection API

Um also ein realistisches Bild zu kriegen, müssen wir eigentlich diese ganzen Einträge, die da stehen, einige zu Recht, einige nicht mehr zu Recht, müssen wir erstmal validieren – ach, was ist denn heute los mit meine Mund – also validieren. Das machen wir auch.

Und dafür haben wir seit neuestem die schöne URL Inspection API von Google. Das heißt, man kann jetzt manuell, programmatisch quasi das Tool „URL-Prüfung“ über diese ganzen URLs laufen lassen. Das ist beschränkt auf 2000 URLs pro Tag pro Account, aber das reicht in der Regel auch. Also selten hat man mehr als 2000 Seiten in diesen Kategorien drin. Gibt’s verschiedene Tools für.

Was ich zum Beispiel sehr empfehlen kann, ist vom Valentin Pletzer. Ich packe euch das in die Shownotes rein. Da gibt’s einfach ein Tool, das könnt ihr einfach nur laufen lassen, da müsst ihr nichts installieren, da wird nichts irgendwie in irgendeiner Datenbank gespeichert, sondern funktioniert nur im Browser, damit könnt ihr das machen. Ihr könnt quasi diese URLs nehmen und dort einfach reinstecken und dann gucken, wie ist denn jetzt gerade der Stand.

Alternativ könnt ihr auch den Screaming Frog benutzen, den sowieso viele haben. Und da kann ich euch mal durchführen. Also ihr geht erstmal in die Google Search Console und exportiert euch die URL-Listen aus dem Report „Abdeckung“. Also die, wo steht „Gecrawlt – zurzeit nicht indexiert“ oder „Gefunden – zurzeit nicht indexiert“. Dann geht ihr in den Frog, da geht ihr erstmal in den „List Modus“, denn diese URL-Listen wollt ihr gleich durchcrawlen. Dann müsst ihr noch die Google Search Console API connecten. Das geht ganz einfach unter „Configuration > API > Google Search Console“. Eventuell heißen die Links immer ein bisschen anders, aber das ist so aus meinem Gedächtnis heraus.

Da habt ihr einen Tab, der heißt „URL Inspection“, da setzt ihr einfach beide Haken, und dann legt ihr los. Also URLs reinkopieren ganz oben im Screaming Frog und startet das dann einfach. Jetzt wird der Screaming Frog diese URLs durchtesten und wird euch dann im Tab „Search Console“ die konkreten Daten anbieten, also die ‚Jetzt in dieser Sekunde‘-Daten und nicht die ‚Vor drei Tagen‘-Daten.

Dann könnt ihr einfach mal gucken, dann werdet ihr sehen, es gibt eine neue Spalte, die heißt jetzt „Summary“. Da steht zum Beispiel drin „URL is not on Google“ oder „URL is on Google“. Dann gibt’s auch noch die Spalte „Coverage“ und da steht dann zum Beispiel drin „Crawled – currently not indexed“. Das heißt, damit habt ihr erst mal sekundengenaue Daten darüber, was jetzt wirklich im Index ist und was jetzt nicht.

Und mit der neuen Filterfunktion vom Screaming Frog, die es früher nicht gab, deswegen, also oben ist dieses Suchfeld und rechts davon sind diese Schieberegler und da könnt ihr draufklicken und dann könnt ihr das Ganze filtern. Das heißt, alles das, wo „URL is on Google“ steht, das könnt ihr erst mal wegfiltern, das braucht ihr jetzt nicht mehr. Dann könnt ihr gucken, was bleibt jetzt eigentlich wirklich noch übrig? Also was ist jetzt wirklich currently not indexed? Jetzt mal vorbehaltlich dessen, dass da noch was übriggeblieben ist, was wirklich absolut nicht selbstverständlich ist, sondern vielleicht ist das Problem dann auch schon gelöst.

 

Und jetzt?

Jetzt habt ihr quasi eine Liste. Was kann denn da los sein, also warum werden die nicht indexiert?

Das kann natürlich einmal die Ursache haben, einfach, die Seiten sind brandneu und Google hat sie deswegen jetzt immer noch nicht indexiert, oder der Crawler war grad beschäftigt, solche Sachen. Passiert glaube ich relativ selten.

Häufig, finde ich, hat es eher mit Qualitätsproblemen zu tun, dass die Seiten zum Beispiel inhaltlich sehr, sehr dünn sind, oder auch, dass es irgendwie doppelte Inhalte sind, dass Google die Seite zum Beispiel heruntergeladen hat, und genau das heißt es ja, gecrawlt, zurzeit nicht indexiert, und sich dann nach der Analyse der Seite dafür entschieden hat, sie nicht zu indexieren. Ein häufiges Problem.

Angenommen man hat das jetzt, also man hat Seiten, die nicht indexiert sind, wie könnte man das Problem denn lösen?

 

Vier Lösungswege

Lösung Nummer 1 ist natürlich: Man nutzt in der Google Search Console die Funktion „URL-Prüfung. Dann kann man die URL eingeben. Dann wird sie nochmal sagen „die ist nicht indexiert“. Und dann kann man die Indexierung beantragen. Das ist halt sperrig, wenn du das für 4000 URLs machen möchtest. Und vor allem ist es unmöglich, weil du kannst nur 10 Anfragen pro Tag abschicken zur Indexierung. Und vor allem: Das grundlegende Problem wird nicht gelöst: Wenn es hinsichtlich der Qualität eine schlechte Seite ist, dann ist sie immer noch schlecht. Du kannst vielleicht Google jetzt gerade nochmal darauf stoßen und sagen, bitte mach doch, und vielleicht tun sie das auch. Aber sehr wahrscheinlich tun sie das nicht, weil das grundlegende Problem ist immer noch da.

Deswegen, Lösung Nummer 2 wäre einfach, zum Beispiel die interne Verlinkung zu verbessern, indem man an anderer Stelle bessere Signale auf diese Seite liefert.

Lösung Nummer 3 wäre, externe Links zu besorgen, was auch da helfen könnte, bessere Signale an dieser Front zu liefern, um die Seite über irgendeine Schwelle zu hieven, damit sie jetzt doch indexiert wird. Kann funktionieren.

Lösung Nummer 4 ist für mich eigentlich das Realistischste, nämlich sich wirklich mal seinen Content anzugucken. Häufig muss ich sagen, ist es leider wirklich so, dass man merkt, da sind vielleicht Seiten, die aus ganz bestimmten Gründen inhaltlich nicht so super sind. Und dann gibt’s wirklich keine andere Lösung als eben an diese Seite ranzugehen und zu sagen: Hey! Ich verbessere die. Oder natürlich, man hat auch immer die Möglichkeit zu sagen: Okay! Dann ist das halt so.

 

Bekomme ich denn alles in den Index?

Und überhaupt muss sich insgesamt sagen bei dieser ganzen Thematik, und ich weiß, dass viele sich damit beschäftigen da draußen: Man wird eigentlich fast nie an den Punkt kommen, dass selbst, wenn du eine total gute Website hast und hast überhaupt keine Probleme oder irgendwas, dass Google einfach mal 100 % deiner Seiten indexiert. Wir haben so ein paar Kunden, die schaffen das, das ist dann aber auch irgendwie Mega-Brand und die haben auch an anderer Stelle ein paar gute Sachen entschieden und alles richtig abgebildet und so. Irgendwo ist immer mal grad der Wurm drin. Vielleicht passt da irgendein Satz Google gerade nicht oder Wassermann im dritten Haus oder irgendwelche kosmischen Signale stimmen gerade nicht. Google macht auch mal Fehler und deswegen kann das alles mal passieren.

Ich würde natürlich immer denken, eine Indexierungsrate von größer 90 %, idealerweise sogar 95 %, die sollte ich schon anstreben. Weil wenn ich starke Inhalte habe, gibt es keinen Grund, warum Google die nicht indexieren sollte. Was ich natürlich auch dringend empfehlen kann, ist, sich die ganzen anderen Meldungen anzugucken.

Es gibt nicht nur diese beiden Meldungen im Report „Abdeckung“, sondern auch andere, wie zum Beispiel Soft 404. Und sich das alles mal in Summe anzugucken und zu schauen, was steckt eigentlich hinter diesen Kategorien, hinter diesen Fehlermeldungen, und was ist jetzt wirklich ein relevanter Hinweis für mich, für meine Website, das halte ich natürlich für sinnvoll. Also sich gar nicht so zwangsweise nur an diesen beiden Kategorien aufzuhalten, „Gecrawlt – …“ und „Gefunden – zurzeit nicht indexiert“, sondern sich natürlich alle mal anzugucken. Weil auch da können natürlich wirklich noch Fehler drin sein.

Zum Beispiel bei der Kanonisierung kann immer mal irgendwas schiefgehen und deswegen sollte man sich natürlich nicht nur diese beiden Kategorien an Fehlern angucken.

 

Finale

Ich hoffe, ich habe euch ein paar gute Hinweise gegeben für diese beiden Kategorien. Nochmal: Ihr müsst da wirklich kritisch draufgucken. In der Regel oder häufig ist es so, dass, nur weil da steht „zurzeit nicht indexiert“, heißt das nicht, dass es jetzt mittlerweile nicht indexiert ist. Deswegen diesen Livetest zu machen und Sachen auch über Tage und Wochen zu beobachten, ist sicherlich eine gute Sache. Dafür gibt’s jetzt auch erstmal die API und dann noch die ganzen Tools.

Das heißt, man kann das auch einfach mal regelmäßig durchlaufen lassen und seine Seiten, seine kritischen Seiten da einfach auch mal über einen Zeitraum beobachten. Das ist mit Sicherheit eine sehr schöne Verbesserung mit dieser neuen API.

The following two tabs change content below.
Avatar-Foto

Markus Hövener

Markus Hövener ist Gründer und SEO Advocate der auf SEO und SEA spezialisierten Online-Marketing-Agentur Bloofusion. Als geschäftsführender Gesellschafter von Bloofusion Germany ist er verantwortlich für alle Aktivitäten in Deutschland, Österreich und der Schweiz. Markus Hövener ist Buchautor, Podcaster und Autor vieler Artikel und Studien rund um SEO.

Markus hat vier Kinder, spielt in seiner Freizeit gerne Klavier (vor allem Jazz) und genießt das Leben.

4 Kommentare zu “„Gecrawlt/gefunden – zurzeit nicht indexiert“ – und jetzt? [Search Camp Episode 217]”

  1. Avatar-Foto Jochen

    Hallo,
    bei mir genau das besprochene Problem. Das nicht alle Artikel aufgenommen werden, war mir nicht bekannt. Meine Artikel schreibe ich vom Aufbau her immer gleich. Also Überschrift und dann Text. Vielleicht liegt es daran, das die Seiten zu ähnlich sind. Vielleicht gibt es auch einen ganz anderen Grund. Es wäre zwar schön, wenn Google alles aufnehmen würde, aber ich mache die Seite eh nur zu Spaß.

    Das Tool Screaming Frog habe ich mir auch angesehen.

  2. Avatar-Foto Jonas

    Hallo Markus,

    super hilfreiche Informationen! Ich habe probiert das Ganze mit Screaming Frog zu überprüfen, so wie beschrieben. Allerdings blieben bei mir die Felder “Zusammenfassung” und “Abdeckung” leer. Lediglich das Feld “Indexierbarkeit” wird mit “Indexierbar” angegeben. Muss ich im Frog neben der API noch eine Einstellung vornehmen?

    Ich freue mich auf deine Rückmeldung!

    Gruß,
    Jonas

  3. Avatar-Foto Markus Hövener

    Moin Jonas,

    nein, die API-Einstellungen reichen vollkommen aus. Du musst natürlich in den GSC-API-Einstellungen auch den Tab “URL Inspection” beachten – sonst passiert da gar nicht. War das das Problem?

    Grüße,
    Markus

  4. Avatar-Foto Jonas

    Ja, jetzt läufts… Super, danke dir!

Kommentieren