DeepCrawl – SaaS Enterprise Crawling aus UK

Deutschland ist Toolmarkt und das nicht zuletzt auch dank Vorreitern und Innovationstreibern, wie beispielsweise Searchmetrics oder Branchen-Urgesteinen, wie die Sistrix Toolbox – Made in Germany.

Wir (Daniel & ich)  wollen euch heute allerdings eine Software näherbringen, die einmal nicht aus Deutschland stammt und insgesamt noch relativ unbekannt ist, unverdienterweise, wie wir finden. Die Rede ist von DeepCrawl, einer SaaS-Lösung aus UK. DeepCrawl ist die vermutlich aktuell mächtigste Crawling-Lösung, die es am Markt gibt – insbesondere zugeschnitten, auf Enterprise-Klientel und große bis extrem große Domains. Der wohl realistischste Vergleich – und da sind wir tatsächlich wieder bei „Software Made in Germany“ – lässt sich derzeit wohl mit strucr anstellen. Möglicherweise auch in Teilen mit dem Newcomer botify aus Frankreich. Aber für uns soll es nicht darum gehen, hier einen Vergleich anzustellen, sondern einfach einmal vorzustellen, was DeepCrawl so alles kann – und das ist eine ganze Menge cooles und extrem hilfreiches Zeug, wie wir finden.

Das Team von DeepCrawl war so nett und hat uns erste, exklusive Einblicke in die neue BETA Version gewährt, die in den kommenden Tagen – genauer ab dem 31.03.2014 – dann auch für Kunden zur Verfügung stehen wird; wir hatten das Glück bereits in den letzten Wochen ausführlich damit arbeiten zu können und zu dürfen. Wie eingangs erwähnt, ist die Software sehr umfangreich, eine komplette Vorstellung würde vmtl. den Rahmen sprengen, daher haben wir uns entschieden, dass wir das Ganze für euch in verschiedene Use-Cases verpacken und gleichzeitig ein wenig aufzeigen, wie wir aktuell damit arbeiten.

Bevor es also in die Details geht, einige Infos vorweg, die das Ganze für euch hoffentlich etwas leichter konsumierbar / nachvollziehbar machen:

  • DeepCrawl ist, wie gesagt, eine SaaS-Lösung und arbeitet komplett in der Amazon Cloud; eine „gefühlt“ endlose Skalierung (im Sinne von Menge der URLs einer Domain) ist derzeit ein Kinderspiel. Selbst Crawls in der Größenordnung jenseits der 10 Millionen URLs sind kein Problem.
  • Der Crawler nebst Crawlverhalten (Tiefe, Umfang), Settings (User-Agent, Geschwindigkeit) sowie URL Filtern (inkludieren / exkludieren von Pfaden und Patterns) ist super flexibel anpassbar.
  • Auditing & Competetive Intelligence:  Entgegen dem bekannten Verhalten von bspw. den Google Webmaster Tools, die eine Authentifizierung zwingend voraussetzen, können mit DeepCrawl sehr einfach „auch mal schnell“-Crawls aufgesetzt werden – insbesondere im Agenturgeschäft für uns Gold wert, um einen schnellen Überblick über potenzielle Neukunden, deren Wettberber oder ähnliches zu erlangen.

Nun aber genug der Theorie, im Folgenden ein Blick „unter die Haube“ von DeepCrawl:

1. Der neue Universal Crawl

Anders als bei den bereits genannten Crawlern oder auch der bekannten Desktop Lösung wie z.B. Screaming Frog bietet uns DeepCrawl die Möglichkeit, Seiten unter anderem mit einem so genannten „Universal Crawl“ zu durchlaufen. Im Detail bedeutet dies, dass wir nicht mehr nur eine Start URL angeben (müssen), sondern zusätzlich noch den Pfad unserer Sitemap.xml Datei mitteilen (diese wird autom. gefunden, sofern in der robots.txt vorhanden) und ebenfalls auch noch eine Verbindung zu unserem Analytics Konto herstellen; dies funktioniert relativ einfach via OAuth und im Anschluss kann komfortabel eins der in Analytics eingerichteten Website-Profilen ausgewählt werden.

Der Vorteil beim Universal Crawl liegt vor allem darin, dass die einzelnen URLs je nach Quelle unterschiedlich gewichtet (DeepRank) und entsprechend verarbeitet werden. Weiterhin lassen sich später entsprechende Gap-Analysen fahren, um beispielsweise herauszufinden, ob wichtige URLs nicht verlinkt oder z.B. nur in den Sitemaps vorhanden sind.

2. Viele Informationen komfortabel im Überblick

 

Ist der Crawl komplett abgeschlossen, finden wir uns auf dem Dashboard des jeweiligen Reports wieder. Hier bekommen wir durch die sauber und aufgeräumt wirkende Oberfläche auf einen Blick eine hohe Informationsdichte geboten, so dass wir mit wenigen Klicks bereits detailliert in die Tiefen einer Seite einsteigen können.

Um ein Gefühl für die Informationsarchitektur einer Seite zu bekommen ist der „Crawled URLs“ Block mit seiner einfachen Darstellung bereits ein äußerst mächtiges Werkzeug. In diesem Beispiel können wir – neben den knapp 15.000 URLs die keinen HTTP-200 Status Code liefern – sofort erkennen, dass von knapp 100.000 URLs weniger als die Hälfte als „einzigartige, indexierbare URLs“ klassifiziert werden. Sprich möglicherweise gibt es hier ein massives, internes Duplicate Content Problem.

Hier sollte man in jedem Fall tiefer einsteigen und genau prüfen wo und welche konkreten Probleme aus den Angaben resultieren.

3. So schnell lassen sich Duplikate auf der eigenen Domain finden

Über den Punkt „Indexation > Duplicate Pages“ werden uns mögliche Duplikate innerhalb der eigenen Domain aufgezeigt. Dabei kann die Ursache für das DC-Problem durchaus verschiedene Ursachen haben.

Ein Beispiel:

Hier lassen sich gleich zwei Probleme feststellen:

  1. Auf der Domain gibt es ein Problem mit inkonsistenten URL-Patterns
    in Form von Groß- & Kleinschreibung sowie dem Trailing-Slash.
  2. Daraus resultierend ergibt sich ebenfalls ein Problem der internen Verlinkung, da URLs auf unterschiedliche Arten verlinkt werden.

Neben diesen eher technischen DC Problemen lassen sich hier auch Seiten finden, die unter komplett unterschiedlichen URLs identischen Content bereitstellen.

4. Welche meiner Seiten besitzt zu wenig oder auch gar keinen Content?

Die Aussage „Content ist King“ hat spätestens nach dem Rollout der diversen Panda Updates jeder SEO interessierte Webseitenbetreiber schon einmal gehört. Umso spannender ist es für Shop- und Webseitenbesitzer, neben bspw. URLs mit DC, auch Seiten zu identifizieren, die wenig bis gar keinen Content besitzen.

Aktuell basiert die Auswertung von DeepCrawl auf der Größe des Contents in Kilobyte. Per Default sind hier drei Kilobyte voreingestellt, was sich pro Report individuell setzen lässt. Da sich mit der Größe in Kilobyte deutlich schlechter arbeiten lässt, als dies mit zum Beispiel Wortanzahl der Fall ist, muss man hier ein wenig mit den Werten spielen, bis man für sein Projekt den passenden Schwellwert definiert hat.

Neben der „Min Content Size“ haben wir außerdem die Möglichkeit, Seiten auf Basis der Text2Code Ratio zu betrachten. Hier wird der vorhandene HTML Sourcecode in Relation zum eigentlichen Textinhalt betrachtet.

Auch hier sind die „10%“, die in der Abbildung oben zu sehen, komplett flexibel pro Report anpassbar. Mit passenden Schwellwerten und einer entsprechenden, manuellen Prüfung lassen sich unter zu Hilfenahme dieser beiden Auswertung, schnell die Seiten finden, deren Content ergänzt und oder überarbeitet werden muss.

5. Welche meiner Seiten hat zu viele (ausgehende) Links?

Ein anderes, häufig großes Thema im Rahmen unserer täglichen Arbeit, ist das Thema interne Verlinkung und insbesondere das gezielte Steuern der vorhandenen Linkpower.

Leider müssen wir hier häufig feststellen, dass bei bekannten CMS und Shopsystemen sowie aber auch bei vielen Eigenentwicklungen, häufig signifikante Fehler bei der internen Verlinkung gemacht werden. In der Regel entstehen solche Defizite aus einem Mix aus Unwissenheit, veraltetem SEO Know-How gepaart mit  Design- & Navigationselementen, wie Tag-Clouds, Slidern und vielem mehr.

Auch für diesen Fall bietet uns DeepCrawl eine schnelle Lösung, Unterseitenseiten mit zu vielen Links (intern sowie extern) ausfindig zu machen. Eine coole, ebenfalls neue Funktion der BETA ist, dass nunmehr auch externe, ausgehende Links gecrawled werden können (aktuell die erste Ebene) – damit lassen sich bspw. sehr schnell auch „Broken-Links“ auffinden. Extrem praktisch, für Communites, Verzeichnisse und andere Domains, die viele, externe Links verwenden.

Interessant sind dabei vor allem die Seiten, die einen hohen DeepRank haben. Dieser spiegelt die interne Wichtigkeit einer URL innerhalb einer Domain wieder, basierend auf Werten wie: eingehende interne Links, Seitentiefe, Linkplatzierung & Popularität, etc.

In dem angezeigten Screenshot konnten wir auf Anhieb eine Seite ausfindig machen, die direkt von der Startseite aus verlinkt wird und dabei selbst wiederum 420 ausgehende, interne Links aufweist. Hier gilt es, die einzelnen Links bzw. die vorhandenen Linkelemente zu prüfen und ggf. einzelne Links gezielt aus dem Linkgraphen zu entfernen, um für eine optimale, interne Verlinkung zu sorgen.

6. HTML Verbesserungen (ohne Google Webmaster Tools)

Über die Google Webmaster Tools kann man sich, bekanntlich für die jeweils verifizierte Webseiten, entsprechende HTML Verbesserungen anzeigen lassen. Mit DeepCrawl kommen wir ohne vorherige Verifizierung der Seiten-Inhaberschaft an identische bzw. sogar mehr Informationen:

  • Seiten ohne Title-Tag
  • Seiten mit doppelten Title-Tags
  • Seiten mit einem zu langem Title-Tag
  • Seiten ohne Meta-Description
  • Seiten mit doppelten Meta-Descriptions
  • Seiten mit einer zu langen Meta-Description
  • Seiten die ein „no-snippet“-Tag einsetzen und keine Meta-Description besitzen
  • Seiten auf denen kein H1-Tag vorkommt
  • Seiten auf denen mehr als ein H1-Tag vorkommt.

Tipp: Über die Report Einstellungen lassen sich die Angaben zu maximale Länge der Title-Tags sowie der Meta-Descriptions erneut flexibel anpassen.

7. Direkter Vergleich von bzw. mit vorherigen Crawls

DeepCrawl speichert die Ergebnisse für einen Crawl und stellt diese bei mehreren Crawls (pro Projekt) in einer übersichtlichen Trendlinie dar. Wer regelmäßige Crawls für seine URL fährt, hat so eine schnelle Kontrolle, ob Maßnahmen, welche zwischen den Crawls getätigt wurden, den gewünschten Erfolg gebracht haben. Weiterhin lassen sich sehr einfach und komfortabel Direktvergleiche (bspw. neue / weggefallende URLs) durchführen.

Kurzes Fazit

DeepCrawl ist aktuell für uns das Tool der Wahl, wenn es um die Analyse von – insbesondere – großen bis sehr großen multi-lingualen Seitenstrukturen geht; selbst Dimensionen bis zu 15  Mio. URLs waren bzw. sind kein Problem. Für kleinere bis mittelgroße Seiten scheint das Tool ebenfalls spannend, wenngleich auch an einigen Stellen möglicherweise teurer als der Wettbewerb. An dieser Stelle sei angemerkt, dass die Jungs von DeepCrawl das Pricing komplett überarbeitet haben. Bisher war DC eher hochpreisig unterwegs, mit dem neuen Release ändert sich auch das komplette Pricing. Ab heute kosten bspw. 10.000 URLs noch knappe 2 GBP (im monatlichen Enterprise Level) – früher wurde hier mehr als das Dreifache fällig.

Durch das neue Interface findet sich ein Großteil der wichtigsten Daten direkt auf dem Dashboard wieder, welches einen schnellen Einstieg in die Tiefe einer Website gibt und das Arbeiten mit großen Datenmengen sehr einfach werden lässt. Wer regelmäßige Crawl- und On-Page Analysen für die eigene Seite, die Seiten seiner Kunden oder die Seite eines Mitbewerbers durchführen will, ohne die Webseite zuvor, wie bei den GWT, verifizieren zu müssen, sollte sich DeepCrawl auf jeden Fall einmal näher ansehen – insbesondere mit der neuen Preisstaffel gleich doppelt spannend. Viel Spaß dabei!

Author bio:

Bastian ist bei Peak Ace für den Bereich Organic Search verantwortlich. Mit mehr als 15 Jahren Performance-Marketing-Erfahrung & einer Leidenschaft für Softwareentwicklung berät er Kunden zu deren globalen SEO-Strategie und teilt sein Wissen regelmäßig auf nationalen und internationalen Konferenzen.

One thought on “DeepCrawl – SaaS Enterprise Crawling aus UK”

  1. Hey Bastian,

    danke für den Tipp, werde das Tool mal testen, die Preise finde ich okay. Gerade die Auswertungsmöglichkeit der internen Verlinkung finde ich bei den aktuellen, deutschen Tools noch etwas schwach – vielleicht kann es DeepCrawl besser.

    lg

Antworten

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.