Web Crawler

netEstate hat jahrelange Erfahrung in der Programmierung von Crawlern.

Bei unserer Website-Suchmaschine crawlen wir das deutschsprachige Web und ermöglichen so eine Suche Nach Domainnamen, IP-Adressen, Seitentiteln und Meta-Keywords.

Der Crawler unserer Suchfunktion extrahiert Metadaten wie HTTP-Statuscode, Dateityp, Sprache, Änderungszeitpunkt, Titel, Meta-Tags sowie den gesamten Textinhalt in unstrukturierter Form. Sie können diese Daten neben der Suchfunktion auch zum automatischen Generieren von Sitemaps nutzen oder im XML-Format exportieren.

Für unsere Kunden haben wir Crawler programmiert, die strukturierte Daten verschiedenster Art extrahieren:

  • Firmennamen
  • Firmenbeschreibungen
  • Adressen
  • Kontaktdaten (Tel/Fax/Email)
  • Pressemeldungen
  • Daten aus Tabellen
  • etc.
Die Daten können von bestimmten Websites oder dem Web allgemein gecrawlt werden. Wir sind nicht unbedingt auf ein festes Format angewiesen (z.B. Anzeige von Suchergebnissen auf einer bestimmten Website), sondern haben auch schon ähnliche Daten aus verschiedenartigen Webseiten im gesamten Web extrahiert (z.B. Adressen/Kontaktdaten aus Impressum/ Kontaktseiten, Beschreibungen und Keywords aus Meta-Tags). Wichtig ist hierbei die Trennung von guten Daten und Müll durch syntaktische und semantische Merkmale.

Cookies und Formulare sind für unsere Crawler kein Hindernis. Wir beachten den Robots Exclusion Standard. Um den Versand von Spam-Email nicht zu unterstützen lehnen wir Aufträge ab, die nur auf die Gewinnung von E-Mail-Adressen abzielen.

Ihr Ansprechpartner für Crawler bei netEstate:
Michael Brunnbauer
Tel: 089-32197780
E-Mail: info@netestate.de
Kontaktformular


Alle Preise inkl. MwSt. • (c) 2010 netEstate GmbH • Website powered by Zopilot®Impressum