Programmierung von Web-Crawlern, Suchmaschinen und Informationsextraktion

Webcrawler, Suchmaschinen und Informationsextraktion

netEstate hat jahrelange Erfahrung in der Programmierung von Crawlern und Suchmaschinen.

Unser Impressums-Crawler extrahiert Daten aus dem Impressum von Websites.

Unser Jobcrawler findet Stellenanzeigen auf einer Website.

netEstate betrieb bis zum September 2025 die Suchmaschinen website-datenbank.de und sengine.info. Eigene Textklassifizierer trainieren und mit anderen teilen konnte man mit unserem Angebot textclassify.com.

Der Crawler unserer Suchfunktion für die eigene Website extrahiert Metadaten wie HTTP-Statuscode, Dateityp, Sprache, Änderungszeitpunkt, Titel, Meta-Tags sowie den gesamten Textinhalt in unstrukturierter Form. Sie können diese Daten neben der Suchfunktion auch zum automatischen Generieren von Sitemaps nutzen oder im XML-Format exportieren.

Für unsere Kunden haben wir Webcrawler programmiert, die strukturierte Daten verschiedenster Art extrahieren. Die Daten können von bestimmten Websites oder dem Web allgemein gecrawlt werden.

Im letzten Fall haben die Daten kein festes Format, keine feste Position auf der Website und keine feste Position innerhalb der Seiten. Wir versuchen dann, Daten und Beiwerk durch syntaktische und semantische Merkmale zu trennen. Cookies und Formulare sind für uns kein Hindernis.

Wir möchten auf ehrliche und ethische Weise Geld verdienen. Deshalb beachten wir den Robots Exclusion Standard und lehnen Aufträge ab, die auf den Versand von Email/Fax-Spam, Cold Calls oder Urheberrechtsverletzungen abzielen.

Ihr Ansprechpartner bei netEstate:

Michael Brunnbauer

Tel: 089-32197780

E-Mail: info@netestate.de

Entwicklung

Webcrawler, Suchmaschinen und Informationsextraktion