Extraktion von Daten aus dem Impressum von Websites

Der Impressums-Crawler von netEstate ist in der Lage, die Impressumsseite einer Website zu finden und daraus Adressen, Kontaktdaten und Firmennamen zu extrahieren.

Der Crawler kann als Webservice (API) oder per Batch-Verarbeitung genutzt werden und eignet sich besonders als Werkzeug zur Adressprüfung. Er beachtet die robots.txt, das robots meta Element und gängige Formulierungen von Widersprüchen gegen die Verwendung der Kontaktdaten.

Schwerpunkt ist aktuell Deutschland, Österreich und Schweiz. Die Qualität für andere Länder variiert, kann aber bei Bedarf für einzelne Länder optimiert werden.

Bitte beachten Sie, dass wir wegen der Missbrauchsgefahr grundsätzlich keine E-Mail-Adressen liefern. Der Impressumscrawler liefert lediglich einen Hashwert der Mailadresse, der für den Abgleich mit bestehenden Daten verwendet werden kann.

Preise

Verfügbar nur für gewerbliche Kunden.

0,015 EUR zzgl. MwSt. pro API-Aufruf bzw. pro gecrawlter Website. Der Preis für weitere Aufrufe/Websites halbiert sich jeweils bei 20.000, 100.000, 500.000 Aufrufen/Websites.

Sie erwerben ein Kontingent von Aufrufen für das Web-API (Ein HTTP-Aufruf pro Website, Mindestabnahme 6000 Aufrufe) oder senden uns eine Datei mit zu crawlenden Websites und wir senden die Ergebnisse als CSV-Datei zurück (Bearbeitungsgebühr 90,- EUR zzgl. MwSt., keine Mindestabnahme).

Letzte Änderungen:

  • Februar 2015: Verbesserte Erkennung von Adressen
  • März 2015: Erkennung natürlicher Personen als Betreiber, erheblich verbesserte Erkennung von Ansprechpartnern
  • September 2015: Verbesserte Erkennung von UstIDs
  • März 2016: Optionales Javascript-Rendering, verbesserter Umgang mit Frames und Iframes

Details

Der Crawler findet bei deutschen Firmen-Websites in ca. 77% der Fälle Postleitzahl+Ort und in ca. 37% social Links auf der Startseite. Die Wahrscheinlichkeiten für die Bestimmung weiterer Daten bei gefundener PLZ+Ort sind:

  • ca. 94% Straße+Hausnummer
  • ca. 87% Telefon
  • ca. 84% Ust-ID-Nr.
  • ca. 82% Name (Firma oder natürliche Person)
  • ca. 77% SHA-1-Hash von ‚mailto:‘ + mailadresse
  • ca. 72% Fax
  • ca. 68% Ansprechpartner
  • ca. 36% Registernummer + Ort des Registergerichts
  • ca. 8% BIC
  • ca. 8% IBAN
  • ca. 7% BLZ

Wir haben das deutsche Web mit dem Impressumscrawler gecrawlt und können Ihnen bei Bedarf auch Selektionen aus der entstehenden Datenbank anbieten (siehe Website-Datenbank).

Mit dem folgenden Formular können Sie unseren Crawler testen:

Zu crawlende Website (ohne http://):

 

Sicherheitsabfrage:
Ergebnisformat:

 

Es können mehrere Ergebnisse und innerhalb eines Ergebnisses mehrere Ansprechpartner zurückgegeben werden. Sowohl die Ergebnisse als auch die Ansprechpartner sind nach Relevanz absteigend sortiert. Sie können also der Einfachheit halber immer das erste Ergebnis bzw. den ersten Ansprechpartner verwenden.

Um übermäßiges Crawlen einzelner Websites zu verhindern, werden die gecrawlten Seiten bis zu 24h gecached.

Ihr Ansprechpartner bei netEstate:
Michael Brunnbauer
Tel: 089-32197780
E-Mail: info@netestate.de