Extraktion von Daten aus dem Impressum von Websites

Der Impressums-Crawler von netEstate ist in der Lage, die Impressumsseite einer Website zu finden und daraus Adressen, Kontaktdaten und Firmennamen zu extrahieren.

Der Crawler kann als Webservice (API) oder per Batch-Verarbeitung genutzt werden und eignet sich besonders als Werkzeug zur Adressprüfung. Er beachtet die robots.txt, das robots meta Element und gängige Formulierungen von Widersprüchen gegen die Verwendung der Kontaktdaten.

Schwerpunkt ist aktuell Deutschland, Österreich und Schweiz. Die Qualität für andere Länder variiert, kann aber bei Bedarf für einzelne Länder optimiert werden.

Bitte beachten Sie, dass wir wegen der Missbrauchsgefahr grundsätzlich keine E-Mail-Adressen liefern. Der Impressumscrawler liefert lediglich einen Hashwert der Mailadresse, der für den Abgleich mit bestehenden Daten verwendet werden kann.

Preise

0,01785 EUR inkl. MwSt. pro API-Aufruf bzw. pro gecrawlter Website. Der Preis für weitere Aufrufe/Websites halbiert sich jeweils bei 20.000, 100.000, 500.000 Aufrufen/Websites.

Sie erwerben ein Kontingent von Aufrufen für das Web-API (Ein HTTP-Aufruf pro Website, Mindestabnahme 6000 Aufrufe) oder senden uns eine Datei mit zu crawlenden Websites und wir senden die Ergebnisse als CSV-Datei zurück (Bearbeitungsgebühr 71,40 EUR inkl. MwSt., keine Mindestabnahme).

Letzte Änderungen:

  • Oktober 2022: Verbesserte Behandlung Javascript-basierter Seiten, zusammengesetzte Ortsnamen werden besser erkannt
  • Februar 2021: Erkennung akademischer Titel, Verbesserte Erkennung von Ansprechpartnern
  • August 2020: Diverse Verbesserungen, insbesondere bei der Erkennung von Firmennamen
  • Mai 2020: Crawlen der Schweizer Unternehmens-Identifikationsnummer (UID)
  • Februar 2020: Verbesserte Erkennung von Ansprechpartnern

Details

Der Crawler findet bei deutschen Firmen-Websites in ca. 77% der Fälle Postleitzahl+Ort und in ca. 37% social Links auf der Startseite. Die Wahrscheinlichkeiten für die Bestimmung weiterer Daten bei gefundener PLZ+Ort sind:

  • ca. 94% Straße+Hausnummer
  • ca. 87% Telefon
  • ca. 84% Ust-ID-Nr.
  • ca. 82% Name (Firma oder natürliche Person)
  • ca. 77% SHA-1-Hash von ‚mailto:‘ + mailadresse
  • ca. 72% Fax
  • ca. 68% Ansprechpartner
  • ca. 36% Registernummer + Ort des Registergerichts
  • ca. 8% BIC
  • ca. 8% IBAN
  • ca. 7% BLZ

Wir haben das deutsche Web mit dem Impressumscrawler gecrawlt und können Ihnen bei Bedarf auch Selektionen aus der entstehenden Datenbank anbieten (siehe Website-Datenbank).

Eine Dokumentation aller ausgegebenen Daten (XML-Ausgabeformat) finden Sie hier.

Mit dem folgenden Formular können Sie unseren Crawler testen:

Zu crawlende Website (ohne http://):


Sicherheitsabfrage:

Ergebnisformat:

noindex robots meta element ignorieren (robots.txt wird immer beachtet)

 

Es können mehrere Ergebnisse und innerhalb eines Ergebnisses mehrere Ansprechpartner zurückgegeben werden. Sowohl die Ergebnisse als auch die Ansprechpartner sind nach Relevanz absteigend sortiert. Sie können also der Einfachheit halber immer das erste Ergebnis bzw. den ersten Ansprechpartner verwenden.

Um übermäßiges Crawlen einzelner Websites zu verhindern, werden die gecrawlten Seiten bis zu 24h gecached.

Ihr Ansprechpartner bei netEstate:
Michael Brunnbauer
Tel: 089-32197780
E-Mail: info@netestate.de