Bulk Web-Crawler mit Spring Batch

Sprecher: Stefan Ostermayr.

Zeit: 19.02.2015, 19:00. Ort: SHI GmbH & Co. KG

Beschreibung

Web-Crawler durchforsten in Heerscharen das World-Wide-Web und versuchen dabei, aus dem gewaltigen Bestand an Websites Informationen zu extrahieren. In dem Vortrag werden wir Schritt für Schritt den Aufbau eines Bulk-Web-Shop-Crawlers, mit dem aktuell ca. 1,2 Millionen Objekt crawlt werden, nachvollziehen. Dabei werden wir zunächst die Analyse der Ziel-Web-Sites durchführen und hierfür eine Java-Implementierung erstellen. Im zweiten Schritt werden wir die Analyse-Komponente in das Spring-Batch-Frameworks einbetten, indem wir partitionierte Jobs erstellen und eine einfache Status-Datenbank anbinden.

Sprecher

Stefan Ostermayr ist leitender Software-Architekt bei der media-it und seit 10 Jahren im Bereich Enterprise IT tätig und setzt dort überwiegend Spring- und J2EE-Technologie ein. Sein besonderes Interesse gilt der Optimierung von Batch-Systemen, Datenbanken und dem Einsatz von Web-Technologien.

Ort

SHI GmbH & Co. KG
Curt-Frenzel-Str. 12
86167 Augsburg