- Startseite
- Fallbeispiele
- MVP Development
- AI-driven Crawler
KI-gestützter Crawler zur Marktdatenerfassung | Proof of Concept
Backend:
LLM:
Web Scraping:
Team size
4
Unser Kunde – eine international tätige Personalvermittlungsagentur mit Sitz in Deutschland – suchte nach einer effizienten Lösung, um Stellenanzeigen von öffentlichen und privaten Jobportalen sowie von Websites von Personalvermittlungen in der Slowakei zu sammeln. Die wichtigsten Anforderungen waren Datenrelevanz und Einhaltung gesetzlicher Vorschriften – das System sollte sicherstellen, dass nur gültige Angebote erfasst werden und dass die Datenerhebung weder unbefugt noch ethisch bedenklich erfolgt.
Über das Projekt
Unsere Aufgabe bestand darin, eine Lösung zu entwickeln, die die Datenerfassung aus Quellen mit sowohl bekannter als auch unbekannter Struktur ermöglicht, mit dem Ziel, eine umfassende Datenbank für Stellenangebote aufzubauen.
Unser Team war verantwortlich für die Überprüfung der technischen Machbarkeit und der wirtschaftlichen Effizienz der vorgeschlagenen Lösung sowie für die Bewertung der Qualität der generierten Ergebnisse und deren systematische Verbesserung.
Business Challenge
Der Kunde hatte nur eine einzige Anforderung – den Erhalt umfassender Marktdaten in der gewünschten Qualität. Es gab kein spezifisches Briefing oder standardisiertes Konzept, und die technische Umsetzung wurde vollständig uns anvertraut.
Eine große Herausforderung war der hohe Grad an Unsicherheit — es war im Voraus nicht absehbar, ob die vorgeschlagene Lösung technisch realisierbar oder wirtschaftlich effizient sein würde. Der Prozess erforderte daher umfangreiche Experimente, Iterationen und kontinuierliche Evaluierungen, um die Lösung zu optimieren und die gewünschte Ergebnisqualität zu erreichen.
Wichtigste Funktionen des Prototyps:
- Initialphase und Analyse der Datenquellen
- Internes Brainstorming und Festlegung möglicher Lösungsansätze
- Identifikation relevanter Datenquellen
- Bewertung der technischen Zugänglichkeit und Eignung zur Datenerfassung
- Konzepttest (KI-Zweig)
- Fokus auf unstrukturierte Daten
- Überprüfung der technischen Umsetzbarkeit und erste Evaluation der Resultate
- Parallele Entwicklung beider Lösungskomponenten
- Implementierung der Extraktion aus strukturierten Quellen mithilfe klassischer Algorithmen
- Entwicklung des KI-Zweigs zur Verarbeitung unstrukturierter Eingaben mithilfe von LLM
- Entwicklung, Test und Optimierung
- Einführung eines Lastverteilungsmechanismus zur Vermeidung von Sperrungen
- Implementierung von Fehlerbehandlung, Duplikaterkennung und Datenbereinigung
- Quantitative und qualitative Validierung der Ergebnisse
- Iterative Verbesserung der Genauigkeit, Relevanz und Datenabdeckung
- Anpassung der Logik basierend auf realem Nutzerverhalten und Feedback
- Bereitstellung und kontinuierliches Monitoring
- Deployment des Prototyps und laufende Leistungsüberwachung
Ergebnisse & Business Impact
-
Funktionierende Lösung in nur 2 Monaten
Innerhalb von zwei Monaten lieferten wir einen getesteten und einsatzbereiten Prototyp, der als Basis für eine skalierbare Lösung dient. skalierbare Lösung dient. -
Iterativer und experimenteller Entwicklungsansatz
Statt linearer Entwicklung nutzten wir einen agilen, experimentellen Ansatz – ideal für dynamische, innovationsgetriebene Bereiche wie die automatisierte Datenerfassung.
-
Risikominimierung und Validierung
Durch den PoC-Ansatz konnten Investitionsrisiken reduziert und zentrale Hypothesen frühzeitig getestet werden – noch vor einer größeren Produktentwicklung. -
Skalierbarkeit und Wiederverwendbarkeit
Die entwickelte Lösung lässt sich auf weitere Märkte, Branchen und Anwendungsfälle übertragen – z. B. zur Wettbewerbsbeobachtung, Marktanalyse oder Produktrecherche. Der technologische Kern ist weitgehend wiederverwendbar, auch wenn neue Szenarien individuelle Anpassungen erfordern.
Der Prozess:
- Initialphase und Analyse der Datenquellen
- Internes Brainstorming und Festlegung möglicher Lösungsansätze
- Identifikation relevanter Datenquellen
- Bewertung der technischen Zugänglichkeit und Eignung zur Datenerfassung
- Konzepttest (KI-Zweig)
- Fokus auf unstrukturierte Daten
- Überprüfung der technischen Umsetzbarkeit und erste Evaluation der Resultate
- Parallele Entwicklung beider Lösungskomponenten
- Implementierung der Extraktion aus strukturierten Quellen mithilfe klassischer Algorithmen
- Entwicklung des KI-Zweigs zur Verarbeitung unstrukturierter Eingaben mithilfe von LLM
- Entwicklung, Test und Optimierung
- Einführung eines Lastverteilungsmechanismus zur Vermeidung von Sperrungen
- Implementierung von Fehlerbehandlung, Duplikaterkennung und Datenbereinigung
- Quantitative und qualitative Validierung der Ergebnisse
- Iterative Verbesserung der Genauigkeit, Relevanz und Datenabdeckung
- Anpassung der Logik basierend auf realem Nutzerverhalten und Feedback
- Bereitstellung und kontinuierliches Monitoring
- Deployment des Prototyps und laufende Leistungsüberwachung