PageFreezer
PageFeezer.com ist ein branchenführender webbasierter Dienst für die Verwaltung, Archivierung, Speicherung und Wiedergabe von dynamischen Webinhalten und sozialen Medien.
Alle KundenProduktentwicklung
Pagefreezer.com ist eines jener Projekte, bei denen das Redwerk-Team Module und spezielle Features von Grund auf implementiert hat. Als Full-Development-Agentur sorgen wir in jeder Phase der Produktentwicklung für eine qualitativ hochwertige Umsetzung und garantieren eine perfekte, einsatzbereite Anwendung.
Mehr erfahrenData Mining
Wir können Websites und APIs von sozialen Netzwerken automatisch verarbeiten, sie als Big Data auswerten und archivierte Websites für die Nutzer wiedergeben.
Mehr erfahrenHerausforderung
PageFreezer ist der Name eines Technologie-Start-ups und zugleich eines Webdienstes, der Websites auf bequeme und einfach zu bedienende Weise archiviert, und zwar nach flexiblen, vom Benutzer festgelegten Zeitplänen. Jede Website, jeder Blog und sogar Facebook- und Twitter-Profile können auf interaktive Weise für „zukünftige Generationen“ aufbewahrt werden, was weit über herkömmliche Screenshots hinausgeht.
Dies ist ein nützlicher Dienst für die Einhaltung von Vorschriften, den Schutz vor Rechtsstreitigkeiten oder für Marketingzwecke. PageFreezer ist eine SaaS-Lösung der Unternehmensklasse, die selbst die komplexesten Websites unterstützt und sowohl für Einzelpersonen, kleine Firmen als auch für große Unternehmen geeignet ist.
PageFreezer macht die Archivierung des Webs einfach und ermöglicht es Ihnen, archivierte Websites aus der Vergangenheit so wiederzubeleben, als wären sie druckfrisch!
Redwerk wurde mit der Unterstützung der zugrundeliegenden Technologie, der IT-„Intelligenz“ hinter diesem innovativen Webservice beauftragt. Ziel war es, eine SaaS-Anwendung zu entwickeln, die es den Kunden ermöglicht, ihre Webseiten und Social-Media-Inhalte dauerhaft und in beweiskräftiger Qualität aufzubewahren und dann auf diese Archive zuzugreifen und sie so wiederzugeben, als wären sie noch live. Es war von grundlegender Bedeutung, dass diese Lösung selbst die komplexesten Websites, Blogs, Twitter- oder Facebook-Profile unterstützen sollte, und das alles auf einer einzigen integrierten Plattform. Die Anwendung musste Web-Crawling-Technologien verwenden, um Websites automatisch zu erfassen, so oft und wann die Benutzer es wollten. Die gecrawlten Inhalte mussten auch durchsuchbar sein.
Zu den wichtigsten Funktionen gehörten:
- Automatische Archivierung
- Einhaltung öffentlicher Aufzeichnungen
- Live-Wiedergabe/Browsing von Archiven
- Suche nach Inhalten
- Digitale Signaturen
- Datenexport
- Datenzugriff über API
Lösung
Website Crawling
Für PageFreezer haben wir einen eigenen, hochentwickelten Web-Crawler entwickelt, der jede noch so kleine Eigenheit jedes bekannten Webservers und jeder Webbrowser-Software in Betracht zieht. Es handelt sich um eine Java-Bibliothek, die sich gut in jedes Projekt integrieren lässt und Schnittstellen zum Überschreiben verschiedener Verhaltensweisen bietet.
Um die Crawling-Prozesse so bequem wie möglich zu überwachen, haben wir eine informative Verwaltungsoberfläche geschaffen. Wir haben es möglich gemacht, sowohl Bilder als auch Texte und sogar Flash-Animationen zu crawlen und zu erfassen, auch wenn sie sich auf verschiedenen Domains befinden. Zu diesem Zweck wurde eine zusätzliche URL-Liste erstellt.
Es wurden Einschluss-, Ausschluss- und erweiterte Website-Einstellungen eingeführt, was es für Benutzer, die bestimmte URLs in Abhängigkeit von Schlüsselwörtern crawlen möchten, noch bequemer macht. Außerdem wurde eine flexible Auswahl des Benutzeragenten für das Crawling hinzugefügt. Der Mechanismus wurde so konzipiert, dass Webseiten in Momenten gecrawlt werden, in denen sie nicht stark belastet sind. Über die Option der Crawling-Geschwindigkeit können Kunden zudem die Anzahl der Crawl-Worker für jede einzelne Aufgabe konfigurieren, um die Belastung der Website zu reduzieren.
Redwerk hat außerdem eine Standard-Sitemap-XML-Crawling-Funktion implementiert, um die Zeit für das Crawlen großer Websites zu reduzieren, da nur geänderte Seiten und deren Inhalte gecrawlt und archiviert werden.
Darüber hinaus wurden eine Reihe herausragender, technologisch fortschrittlicher Crawling-Optionen zur Verfügung gestellt:
- Parsing von Links aus XML-Dateien mit Hilfe von XSLT-Vorlagen
- generischer Authentifizierungsmechanismus, der es Crawlern ermöglicht, sich auf fast jeder Website zu autorisieren
All diese Funktionen machen PageFreezer zu einer technologisch weitaus fortschrittlicheren Lösung im Vergleich zur Konkurrenz.
Website-Wiedergabe
Eines der wichtigsten Ziele und beeindruckendsten Nutzungsszenarien war, dass die Benutzer in der Lage sein sollten, Kopien von Websites so zu durchsuchen, als ob sie gerade live wären. Dies war vielleicht die größte Herausforderung und erforderte eine Menge komplexes Denken und innovative Ansätze in Bezug auf die Entwicklung von Unternehmensanwendungen. Aber unsere umfassende Erfahrung in der Bereitstellung von Webentwicklungsdiensten hat uns geholfen, eine Lösung zu schaffen, die auf der Auflösung von Hyperlinks und der fliegenden Ersetzung, dem Abfangen von JavaScript und Redirects und vielem mehr basiert.
Um zum gewünschten Zeitpunkt zu gelangen, wurde ein praktischer Kalender erstellt, der die Daten hervorhebt, an denen die Schnappschüsse gemacht wurden. Damit der Benutzer die Struktur der Website sehen kann, haben wir einen einfachen Navigationsbaum erstellt, der die URL-Hierarchie widerspiegelt. Alle Baumknoten sind anklickbar und öffnen die entsprechende Site-Seite.
Soziale Medien
Das Crawling von Social-Media-Profilen war eine viel schwierigere Herausforderung, da für sie andere Regeln gelten als für herkömmliche Websites. Die Linkextraktion von PageFreezer wurde ursprünglich mit Hilfe von regulären Ausdrücken und Inhaltsparsern erstellt, aber die meisten Twitter-, Facebook- und anderen sozialen Netzwerke sind dynamisch mit JavaScript aufgebaut. Da sie alle unterschiedlich sind, war es sehr mühsam, das Framework aufzubauen und auf weitere soziale Netzwerke zu erweitern. Die gesamte Lösung war in diesem Stadium unzuverlässig, und alle künftigen Änderungen an diesen sozialen Netzwerken hätten ebenfalls in das System implementiert werden müssen. Schließlich wurde beschlossen, einen Adapter für soziale Netzwerke zu entwickeln, der auf Client-Bibliotheken für soziale Netzwerke von Drittanbietern in Java basiert. Spring Social wurde als die Lösung für unsere Anforderungen identifiziert.
Datenspeicherung
Eine der schwierigsten Aufgaben bei diesem Projekt war die Auswahl der besten Speicheroption, die sehr skalierbar sein musste. Das Projekt begann mit etwa 500 Websites, musste aber auf viel mehr vorbereitet werden. Wir spielten eine Zeit lang mit dem Gedanken, S3 oder Google zu nutzen, aber diese erwiesen sich als zu langsam und zu teuer. Also musste Redwerk eine flexiblere, maßgeschneiderte Idee entwickeln, und nach einigen Benchmarks bauten wir von Grund auf eine einfache, aber skalierbare Speicherwolke, die auf einer Datenbank und einem NFS-Dateisystem basiert.
Integrität der Daten
Wie immer musste sichergestellt werden, dass im Falle eines Ausfalls eines Teils des Systems keine Informationen verloren gehen. Wir haben eine moderne Logik implementiert, die dafür sorgt, dass Crawler anhalten und warten, falls die Datenbank oder das Dateisystem nicht verfügbar sind. Wenn diese Komponenten wieder verfügbar sind, gehen keine von den Crawlern gesammelten Informationen verloren, und die Verwendung von Prüfsummen hilft, die Integrität aller gespeicherten Daten zu wahren.
Digitale Signaturen
Eine digitale Signatur ist ein Satz von Algorithmen und anderen Methoden zur Validierung digitaler Dokumente oder Nachrichten. Sie werden in fast allen Wirtschaftszweigen verwendet, um Fälschungen oder Manipulationen zu erkennen, was sie zu einem grundlegenden Sicherheitsinstrument macht.
Der PageFreezer-Dienst ist da keine Ausnahme. Hier hat sich Redwerk für TSA entschieden, das von PageFreezer verwendet wird, um alle gecrawlten Inhalte digital zu signieren. Beim Signieren durch TSA werden Hash-Daten der gecrawlten Inhalte, verifizierte Zertifikate, Benutzerschlüssel und Zeitstempel verwendet. Daher garantiert eine gültige TSA-Signatur den PageFreezer-Kunden, dass die Original-Webseite zu einem bestimmten Zeitpunkt gecrawlt wurde. Dank dieser Implementierung können PageFreezer-Daten sogar vor Gericht als Beweismittel verwendet werden.
Sobald das System aktiviert ist, werden alle Snapshots, die dem Benutzer zur Verfügung stehen, durch TSA signiert, und die Signatur kann jederzeit auf der Browsing-Seite überprüft werden.
Sicherheit
Zum Schutz der Daten vor zerstörerischen Kräften und unerwünschten Handlungen unberechtigter Benutzer verwenden wir eine solide Kombination aus Firewalls, Fail2ban, Backups und Slave-Datenbankservern. Generell wurde das System so modular und skalierbar wie möglich aufgebaut. Die einzelnen Komponenten beeinträchtigen sich gegenseitig nicht in ihrer Leistung. Crawler sind separate Prozesse, und für angemeldete Benutzer und Gäste wurden unterschiedliche Module entwickelt.
Ergebnis
Dies war die Art von anspruchsvollem Software-Outsourcing, für die Redwerk bekannt ist. Die Lösung wurde erfolgreich als Prototyp entwickelt, gebaut und in den letzten Jahren mehrfach überarbeitet, um sicherzustellen, dass sie immer auf dem neuesten Stand ist.
Redwerk hat immer wieder neue Funktionalitäten hinzugefügt, um den neuen Anforderungen der PageFreezer-Kunden gerecht zu werden. Unsere Softwareentwickler kümmern sich um die gesamte Wartung des Systems, einschließlich administrativer Aufgaben wie Upgrades und Backups der Datenbank und der archivierten Inhalte. Heute ist der PageFreezer die führende Lösung für die flexible Archivierung von Online-Inhalten, und wir sind stolz darauf, dass die Technologie und das Know-how von Redwerk zu seinem Erfolg beigetragen haben!
Ausgezeichnet
Wollen Sie auch eine Auszeichnung? Arbeiten Sie mit uns zusammen!
KontaktBeeindruckt?
Stellen Sie uns einAndere Fallstudien
Adfectious
Entwickelte ein mobiles Werbesystem, inspiriert von Googles AdMob, das auf beliebten rumänischen Medien wie meteoromania.ro verwendet wird
US Local Media SaaS
Refactored Legacy SaaS für lokale TV-Sender, die von der Mehrheit der US-Haushalte gesehen werden
URS Workflow Automation
Umwandlung einer alten Windows-Anwendung in eine SaaS-Lösung zur Workflow-Automatisierung mit 5 neuen, umsatzsteigernden Funktionen