PageFreezer

SaaS für die Archivierung von Websites und sozialen Medien

in die engere Auswahl als Red Herring Top 100 Global Finalist
×
Wohin sollen wir unsere Fallstudie zur Produktentwicklung von Page Freezer schicken?
Bitte geben Sie Ihre Geschäfts-E-Mail ein ist keine Geschäfts-E-Mail

PageFeezer.com ist ein branchenführender webbasierter Dienst für die Verwaltung, Archivierung, Speicherung und Wiedergabe von dynamischen Webinhalten und sozialen Medien.

Alle Kunden

Produktentwicklung

Pagefreezer.com ist eines jener Projekte, bei denen das Redwerk-Team Module und spezielle Features von Grund auf implementiert hat. Als Full-Development-Agentur sorgen wir in jeder Phase der Produktentwicklung für eine qualitativ hochwertige Umsetzung und garantieren eine perfekte, einsatzbereite Anwendung.

Mehr erfahren

Data Mining

Wir können Websites und APIs von sozialen Netzwerken automatisch verarbeiten, sie als Big Data auswerten und archivierte Websites für die Nutzer wiedergeben.

Mehr erfahren

Herausforderung

PageFreezer ist der Name eines Technologie-Start-ups und zugleich eines Webdienstes, der Websites auf bequeme und einfach zu bedienende Weise archiviert, und zwar nach flexiblen, vom Benutzer festgelegten Zeitplänen. Jede Website, jeder Blog und sogar Facebook- und Twitter-Profile können auf interaktive Weise für „zukünftige Generationen“ aufbewahrt werden, was weit über herkömmliche Screenshots hinausgeht.

Dies ist ein nützlicher Dienst für die Einhaltung von Vorschriften, den Schutz vor Rechtsstreitigkeiten oder für Marketingzwecke. PageFreezer ist eine SaaS-Lösung der Unternehmensklasse, die selbst die komplexesten Websites unterstützt und sowohl für Einzelpersonen, kleine Firmen als auch für große Unternehmen geeignet ist.

PageFreezer macht die Archivierung des Webs einfach und ermöglicht es Ihnen, archivierte Websites aus der Vergangenheit so wiederzubeleben, als wären sie druckfrisch!

Redwerk wurde mit der Unterstützung der zugrundeliegenden Technologie, der IT-„Intelligenz“ hinter diesem innovativen Webservice beauftragt. Ziel war es, eine SaaS-Anwendung zu entwickeln, die es den Kunden ermöglicht, ihre Webseiten und Social-Media-Inhalte dauerhaft und in beweiskräftiger Qualität aufzubewahren und dann auf diese Archive zuzugreifen und sie so wiederzugeben, als wären sie noch live. Es war von grundlegender Bedeutung, dass diese Lösung selbst die komplexesten Websites, Blogs, Twitter- oder Facebook-Profile unterstützen sollte, und das alles auf einer einzigen integrierten Plattform. Die Anwendung musste Web-Crawling-Technologien verwenden, um Websites automatisch zu erfassen, so oft und wann die Benutzer es wollten. Die gecrawlten Inhalte mussten auch durchsuchbar sein.
Zu den wichtigsten Funktionen gehörten:

  • Automatische Archivierung
  • Einhaltung öffentlicher Aufzeichnungen
  • Live-Wiedergabe/Browsing von Archiven
  • Suche nach Inhalten
  • Digitale Signaturen
  • Datenexport
  • Datenzugriff über API

Lösung

Website Crawling

Für PageFreezer haben wir einen eigenen, hochentwickelten Web-Crawler entwickelt, der jede noch so kleine Eigenheit jedes bekannten Webservers und jeder Webbrowser-Software in Betracht zieht. Es handelt sich um eine Java-Bibliothek, die sich gut in jedes Projekt integrieren lässt und Schnittstellen zum Überschreiben verschiedener Verhaltensweisen bietet.

Um die Crawling-Prozesse so bequem wie möglich zu überwachen, haben wir eine informative Verwaltungsoberfläche geschaffen. Wir haben es möglich gemacht, sowohl Bilder als auch Texte und sogar Flash-Animationen zu crawlen und zu erfassen, auch wenn sie sich auf verschiedenen Domains befinden. Zu diesem Zweck wurde eine zusätzliche URL-Liste erstellt.

Es wurden Einschluss-, Ausschluss- und erweiterte Website-Einstellungen eingeführt, was es für Benutzer, die bestimmte URLs in Abhängigkeit von Schlüsselwörtern crawlen möchten, noch bequemer macht. Außerdem wurde eine flexible Auswahl des Benutzeragenten für das Crawling hinzugefügt. Der Mechanismus wurde so konzipiert, dass Webseiten in Momenten gecrawlt werden, in denen sie nicht stark belastet sind. Über die Option der Crawling-Geschwindigkeit können Kunden zudem die Anzahl der Crawl-Worker für jede einzelne Aufgabe konfigurieren, um die Belastung der Website zu reduzieren.

Redwerk hat außerdem eine Standard-Sitemap-XML-Crawling-Funktion implementiert, um die Zeit für das Crawlen großer Websites zu reduzieren, da nur geänderte Seiten und deren Inhalte gecrawlt und archiviert werden.

Darüber hinaus wurden eine Reihe herausragender, technologisch fortschrittlicher Crawling-Optionen zur Verfügung gestellt:

  • Parsing von Links aus XML-Dateien mit Hilfe von XSLT-Vorlagen
  • generischer Authentifizierungsmechanismus, der es Crawlern ermöglicht, sich auf fast jeder Website zu autorisieren

All diese Funktionen machen PageFreezer zu einer technologisch weitaus fortschrittlicheren Lösung im Vergleich zur Konkurrenz.

Website-Wiedergabe

Eines der wichtigsten Ziele und beeindruckendsten Nutzungsszenarien war, dass die Benutzer in der Lage sein sollten, Kopien von Websites so zu durchsuchen, als ob sie gerade live wären. Dies war vielleicht die größte Herausforderung und erforderte eine Menge komplexes Denken und innovative Ansätze in Bezug auf die Entwicklung von Unternehmensanwendungen. Aber unsere umfassende Erfahrung in der Bereitstellung von Webentwicklungsdiensten hat uns geholfen, eine Lösung zu schaffen, die auf der Auflösung von Hyperlinks und der fliegenden Ersetzung, dem Abfangen von JavaScript und Redirects und vielem mehr basiert.

Um zum gewünschten Zeitpunkt zu gelangen, wurde ein praktischer Kalender erstellt, der die Daten hervorhebt, an denen die Schnappschüsse gemacht wurden. Damit der Benutzer die Struktur der Website sehen kann, haben wir einen einfachen Navigationsbaum erstellt, der die URL-Hierarchie widerspiegelt. Alle Baumknoten sind anklickbar und öffnen die entsprechende Site-Seite.

Soziale Medien

Das Crawling von Social-Media-Profilen war eine viel schwierigere Herausforderung, da für sie andere Regeln gelten als für herkömmliche Websites. Die Linkextraktion von PageFreezer wurde ursprünglich mit Hilfe von regulären Ausdrücken und Inhaltsparsern erstellt, aber die meisten Twitter-, Facebook- und anderen sozialen Netzwerke sind dynamisch mit JavaScript aufgebaut. Da sie alle unterschiedlich sind, war es sehr mühsam, das Framework aufzubauen und auf weitere soziale Netzwerke zu erweitern. Die gesamte Lösung war in diesem Stadium unzuverlässig, und alle künftigen Änderungen an diesen sozialen Netzwerken hätten ebenfalls in das System implementiert werden müssen. Schließlich wurde beschlossen, einen Adapter für soziale Netzwerke zu entwickeln, der auf Client-Bibliotheken für soziale Netzwerke von Drittanbietern in Java basiert. Spring Social wurde als die Lösung für unsere Anforderungen identifiziert.

Datenspeicherung

Eine der schwierigsten Aufgaben bei diesem Projekt war die Auswahl der besten Speicheroption, die sehr skalierbar sein musste. Das Projekt begann mit etwa 500 Websites, musste aber auf viel mehr vorbereitet werden. Wir spielten eine Zeit lang mit dem Gedanken, S3 oder Google zu nutzen, aber diese erwiesen sich als zu langsam und zu teuer. Also musste Redwerk eine flexiblere, maßgeschneiderte Idee entwickeln, und nach einigen Benchmarks bauten wir von Grund auf eine einfache, aber skalierbare Speicherwolke, die auf einer Datenbank und einem NFS-Dateisystem basiert.

Integrität der Daten

Wie immer musste sichergestellt werden, dass im Falle eines Ausfalls eines Teils des Systems keine Informationen verloren gehen. Wir haben eine moderne Logik implementiert, die dafür sorgt, dass Crawler anhalten und warten, falls die Datenbank oder das Dateisystem nicht verfügbar sind. Wenn diese Komponenten wieder verfügbar sind, gehen keine von den Crawlern gesammelten Informationen verloren, und die Verwendung von Prüfsummen hilft, die Integrität aller gespeicherten Daten zu wahren.

Digitale Signaturen

Eine digitale Signatur ist ein Satz von Algorithmen und anderen Methoden zur Validierung digitaler Dokumente oder Nachrichten. Sie werden in fast allen Wirtschaftszweigen verwendet, um Fälschungen oder Manipulationen zu erkennen, was sie zu einem grundlegenden Sicherheitsinstrument macht.

Der PageFreezer-Dienst ist da keine Ausnahme. Hier hat sich Redwerk für TSA entschieden, das von PageFreezer verwendet wird, um alle gecrawlten Inhalte digital zu signieren. Beim Signieren durch TSA werden Hash-Daten der gecrawlten Inhalte, verifizierte Zertifikate, Benutzerschlüssel und Zeitstempel verwendet. Daher garantiert eine gültige TSA-Signatur den PageFreezer-Kunden, dass die Original-Webseite zu einem bestimmten Zeitpunkt gecrawlt wurde. Dank dieser Implementierung können PageFreezer-Daten sogar vor Gericht als Beweismittel verwendet werden.

Sobald das System aktiviert ist, werden alle Snapshots, die dem Benutzer zur Verfügung stehen, durch TSA signiert, und die Signatur kann jederzeit auf der Browsing-Seite überprüft werden.

Sicherheit

Zum Schutz der Daten vor zerstörerischen Kräften und unerwünschten Handlungen unberechtigter Benutzer verwenden wir eine solide Kombination aus Firewalls, Fail2ban, Backups und Slave-Datenbankservern. Generell wurde das System so modular und skalierbar wie möglich aufgebaut. Die einzelnen Komponenten beeinträchtigen sich gegenseitig nicht in ihrer Leistung. Crawler sind separate Prozesse, und für angemeldete Benutzer und Gäste wurden unterschiedliche Module entwickelt.

Ergebnis

Dies war die Art von anspruchsvollem Software-Outsourcing, für die Redwerk bekannt ist. Die Lösung wurde erfolgreich als Prototyp entwickelt, gebaut und in den letzten Jahren mehrfach überarbeitet, um sicherzustellen, dass sie immer auf dem neuesten Stand ist.

Redwerk hat immer wieder neue Funktionalitäten hinzugefügt, um den neuen Anforderungen der PageFreezer-Kunden gerecht zu werden. Unsere Softwareentwickler kümmern sich um die gesamte Wartung des Systems, einschließlich administrativer Aufgaben wie Upgrades und Backups der Datenbank und der archivierten Inhalte. Heute ist der PageFreezer die führende Lösung für die flexible Archivierung von Online-Inhalten, und wir sind stolz darauf, dass die Technologie und das Know-how von Redwerk zu seinem Erfolg beigetragen haben!

Ausgezeichnet

Red Herring Top 100 Global Finalist Red Herring Top 100 Global Finalist Weiterlesen

Wenn Sie auf der Suche nach einer Archivierungssoftware sind, sind HearsaySocial, Socialware, PageFreezer oder Smarsh eine gute Anlaufstelle.

Wachstumsplattform für Führungskräfte, die Themen aus den Bereichen Marketing, Vertrieb und Kundenservice bietet.

PageFreezer ist eine führende SaaS-Anwendung, die den Benutzern die Möglichkeit gibt, Archive zu verwalten, zu bearbeiten und zu optimieren, ohne dass sie den Kundendienst kontaktieren müssen.

Populäre Medien über den Technologiesektor und die Wirtschaft.
Ich arbeite seit 2006 fast ununterbrochen mit Redwerk an verschiedenen komplexen Softwareentwicklungsprojekten (C++, Java, JSP, Spring, Django, iPhone). Dieses Unternehmen bietet hervorragende Dienstleistungen in der Softwareanwendungsentwicklung zu einem großartigen Preis. Sie sind sehr flexibel, kundenorientiert, reaktionsschnell und kommunikativ. Ich würde anderen Unternehmen wärmstens empfehlen, sie für Ihre Softwareentwicklungsprojekte zu engagieren.
Michael Riedijk
Michael Riedijk, CEO bei PageFreezer.com
Es handelt sich um eine Archivierung auf rechtlicher Ebene. Es handelt sich um die Art von Archivierung, die für öffentliche Unternehmen und Regierungen vorgeschrieben ist, damit sie beweisen können, dass ihre Website zu einem bestimmten Zeitpunkt genau das gesagt und getan hat, was sie behauptet.
Steve Dotto
Steve Dotto, Moderator einer TV-Show bei Dotto Tech

Wollen Sie auch eine Auszeichnung? Arbeiten Sie mit uns zusammen!

Kontakt

Technologien

JavaPHP
WordPressWordPress
Spring
Solr
PythonHTML5CSS3JavaScript
jQuery
Bootstrap
Angular
Linux
Tomcat
Solaris
Apache
10Entwickler im engagierten Team
4QA-Ingenieure im Team
7Jahre langes Engagement
2,631,855Codezeilen
Media
Media
Media
Media
Media
Media
Media
Media
Media
Media
Media
Media
Media

Beeindruckt?

Stellen Sie uns ein

Andere Fallstudien

Adfectious

Adfectious

Rumänien

Entwickelte ein mobiles Werbesystem, inspiriert von Googles AdMob, das auf beliebten rumänischen Medien wie meteoromania.ro verwendet wird

US Local Media SaaS

US Local Media SaaS

Vereinigte Staaten

Refactored Legacy SaaS für lokale TV-Sender, die von der Mehrheit der US-Haushalte gesehen werden

URS Workflow Automation

URS Workflow Automation

Vereinigte Staaten

Umwandlung einer alten Windows-Anwendung in eine SaaS-Lösung zur Workflow-Automatisierung mit 5 neuen, umsatzsteigernden Funktionen