Das Webarchiv der ETH Zürich
Das Hochschularchiv der ETH Zürich archiviert in regelmässigen Abständen die wichtigsten Websites der ETH Zürich. Dazu gehören die Hauptseite, das Staffnet, Websites der Departemente und Institute sowie fachbezogene Websites und Blogs.
Was archivieren wir?
Im externe Seite Webarchiv speichern wir die Webpages der ETH Zürich dauerhaft und machen sie so langfristig der Öffentlichkeit zugänglich. Sogenannte Snapshots dokumentieren den Zustand der jeweiligen Einstiegsseite sowie aller Unterseiten eines bestimmten Webauftritts zum Zeitpunkt der Archivierung. Darin enthalten sind auch PDF-Dateien, Bilder und Videos. Archivierte Webseiten können nicht mehr verändert werden. Die Inhalte werden nicht durch Suchmaschinen wie zum Beispiel Google indexiert.
Aktuelle Sammlungen von ETH-Websites im Webarchiv:
- ETH-Web 1997–2021: Übernahme von Daten aus dem externe Seite Internet Archive. Diese ermöglichen eine umfangreiche Datenabdeckung, sind aber nicht kuratiert.
- ETH-Web ab 2017: Kuratierte und strukturierte Archivierung aller ETH-Hauptseiten, Departemente, Institute, vieler Forschungsgruppen und Services.
- Covid-19-Collection: ETH-Websites mit Informationen zur Corona-Pandemie.
- Webarchiv des ersten Webmasters der ETH Zürich: Reto Ambühler.
- Sammlung von Websites von Studierendenvereinigungen und anderen ETH-nahen Vereinen.
Nach welchen Kriterien archivieren wir?
Das Webarchiv des Hochschularchivs dokumentiert den Webauftritt der ETH Zürich als historische Quelle. Die technische und die visuelle Kontrolle sorgen für die hohe Qualität der Snapshots. Das Webarchiv garantiert die Stabilität von Verweisen und Zitaten, sodass Sie die archivierten Websites als wissenschaftliche Quellen nutzen und mit einem Digital Object Identifier (DOI) persistent zitieren können.
Die Suche im Webarchiv
Im externe Seite Webarchiv der ETH Zürich können Sie mittels Volltextsuche in den Inhalten suchen und recherchieren. Alle Inhalte des Webarchivs (auch angehängte PDFs) sind volltextindexiert. Im nachfolgenden Video erklären wir Ihnen Schritt für Schritt, wie Sie im Webarchiv eine Suche absetzen können.
Sie haben zudem über verschiedene Portale wie die Datenbank des Virtuellen Lesesaals des Hochschularchivs oder über externe Seite ETH-Bibliothek @ swisscovery Zugriff auf die Metadaten des Webarchivs: den Titel einer Website, das Datum der Archivierung sowie weitere Metadaten. Diese Verknüpfungen erleichtern Ihre Recherchearbeit.
Die Methode des Remote Harvesting
Für die digitale Archivierung setzt das Webarchiv des Hochschularchivs die Methode des Remote Harvesting ein. Als Webcrawler dienen dabei die Tools Brozzler und Heritrix von Archive-It. Der Webcrawler sammelt ausgehend von einer Start-URL alle Inhalte, die verlinkt sind. Der Webcrawler erzeugt Dateien im WARC-Format gemäss ISO-Standard. Log-Dateien dokumentieren zudem, mit welchen Einstellungen der Webcrawler gearbeitet hat.
Voraussetzungen für die Webarchivierung
Damit wir eine Website im Webarchiv archivieren, muss sie zur Domain der ETH Zürich gehören. Wir archivieren ausschliesslich öffentlich zugängliche Websites, für deren Zugang kein Login notwendig ist. Auf einer Webpage veröffentlichte Inhalte wie PDFs oder Präsentationsfolien speichern wir ebenfalls in den WARC-Dateien. Eingebettete Inhalte aus externen Diensten, zum Beispiel YouTube-Videos oder Google-Karten, archivieren wir nicht. Stattdessen wird ein Platzhalter «Resource not in archive» angezeigt.
Die neue Plattform von Archive-It
Die Anzeige der Websites für Nutzer:innen des Webarchivs erfolgt über die Plattform externe Seite Archive-It mittels des Wayback-Viewers. Dabei kann die Darstellung der archivierten Version leicht von der Originalversion abweichen. Insbesondere bei dynamisch erzeugten Inhalten wie beispielsweise der Navigation ist die Archivierung schwierig. Bei der Qualitätskontrolle der archivierten Websites achten wir primär darauf, dass die zentralen Inhalte einer Website archiviert werden.
Jede archivierte Website besitzt einen Digital Object Identifier (DOI) als persistenten Identifikator sowie eine Archivsignatur. Diese Angaben finden Sie sowohl in der Archivdatenbank als auch über die Archive-It-Plattform. Das Datum der Archivierung erkennen Sie auch in der Kopfzeile des Viewers.
Bitte zitieren Sie folgendermassen:
Hochschularchiv der ETH Zürich, [Signatur], [Titel der Website inkl. URL], [Datum der Archivierung], [DOI]
Zum Beispiel:
Hochschularchiv der ETH Zürich, EZ-INF1.1/213, Website von: Institut für Bewegungswissenschaften und Sport mit der Original-URL http://www.ibws.ethz.ch, 14.07.2017, DOI: 10.7893/ethz-hsa-web-223