Ga verder naar de inhoud

Digitaal archiveren op tape: lessen uit een incident

Samen met tal van partners uit cultuur, media en overheid bouwt meemoo aan het digitaal geheugen van Vlaanderen. Dat geheugen bestaat vandaag uit bijna 9 miljoen objecten die we digitaal bewaren in het meemoo-archiefsysteem. We archiveren ruim 30 petabyte aan data op tapes. Van elk masterbestand bewaren we 3 kopieën verspreid over 2 datacenters en een voormalige atoombunker. Dat dat geen overbodige luxe is, bewijst het incident dat zich vorig jaar voordeed. Zo losten we het op.

Auteur

Herwig Bogaert (meemoo)

Probleemstelling

Maandag 1 september 2025: de apparatuur die data leest en wegschrijft naar de tapes in de tapebibliotheek van datacenter A gaat in alarm. Het meemoo-archiefsysteem, dat continu gemonitord wordt, rapporteert dat verschillende lees- en schrijfjobs falen.

Even terugspoelen. Zondag 31 augustus: mail van het datacenter. In de nacht van zaterdag op zondag was er sprake van rookontwikkeling in het datacenter. Dit zou geen schade veroorzaakt hebben.

Het vermoeden dat de lees- en schrijffouten toch iets met dit incident te maken hadden, wordt bevestigd door telefonische navraag naar het het tijdstip van het incident. Beide vielen samen. We gaan meteen in oplossingsmodus.

Stap 1: continuïteit verzekeren

Het belangrijkste? Onze dienstverlening verzekeren voor de partners die ons hun content toevertrouwen voor duurzame bewaring.

  • We schakelen meteen over naar de tweede kopie in datacenter B, zodat het raadplegen en beheren van bestanden mogelijk blijft.
  • Een aantal partners leveren continu nieuw materiaal aan om te bewaren. We zetten deze processen tijdelijk stop zodat er niet langer naar tape wordt geschreven.
  • Dinsdag 2 september: we informeren de betrokken partners. Ze kunnen hun materiaal blijven aanleveren, maar het zal tijdelijk niet verschijnen in het meemoo-archiefsysteem. We bufferen de items totdat ze weer kunnen doorstromen.

Stap 2: impact in kaart brengen

Terug naar 1 september. Meteen na het incident gaan we op onderzoek: wat is de impact op onze archiefinfrastructuur?

  • We nemen poolshoogte in datacenter A en doen een visuele inspectie. We onderzoeken de tapebibliotheek, met daarin de tapes en de drives die data lezen en wegschrijven naar tapes. Zit er roet op de tapes, de tapedrives, de robotarmen, de vloer, …? We vinden geen zichtbare vervuiling of schade.
  • Om zeker te zijn dat er in datacenter A geen tapes beschadigd raakten door het incident, maken we een lijst van alle tapes die tussen 31 augustus middernacht en de overschakeling naar datacenter B in gebruik zijn geweest.
  • In samenwerking met fabrikant IBM worden alle tapedrives uitvoerig getest en gereinigd. De testen blijven falen na de reiniging. Conclusie? 15 van de 16 tapedrives in datacenter A zijn onherroepelijk beschadigd en moeten vervangen worden.
  • In samenwerking met Fujifilm, de fabrikant van de tapes waarop we materiaal bewaren, doen we een steekproef om de tapes grondig te controleren op beschadiging en verontreiniging. Ze blijken niet beschadigd te zijn. Een hele opluchting, want dankzij de twee extra kopieën die we bewaren is de duurzaamheid verzekerd. Om terug te keren tot de originele staat met 3 kopieën kunnen we de kopie in datacenter A wel herschrijven, maar zoiets zou maanden in beslag nemen.

Stap 3: situatie herstellen

Onze archiefwerking blijft operationeel: de gearchiveerde bestanden kunnen gewoon geraadpleegd en gebruikt worden via de tweede kopie, maar de instroom van nieuwe bestanden is op dit moment nog niet mogelijk.

  • We willen de instroom van nieuw materiaal zo snel mogelijk opstarten, om de dienstverlening naar onze partners op korte termijn volledig te herstellen. Maar om nieuwe tapedrives aan te kopen, moet de verzekering tussenbeide komen. Daarom schakelen we tijdelijk enkele gehuurde tapedrives in.
  • Meteen na het incident openen we een dossier bij de verzekering om de beschadigde drives te vervangen. De afwikkeling van dit dossier zal nog maanden in beslag nemen, inclusief bijkomende analyses en communicatie met het datacenter om de oorzaak vast te stellen. Omdat tapetechnologie voor de verzekering relatief onbekend terrein is, zijn er veel bijkomende onderzoeken nodig - wat een impact heeft op de doorlooptijd.
  • December 2025: we krijgen groen licht van de verzekering om de tapedrives te vervangen en starten de aankoop op.
  • Januari 2026: we nemen de nieuwe tapedrives in gebruik. De situatie is hersteld.

In dit hele proces is de integriteit van het meemoo-archiefsysteem nooit in gevaar geweest. Dat wil zeggen dat de bestanden die we bewaren voor onze contentpartners altijd ongewijzigd, volledig en beschikbaar zijn.

Inzichten

Het bewaren van redundante kopieën loont

Zorg dat je verschillende kopieën bewaart van je bestanden, op verschillende plaatsen en media. Zo gaat bij uitval van één systeem niet alles verloren. Wij bewaren drie kopieën op verschillende locaties, gekozen met aandacht voor geografische spreiding. Daarnaast is ook onze infrastructuur ontdubbeld. Niet alleen de data worden gedupliceerd, ook applicaties kunnen opgestart worden vanop een tweede locatie. Dit stelde ons in staat om de impact op het gebruik van het archief door partners te minimaliseren. De dienstverlening bleef beschikbaar. Lees hier meer over onze bewaringsaanpak.

Zorg dat je een noodplan hebt dat je regelmatig test

Wanneer je in een onverwachte situatie terechtkomt, is het goed om een actieplan paraat te hebben. Om dit goed in de vingers te hebben bij noodgevallen, test je het best geregeld uit. Voor meemoo is de aanpak die we hierboven toepasten een beproefde methode: minimaal 1 keer per jaar voeren we een gepland onderhoud uit aan ons archiefsysteem waarbij we telkens overschakelen naar de tweede kopie van de bestanden.

Licentie

  • CC-BY-SA

Type

Expertisedomein

Deze pagina is laatst aangepast op 12 mei 2026