Back-up en archivering
Die eenvoudige vraag over de veilige opslag van data. Die niet zo eenvoudig is. Als service voor vrienden en relaties.
Dit artikel is vooral bedoeld als service - voor vrienden en relaties met een 'simpele' vraag over de veilige opslag van data. Die vraag is snel gesteld, het antwoord is vaak te lang, niet zo simpel en niet geëigend voor de gelegenheid. Daarom hier een overzicht, vooral gericht op consumenten en 'prosumers'.
Back up en archivering van data is een lastig onderwerp. Bij het KNMI had ik, als manager van de IT afdeling, de zorg voor omvangrijke hoeveelheden meteo en klimaatdata, met een omvang van petabytes. In zo'n omgeving zijn de beste professionele oplossingen voorhanden.
Dat niveau is voor de thuisgebruiker niet haalbaar en dat maakt het lastig. Dit artikel richt zich op praktische bruikbaarheid. Informatiebeveiliging en privacy, blijven buiten beschouwing.
Maar eerst, waar hebben we het over?
Back up, archivering, snapshot
- Een back up is een kopie van de data. Onder normale omstandigheden wordt de back up, net als de reserveband in een auto, nooit gebruikt. Alleen als de primaire bron verloren is gegaan is de back up de redding.
- Archivering van data is opslag voor een lange termijn. Kenmerkend is dat die data niet meer verandert. Bijvoorbeeld een fotoserie. Van een archief zal ook een back up worden aangehouden.
- Een snapshot is een kopie van data op een bepaald moment in de tijd. Door meerdere snapshots te maken is het mogelijk om terug te gaan naar een vorige versie. Een snapshot is de redding wanneer malware is binnengedrongen in een systeem en pas na verloop van tijd wordt opgemerkt. Dat maakt het nuttig om een aantal snapshots aan te houden.
Een snapshot zal vaak een dump zijn van een harde schijf of SSD. Naast de nuttige informatie komt ook allerlei overbodigs mee. Dat maakt niet uit, de levensduur is immers beperkt. Archivering is anders. Een zorgvuldige selectie en een nette en inzichtelijke verzameling zijn van cruciaal belang. Het valt vies tegen wanneer je tien of twintig jaar later moet begrijpen wat wat is.
Incidenten
Er zijn vier categorieën van incidenten waartegen je data wilt beschermen:
- technische uitval (harde schijf crash)
- gebruikersfouten (per ongeluk wissen, verlies)
- malware (ransomware, virussen)
- onheil van buiten (brand, overspanning door bliksem etc.)
De oplossing die je bedenkt moet liefst een antwoord bieden op al deze gebeurtenissen.
Hot en cold storage, geografische spreiding
Er is een onderscheid tussen 'hot' en 'cold storage'.
- Hot storage is aangesloten op elektriciteit en/ of heeft een actieve dataverbinding.
- Cold storage is nergens op aangesloten en kan geen data uitwisselen.
- Geografische spreiding. Meerdere kopieën, verspreid over meerdere locaties, helpen om de impact van een incident te begrenzen.
Controle
'Een back up maken kan iedereen, terugzetten is een heel ander spel.'
Stel de data is drievoudig opgeslagen. Iedereen waant zich veilig.
Hoe zeker ben je dan nog na een aantal jaren?
Na vijf jaar gaat de eerste kopie, kapot, na zeven jaar de tweede,... niemand die het opmerkt.
Controle van back ups en archieven is nodig.
- Periodiek moeten kopieën worden geverifieerd.
Defecte kopieën worden vervangen.
- Bij een controle moet alle data worden uitgelezen.
Een simpele methode is een tijdelijke kopie te maken.
Alleen een schijf aankoppelen en de mappenstructuur inzien is niet voldoende.
Opslag
De stenen tafelen van Mozes buiten beschouwing latend zijn dit de opties:
- harde schijf
- optische schijf (CD, DVD, Blu Ray)
- flash (USB stick, SSD, geheugenkaart)
- tape
- cloud-aanbieder
Ook zijn er populaire omgevingen die lijken op een back up maar het niet zijn:
- Apple Time Machine
- Microsoft One Drive, Google drive, iCloud, etc
- NAS: network attached storage
Eerst over die laatste drie, dan passeren de verschillende typen media de revue.
Apple Time Machine
Time Machine is een bijzondere eend in de vijver. Het zorgt voor een back up en snapshots van onderhanden werk. Let op: 'onderhanden'. Volgens het uitgangspunt 'connect and forget', hoeft de gebruiker zich nergens om te bekommeren. Wat het niet is: het is geen archivering en evenmin een duurzame back up. Raakt de time machine drive vol dan wordt oude data verwijderd. Zuiver voor het veiligstellen van onderhanden werk echter is het een ideale oplossing.
Microsoft One Drive, Google drive, iCloud, etc
Microsoft, Google en Apple bieden netwerkopslag aan. Reuze handig om bestanden te delen, te synchroniseren en overal te kunnen benaderen. Het biedt echter geen bescherming. Niet tegen gebruikersfouten, het is geen back up en geen archivering. Sommige diensten passen bestanden automatisch aan, foto's en video's worden bijvoorbeeld gecomprimeerd. Dat is natuurlijk niet geschikt voor serieus werk.
NAS: network attached storage
Met een NAS is een grote hoeveelheid data beschikbaar in een netwerk.
Harde schijven in een RAID opstelling zorgen voor een hoge beschikbaarheid,
goed voor de continuïteit van het bedrijf.
RAID biedt echter alleen bescherming tegen het technisch falen van een harde schijf.
Niet tegen gebruikersfouten, zoals per ongluk wissen,
niet tegen malware die binnendringt, of onheil van buiten.
Daarmee is het geen volwaardige back up en niet geschikt voor archivering.
Gebruik je een NAS dan zul je daarnaast alsnog een back up willen inrichten.
Harde schijven (magnetisch)
Externe harde schijven bieden veel opslag voor weinig geld en zijn redelijk snel.
Dat maakt ze populair.
Geen enkele fabrikant benoemt een levensduur voor een harde schijf in rust. Dat mag te denken geven. Die levensduur varieert in de praktijk per model en serie. Garantie houft slechts in dat je een nieuwe lege schijf ontvangt. Een nadeel van een harde schijf is dat de drive en de datadrager één geheel vormen. Bij een defect is herstel soms mogelijk maar het is riskant en kostbaar. Na 20 jaar is het de vraag of de kennis en onderdelen nog voorhanden zijn. Het is onverstandig het daarop aan te laten komen.
Harde schijven zijn kwetsbaar en moeten met zorg worden behandeld. Data is niet beschermd tegen wissen of tegen mutatie. Malware kan de data vernietigen.
- Maak bij archivering op harde schijven meerdere kopieën, bij voorkeur op schijven van een verschillend model of serie.
- Na een aantal jaren is het vervangen van de schijven door nieuwe exemplaren verstandig. Geschikte termijnen zijn eigenlijk niet te geven, het blijft giswerk.
- Extreem voorzichtig: vervang de schijven na vijf jaar. Dit is de normale gebruiksduur in een computer.
- Een meer reële, relaxte benadering: vervanging na tien tot vijftien jaar.
- Controleer eens per jaar of eens per twee jaar of alle kopieën nog in orde en leesbaar zijn.
Optische schijven (DVD, Blu ray, M-Disc)
Tien jaar geleden nog was archivering op optische schijven de aangewezen methode. Helaas is de capaciteit van schijven niet verder toegenomen. Een schijf is maximaal 128 GB. Het kost ruim twee uur om zo'n schijf te beschrijven.
Optische schijven raken nu wel buiten beeld. Toch ben ik een fan van optische opslag. Voor veel prosumer gebruik is het een prima oplossing voor archivering. Mits je ze inzet voor data die je zelf hebt voortgebracht en selectief bent in wat gearchiveerd moet worden. 100 GB aan goede foto's is nog steeds heel erg veel.
Het medium is niet gevoelig voor statische elektriciteit of magnetisme. Eenmaal beschreven kan het niet worden gewist of gewijzigd - vergissingen zijn uitgesloten, malware kan niet toeslaan. De datadrager - het schijfje - is los van het afspeelmechanisme. Schijfjes zijn betaalbaar. Een geschikte vorm van optische opslag zijn M-discs en specifieke blu ray schijven voor archivering. De door de fabrikant opgegeven levensduur is minimaal 50 jaar, wat in onafhankelijke tests is bevestigd. Pioneer en LG leveren drives, Verbatim en Sony produceren de schijfjes. Verbatim M-disc 100 GB schijfjes zijn getest door de US Department of Defense. Uit testen conform ISO/IEC 16963 volgt een verwachte levensduur van verscheidene eeuwen.
Japan kent de zogenoemde 'Electronic Book Preservation Act', die de verplichting stelt om financiële gegevens langdurig in een digitaal formaat op te slaan. Daartoe is er de JIS X6257 norm waaraan opslag moet voldoen. Pioneer produceert de drive en de disks, met een aangegeven levensduur van een eeuw. Vanwege deze eis is te verwachten dat optische opslag in het Verre Oosten nog lang beschikbaar zal blijven.
Tip: rechtstreeks bestellen op amazon.jp, let op de invoerrechten.
De zelfgebrande CD's en DVD's van enkele decennia terug vergaan wel. De data daarop moet nu worden overgezet. De datalaag van deze schijfjes is van een organisch materiaal dat kan degraderen. Al blijken in de praktijk zelfs schijfjes die bruin zijn uitgeslagen vaak nog leesbaar. Stuit je op leesfouten dan kan ook een nieuwe drive het verschil maken. Overigens, blu ray schijven hebben een anorganische laag die niet deze gevoeligheid kent.
Flash geheugen: SSD's, USB sticks, geheugenkaarten (SD etc)
Het lijkt verleidelijk, er zijn immers geen bewegende delen, maar flashgeheugen is ongeschikt voor archivering. In een geheugencel wordt een elektrische lading vastgehouden, waarmee een nul of één wordt gecodeerd. Die lading lekt geleidelijk weg. Zonder spanning kan al na enkele jaren dataverlies optreden. Krijgt het flash geheugen regelmatig spanning dan zorgt de controller dat de lading periodiek wordt ververst en zou er niets mis mogen gaan. Een valkuil is hier wel het correct functioneren van de controller - wie heeft het ooit getest voor al die merken en modellen? Flash geheugen is gevoelig voor statische elektriciteit en omdat het herschrijfbaar is ook voor ongelukjes en malware. Voor een tijdelijke back up is de hoge snelheid heel praktisch.
Tape
Financieel is op kleine schaal archivering op tape niet haalbaar. Tape archivering vraagt om een investering van minimaal vijfduizend euro voor een drive. Bij voorkeur heb je er minimaal twee. Het is alleen kostenefficiënt bij zeer grote hoeveelheden data. Het werken met tapes is tijdrovend, bewerkelijk - en geestdodend saai. Grote organisaties gebruiken tape libraries met robots.
Cloud-aanbieders
Opslag in de cloud is aantrekkelijk. Het is een kwestie van uploaden en klaar. De provider draagt zorg voor alles wat er moet gebeuren, tot in de lengte van jaren, zolang er maar wordt betaald.
Cloud-aanbieders bieden data-opslag op maat voor verschillende behoeften. Bijvoorbeeld een tape back up met drievoudige redundantie en geografische spreiding over twee continenten tegen enkele tientjes per terabyte per jaar. Dat is zelf nooit te realiseren.
Toch is voorzichtigheid geboden. De cloud provider kan failliet, technische storingen maken data tijdelijk onbereikbaar of data gaat verloren. De aansprakelijkheid is contractueel beperkt. In de praktijk sta je als consument met lege handen als het misgaat.
Het kan op domme wijze misgaan. Bijvoorbeeld door administratieve fouten. Dat kan al door de periodieke vernieuwing van een credit card - waarna een betaling niet kan worden geïnd.
Een goedkope of gratis service is niet betrouwbaar. Ongelimiteerde opslag aanbieden kan commercieel niet. Daarvoor zijn de kosten voor een provider te hoog.
Diensten worden soms op een heel korte termijn beëindigd, algemene voorwaarden eenzijdig gewijzigd. Veel kleine cloud aanbieders functioneren als virtuele aanbieder en gebruiken de infrastructuur van andere partijen als Amazon Web Services, Google Cloud of Microsoft Azure.
Vrijheid en vertrouwelijkheid zijn niet absoluut. Buitenlandse autoriteiten stellen hun regels over surveillance van data. Daarover wordt weinig gecommuniceerd. Die ene foto als kind op een naturistencamping, ooit heel gewoon, plaats je nu echt niet in de cloud. Het risico op onjuiste interpretatie is te groot. Providers treden op om risico voor henzelf te vermijden, beëindigen zonder overleg een account en zijn niet altijd bereid om in gesprek te gaan.
De praktijk: twee sceanrio's
Tot slot, twee scenario's voor groepen gebruikers, als vertrekpunt voor de oplossing in de eigen situatie. Tussen haakjes het nummer van de kopie.
1: Consumer, prosumer, ZZP
- data voor dagelijks gebruik beschikbaar op een harde schijf of SSD (1)
- archivering en back up in cold storage: harde schijf (2) en optische of harde schijf (3), verspreid over twee locaties
2: ZZP, klein bedrijf(je)
- data voor dagelijks gebruik beschikbaar op een NAS (1)
- korte termijn back up op externe SSD of harde schijf (2a), cold storage
- cloud back up met redundantie (2b, 3)