Werken aan een betere SURFdrive-dienstverlening

20 JUN 2016

Door het SURFdrive-team wordt hard gewerkt aan het verbeteren van de SURFdrive-dienstverlening. Naar aanleiding van de storing in het weekend van 3 juni ondernemen we concrete acties om een nieuwe storing te voorkomen.

Storing bij SURFdrive

In het eerste weekend van juni was er een storing bij SURFdrive. Op vrijdagavond 3 juni had één van de twee nieuwe storage nodes de netwerkinterface verloren. Op zaterdagochtend 4 juni gebeurde hetzelfde met een tweede storage node. Hierdoor kon ownCloud een aantal bestanden niet meer zien in de webomgeving. Op dit moment was er een kans dat sync clients, omdat data tijdelijk niet zichtbaar waren in de webomgeving, ook de betreffende bestanden lokaal zouden kunnen verwijderen.

Ondernomen acties

Op maandagochtend 6 juni hebben we de dienst tijdelijk dichtgezet, hebben we het probleem geïnventariseerd en hebben we ervoor gezorgd dat de storage nodes weer beschikbaar kwamen. Na het online brengen van de storage nodes werden data weer beschikbaar voor alle gebruikers.

De impact van het incident was niet meteen duidelijk, waardoor we voor de zekerheid bestanden die in het betreffende weekend waren verwijderd hebben teruggezet uit de backup. Dit betrof de data van 65 gebruikers. Wij hebben deze gebruikers via de betreffende instellingen geïnformeerd hierover en we hebben hen gevraagd om de data te controleren. We hebben vervolgens geen dataverlies geconstateerd.

Dienstverlening verbeteren

Vanzelfsprekend doen we er alles aan om deze situatie in de toekomst voorkomen. Om dit te realiseren zijn er meerdere maatregelen getroffen. Het netwerkprobleem, de bron van de storing, is aangepakt. De bug die we hierbij hebben geconstateerd is opgelost. Ook wordt bij verstoringen in de storageinfrastructuur vanaf heden automatisch actie ondernomen. De SURFdrive-dienstverlening wordt bij het uitvallen van twee storage nodes, die elkaars kopie zijn, per direct gestaakt om elk risico op dataverlies direct uit te sluiten. Door dit te automatiseren kunnen we sneller en effectiever ingrijpen zodat een verstoring zoals in het weekend van 3 juni plaatsvond voorkomen kan worden in de toekomst. Ook kunnen we hierdoor sneller en accurater situaties analyseren.

Laatste wijziging op 22 jun 2016