APP下载

【深入剖析学习历程档案事故4原因】不只设定和维运问题,更是时程管理和制度面的考验

消息来源:baojiabao.com 作者: 发布时间:2024-11-27

报价宝综合消息【深入剖析学习历程档案事故4原因】不只设定和维运问题,更是时程管理和制度面的考验

情境示意图,photo by MChe Lee on unsplash

一个VM设定的失误,竟然造成全台近8千名高中生,高达2.5万件升学档案的遗失,教育部在事件发生后,一连多次发布公告,说明事件原因和影响,不只负责学习历程专案维运团队,连教育部部长潘文忠都出面道歉,承诺将检讨改进。

遗失资料无法复原,只能靠学生重传或重制后再上传,即使事件过了一周,仍有近半数学生资料未补齐。

但是,如果进一步深入探究,这一起震撼各界的学习历程档案的资料遗失事故,不单是人为疏忽那么简单,更是一连串因素交错影响加乘下的后果,主要可从4大面向来看。

1. 技术面问题

之所以发生严重资料遗失,第一个问题出在VM设定失误,这是一个技术问题。据了解,设定工程师是在新机房建立VM时,不小心套用到错误的VM设定样板,误选了“测试环境设定”样板,内建还原机制,只要重开机后就自动还原硬盘,也会清除所有资料。此次事件中,有3台VM套错样板,重开机后,VM依照设定自动还原,也删除了旧资料,因此才造成资料遗失。

工程师原本无意使用这个模式,但却没有发现自己设定错误,误将原本应该好好小心保管的学生资料,放进等待还原的VM硬盘,后来也没有发现这项错误及时修正,这当然是疏失,也确实是个不应该犯的错误。

机房维运人员进行VM环境的建立、调整或搬移过程中,都可能发生资料损失的风险,特别是提供给重要系统使用的VM,进行任何异动、调整的流程上,必须订出相关SOP操作,甚至最好能有一套监督或双重验证机制,提供多一层把关,来确保整个操作或设定没问题。除了增加人力,也能透过一些自动化VM建置工具等,来减少这类错误的发生。这次事件更反映出,设定SOP必须搭配监督、验证机制的重要性和必要性,才能将人为疏失的风险降到最低。

2. 维运面问题

根据我们了解,这套系统过去在台北机房运作时,也曾发生过类似的设定失误,但因有完整备份,每日的本地和异地备份,因此当时没有造成资料损失。

只是这一次失误发生在新机房,新环境的风险,让设定失误的小风险变成了致命问题。

维运团队自己也知道,系统刚上线这段期间,新机房还来不及做资料备分,但却没有意识到,或者忽视了没有备份的风险有多高,而没有持续落实原本采行的备份计划。备份机制没有确实落实,这是第2层问题,是维运面问题,也是造成学生资料无法复原的关键因素。

若维运团队将“321备份”原则,视为基本要求,也就是IT界或资安圈常听到的“3份备份、分别存放2种不同的储存媒体、至少一份在异地保存”。在每一次出现敏感或重要的资料遗失风险前,都彻底执行一次,就不致于出现资料遗失而无法从备份复原的情况。

台湾世曦资讯系统部副理张智钦表示,他们的作法是,只要是重大系统变动或异动作业前,一定会先做一次快照,甚至还额外多一次备份,才开始作业,“毕竟备份原本就是为了要弥补人为可能的疏失,作为最后一道防线。”

3. 时程冲突问题

但,更根本问题,是时程冲突。

时程冲突的导火线,是5月宣布因疫情停止到校上课 ,教育部将学习历程上传期限,从7月底延长到9月30日,可是明年1月考招新制就要上路,时间相当急迫。9月1日一开学,学生就得赶快制作与上传学习历程档案,学校端接着也要赶紧在11月陆续提交到中央数据库,时程是一关卡一关。

为了配合学生及学校端的作业时程的延期调整,暨大团队原本计划趁著暑假,在开学前完成新机房的搬迁工作。但新机房建置进度比原定时程晚了,直到8月底才启用,在后续时程已经排定(而且经过一次延期很难再次延期),没有其他选择下,只能被迫选在9月初进行搬迁,导致学生上传作业与系统移机作业时程重叠。

这样意外的时程冲突,打乱了团队的作业时程、搬迁计划,为了赶上线,很难有充分的时间进行完整的机房演练或相关测试,甚至新机房才刚启用,在备份还不完备的状况下,也只能选择先搬了再说。因为再不搬,系统迟迟不能上线,学生就无法上传档案,造成学校提交时程延迟,将可能大大影响到后面考招新制推动的时程。

突如其来的疫情,让原本可错开的流程,最后都混在一起,团队的作业时间因此受到压缩,大大增加了作业的风险,就是在这样急迫时间压力下,一次设定失误,造成了资料遗失。

时程冲突,也是企业很容易遇到的问题。在时程冲突下,企业必须有所抉择,也必须考虑到这抉择后,因两种作业冲突可能带来的更大交互作用风险,才能争取更多资源预作准备,来降低潜在风险。千万不能小看,时程冲突带来的隐藏性风险!

4. 制度面问题

除了技术、维运、时程冲突,最后一项是制度面问题,教育部长年以专案计划委托,透过学校实验室团队来开发、维运重要资讯系统,而非寻求外部资讯专业厂商或SI团队,这个习惯性作法造成了,系统维运团队体质先天不足的问题。这也是造成这次事故的重要因素。

一来,在这样学校实验室编制下,校内团队很难有充足预算,吸引到顶尖厉害高手加入,提升团队战力,只能以校内学生和老师为主,所以在人员专业度上很难有所提升;二来,平时只能接教育部的专案为生,缺少各种产业实战环境来不断练兵,来磨练团队的维运能力,对学生来说,无法累积更多经验,就不会认真视为长久的职涯发展。找不到外面有能力的人进来,也留不住团队人才,终究没办法锻练出像Google云端业者或专业SI的世界级团队。

这样一个学校编制下的实验室团队,甚至可以说是只有老师、学生、专案人员组成的数十人专案团队,不论是人力编制和专业能力,可能还是比不上校外专业资料中心或SI团队,却要执行这种全国性专案。遇上这种时程变动大,进度又很赶的专案,发生事故风险就容易比专业团队来得高。这正是根本上的制度性问题。

2021-10-08 09:52:00

相关文章