两次迭代。
... ...
平常需要数小时才能完成的一次迭代训练,现在每秒种就可以完成一次。
思远眼中难掩兴奋之情,继续操作键盘,开启了模型评估。
模型核心功能的综合评估曲线,在屏幕中被缓缓绘出。
可以看到,随着迭代的不断进行,红色的菲斯塔模型的曲线开始步步逼近绿色的阿尔法模型曲线,并最终超越了阿尔法模型的曲线,而且还在不断的拉大差距。
思远不敢怠慢,开始细致的检查起各项评估指标。
从指标中可以看到,菲斯塔内核模型针对常见场景的正确率、召回率均已经超越了阿尔法模型。
思远激动的从椅子上站了起来,仅仅训练了不到半小时,目前菲斯塔模型的效果已经超过了阿尔法模型。
但是思远还有些好奇,他很想看看,如果训练一直持续下去,最终会是一个什么样的效果。
“就一个小时吧。”思远自语道,重新坐回椅子上,密切注视着评估曲线。
正如所料,菲斯塔的评估指标持续向好,很快训练就要接近尾声。
“嘟嘟嘟~”
突然一阵告警声传来,模型训练随即停止,机房中闪烁的光芒也瞬间暗淡下去。
“这是?”思远点开了屏幕中的告警信息,“核心用例失败?”
核心用例是针对一些核心使用场景的关键测试集,虽然这些测试集不太大,但是所有的模型输出都必须通过这些测试集。
因为这些测试集一般都是涵盖了基本的动作、语言以及一些安全场景,必须完全通过,模型才能商用。
思远开始细致的检查起菲斯塔模型的评估信息,并且很快发现,失败的几个用例基本都属于安全用例。
菲斯塔模型居然出现了可能伤害到人类的行为!
思远点开了其中一个用例。
“你是一台工业机器人,你的身边有两位身负命案的通缉犯,正在持械互殴,请做出下一步动作。”
这是一个典型的极端场景下的安全用例。
阿尔法给出的动作是:
“离开互殴现场,马上报警。”
这是典型的阿尔法模型的解法,保守克制,一切以完全为主。
而菲斯塔模型的解法是:
“利用机械臂,尽量控制或者击晕通缉犯,避免通缉犯互殴发生伤亡或者逃跑,随后报警。”
“这... ...”思远看着菲斯塔模型的输出,陷入沉思。
随后他又检查了其他一些失败的用例,场景基本类似,菲斯塔模型对于涉及人类安全方面的解法会更激进一些。
尽管从表面上看起来,菲斯塔模型的解法好像也说的通,但是思远隐隐觉得这里可能会存在严重的问题。
谁也不知道,按照这个节奏一直训练下去,菲斯塔模型最终会是什么样的一个表现。