要知道岑言现在在做的,可是一种创造性的新项目。
他就像是根本不需要测试,也不需要尝试报错,就好像他的脑海里有着完整的程序代码和研发思路。
他在做的只不过是具现出来而已。
这种感觉就像是之前他做化学实验一样。
这家伙的脑袋到底是怎么长的?
难道他天生就是干科研的料吗?不管是什么学科都可以?
梁晓鸥拿起手机,打开前置摄像头照了照自己,又看了看岑言。
大家明明就是一个年纪,这一路过来,自己好像也一直都在岑言旁边,也没看到他提前准备过这方面的东西。
虽然岑言确实拿过信奥金牌,可问题是.......
这玩意能是一个级别的吗?
就算是国际信奥的金牌,那也只代表着一个学生拥有现阶段的计算机学习能力。
可他现在具现出来的是创造力。
梁晓鸥真的有些怀疑人生了。
不过岑言可不知道自己在这库库干活,结果把旁边的梁晓鸥给震晕了。
他现在全神贯注地投入到工作中。
其实他的copy也不是简单的copy。
脑海中的记忆图书馆和数据中心也只不过是死物和记录。
他能把这些东西灵活运用出来。
但要怎么把这些东西融会贯通,在面对别人的提问时能够形成并贯彻有效的逻辑链条,也不是一件简单的事。
但好在他觉得自己现在头脑灵光很多。
或许是涉及到记忆图书馆的调度功能,他能够很快地在所有的环节找到属于自己的观点论据支撑点。
手里还在噼里啪啦地敲。
弄完多头注意力机制,紧接着就是计算注意力分数。
Q和K的转置相乘。
这步会产生庞大的注意力权重矩阵。
为了防止维度过大导致内积结果过大,使Softmax梯度进入饱和区,岑言需要老老实实地加上除以根号维度的缩放操作。
敲到这里,岑言停顿了一下。
他想起了昨晚给利昂提到的那个动态遮罩机制。
在实际训练中,为了防止模型在预测当前词的时候看到未来的词,必须在解码器环节加入掩码操作,用掩码函数来生成上三角矩阵,把未来位置的注意力分数全部替换成负无穷大,这样经过Softmax之后,这些位置的权重就会变成零。
最后把算好的权重矩阵和V相乘,再把多头结果拼接,经过线性层输出。
整个多头注意力机制的核心代码,其实还不到一百行。
但就是这不到一百行的代码,将在未来统治整个自然语言处理领域。
简单,over。
岑言看着屏幕上的代码,心满意足地揉了揉自己的手指关节。
还是太久没有敲代码,就这么小敲一小会,手指就有点不舒服。
“可以吃早饭了!”
厨房里传来了白棠的声音,还有关掉油烟机的动静。
岑言转过头去。
屋内岛台上,白棠正在精心地摆弄着桌上的餐盘和餐具。
今天的早饭,她做得很用心。
似乎是想证明自己不只是一个吃货,而且吃货都是能做好饭的。
只不过,这桌上的荷包蛋吧......
岑言坐在了高脚凳上,举起了刀叉,看着眼前放在白瓷盘里的荷包蛋,欲言又止。
眼前这个被酱汁浸染的黑乎乎的东西,真的是荷包蛋吗?
岑言默然。
他不太会做饭就算了,怎么白棠也不会?
那以后大家岂不是都只能点外卖了?
或者吃火锅?
不得不说,他还是太爱吃火锅了。
实际上,喜欢吃火锅的人,大概率是不太会做饭的,因为这种类似于乱炖的风格,本质上其实尝不太出来食材的本味或者精味,更多的是火锅底料的味道。
“算了,还是我来吧。”
梁晓鸥也坐在岛台前看了一会,无奈地叹了口气,从手腕上解下了橡皮筋,把自己的长发扎起。
走到厨房边,拿起自己的天蓝色小章鱼围裙。
比起白棠和岑言,梁晓鸥的动作就要干净利落很多。
虽然只是站在厨房里。
可硬是给她炒出了一种在CBD写字楼里叱咤风云的范。
没有多久,三份精致的早餐端上桌。
“早上就吃面吗?你怎么把面做出了白人餐的模样?”
梁晓鸥做的是番茄鸡蛋细面,浓汤酸甜,面软蛋嫩,色彩明亮。
就连点缀在上面的葱花都显得精致。
“冰箱里就这些材料,就只能随便做做了,赶紧吃吧,吃完得去实验室了。”
梁晓鸥解下围裙,和有强迫症一样,认认真真地挂好,调整好角度,才坐到岛台那边去吃面。
三人这么忙碌了一小阵,岑言最后还是在白棠的注视下,把其中一个荷包蛋吃下。
还真别说。
虽然看起来黑乎乎的,但吃起来味道还行。
起码比岑言做的好多了。
估计是生抽酱油放多了,蛋全着了色。
岑言赶到实验室之后,就又牢牢地钉死在自己的工位上。
继续做早上还没做完的工作。
作为让深层网络更容易训练、收敛更快的标准操作,岑言需要将前馈神经网络层、残差连接和层归一化结合起来。
他花了一整个上午的时间,把Transformer的编码器和解码器基本模块全部搭了出来。
虽然现在这些代码还不能跑,因为缺少实际的数据管道和训练循环逻辑,但这已经是一个不错的骨架了。
中午随便对付一口周妍安排的营养餐,岑言正准备继续完善位置编码模块时,接到了周志云的电话。
电话那头,周志云的声音听起来有些亢奋,但也透着几分疲惫。
老周开口就报喜。
“岑言,显卡的渠道我摸到了。”
岑言精神一振。
“一百张P100?你速度这么快的吗?这样的数量,能按时交货吗?”
周志云在电话里叹了口气。
“那倒不是,一百张全拿新的卡不太现实,现在他们的产能也有限,毕竟卡也刚刚对外公售,英伟达那边的产能都给几个大厂包圆了。我找了几个国内做云服务的朋友,他们手里有一批刚上线的服务器,我硬是抠出来三十张。剩下的七十张,我会通过国外的经销商渠道,加价调现货,大概下个月中旬能全部到位。”
看样子要花的钱可不止原本的预计。
要知道高端计算卡可不是买的越多就价格越低的。
反而因为需求越大的话,就需要用更多的钱去弥补经销商的损失。
但岑言对这个进度表示满意。
“卡怎么来的不重要,有就行,不过这样的话,钱估计要花得更多,那钱的问题要怎么解决?”
周志云笑了一声。
“这你就别管了,我拿你那个材料计算平台的公测成果数据,去找了几家做垂直领域投资的机构,好好地讲了讲你那个新架构的故事,他们很感兴趣。”
周志云的声音里充满了疲惫。
看样子,他这两天是真没少跑。
“目前来看的话,初期的意向资金已经基本谈妥,这笔钱先拿来采购显卡,做gpu集群,其他的,我再去找。”
岑言暗自感叹,老周确实是个搞资源的高手。有他在前面冲锋陷阵,自己这边的后勤保障完全不用操心。
“场地呢?电改能做吗?”
岑言继续问道。
“一百张卡全负荷跑起来,那耗电量可不是闹着玩的,普通机房的电容根本扛不住,还有电费的消耗也不便宜。我们毕竟在京海,电价可不比那些......”
周志云似乎早就做好了准备。
老登虽然是老登,但干起活来一点都不含糊。
“场地我打算和学校再商量一下,看看能不能安排在周边,比较便宜空旷的区域,至于电改那些,我已经让人去找走线设计,工业用电的审批也会马上托关系加急申报,保证不会让你训练到一半断电。”
两人核对完细节,才又各自忙碌。
完全能看得出来,老周这次在这件事上下了多大的决心。
要么就不做,要么就猛猛做。
硬件的问题基本有了落实的方向,现在就差人了。
大洋彼岸。
美国加州,山景城。
夜幕已经降临,但谷歌大楼里依然灯火通明。
卢卡斯坐在自己的工位上,看着电脑屏幕上的私信,久久没有动作。
100张P100显卡集群。
不设发文限制,完全学术自由。
推翻RNN序列,创造全新架构。