谈什么恋爱,组一辈子科研组吧! 第431节

  毕竟工程师的巅峰期也就那么段时间,在这种大厂里干活,虽然累,但也确实有好处。

  至于有人说,谷歌不累?

  要是不累的话,怎么那么多程序员在赚够了钱之后,就选择裸辞去当数字游民?

  只是谷歌给的钱多,有性价比而已。

  卢卡斯其实也蛮想当数字游民的。

  不过他不是很想回波兰,风格上不太搭,他觉得法国可能是个不错的选择。

  毕竟他之前也在法国待过,南法那边的风景不赖。

  “卢卡斯,昨天你那个问题怎么样了?我看你还在GitHub上和人争论?”

  同事好奇地问了一下卢卡斯。

  “我还在想吧,听上帝的。”

  卢卡斯很是无奈地回答道。

  他手中的项目,堆叠多层LSTM网络的实验再次遇到瓶颈。

  模型参数量变大后,训练速度呈指数级下降,多张GPU卡根本跑不满,大部分算力都在等待上一个时间步的计算结果。

  这就是循环神经网络的致命缺陷。

  他烦躁地切开网页,进入那个开源社区的讨论帖,想看看有没有其他同行看到,然后提出什么新点子。

  帖子下方多了一条回复,发帖人是个黑猫头像。

  卢卡斯看到开头那句“循环结构,死路一条”,心里顿时升起一股火气。

  fxxk!

  哪来的傻呗?!

  这种发言无异于对着一个医生说,别学医了,学医死路一条......

  不对,你要是真这么说,他可能还要得感谢你捏。

  言归正传。

  可惜卢卡斯是一名严谨认真的研究员,他强忍着不快继续往下看。

  当他看完内容的时候,心里的火气瞬间消失了,产生了一种难以言喻的震撼。

  岑言给他的冲击,比岑言给利昂的更大。

  抛弃时序计算?

  全并行?

  卢卡斯开始跟着岑言的公式推导。

  键盘声快得跟飞起来一样。

  最后,他停下手,看着那个简洁的注意力公式,整个人愣在了椅子上。

  逻辑完美闭环。

  如果真的按照这个公式去构建模型架构,长序列的依赖问题就不再是问题,因为任何两个位置的交互都只需要一步计算。

  更重要的是,矩阵运算天生适合GPU的大规模并行。

  卢卡斯感到一阵头皮发麻。

  这个匿名用户不仅懂算法,而且数学功底深不可测,甚至比他们这些专门研究模型架构的人还要超前。

  这个黑猫到底是谁?

  辛顿实验室什么时候培养出来的天才?

  还是哪个隐世的对计算机突然感兴趣的数学大牛?

  不知道,人家都回我帖子了,那我直接问一问。

  卢卡斯立刻在帖子下方回复。

  “sir,您的推导过程完美无瑕,这种全注意力的架构构想极具启发性。但我还有几个关于位置信息如何保留的疑问想请教。另外,能否给个联系方式?我代表我的团队诚挚地邀请你进行深度交流。”

  如果这位人才没有团队的话。

  那卢卡斯愿意向谷歌推荐他。

  最好是能打包来给自己当同事,这样自己不懂的东西就能马上问他了。

  发完回复,卢卡斯站起身,在办公室里来回踱步,脑子里全都是那个公式。

  他必须把这个人找出来!

  京海。

  早晨的阳光穿透窗帘缝隙照进房间。岑言在闹钟声中醒来。

  他洗漱完毕,走出房间,看到白棠正在厨房里笨手笨脚地煎鸡蛋,梁晓鸥则坐在岛台旁一边吃全麦面包一边看算法视频。

  岑言跟两人打了个招呼,拿了一片面包叼在嘴里,顺手打开电脑。

  现在还早,休息一下再去实验室。

  他刚睡醒,还有点起床气,打开电脑也不知道干嘛,下意识地登录GitHub,结果看到消息提示红得发亮。

  他点开一看,利昂和卢卡斯的回复双双躺在列表里。

  两人的语气都充满了急切和求知欲,甚至主动抛出了谷歌的橄榄枝。

  岑言神色放松地笑了。

  鱼咬钩了,而且咬得很死。

  果然,想要钓这种技术人,就得用技术的路子。

  你看他们,被我骂了还要谢谢我呢。

  但岑言没有急着给出技术上的解答,这时候解答得越多,主动权反而越小。

  他不是来跟他们玩学术交流的,他是来挖人的!

  这种时候就该把锄头挥起来。

  岑言分别给利昂和卢卡斯发去了私信。

  “感谢你们的认可,我目前不打算公开身份,也没有加入谷歌的计划。相反,我手里有一个即将改变NLP领域的新架构正在筹备中。”

  岑言继续写道。

  “我正在组建一个顶尖的初创研发团队,坐标中华。我们有充足的资金,可以提供不限制数量的P100显卡算力集群,且不设任何发文限制,给予完全的学术自由。”

  “如果你们厌倦了大厂里繁琐的汇报流程,想真正做一点能写进计算机历史的东西,可以考虑加入我,一起创造历史。”

  发送。

  大饼画出来了。

  但这并不是最终的一步,这只是刚刚开始。

  岑言甚至不在意他们接不接受。

  他直接关了GitHub页面,不再去管它。

  有这时间等他们回复,不如看看白棠把鸡蛋煎得怎么样了。

第297章 怎么办?他太懂我了!

  “你能行吗?”

  岑言有些狐疑地站在一旁看着白棠在那颠勺,虽然他并不是很能理解为什么煎个鸡蛋也要颠勺。

  “我我我......我没问题的!”

  白棠穿着一身粉色的小熊围裙,双手握着锅柄,可能锅对于她来说有点重,也可能是因为岑言站在身边,让她有点紧张。

  她的手抖得像帕金森一样。

  “哎呀,你不要在那边干扰她了。”

  梁晓鸥看不下去,她起身过去,把岑言从厨房边上拉走。

  “你不是要去挖人吗?怎么正事一点不干,光顾着在那边看热闹?”

  梁晓鸥没好气地说道。

  岑言挠了挠头。

  “我已经撒了鱼饵打窝了,不着急,钓鱼的精髓在于溜鱼。”

  “那可是两个高级工程师,你把它们当鱼养?”

  梁晓鸥一脸狐疑地看着岑言,问道。

  岑言笑了笑。

  “高级工程师怎么了?高级工程师也是人啊,只要是人,就有自己想要的东西,有自己感兴趣的方向,反正现在他们已经把饵吞下去了,让他们自己消化消化。”

  “那他们要是消化了不回馈怎么办?”

  梁晓鸥撇了撇嘴。

  “不回馈,说明他们不是聪明人。那就算招进来了,也没有什么用。”

  “如果他们是聪明人就一定有回馈。”

  岑言满不在乎地说道,他一边打开本地的代码编辑器,新建了一个工程文件夹。

  挖人是一方面,自己这边的基本盘也得搭建起来。

  周志云那边已经在跑资金和设备的手续,他必须在设备到位前,把Transformer的初期研发框架整理出来。

  写代码是一项需要高度专注的工作。尤其是像Transformer这种颠覆传统认知的新架构,很多底层的张量操作和维度变换都非常容易出错。

  岑言新建了一个名为Attention的Python模块,开始编写多头注意力机制的具体实现类。

  正常的实现路径,是输入的序列数据,需要先通过三个不同的线性变换矩阵,分别映射成查询矩阵Q、键矩阵K和值矩阵V,这在代码里是简单的矩阵乘法,但为了实现多头并行,必须在维度操作上做文章。

  好在这些东西,早有预案。

  岑言看似在写代码,实则在copy。

  只不过ctrl+c和+v的操作并不在电脑,而是在于他的大脑和双手。

  梁晓鸥在一旁犹豫了一会,悄悄凑过来看,她也学了一点,看得不是很懂。

  只见岑言熟练地敲着键盘,写下改变张量形状的函数,把原本特征维度上的数据,拆分成多个独立的头,让不同的头关注到句子中不同位置、不同维度的语义信息。

  岑言一边写,一边在脑海中模拟数据流在多维张量中的流转过程。

  梁晓鸥在一旁看着,颇为震惊。

  她最近也不是没有去了解计算机相关的工作现状,甚至自己也有上手尝试敲代码。

  可谁家敲代码是这样的?

首节 上一节 431/449下一节 尾节 目录