他抬头往远处瞥了一眼。
白色商务车还停在原位,车窗上映着路灯的橘黄色反光,看不清里面坐的人。
林宇收回视线,按下了回拨键。
嘟——
第二声还没响完,对面接了。
“林老师?”
声音比他预想中年轻,语速快,带着一种常年泡实验室的人才有的干脆。
“沈教授,刚看到您的短信。”
“方便聊几分钟吗?”
“方便。”
没有“久仰大名”,没有“冒昧打扰”,连“您最近很火”这种废话都省了。
“林老师,你展示课上那个对话程序的底层架构,我反复推演了三个小时。”
林宇握着手机的手微微收紧。
展示课的前十二分钟流出去了,那部分只有投掷粉笔和预测股票,跟AI架构的核心代码八竿子打不着。后半段被王志海全面封锁,所有学生手机里的影像资料都做了处理。
沈一舟怎么拿到的?
“沈教授,展示课后半段的内容已经被限制传播了,您的信息来源是?”
电话那头顿了一拍,然后沈一舟笑了。
那笑声里没有心虚,反而很坦荡。
“省教育厅有个朋友,在现场听了你的课。他没拍视频,但手抄了几页你的板书推导过程。不是代码,全是数学公式。拍了照片传给我的。”
停了一下。
“我根据你的数学推导,反向还原了程序的大致架构走向。”
林宇的拇指在裤缝上蹭了两下。
几页板书推导,还不完整,中间肯定有断层和缺失。
沈一舟硬是从这些残缺的碎片里,把架构的核心逻辑拼了出来。
对方不愧是顶尖学府的人。
“方案是我自己推的。”林宇回答。
“能解释一下压缩维度的动机吗?64维降到16维,按常规理解,信息损失会非常严重。”
林宇脑子里,系统返还的宗师级AI知识体系自动运转。
“因为64维本身就过剩了。”
他往下讲,没用任何学术腔。
“主流架构用64维,是五年前TranSfOrmer团队做ablatiOn StUdy时的最优解。但那是五年前的数据规模。现在训练语料翻了上千倍,高维度的边际收益在急剧衰减,大部分维度占了算力,对语义理解的贡献接近于零。”
“继续。”
“压到16维确实会丢一部分细粒度的语义信息。所以我在交叉层加了动态加权来补偿。让模型自己决定,每次推理中哪些维度值得保留,哪些直接丢。权重不是固定的,根据上下文实时调整。”
电话那头传来笔尖划纸的声音,急促、密集,刷刷刷响了十几秒。
“林老师,再问一个。”
沈一舟的语气变了,之前是学者讨论技术时的精准和克制,现在多了一层东西,是一种按捺不住的急切。
“幻觉问题。模型一本正经地编造事实,当前最大的痛点。你有没有想过解决方案?”
林宇瞬间站直了身子。
这个问题他不是“想过”。是系统返还的知识体系里,已经自然生成了一条完整路径。
“在生成层之前,插一个事实锚定模块。基于贝叶斯后验概率。”
“什么思路?”
“现在主流做法是生成之后做事实校验,拿外部知识库去比对。但本质上是'先说了再查',效率低,而且模型已经生成的内容会形成路径依赖,纠错成本极高。”
他顿了一下。
“我的思路反过来。在模型选择下一个tOken之前,先过一道贝叶斯筛。候选tOken的概率分布和训练语料中的事实分布做交叉验证,偏差超过阈值,直接在源头截断,不让它进入生成序列。”
电话那头的笔停了。
安静了很久。
“计算开销呢?每一步都做后验概率计算,推理速度会被拖垮。”
“所以锚定模块不是每一步都触发。”林宇的语速不急不慢,“只有当生成层的困惑度突然飙升——模型自己也'拿不准'的时候——锚定模块才介入。常规生成任务,根本不需要额外计算。”
对面没有声音了。
安静得只剩风声。
林宇低头看了眼屏幕,通话时间还在跳。没断。
“林老师。”
沈一舟再开口的时候,语气跟二十分钟前完全不是一个人。
“我做了二十二年的自然语言处理。”
“嗯。”
“今晚这四十多分钟,我学到的东西,比过去三年加起来都多。”
操场上的风停了一瞬。
林宇站在原地,一只手撑着铁栏杆,另一只手攥着手机,没出声。
上辈子,那间二十平米的补习教室,十几个初三学生,他在黑板上讲二次函数的顶点坐标公式。一节课两百块,一个月赚不到六千。他教过最得意的一个学生,从班级倒数第五考到了正数第十二。
他连重点高中的校门都没资格进去参观。
那一辈子要是知道今天这一幕,怕是做梦都要笑醒。
“沈教授过奖了。”
“我没有过奖。”沈一舟的语气很认真,“林老师,我想正式跟你谈一件事。”
林宇的后背离开了铁栏杆。
“清华计算机系愿意聘请你为特聘教授。”
每一个字都掷在地上。
“不需要走常规评审流程。我会联合系里三位院士直接推荐。待遇按最高标准配置,独立实验室、科研启动经费、教职住房,全部到位。”
沈一舟停了一拍。
“我个人非常希望能成为你的同事。清华需要你,林老师。”
风又吹起来了,从东边过来,带着夜里特有的潮气。
清华大学特聘教授。
院士联名推荐,跳过所有常规评审。
这份邀约搁在学术圈任何一个人面前,都足以让人当场站不稳。
可林宇脑子里蹦出来的第一个画面,不是清华的实验室,不是独立经费。
是赵磊。
前天晚上兴高采烈发来的截屏,PythOn写的K线分析程序跑出了第一个正确的趋势预测。
模型粗糙得不像话,但赵磊激动得在消息框里打了一整屏感叹号。
一个两周前连print函数都不会拼的体育生。
是陈雨薇。
概率论习题做到第三步才绕远,比半个月前进步了不止一个档次。
是张巧儿。
两个小时前刚从高铁站出来,行李箱右轮还是卡的,咕噜咕噜地在地砖上响。
307宿舍那张空了半年的床,今晚终于有人躺上去了。
还有周昊,还有苏晚,还有那些从外院跑来蹭课、在走廊上坐着书包听讲的学生。
他们的课还没上完。
“沈教授。”
林宇开口了。
“这件事,我得考虑考虑。”
“当然,你可以慢——”
“不是客气话。”林宇接上去,
“我手上有一批学生,有几个刚刚找到方向。
赵磊两周前连PythOn的print函数都不会拼,昨天自己跑通了第一个程序。
有个女生半年前被校园贷逼退了学,今天刚回来,复学手续是我帮她办的。”
他看着远处宿舍楼里零星亮着的窗户。
“我现在走了,他们怎么办?”
电话那头安静了好几秒。
然后沈一舟笑了一声。
那个笑声不大,但里面没有失望,没有扫兴。
“林老师,你知道吗?”
“嗯?”
“你刚才这番话,恰好解释了为什么你能教出那样的课。”
林宇没接。
“清华的大门,任何时候都为你敞开。不管是明天,还是十年后。你什么时候想来,一个电话就够了。”
“谢谢您。”
“你那个贝叶斯锚定模块的方案,我回去再推一推。有新想法了还能找你讨论吗?”
“随时都行。”
“那先这样,晚安。”
“晚安。”
挂断。
林宇低头,通话记录上跳着一行数字。
47分13秒。
他把手机揣回口袋,从栏杆上撑起身,往宿舍方向迈了两步。
裤兜又震了。
林宇掏出手机。
屏幕上弹出来的名字,让他迈出去的脚定在了原地。
欧阳清风。
苏省科技大学计算机系主任。
省级展示课评审席上,把评分表翻到背面抄他代码框架、整整抄了两大页的那位。
手机震到第四声,林宇按下接听。
“林老师?我是欧阳清风。这个点打扰你了。”
对面顿了一下,声音里裹着一股明晃晃的急迫。
“但我怕再晚,你就被别人抢走了。”
白色商务车还停在原位,车窗上映着路灯的橘黄色反光,看不清里面坐的人。
林宇收回视线,按下了回拨键。
嘟——
第二声还没响完,对面接了。
“林老师?”
声音比他预想中年轻,语速快,带着一种常年泡实验室的人才有的干脆。
“沈教授,刚看到您的短信。”
“方便聊几分钟吗?”
“方便。”
没有“久仰大名”,没有“冒昧打扰”,连“您最近很火”这种废话都省了。
“林老师,你展示课上那个对话程序的底层架构,我反复推演了三个小时。”
林宇握着手机的手微微收紧。
展示课的前十二分钟流出去了,那部分只有投掷粉笔和预测股票,跟AI架构的核心代码八竿子打不着。后半段被王志海全面封锁,所有学生手机里的影像资料都做了处理。
沈一舟怎么拿到的?
“沈教授,展示课后半段的内容已经被限制传播了,您的信息来源是?”
电话那头顿了一拍,然后沈一舟笑了。
那笑声里没有心虚,反而很坦荡。
“省教育厅有个朋友,在现场听了你的课。他没拍视频,但手抄了几页你的板书推导过程。不是代码,全是数学公式。拍了照片传给我的。”
停了一下。
“我根据你的数学推导,反向还原了程序的大致架构走向。”
林宇的拇指在裤缝上蹭了两下。
几页板书推导,还不完整,中间肯定有断层和缺失。
沈一舟硬是从这些残缺的碎片里,把架构的核心逻辑拼了出来。
对方不愧是顶尖学府的人。
“方案是我自己推的。”林宇回答。
“能解释一下压缩维度的动机吗?64维降到16维,按常规理解,信息损失会非常严重。”
林宇脑子里,系统返还的宗师级AI知识体系自动运转。
“因为64维本身就过剩了。”
他往下讲,没用任何学术腔。
“主流架构用64维,是五年前TranSfOrmer团队做ablatiOn StUdy时的最优解。但那是五年前的数据规模。现在训练语料翻了上千倍,高维度的边际收益在急剧衰减,大部分维度占了算力,对语义理解的贡献接近于零。”
“继续。”
“压到16维确实会丢一部分细粒度的语义信息。所以我在交叉层加了动态加权来补偿。让模型自己决定,每次推理中哪些维度值得保留,哪些直接丢。权重不是固定的,根据上下文实时调整。”
电话那头传来笔尖划纸的声音,急促、密集,刷刷刷响了十几秒。
“林老师,再问一个。”
沈一舟的语气变了,之前是学者讨论技术时的精准和克制,现在多了一层东西,是一种按捺不住的急切。
“幻觉问题。模型一本正经地编造事实,当前最大的痛点。你有没有想过解决方案?”
林宇瞬间站直了身子。
这个问题他不是“想过”。是系统返还的知识体系里,已经自然生成了一条完整路径。
“在生成层之前,插一个事实锚定模块。基于贝叶斯后验概率。”
“什么思路?”
“现在主流做法是生成之后做事实校验,拿外部知识库去比对。但本质上是'先说了再查',效率低,而且模型已经生成的内容会形成路径依赖,纠错成本极高。”
他顿了一下。
“我的思路反过来。在模型选择下一个tOken之前,先过一道贝叶斯筛。候选tOken的概率分布和训练语料中的事实分布做交叉验证,偏差超过阈值,直接在源头截断,不让它进入生成序列。”
电话那头的笔停了。
安静了很久。
“计算开销呢?每一步都做后验概率计算,推理速度会被拖垮。”
“所以锚定模块不是每一步都触发。”林宇的语速不急不慢,“只有当生成层的困惑度突然飙升——模型自己也'拿不准'的时候——锚定模块才介入。常规生成任务,根本不需要额外计算。”
对面没有声音了。
安静得只剩风声。
林宇低头看了眼屏幕,通话时间还在跳。没断。
“林老师。”
沈一舟再开口的时候,语气跟二十分钟前完全不是一个人。
“我做了二十二年的自然语言处理。”
“嗯。”
“今晚这四十多分钟,我学到的东西,比过去三年加起来都多。”
操场上的风停了一瞬。
林宇站在原地,一只手撑着铁栏杆,另一只手攥着手机,没出声。
上辈子,那间二十平米的补习教室,十几个初三学生,他在黑板上讲二次函数的顶点坐标公式。一节课两百块,一个月赚不到六千。他教过最得意的一个学生,从班级倒数第五考到了正数第十二。
他连重点高中的校门都没资格进去参观。
那一辈子要是知道今天这一幕,怕是做梦都要笑醒。
“沈教授过奖了。”
“我没有过奖。”沈一舟的语气很认真,“林老师,我想正式跟你谈一件事。”
林宇的后背离开了铁栏杆。
“清华计算机系愿意聘请你为特聘教授。”
每一个字都掷在地上。
“不需要走常规评审流程。我会联合系里三位院士直接推荐。待遇按最高标准配置,独立实验室、科研启动经费、教职住房,全部到位。”
沈一舟停了一拍。
“我个人非常希望能成为你的同事。清华需要你,林老师。”
风又吹起来了,从东边过来,带着夜里特有的潮气。
清华大学特聘教授。
院士联名推荐,跳过所有常规评审。
这份邀约搁在学术圈任何一个人面前,都足以让人当场站不稳。
可林宇脑子里蹦出来的第一个画面,不是清华的实验室,不是独立经费。
是赵磊。
前天晚上兴高采烈发来的截屏,PythOn写的K线分析程序跑出了第一个正确的趋势预测。
模型粗糙得不像话,但赵磊激动得在消息框里打了一整屏感叹号。
一个两周前连print函数都不会拼的体育生。
是陈雨薇。
概率论习题做到第三步才绕远,比半个月前进步了不止一个档次。
是张巧儿。
两个小时前刚从高铁站出来,行李箱右轮还是卡的,咕噜咕噜地在地砖上响。
307宿舍那张空了半年的床,今晚终于有人躺上去了。
还有周昊,还有苏晚,还有那些从外院跑来蹭课、在走廊上坐着书包听讲的学生。
他们的课还没上完。
“沈教授。”
林宇开口了。
“这件事,我得考虑考虑。”
“当然,你可以慢——”
“不是客气话。”林宇接上去,
“我手上有一批学生,有几个刚刚找到方向。
赵磊两周前连PythOn的print函数都不会拼,昨天自己跑通了第一个程序。
有个女生半年前被校园贷逼退了学,今天刚回来,复学手续是我帮她办的。”
他看着远处宿舍楼里零星亮着的窗户。
“我现在走了,他们怎么办?”
电话那头安静了好几秒。
然后沈一舟笑了一声。
那个笑声不大,但里面没有失望,没有扫兴。
“林老师,你知道吗?”
“嗯?”
“你刚才这番话,恰好解释了为什么你能教出那样的课。”
林宇没接。
“清华的大门,任何时候都为你敞开。不管是明天,还是十年后。你什么时候想来,一个电话就够了。”
“谢谢您。”
“你那个贝叶斯锚定模块的方案,我回去再推一推。有新想法了还能找你讨论吗?”
“随时都行。”
“那先这样,晚安。”
“晚安。”
挂断。
林宇低头,通话记录上跳着一行数字。
47分13秒。
他把手机揣回口袋,从栏杆上撑起身,往宿舍方向迈了两步。
裤兜又震了。
林宇掏出手机。
屏幕上弹出来的名字,让他迈出去的脚定在了原地。
欧阳清风。
苏省科技大学计算机系主任。
省级展示课评审席上,把评分表翻到背面抄他代码框架、整整抄了两大页的那位。
手机震到第四声,林宇按下接听。
“林老师?我是欧阳清风。这个点打扰你了。”
对面顿了一下,声音里裹着一股明晃晃的急迫。
“但我怕再晚,你就被别人抢走了。”
