第356章 神之点拨(1/2)

将这边的事情处理得差不多后,李宸并未停歇,立刻前往他投资的那家人工智能公司。

公司内部略显凌乱,白板上写满了复杂的公式和代码架构图,员工们看上去都非常有激情,这些人都是来自顶尖高校、热爱创新的人。

员工们看到李宸突然到来都有些惊讶,他们都知道这个年轻人就是公司的唯二股东。

梁文峰虽然对这个公司寄予厚望,不过毕竟是八字没一撇的事,平时主要忙自己的基金公司,而李宸也就一开始来了一次。

整个公司一直处于放养状态,就是提供方向和资金让他们研究,这种模式也很轻松,不过李宸的到来却让他们有些紧张。

收到消息后,总负责人章博宇赶紧来到李宸身边:“李总,您怎么来了?”

他的心中有些忐忑,毕竟是第一次接触大模型,所以初期的研究比较困难,没什么进展,生怕李宸会因此问责。

“来看看你们的进度,顺便讨论一些技术问题,”李宸淡淡一笑,目光扫过那些白板,“遇到困难了?”

章博宇叹了口气,指着其中一块白板:“是的,李总。我们想要在保证性能的同时大幅降低训练成本和推理延迟,但现有的架构似乎到了一个瓶颈。我们尝试了混合专家模型,但在小规模数据集上的效果不尽如人意……”

李宸走到白板前,那些复杂的技术路线图对他来说就是小儿科,瞬间明白了具体的问题所在。

周围鸦雀无声,所有技术人员都屏息凝神地看着这位传说中最年轻的百亿富豪。

有几个核心人员知道上次的设想就是李宸提出来的,所以非常期待李宸提出新的见解,不过大部分人都只是将李宸当成一个投资天才。

突然,李宸拿起一支笔,在其中几个关键节点上画了几个圈:“这里,注意力机制的计算冗余可以削减。不必完全依赖标准的scaled dot-product attention。

可以尝试引入滑动窗口和全局注意力相结合的机制,针对序列的不同部分采用不同策略,减少长序列带来的计算平方增长。”

正当所有人思考着这种方案的可行性时,他又在另一处点了点:“这里,前馈网络层是参数大户,但激活是稀疏的。为什么不更彻底地采用动态路由的moe?

让一个轻量级的门控网络根据输入token动态决定激活哪几个专家网络。这样每次前向传播只需激活部分参数,模型总参数量可以做得很大,但实际计算量和能耗能降下来。还有……”

“等等,李总,”章博宇赶紧打断李宸的话,“有点跟不上了,先让我思考一下。”

“滑动窗口和全局注意力相结合...动态路由moe,嘶,好像可行。”梁文锋的眼睛越瞪越大,脸上先是错愕,随即涌现出茅塞顿开的神情。

其中一个矮个子的小伙子激动得语无伦次:“天啊!这...这思路太清晰了!我们怎么没想到?李总...您简直神了!”

其他技术人员也反应过来,瞬间围拢过来,七嘴八舌地讨论起来,眼神里充满了对李宸的敬畏和崇拜。

原来他们的老板,不仅是金融之神,更是一位深藏不露的ai技术大神,寥寥数语就为他们拨开了迷雾,指明了一条光明道路。

对于他们来说,这种信手拈来的操作比百亿资产更让他们崇拜。

本章未完,点击下一页继续阅读。