• 推荐
  • 排行榜
  • 歌手
  • 歌单
  • 电台
  • 新碟
搜索历史
大家都在搜
两只蝴蝶
才子佳人断佳话
就把这首歌送给失意的你
不配说爱我
杯水情歌
你一定要幸福
得意的笑
烟嗓哥
红桃J
麻山伙
央金拉姆
乌兰巴托的夜
天涯
再见图灵
披着羊皮的狼
爱的主打歌
诺言
姐姐妹妹站起来
最真的梦
王语嫣
热
搜
词
蛋糕店里卖蛋糕白菜对我笑咏春人生路漫漫海阔天空我的刀盾离开我的依赖幻音坊花海水手荒漠中的草爱错傻女唯一起风了风又吹过眼里的愁跳楼机丁程鑫 人造神深爱过的人怎么放手牵丝戏
00:00/00:00
 高速下载歌曲音频 下载歌曲到手机下载LRC歌词
随时随地任意搜索并下载全网无损歌曲
扫描右侧二维码下载歌曲到手机
扫描下方二维码下载歌曲到手机
免费获取更多无损音乐下载链接
外链地址
https://www.eemp3.com/audiofile/6e71ec77aef47d5ad93e38df8e252d6d.mp3
点击复制

本字幕由TME AI技术生成
The
欢迎大家收听三五环
我是刘飞
今天邀请到的是姚敏
先跟大家打声招呼吧
哎 大家好
我是姚敏
姚敏的花名是曹人
听这个花名就知道这个工龄比较长了噻
是
那跟大家介绍一下你在蚂蚁集团之前的工作经历吧
嗯 好的
我是那个零八年就入职蚂蚁集团这边
然后一直在
呃
技术团队做整个技础设施和技术架构的这块的管理工作
呃
这几年因为蚂蚁对ai 的这个发展也是作为战略重点在投入
所以我们在ai 上面也在做计算咨询的建设和管理的工作
嗯
然后之前是做过不同的业务
但是一直都在技术架构这一侧对吧
对 是的 因为之
之前就是我基本上是一直都还是在技术的领域去做
就是跟计算相关的事情吧
我觉得主要还是在技术领域去做
因为早些年可能通讯算力这边做的会更多啊
因为整个业务发展是伴随着互联网的发展在往前走的
那今天是一个什么契机呢
就还是因为现在大家都能看到
Ai 从去年年初吧
发展到现在这一两年时间
已经变成一个行业里大家都在讨论的一个热点
那这个热点之下
我们其实看到了很多
各种做大模型的创业的
各种做应用层面创业的
以及现在大家讨论的各种各样的一些产品形态啊
讨论英伟达呀
讨论微软啊等等
那这些是我们能看到的很多
但是确实有一个话题是现在公共领域与大家讨论的比较少的
就是所谓的算力
嗯
以及说能支持刚才我们说的这种ai 计算的底层的可能会用到的一些技术
或者说一些大家要关注的问题
我们今天就想聊一聊这个ai 相关的算力的问题
那对于算力来说
是不是之前的计算的这种算力的方式或者架构跟现在会不一样的
嗯 对
现在变化非常大
就是整个大家从去年年初看到那个现在gpu 一布布后
就就模型的整个算算的东西变成了一个主流流其我早早上还在看那个公开的一个数据
就是到仅仅已经过了一年的时间吧
就是我觉得二零二三年年底呃的时候
我们看到国家发布的数据
其实中国的整个自然算力的规模已经到了
到了百分之三十啊
就是它整个全算力是两百三十亿
嗯
它已经到了七十亿的规模
所以作为七十亿是指的是它的一个算力能力
你可以简单认为是个算力指标
就是说整个来看
呃
这是我们互联网发展了二三十年
在在国内蓬勃发展二三十年以前是绝对的主力
大模型出来之前
其实可能这个通用算力的占比可能肯定是低于个位数数的啊
但是仅仅过了一两年的时间
其实整个算力比例已经不过百分之三十
而且很快可能会甚至会差的超过一半啊
就是我觉得这个一个个典型的的算算直直的感受受变化
嗯嗯
它背后其实也是意味着说整个大模型对整个算力的要求也会跟以前的这种分布式计算
跟一些互联网以前的一些应用的一些要求也完全会不一样
嗯
那我们就往下聊
对于大模型的计算
或者说ai 相关的这些计算和传统的计算
它主要的区别可能是在哪儿呢
对
就是大模型这边
因为这你在互联网上
其实你做一个购物也好
做一个聊天也好
其实你都是一个很短的时间停留
就是说你
你可能几秒钟啊
一分钟两分钟的时间内一个访问
其实整个互联网架构也是个分布式的架构
对大模型来讲
其实很典型的case 就是说你要训练一个大模型
它其实 呃
像ppt 四
它可能需要同时要两万张卡
就两万张ai 的gpu 卡同时跑个三到四个月啊
才能够完整的跑完一个大模型训练
其实这个就已经是在技术的角度去看
其实它面临的挑战就完全不一样了
就是以前你其实你的分布架构构是可以确保任何一个单点的问题都不会影响你的调用
最多你就是做做一次从事嘛
这个影响是很有限的
呃
从技术的角度来讲说
你的整个模型训练有这么长的一个时间
又需要驱动这么多的算力去做同一件事情
这个背后就会带来很多很多不一样的一些变化啊
就是包括你在这个过程中怎么样让它更好的发挥你的效能
然后同时你要确保
呃
任何一次中断你的影响是可控的
因为你总会是有
嗯
有异常的嘛
就是在硬件异常
如果是训练一个模型
就不管是不是大模型
大模型当然它的周期可以更长
去用的算力和成本会更高
你哪怕训练一个小点的模型
我之前也有类似的经历
就是你可能弄到一半回头一看啊
进程已经停了
对
就因为各种原因
可能这个成本就会非常非常高
因为你用的采购的这个芯片
现在的大家也知道芯片这个价格以及电费
嗯
以及各种人工他前期已经投入了
然后你最后没有跑出结果来
那可能他对中断的这个处理的要求就会高很多
是的是的
就是这个里面刚提到的几个关键点都是存在的
就是能耗包括成本啊
就是大家也看到其实现在这个gpu 的卡非常的贵
也比较资源也比较稀缺啊
就是国内也好
国际也好
都是这么一个情况
其实整个也好
成本非常高
就是整个像mata 这种头部的互联公司
他真的去投入的话
他可能 呃
他之前pr 出来他们会买三十多万张这种gpu 的卡
嗯 其实我们 呃
就是你看公开数据就关卡
而且他可能都是上百亿美金的投入
所以这个你每一次训练
你每一个训练和推理动作
其实背后的这个成本是很高的
然后耗电就更加离谱了
就是说你如果做一个简单对比
就是你拿一个gpt 四
呃
两万张卡的这个规模去算的话
我们粗粗的算了一下
就是连功耗去算
因为它除了卡的
就是除了gpu 本身带来的开销
它配套的很多
呃
也是有电力开销的
就是它基本上两万张卡跑起来的话
一年可能得十几几亿度电啊
就是这个
这个体感一下的话
就可能是有十几万户这个居民一年年度用电
它这个是非常大的一个耗电量
对
你大概的能算
你就说一度电就一块钱的话
那也就是
所以这个成本也是很挺吓人
对 挺吓人
而且它对基础设施的要求确实也高的是是是
对 嗯
因为以前像基础设施这边
就是说单单机房
就是大家会看到这个很多地方有数据中心嘛
数据中心本身它就是一个个像
呃
工厂的这种园区楼啊
就是呃
几层的这个楼
嗯
其实以前这种楼它其实如果说跟gpu 对应的话
它可能一个楼这么大
一幢楼可能也就是放几千张卡
所以说那里在做一些改进设计
就确保提高这个单楼的这个电力的供应
但是整体上来讲
其实整个功耗是非常大
嗯
跟以前是不一样的
对 是的
那对于这这种算力的变化来说
在软件层面或者在架构层面是不是也会有很多
对两有很多变化
会有很多变化
就是说
呃
整个芯片其实
呃
我们还是以因味的
因为它比较头部嘛
对
就是它的整个历程来看
其实早些人他在游戏啊
在其他的一些领域其实做的其实有点不温不火
就它虽然说很龙头
但是它也没有特别大的变化
但是你看到这几年在ai 这个大模型这个场景下
它的产品的迭代是非常快的
基本上每年都会有新的产品会发布
它每一年新的产品发布的背后
它的整个算力的提升
但芯片的算力的提升都是成倍成两变成三倍的增加的
嗯嗯
以这个背后其实得益于说在芯片的制成这一层
就是五纳米甚至说四纳米三纳米的这个更强的这个能力
加上它其实可以把那个芯片的密度
晶体管的密度做的非常非常高
所以说它的变形计算的能力会非常非常的强
我觉得也是大模型爆发的一个很重要因素
就是它的整个芯片能力的提升是显著的啊
这种技术达达到了一个很大的突破
第二个方面就是在背后
其实从这个密度提升它带来的第二个问题就是它的散热会很严重
我不知道可不可以理解
就是其实像这种gpu 的温度
它运行的时候它可以跑到接近九十度
对
你让我想到之前读研究生
当时学计算机的
机房里面就好多机器摆在那儿
对那个温度已经很难控制了
装一两个空调在那关
如果空调坏了
服务器立马就会崩
就崩掉了
对对
那现在这这方面的要求可能就会就更高
对 就是说对
是的
现在机房里面就是以前的我们的整个机房温度
比如说你二十几度
嗯
就可以控制住整个环境温度啊
环境温度控制好以后
因为还是那个点
就是芯片的密度或者单芯片的要求没那么高
就是你可以理解就是说我体表不是很热
但是我某个核心部件其实是很热的
对对
它局部温度很高
所以说其实现在为什么大家听到数据中心里面会也会经常也会高频出现的另外一个词就是要液冷
所以以前大家就认为吹空调就够了对吧
对对对
但是现在其实很多技术就开始想办法说我我把一些制冷的一些液体然后导入到你的服务器内部
然后让你的芯片能够更靠近这个降温的东西
嗯 这样的话
它就可以实现芯片层面的一些
呃
再一个更合适的温度
因为其实我刚刚说的这个温度
就是你真正芯片到达某个域值的时候
它就要触发降频
为了保命
它的性效对它降效
对对对
所以说这个里面就呃
一系列的变化都会出现
比如说第一
你整个因为你的功率率为的功耗变得降大
刘飞老师去以前那的地方
可能是进去密密麻麻都是服务器
对
但现在其实你进到自算的机房里面
其实有可能因为大家的数据中心还没有完全去迭代成新的这种架构
但是如果用老的这个呃
数据中心去装新的这个ai 的这个芯片的话
你就会发现它的密度很低啊
就是因为一个机柜可能就只能放一台啊
因为它太耗电的啊
然后所以说它密度不会让你觉得密密麻麻
但是变化另外一点就是你会看到比以前看到的更多的这个呃
光纤啊 因为
因为以前要速度啊
那对通信是一个很重要
在ai 里面很很重要的一个对
它对高性能的网络的要求很高哦
也许那个数据流信息流会更更能多
对
因为大量的数据的
因为你的每一次模型训练
包括你每一次模型的微调都是涉及到这些数据的传输和导入的
所以这个过程它对整个传输的效率
包括我刚刚前面也提到说你如果异常了
你要去从你的整个保存点
呃
Check point 里面去把这个数据读回来保存下去
这个都是需要你的速度
你的时效信是要有高有高的
所以你会看到第二个点
就是你看到机房里面的光线会比以前要多的多的多
第三个就是整个智能体系的一个变化
就是它还是要确保体表温度要降下来啊啊
同时它很多机房现在会引入液冷啊
就是来降低服务器内部的温度
对
这很像那个叫早之前就一一直在玩那个pc 游戏的话
其实你在那个游戏里有一个比较高性能的显卡
那个显卡一定是局部温度很高的
对
这个时候你无里空调再怎么吹
对
你得给gppu 配一个液冷系统
对
这样效果果才对
对对
这个逻辑是一样的
那这里面其实能听得出来它还是会有很多不一样的地方
比如像刚才你提到一个点
是从最早可能并行计算出现
那并行计算变成一个比较流行的这种架构
因为这种架构它能让一些系统的处理安全性可能更高
就是你一台机器崩了
其他的还可能继续用
那它变成了一个主流
但是现在好像ai 出现之后
这个架构又会变掉
它不能用并并行的方式去做了
对
其实虽然是gpu 卡
本身它是并行计算的一个场景
就是它做很多并行计算嘛
它有很多同时处理的任务的能力
所以它的整个
呃
算力的这个flop 指标就会很搞去
算力能力会很强
嗯
但其实整体来讲
其实我们还是说回到大模型训练这个场景的话
它其实它要从最开始的数据准备到整个预训练
到整个整个跑的过程
到最终产出发布
整个这一条链路
其是它有一条很强的串行链路啊
其实我觉得更多的是在链路上它是有串新的
它就会迎来不一样的挑战啊
以前的是一个分布式架构
但是你的每个事物的处理都不是一个特别长的链路啊
我们现在真实的看到的
从后端技术看到的情况来讲
其实整个这个链路太很长
涉及到的环节很多的时候
其实你要确保它的高可靠性和高效率
其实这个背后的影响和挑战是很大的
是很大的
包括你的数据
整个数据导入质量高不高
效果好不好
然后你整个模型跑的过程中会不会因为各种各样的问题导致你的中断
包括 包
包括你的续
呃
卡的应用效率是不是足够好
这些问题都会出来
那接着这个我们聊一聊
因为你在蚂蚁嘛
也在实际做一些项目
对
做一些那个面对现在的变化做一些调整
那有没有具体的跟大家讲一讲一些案例
对 蚂蚁这边
其实我们呃
从去年 呃
年初开始
其实就同时也在定ai 的战略嘛
就在业务层面
其实最近的这个waic 的会上
我们的那个很多同事也在那边做了一些展出啊
我先简单说一下业务层面的情况
就是蚂蚁有一个
呃
百年的技术大模型
嗯
然后这个最新的发布
我们已经支持了原生多模态的一个能力啊
为什么我们会有自己的技术大模型
也是因为蚂蚁啊
是有非常丰富的整个应用场景
呃
支付宝端内有很多业务的场景
比如政务啊
包括生活啊
包括金融啊
很多场景
我们有很多场景
所以我们有足够丰富的场景
所以我们觉得我们做一个这个技术大模型
是可以在更多的业务应用场景去做赋能的
呃
扫码支付算是支付宝的一个首创嘛
就是我们也希望ai 像扫码支付一样便利每个人的生活
这是我们大的在ai 的一个策略啊
就是
所以我们在这个基础上面我们做了我们自己的呃
基础大模型啊
同时我们也在垂炼上面做了医疗管家
生活助理和金融管家这几个大的我们叫管家类的应用啊
蚂蚁内部因为我们起步的比较早
所以在在技术在后代这一侧
其实我们是比较呃
自早也在推动整个呃
集群的建建设管理对
对吧
就我们也面临了一样的问题
就是说在整个idc 布局这一这一侧也好
在那个整个运行过程中里面
我们都面临那个比较多的挑战
就比较大的点就是
其实呃
像数据中心我们就会比较考虑能耗和能源的问题
因为蚂蚁有我们自己本身是在基于gesg 的一个指导在做工作
所以我们对绿色一直都是落到每个环节的
所以在数据中心这一层
我们会对据们靠近国家的整个牵引的方向
比如说有可再生能源的数据中心
比如说西部啊
就我我们会更偏向
偏向于在那边发展我们自己的计算的业务和集群
嗯
这是我觉得是一个大的点
第二个点就是说在整个运营过程里面
其实有很多
当然有很多能力的建设的一个过程啊
但我觉得这个我就不展开了
就可能
我们可能还是就刚刚围绕着我们刚刚说的怎么样加强整个这么长的一个链路的治理
我们可能也会去做一些技术上的体系的重重建
也就跟你刚刚说的一样
就前面我们在以前的这种模式
就是我们叫通用计算的这个模式之下
有很多工作其实是需要平移的
他需要花时间的
其实我们做了一年多
其实我们只是也还在路上
其是我们有很多体系化平移拉起的工作
其实 呃
任重道远的
就有很多工作是需要花大量的时间去人员投入去把它建起来的
所以这里面对工程对infer 这块的一些挑战是很大的
对
其实说这些场景我会有一些体感
因为现在支付宝里是有大量的生活服务相关的一些小的应用场景嘛
包括我们做一些政务
那在浙江的同学对像浙里办这里面这些功能和服务都都很了解
然后像我日常用到的
比如说就除了这些政务的
可能包括一些
呃
城市设施的
比如图书馆的
嗯
就比如说那个地铁出行等等
就是好多这种城市生活的服务它会在这里面
但是现在确实我感觉有很多地方可以提升
那可以提升地方可能就会比如说你能通过发现哎
我的需求
到底应该去用哪个小程序
应该去用哪个支付宝里的小程序
或者说这个服务这些功能它到底互相之间有什么关系
我能不能推荐给最适合的这些场景
这些其实都很适合ai 去做
对对
因为我们其实我们现在支付宝已经下
就是首页下拉会有一个叫我们有个入口
这个入口是我们的生活助理
这里可以谈一个点
就是说本来我们不是仅仅的说的提供一个智能搜索的搜索的一个入口
比如说你想找什么
嗯
其实我们更多的是想加强它的规划执行的能力
我们希望他能做到
比如说你现在应该是现在已经做得到
就是你在上面说我要到某个咖啡店点一杯什么拿铁
嗯
他是要能执行的
嗯
不是简单的说我说出来告诉你
对
到星巴克去点啊
就实这个我们已经在做
对
我们是希望它就跟你刚刚提到一点
就是说最终我们不是简单的想提供一个搜索的入口那个
这个其实上一代就有啊
其实我们更多的会加强整个规划和执行的能力
对这种新的ai 交互
它会变成更原子化的
就是把原来的这些小程序里的服务和功能它都更原子化
呃
颗粒度更细更细
之后呢
你再去像刚才说的
我去点拿铁
其实你可以直接用星巴克这个小程序里面的一些功能
对对对 呃
这种它最后体现出来当然就是相相对比较理想的状态了
我们也挺期待支付宝
嗯
当时能就大家的使用能有这么顺畅的
对
那我们再说回算力这个事儿
如果说算力现在会有这些变化的话
是不是还有一些其他的要求
比如说人才的要求
对人力的要求是
就是算力这边整体上来讲
其实整个行业都是
以前算法工程师肯定也是有的
然后工程类的人人员
包括整个技术架构的人员都是有的
但是我觉得其实整体因为着实整个去年一年都在国内都在经历这个百魔大战啊
就是模型就产量非常多
所以人才肯定整体是缺的
其是人才方面其实我们也看到了一些点
比如说其实可能最难的就是因为整个刚刚说的
其实这个链路太长
而且涉及到专业领域太多了
就是横向的拉通
简单的说就是你又懂整个技术架构
又懂infer
你又懂 呃呃
大模型 嗯 你
你才有可能去完成整个架构的构建
就是整个全链路的一个一个设计
嗯
这种人是最缺的
就我们认为是最缺的
然后第二类
其实现在我们蚂蚁同步在做
就是说很多公司都在做
就是说引入一些应届的一些专业性的这个博士或研究生
他们能够进进到整个领域里面
在办法在整个模型的这个训练这个这个上层的这个软件链路里面其实发挥更大的作用
这边的人肯定是也是要有一个培养周期的
我觉得这里面的人员也是区口比较大
然后整个工程链路里面
呃
刚刚我们就提到了一些
其实它整个呃
业态已经有一点变化了了
是说它不再是以前计算机发展了这么多年
早些年的国内公司花了很大的力气是把整个互联网的架构
其实最开始淘宝啊
包括支付宝的架构也是从一些大型小型机
就是叫小型机那边我们没有用大机啊
就银行可能用大机会多一点
但我们用的这种就是类似于集中式的大的这种计算机器来承担一个最核心的业务
目的是什么
是确保它不要坏
因为它整个
呃
他们的整个设计
整个国外的一些主流的这种大的大小型型的设计
它是很可靠性非非常非常的
嗯
它基本上是不会坏的
嗯 不会坏
你就是要依赖于它不坏
才能够确保业务中断
嗯 大的设计
设计理念是最开始是这样的
对 十 十几年钱
嗯
花了很多年才把它改成说
其实我不在意了
就是整个互联网公司就绝大部分业务
就是说它不会呃
很难出现
长时间不能用
那基本上就是你出现问题
你可能会有一次重试
或者说你差一点
可能十来分钟后它就恢复了
嗯
因为它已经是完全分布式的架构了
就它不会依赖某个点
很多也上游
对对对 嗯
所以在这个逻辑之之下
其实这个体系的构建是花了很长时间的
嗯
那其实现在有一种感觉就是说它又会回到一种说搬某一个场景的是
我其实对你的整个可靠性的要求变得巨高
高到说我其实不太容忍在我的这个训练过程中里面有很多的问题出现
嗯
当然大家也会去涉及刚刚去提到一些技术体系里面具体的设计里面
比如说你怎么样识别
呃 慢节点
就是有一些问题的节点
异常节点
同时你能够快速的隔离啊
像这些技术肯定都要做
而且都要有
否则的话
你就是真的是任何地方风吹草动你的任务就得停掉
嗯
但是整体上来讲
还是有很多呃技术点会导致有一定的异常情况下
你的任务就是会中断的
嗯
这些问题怎么识别
怎么样规避
我觉得这个地方其实是大量的需要有一些以前运维领域的
然后包括工程领域的人要进来
要去完成这个设计的
嗯
就现在你的感受是这个人才还是不是还是比较稀缺的人才
我
我觉得肯定是稀缺的啊
那放到国内都是稀缺的
因为我们在国内的情况肯定还更不一样一点
就是可能我们还会接触更多多的生软件生态
更多的硬件架构
海外的这这套体系它跑了很多年
就是它在软件生态上面
它布局可能超过十年甚至更长的时间
嗯 呃
有的时候说就是他们在算子
就是像 呃
英伟达在库大这边算子的一些能力
其实就是一个很多年整合了整个生态的人员的工作量的一个累积啊
它是一个累积的工作量
但这个工作量在国内
其实你在国内的这些大模型厂商里面
他要寻求发展
他要找到更多元的算力的情况下
呃
他就是要面对更多站的一个情况
就是更多技术战的情况况
而且这这个投入对国内的这些技术工程师也好
对国内的一些芯片厂商来讲
他都是需要快步追赶
所以他其实是两条腿都要走啊
所以这个国内压力会更大一些
对
而且之前我的理解是
英伟达 呃
这么早布局
也是跟他一直在gpu 领域在游戏行业这个发展是很有关系
是因为游戏行业也在反过来推动它的
这个就是它应用场景更全
我记得扩大像这种架构
它最早都是为了游戏服务的
对 呃
游戏开发者在这上面去做很多编程
它可能成本更低
门槛更低
这么长时间的发展
其实它也不是跌了十年在等ai
而是正好在游戏这个领域它其实有很多积累的
是是对
所以这个腰椎感其实是比较难的
对
而且像英伟达它其实也是软件工程师为主的
就是他其实不是一个纯硬件的工
呃 芯片公司
对对 嗯
所以他其实整个解决方案加软件
上层软件基于固态生态的这帮软件工程师
其实人数量肯定是超过一半以上的啊
就是他肯定是大头
所以这帮人在这么多年
在这么多行业领域
呃
在生态上面做了很多年的深耕
其实这个是非常也是非常宝贵的一个能力啊
因为我身边有ai 不同的领域的一些朋友
他有的是在做创业的
有的是做to b 的
To c 的
有的做sars 的
有的作者就大模型的吧
对 大大
大家都会觉得人才很缺
就从程序员到产品经理
其实大家工作逻辑都变化了
嗯
就完全不一样了
是是是
这些就是像刚才说的
其实算力刚开始可能就包括我也会觉得它不就是性能提升嘛
但是还是能感觉到他在从硬件对吧
就甚至从那个怎么降温冷却系统
然后到这个人才
到软件架构
它都是还是有一整套都需要迭代和调整变化的
是 嗯 呃
包我我自己
我们自身的感觉也是一样的
就是从ai 这个大的产景起来之前我们会觉得其实热度很高
引发了其实从去年年初开始
整个国内对ai 算力的诉求是强烈的
嗯
其实整个市场都在寻求找到这个gpu 的卡来提供这个算力的保障
对
那然后当时大家可能那个时候所有的共识都是只有一个点
只要有卡就能用
对
就我们当时有一段时间也是这么一个错觉啊
其实后来发现其实真的会挺复杂的
就是那你解决了第一个问题啊
但是你后面的问题是无数的
这也是可能很多
尤其是搞大模型厂商的公司
它会面临的很大的挑战是在于说我们也了解过一些公司和一些渠道
就是他们最开始是很兴致勃勃的去搞了一笔资金
然后 呃
去买了一批这个
这个相关的这个gpu 的卡
呃
希望能够最差也能提供算利的租赁嘛
然后好一点
我自己能搞个模型出来
但是真正意义上来讲
你可能就
呃
我们从比如说小模型的推理或者是
或者小模型的训练
几张卡跑一跑是问题不大的
但是你的参数量不大
你的规模不大
你的这个神经网络的这个
你的参数不够复杂
不 不够不
不够大
你的如果尤
尤其是原原多模
在一些具体的场景下
你可能就准确性就起不来啊
你这个果果就达不到
所以说等到你就是就跟改革进到深水区一样
就是等到你想把这个东西从小做到大的时候
你那个规模越规模的跨度
当你跨到千卡
在旺卡的时候
呃
有这个做模型的想法的公司
他就会在上层
在工程
在算法这一层面临巨大的挑战
嗯
就是他会需要有一个很完整的人才体系才有可能把它做起来啊
所以为什么
呃
现在说百魔大战
其实去年一年大家
呃
其实有是在追赶
嗯 Gpt 四嘛
其实百魔大战的结果肯定是有有可能是对的啊
就大家可能是总是有有几家会跑出来能够拉近跟它差距
距距 对
就wic 上面其实很多
呃
专家也在说
其实在技术大模型领域
其实 呃
国内的水平是可以的
但是可能缺的是应用啊
或者是缺的是应用
所以我觉得这可能也是去年一年的成果吧
就找致到今天的成果
对于蚂蚁来说
自己面向的就是很多真实的应用场景
那这里面会像刚才提到的
在做的这些建设
会有一些开放的呃
部分嘛 呃
对外其实四月份也发布了一个叫code fuse 的一个产品啊
就是它其实是一个
呃
基于大模型的一个代码生成的一个一个平台
嗯
它在很多场景
在你的
比如说你编写呃
单侧的用例
呃
做辅助编程
增加注释
很多场景下
你都是可以你用它的
就蚂蚁内部
其实呃
有百分之五十的工程师每周都会用到这个工具
嗯嗯
我们有些项目就直接让他辅助去做一些代码的生成
基本上我们也是百分之三十左右的这个类似于接受率啊
嗯
这个跟国际的这个一线的其实差距也不会很大
他们大概有三十五左右啊
就是我们
我们其实这个地方是一个场景
其实这个就是来呃
改变呃
工程师的整个研发效率啊
加速它的效率的
这个我们也在做
就是蚂蚁自己做的嘛
Code builse
对对对
就这个
正好是下一期聊的主题啊
是个预告一啊
然后另外其实像
呃
刚刚前面其实也提到了一些
其实生活助手
包括我们
其实我们在医疗最近也有一些发布嘛
其实医疗其实它其实是在串你的病例的解读
你的药品的解读
你的整个辅助就医
其实很多领域它都会做一个串接啊
确保它是加速你的
就跟行业生态
医院跟机构之间能够共建一个ai 生态嘛
其实我
我理解
因为我们是边后台的团队
其实我们理解
其实 呃
蚂蚁整体来讲
其实还是想用普惠的这个思路
就刚刚说的那句话
去牵引蚂蚁的各场景
因为我们有足够多的场景嘛
我们还是希望当年做扫码支付的时候是想汇集
呃
我们的客户
Ok
那你现在用ai 的技术基于你的应用场景去汇集你的用户嘛
其实我们本身的大的逻辑我觉得都是在这个方向之上啊
其实我们前面也提到
整体ai 的算力的变化
它会带来很大的能耗的需求
能耗的需求的另一侧其实也就会涉及到一个变化
还是它的耗电量对吧
对
我看到有报道说
据说是工业革命之后最大的一波
就是一下就拉满了很多地方
这个
这个供电都供不上了
是是是 对
那这里面我看到蚂蚁也在做像绿色计算的这方向吧
或者说战略
那这这个过程当中有什么可以分享的嘛
我们的优势在于说国内其实在在绿色能源
在可再生能源上面
其实有很国家有很早的布局
也很多年的积累
包括国家也在提这个东数西算的一些整体的一些牵引
就是让大家更多的把一些西部的可再生的清洁能源去用起来
其实在这个大的背景下
其实整体呃来讲
其实能耗上面我们第一
我们作为企业
我们肯定是更多的靠拢这个可再生的区域啊
确保这这个呃
绿色啊
确实对对未来的这个环境影响是可控的
但是现实的困难题肯定是有
因为整个能耗要求越来越高的情况下
你能不能拿到相应的能耗指标
能够确保你的整个业务能够有一个比较长期可持续的发展
其实这里面其实是有一些挑战的
但是整体上来讲
我们目前还没有碰到
第一
我们还有一些提前的布局
第二方面
其实我觉得整个大模型的发展
其实尤其是大模型训练这个场景下的一些爆发
到今年其实很多场景他也会做一些收敛
就是可能觉得整个行业不会像去年一样啊
对对 会
他其实在整个训练的场景里面
我觉得呃
大家的需求也会做一些
也会冷静下来
实际上也会走向一个冷境
我听说现在卡比以前好买了
已经有很多想做大模型
那就发现了刚才说的问题
就很难
听说有的大模型团队一个月要少几千万
嗯 那
那这个成本它不是一个小团队能cover 的
对 光融 融资
你可能咱们得融非常多的钱才能支撑啊
是
而且你要找到那个模型应用的场景啊
其实两个相加的话
就会导致很多呃
在这个上面的使用会需求也可能会有一些平复
平静下来吧
就是我觉得这个可能对
对所有的行业
包括对整个供电的体系
对整个数据中心的设计体系里面
都会有一些机会去做一些重新的设设计啊
那我
我们稍微聊一聊展望和未来的一些可能啊
那对于算力这块儿
你会觉得未来有哪些变化
或者一些你的预期
嗯 的期待
因为其实在国内做大模型
做算力的ai 算力的这块的保障和和投和提供
其实面临的挑战其实有一个潜质的挑战肯定是说未来我们用什么样的芯片
用什么样的gpu 卡
这个可能是我们第一步要解决的问题
其实国内呃
有很多这个蓬勃发展的这个呃
Gpu 的硬件厂商
他们也在努力去做
嗯
但这个里面其实我觉得从展望未来第一个问题可能就是我们对
呃
整个这这一块国产的一些卡的了解
包括掌握
包括规模化的应用
其实肯定是我们面临的一个
呃
接下来是一个比较大的一个一个挑战
嗯
那第二方面就是整个伴随着这个卡规模的变大
其实现在也有人在说
就是真正意义上你你
你要做agi
你可能要是十万卡才能起步
但是就是从千卡到万卡到十万卡
其实就不停的在描绘那个更大的场景嘛
是啊
所以说在这个规模的不断的增长的情况下
你又是一个比较多元的或者是多场多多异构的一个芯片的组成
其实这个背后对技术体系的挑战是很大的
就是你怎么样做到可以做一些融合啊
做一些确保一个这个更大的一个规模下的训练的能力能够建立起来
其实这个上面我们也是觉得是挑战是很大的
这里面可能你像
呃
前前阵子对于很多国内ai 的创业者来说
挑战比较大的就是政策出来可能呃
Gpt 没有那么好接了
一些特殊场景下才能接
那这样的话
挑战就是变成你可能要重新调整你的方向
未来长期看
它也会涉及到这种这种问题嘛
他
他确实虽然我们在做的是一些很很具体的一些产品
但是他都会涉及的到是大的这个市场环境
对都会影响到对于未来这种这些发展
你会觉得对于比如说在做ai 创业的朋友
Ai 创业的团队
嗯
他们想要考虑一些算力的事儿
你有什么建议吗
就是需要
需要他们关注什么
如果从事的是一些
呃
那个类似于基础大模型的这块的领域
其实 呃
前面也提到了一些关于整体的投入成本规模的一些问题
我就不不在这里赘述
就是整体上来讲
其实整个一定是会走向大规模高密度的一个方向
我觉得这是肯定的
就是你的集成规模
你的单集成规模能整体能提供的算力的这个总的那个峰值会决定了你的模模型跑的规模啊
所以说整个你在大规模之下
你怎么样设计好这套集群架构
确保你的整个集群足够有扩展性
同时它的整个呃
内部的呃
网络之间的吞吐是高非常高的性能
嗯
包括就是我们经常也提说有算力强
有算力强
有内存强对吧
然后有些东西可能依赖于硬件厂商去突破
那你在整个是架构设计上面
如果你是个模型公司
你可能不做芯片
但你可能在整个架构设计上面要确保它的网络足够强壮的啊
然后你的整个底盘是足够足够稳定的
这些地方都是要去做一些突破的
在第二个点就是
呃
在国内来看的话
就是说可能我们会走出一条不一样的路啊
就说我们可能在密度上面
就是我们的单芯片的能力可能短时间来讲可能跟海外是有差距的啊
但是我们可能出条靠平行的能力
这样反过来讲
它就会带来一个要求
就以前可能海外模模式是搞
搞个类似于大型机一样的这个的节点
这个节点就可以完整的提供一个训练任务的运行
当然我们可能需要一个机房或者更多的芯片组合成一张一个集群网络对来提供服务
在这里面你其实我们能参参考和借鉴的是不多的
就是我们得靠自己去摸索一套
也在平行过程之下
我们整个集群的管理怎么样跑的更可靠
效率更高
这里面其实是有很多要探索
这是作为模型
如果你要做大模型应用的厂家
你要去考虑的一个比较关键的点
另外一个点就是说
其实现在就你刚刚提到的
其实好在现在技术大模型
国内的一些技术大模型其实效果都还不错啊
其实所以说
呃
七bt 四点零不让调用的这个事情
可能对很多上层的大模型应用来讲
它可能还是有地方可以去
呃
去找到那个方案的对吧
但我觉得这是作为上层垂类
可能 呃
它在资源上面就会比较少啊
然后所以说在这一层来讲
它可能选择一个好的技术大模型
然后呃
持续的去完成它的这个微调和训练就够了
其在这个上面其实我们也看不太清楚
但整体上来讲
肯定大家都在等某个垂类的大模型应用能够出来
能够改变这个改变应用的生态
对对对
可能现在大大家都在观望和期待的事儿吧
是的
这两年创业团队是很多的
涌入这个行业的人才啊
这都在讨论
嗯
热点是一直在的
就只是说
就具体哪些场景能更好的呃
用上
以及说它能更好的最后把体验做好
像刚才我们设想的那种场景下
基于这种比较颗粒度细的比较原子的服务
能直接找到它
我能直接调用
我能直接使用
让大家的生活体验真的变好
这个还是感觉需要
需要等待
现在我们还没有看到
但是希望能
能尽快待出现吧
是的是的 嗯 我
我还有一个就个人比较好奇的问题就是
如果现在芯片的能力越来越高
就是 呃
我看有一些说法也是在相对来说突破了摩尔定律
性能越来越强
然后能耗相对比较低的话
是不是很多其实包括我们现在用的那个手机里的很多芯片
它已经能够承载很高的计算量呢
那是不是未来也有很多这种本地的
嗯
本地的大模型的架构
本地的ai 的芯片
它能够变成一个很多场景下的主流
对端测的这一块
其实很多厂商都有在出类似的这个场景
其实 呃
英伟达它在国内它跟智能汽车的领域跟小米之间就是有类似这种合作
其实大家会
呃
两边都会去发展
理想的情况下肯定是说你大的一些训练任务
你放到云端
放到一个集中的这个那个ai 的集群里面去做一些训练
但是很很多本地推理的工作可能就放到了本地
然后就是基于一个比较小的模型作为完成一个推理
对
这个地方其实因为随随着我们这边包括内存的一些显存内存技术的一些增长和提升
其实它是完全有可能做得到
就像有很多场景都已经这么在做了
是的 嗯 对
我听说 呃
像ios
呃
最新的那个
他提到新的ai 嘛
就apple intelligent 提到的就是本地能解决一些问题了
对 是的
可能对于一些
嗯
高响应的场景下还是好用一些
你像刚才说的自动驾驶这种
你不可能云端处理
你 对对对
很多事情来不及了
是的是的
所以这个就又能想象到他对一些算力的要求高和对这种架构的要求
它就是新的
现在感觉很多手机的性能过剩的嘛
对是对
大家又不玩游戏
很多人就是只是刷刷这种社交媒体和回微信的话
其实可能对内存要求高
但是对算力要求没有那么高
所以未来这块又变成挑战了
对对对
其其就可能在这个地方又回到了像以前说说每个点怎么样确保每个点的这个运行是足够ok 的啊
就我觉得这个挑战又又不一样了啊
但是可能现在整个呃ai 算定里面
大家作为大模型厂商
他们可能呃
更多的还是在关注怎么样呃
集中提供供好这个一个好的模型
然后给到呃自己的的一些锤的应用够够起来来
下一步走走端端这侧侧可能还是有大量的工作做的
来
这也是一个我感觉挺有意思的课题
就是未来会有很多这种变化
那当然大部分变化肯定是会带来我们生活工作体验的提升吧
是
那最后有没有觉得可以给在座ai 的朋友一些一些建议的
就是从技术层面
其实前面有提到一一点就是
就是ai 这个事情
其实我们肯定大家都认可是个方向嘛
就是可能如果要往一些呃技术大模型的领域去转
呃
去投入的话
可能是要考虑对这个问题要做一个比较详细这得论证的
你就这个整个综合的成本和难度会复杂度会比较高
嗯
但是在垂炼这边
其实国内的主流的大模型的一些成熟
其实基于他们去生一些生态
衍伸一些这个垂炼的这个应用
在
在这条路上面可能是会更好的
第二个就是说
呃
整个模型训练
因为它也有可能是一个如果作为创业公司来讲的话
它也是一个周期性的东西
比如说你要训练大模型可能需要两个月啊
你可能需要一个集中性的资源去训练
然后你其实又不希望在前后链路里面去大量的技术人员去投入
你可能希望算算法者者你几个业务的技技术同学能够快速的能够去把这个东西跑起来
嗯
去拿业务结果
在这种情况下
其实可能去引入一些比较open 的这个云
就是云服务的这种形式可能会
呃 各位更轻
它不像我二十四小时的再提供一个app 的服务
最重对客的部分
你在推理这一侧你可能会有一些服务的请求
可是你在训练这个场景下
其实你对它的管理啊
如果你做的很重的话啊
你投入做的很重的话
你的成本可能会
呃
会非常高啊
会非常高
我觉得这个点上可能也是一个点
因为业务层面的东西我个人也不是特别懂
但是我我们现在能看到
就可能大家都在等这个大模型在某个垂类对有一些应用出来嘛
因为其实gd 四o 他们发的这个方向其实也在考虑
其实也不是说模型肯定不是到最后只有一条路
就从 呃
从千亿到万亿到十万亿的这么一条路
他最终还是会走一条呃
经济又实惠的
就小而强的路啊
对吧
其实有可能你在某个领域
你的模型规模并不大
但是你的整个能力和模型的效果非常好
可能未来会有越来越多的这种的
就是比如说你在百亿左右
那甚至更小的场景下
你也能跑起来的
这种场景我觉得
呃
可能会更多了
其实今天我们聊的大量的都是在所谓水下的一些成本
我们看不到的潜在的一些风险也好
或者说难难题也好
对
这个可能也是后面在如果做ai 这个方向的话
大家都都得考虑的问题
是的
还有可能不光算力啊
硬件啊
人力啊等等这些
那好啊
今天感觉姚明老师提供了很多挺有意思的视角
有很多是确实想象不到的
你比如说就是现在这个芯片性能变高之后
就是冷却系统
你可
可能都要调整你的供电怎么办了
包括中间的中断了怎么办
其
其实很多问题是可能日常想象不到的
是的 呃
也希望给大家有一些帮助或者启发吧
那我们今天就先聊到这儿
还有机会
我们大家啊
谢谢大家
杨明老师 嗯
谢谢 谢谢
欢迎在小宇宙
苹果podcast 订阅和收听三五环
也欢迎在评论区留言交流
如果喜欢三五环的话
也恳请能在苹果podcast
Spotify 或者喜马拉雅留下你的宝贵好评
下期再见
展开显示全部歌词
上一首歌:绿水行舟MP3下载
下一首歌:平凡的日子借一点光MP3下载
热门歌手
周杰伦赵雷周深半吨兄弟林栖海来阿木洋澜一林俊杰G.E.M. 邓紫棋陈奕迅时代少年团大头针 Official郭静BEYOND梁博烟嗓船长张学友薛之谦刘德华周传雄
其他人正在听的歌
卡路里 (cover: 火箭少女101)时酒&是姨妈呀&陌翎&九枝引&遥安Seny&Nigel&小黄黎
Rock da Bass (Dj Koma Extended Remix)Amoroso&Alien Cut&DJ Koma
so much wrong/so much right (anxiety) - verse pt. 1 (slowed + reverb) (Explicit)ultrarai
Silver Screen Romance (실버스크린 로망스)남택상
Tum MilePritam&Neeraj Shridhar
痛难了艺凌
II. Allegretto (Live)Vladislav Mikhalchuk
DivaYoungboy Rallo
现在我很幸福 (R&B版|DJ Astro云驰版)陶宏杰
嚣张 (Live)容祖儿&王赫野
拥抱自己白茶清欢
网站地图RSS地图百度地图360地图头条地图
声明:本站不存储任何音频数据,站内歌曲来自搜索引擎,如有侵犯版权请及时联系我们,我们将在第一时间处理!
下载FLAC音乐网桂ICP备xxxxxxxx 版权投诉 请联系我们 liukaymail#foxmail.com