阿里云腾讯云服务器性能对比
创新互联的客户来自各行各业,为了共同目标,我们在工作上密切配合,从创业型小企业到企事业单位,感谢他们对我们的要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。专业领域包括做网站、网站设计、电商网站开发、微信营销、系统平台开发。
阿里云我自己的服务器,2核8G的,1个物理CPU.1个物理核心,两线程
4核=核8g,1个物理CPU 2个物理核心,4线程
腾讯云sa24核8g 一个物理CPU,4个物理核心,,4线程
实际体验:腾讯云的redis会掉,阿里云的没有遇到过,扔开性能指数,还是阿里云的稳定些
腾讯云的不稳定点,性价比腾讯云还是可以吧,sa2做活动服务商那边拿真便宜!!
腾讯官方活动链接
阿里官方活动链接
以下是腾讯官网的一些数据
腾讯云标准型 S5
2.5GHz Intel® Xeon® Cascade Lake 处理器,2.5GHz,睿频3.1GHz,搭配最新一代六通道 DDR4,内存计算性能稳定
规格vCPU内存(GB)网络收发包(pps)队列数内网带宽能力(Gbps)主频备注
S5.SMALL11125万11.52.5GHz-
S5.SMALL21225万11.52.5GHz-
S5.SMALL41425万11.52.5GHz-
S5.MEDIUM42430万21.52.5GHz-
S5.MEDIUM82830万21.52.5GHz-
S5.LARGE84850万21.52.5GHz-
S5.LARGE1641650万21.52.5GHz-
S5.2XLARGE1681680万23.02.5GHz-
S5.2XLARGE3283280万23.02.5GHz-
S5.4XLARGE321632150万46.02.5GHz-
S5.4XLARGE641664150万46.02.5GHz-
S5.6XLARGE482448200万69.02.5GHz-
S5.6XLARGE962496200万69.02.5GHz-
S5.8XLARGE643264250万8122.5GHz-
S5.8XLARGE12832128250万8122.5GHz-
S5.12XLARGE964896400万1217.02.5GHz-
S5.12XLARGE19248192400万1217.02.5GHz-
S5.16XLARGE25664256500万1623.02.5GHz-
腾讯云s4
标准型 S4 实例采用至强®处理器 Skylake 全新处理器,内存采用最新最新一代六通道 DDR4 内存,,默认网络优化,内存带宽达2666MT/s最高内网收发能力达600万pps,最高内网带宽可支持25Gbps。
服务器 2.4GHz Intel® Xeon® Skylake 6148 最新一代六通道 DDR4 内存
规格vCPU内存(GB)网络收发包(pps)队列数内网带宽能力(Gbps)主频备注
S4.SMALL11125万11.52.4GHz-
S4.SMALL21225万11.52.4GHz-
S4.SMALL41425万11.52.4GHz-
S4.MEDIUM42430万21.52.4GHz-
S4.MEDIUM82830万21.52.4GHz-
S4.LARGE84850万21.52.4GHz-
S4.LARGE1641650万21.52.4GHz-
S4.2XLARGE1681680万23.02.4GHz-
S4.2XLARGE3283280万23.02.4GHz-
S4.4XLARGE321632150万46.02.4GHz-
S4.4XLARGE641664150万46.02.4GHz-
S4.6XLARGE482448200万68.02.4GHz-
S4.6XLARGE962496200万68.02.4GHz-
S4.8XLARGE643264250万811.02.4GHz-
S4.8XLARGE12832128250万811.02.4GHz-
S4.12XLARGE964896400万1216.02.4GHz-
S4.12XLARGE19248192400万1216.02.4GHz-
S4.16XLARGE12864128500万1622.02.4GHz-
S4.16XLARGE25664256500万1622.02.4GHz-
S4.18XLARGE28872288600万1624.02.4GHz-
腾讯云标准型SA2配置参数
CPU处理器:AMD EPYC ROME新一代处理器,主频2.6GHz,睿频3.3GHz。
内存:最新一代八通道 DDR4,内存计算性能稳定。
网络:超高网络收发包能力达750万pps,最大网络带宽25Gbps。
规格vCPU内存(GB)网络收发包(pps)队列数内网带宽能力(Gbps)主频备注
SA2.SMALL11125万11.52.6GHz-
SA2.SMALL21225万11.52.6GHz-
SA2.SMALL41425万11.52.6GHz-
SA2.MEDIUM42430万21.52.6GHz-
SA2.MEDIUM82830万21.52.6GHz-
SA2.LARGE84850万21.52.6GHz-
SA2.LARGE1641650万21.52.6GHz-
SA2.2XLARGE1681670万21.52.6GHz-
SA2.2XLARGE3283270万21.52.6GHz-
SA2.4XLARGE321632100万43.02.6GHz-
SA2.4XLARGE641664100万43.02.6GHz-
SA2.8XLARGE643264140万85.02.6GHz-
SA2.12XLARGE964896210万127.02.6GHz-
SA2.16XLARGE12864128280万169.02.6GHz-
SA2.20XLARGE16080160350万1612.02.6GHz-
SA2.22XLARGE22490224375万1613.02.6GHz-
SA2.24XLARGE19296192420万1614.02.6GHz-
SA2.32XLARGE256128256560万3218.02.6GHz-
SA2.40XLARGE320160320710万3223.02.6GHz-
SA2.45XLARGE464180464750万3225.02.6GHz-
前段时间,马发文称,腾讯营收和利润增速放缓,他也相信可以换挡创造更高质量的发展,逐步建立包括服务器、操作系统、芯片、SaaS等完整的自研体系
腾讯的变动是好事,但作为 历史 上第三次大的组织调整,我感觉会比前两次变动更难。首先,变革的时间来的有点晚,整个行业的竞争已经非常激烈,错失了先发优势。
其次,相比其他大厂,鹅厂的新能力模式还是需要更多的辅导班,想做的门槛也不低,需要公司耐心爬坡填坑。所以腾讯现在陷入困境,未来能否继续保持优势还是未知数。
腾讯换挡的挑战
腾讯面临的困难不仅仅是研发,在最近的财报中,腾讯的营收不仅停止了增长,净利润也出现了下滑。财报显示,腾讯第一季度实现营收1354.71亿元,同比持平,环比下降6%;净利润234.13亿元,同比下滑51%,环比下滑75%。
非国际财务报告准则(Non-IFRS)下,净利润255.45亿元,同比下降23%,环比上升3%。事实上,腾讯经过这么多年的持续高速增长,今年第一季度净利润大幅下滑并不奇怪。此前,腾讯专注于ToC业务,包括手游《王者荣耀》和微信。
但随着移动互联网的红利退去,想要延续原有的商业模式,就必须进一步拓展海外市场,以寻求市场份额和活水的快速增长,或者在创新产品上加大研发力度。数字经济时代,ToB业务成为互联网平台突破性增长的关键因素,腾讯需要调整原有的商业模式。
如果真的要完成芯片、操作系统、服务器、SaaS的自研,腾讯的RD费用无疑会高于华为。不过目前阿里加腾讯的RD费用还赶不上华为。
过去十年,华为在研发方面的投入超过7200亿元。截至2020年底,华为在全球拥有10万+有效专利,其中90%以上为发明专利。
无论是5G网络还是半导体芯片,都已经做到了全球领先,这种技术差距不是短时间能弥补的。
阿里做了自己的阿里云、数据库、risc-v芯片,腾讯基本是从零开始。
幸运的是,腾讯的RD费用和团队正在不断改善。
据了解,2021年,腾讯RD投资达到518.8亿元,是2018年的两倍。RD人员数量同比增长41%,RD团队持续增长。新增RD项目6000多个,较2020年增长51%。
腾讯如何换挡?
随着国内互联网流量的高峰,出海成为互联网大公司的关键词之一,腾讯也不例外。
就求变现状而言,必须走向海外,创造利润,反哺国内 科技 研发。越早完成海上业务,越能抢占行业话语权。
在腾讯的财报中,国际市场收入已经成为 游戏 业务的重要组成部分。去年腾讯 游戏 国际市场收入占比26%。今年第一季度,这一收入同比增长4%,至106亿元。
除了加速出海,完善自研生态也是腾讯换挡的必经过程。
芯片方面,面向AI计算、视频处理、高性能网络三大场景,腾讯拥有自主研发的AI推理芯片紫晓、视频编解码芯片沧海、智能网卡芯片凌轩,产品性能业内领先。
同时,腾讯与多家芯片公司深度合作,开发自己的星海服务器。结合云计算丰富的场景,整机性能业界最强,可靠性翻倍。过去一年,星海快速迭代,支持全平台、多场景,规模增长400倍,成为行业增长最快的服务器产品。
与此同时,腾讯SaaS的生态布局不断完善。在千帆的生态中,近百家SaaS厂商GMV超过百万。千帆的企业应用连接器产品不断迭代,帮助企业突破应用壁垒,服务于工业、教育、零售等领域的众多客户。
如果真的做了自研,腾讯就拿到了未来十年的船票。如果不做,腾讯也会面临很大的困难。从这里也可以看出,它没有十几亿用户也可以高枕无忧。
逆风的方向更适合飞行。换挡速度更快的腾讯,基础还是很扎实的。至于能不能成功改变,这个问题还是留给时间吧。
看起来似乎有强行把芯片设计和数据中心建设拉到一起尬聊的感觉,但世间也没有那么多的一见如故,一些有意义的讨论未尝不是从尬聊开始的。
就我个人而言,今年已经多次在关于数据中心的文章和(线上)分享中提到AMD:“从1月29日开始到2月6日,腾讯会议每天都在进行资源扩容,日均扩容云主机接近1.5万台,8天总共扩容超过10万台云主机,共涉及超百万核的计算资源投入,全部由腾讯云自研的服务器星星海提供支撑。”这款服务器基于AMD去年8月发布的代号Rome(罗马)的第二代EPYC处理器,最大的特点就是核多——双路配置再算上超线程,一台采用腾讯云定制版EPYC处理器的星星海服务器可以为云服务器提供多达180个核——也就是说,这100万核服务器资源,“只”需要不到6000台该款自研服务器即可满足。
腾讯云星星海SA2服务器采用2U高度结合类似远程散热片(remote heat-sink)的设计,配合6个60mm风扇,据称可以支持2个300W级别的CPU(AMD第二代EPYC处理器公开版本最高TDP为280W)
实际上,官方名称为AMD EPYC 7002系列的第二代EPYC处理器最多能提供64个核芯、128个线程,腾讯云定制版本选择了48核芯(96线程)而已。至少在CPU的核数(core count)上,AMD给Intel(英特尔,昵称“大英”)造成了很大的压力。上个月英特尔发布了代号为Cooper Lake的第三代至强可扩展处理器(Xeon Scalable Processor,XSP),主打四路和八路市场,四路配置可提供112核芯224线程,核数上堪与双路EPYC 7002系列抗衡,为10nm制程的Ice Lake争取时间。
摩尔定律难以延续的后果就是CPU的功耗持续攀升,第一代至强可扩展处理器(公开版)里TDP最高的205W,到第三代已是寻常,250W算是克制——毕竟要考虑四路的散热需求
话说上一次AMD搞得大英如此狼狈,还要追溯到本世纪初的64位路线之争。众所周知,英特尔是x86及其生态(特别是软件生态)的缔造者,属于“亲妈”级别,AMD充其量是个“后妈”。但是,x86几十年的发展史证明,“亲妈”未必就比“后妈”更了解孩子的发展潜力。也可以前一阵大火的剧集《隐秘的角落》为例,看完就会发现,对于朱朝阳的隐藏能力,后妈的认知似乎先于亲妈。
Cooper Lake:你看我还有机会吗?
简单的说,Intel建立发展x86生态,AMD坚定捍卫x86路线——不断改造作为生态核心的x86处理器,焕颜新生
盛衰无常:架构与制程的双簧
虽然已经在过去十年中逐渐沦为爱好者口中的“牙膏厂”,但在历史上,英特尔一直不乏创新精神。对待x86的态度可以算是这种精神的一个体现,起码在进入64位时代之前,英特尔其实不太瞧得上x86,总觉得这个娃太low——可能是亲妈更了解孕育过程中的种种先天不足吧——几次三番地在重大的转折点,想要“与时俱进”,重起炉灶,带给用户“船新体验”。反而是AMD屡屡在关键时刻出来捍卫x86,通过翻新加盖来维持其生命力。
64位是关键的转折点。上世纪九十年代末,还是32位的x86刚“插足”服务器市场不久,英特尔选择与惠普(HP)联手开发基于IA-64架构的Itanium(安腾)作为接班人,与已经64位了的RISC阵营大佬们对抗。然而,AMD认为x86还可以抢救一下,决定通过64位扩展来“续命”,并在2003年4月发布首款64位x86处理器Opteron,两年后又把x86(-64)带入多核时代。
此时,英特尔已经在IA-64的路上走了十多年。时过境迁,当初设定的目标并没有实现,而x86扩展到64位和多核之后,不仅软件和应用的生态系统得到了完整的继承,性能也完全可以一战。用户用脚投票,大英不得不从。
第二代EPYC处理器发布会上,Google出示2008年7月9日上线的其第100万台服务器的照片,追诉与AMD的革命友情……还是台四路服务器
英特尔痛定思痛,决定用架构和制程构筑双保险,在2007年提出了Tick-Tock(取自于时钟的“嘀-嗒”周期)量产模式,即先通过制程升级将芯片面积缩小,是为Tick;再基于操练纯熟的制程改用新的微架构,是为Tock。当时的英特尔工厂在技术和产能上都占据明显优势,只要架构上回到正轨,左右手组合拳一出,产量受限的AMD哪里支撑得住?在2008年推出Nehalem微架构之后,英特尔终于夺回主动权。
在英特尔施加的强大压力下,AMD在处理器架构上也犯了错误,2011年推出的Bulldozer(推土机)架构采用了即使现在看来也过于激进的模块化设计。随着2012年英特尔开启至强E5时代,AMD在节节失利后不得不退出服务器市场,上一个巅峰期彻底结束。
有道是:福兮祸所依,祸兮福所伏。先贤曾经曰过:纵有架构、制程双保险,奈何CEO是单点。2016年英特尔推出最后一代至强E5/E7(v4),这是英特尔首批采用14nm制程的服务器CPU,同时也宣告了Tick-Tock模式的终结,改用Process–Architecture–Optimization (制程-架构-优化)的三步走模式。
在这个可以简称为PAO的模式里,虽然仍是先制程、后架构的节奏,但新加入的优化不管是针对两者中的哪一个还是兼而有之,都起到了拉长制程换代周期的效果。第三代至强可扩展处理器已经是第四波采用14nm制程的服务器CPU,14nm后面的“+”都数不清楚有几个了——还好预计年底发布的Ice Lake将终止这个“土拨鼠之日”式的制程循环。
架构层面上,从代号Skylake的初代至强可扩展处理器开始,由环形总线改为6×6的2D-mesh,然后持续“优化”。在架构的角度,Mesh和环形总线都属于所谓传统的单片(Monolithic)式架构,优点是整体性好,涉及到I/O的性能比较有保证;缺点是对制程不太友好,随着规模的扩大,譬如核数和Cache的增加,良率上的挑战很大,高端产品的成本下不来,这对于追求高核数的云计算服务提供商显然不是个好消息。
至强E5/E7 v4的四环(2组双向环形总线)与至强SP的6×6 Mesh架构
关键时刻,又是沉寂多年的AMD挺身而出,接盘Tick-Tock,以自己的方式“维护”摩尔定律。
这个方式,就是模块化。
MCM:同构对等模块化的利与弊
先简单回顾一下AMD之前的模块化设计为什么会失败。 Bulldozer架构的模块化设计,建立在AMD对未来应用趋势的不靠谱假设上,即整数(Integer,INT)运算将占据绝对主导地位,结论是增加整数运算单元,减少浮点(Floating Point,FP)运算单元。 于是,Bulldozer架构很“鸡贼”的采用了两个(具有完整整数运算单元的)核芯共用一个浮点运算单元的模块化设计,两个模块就可以提供4个核芯(但只有2个浮点运算单元),6核以此类推。
模块化本身并没有错,Intel Nehalem的模块化设计就很成功。Bulldozer错在“拆东墙补西墙”,结果连补强都算不上
不用放马后炮,这也是一个妄揣用意(用户意志)的行为。即使是在AI大行其道的今天,第二代英特尔至强可扩展处理器已经支持INT8加速推理运算,也不能和通常意义上CPU的整数运算划等号。贸然押宝,错了当然怪不得别人。
不难看出,Bulldozer的模块化,与之前Intel Nehalem架构的模块化设计,只限于架构层面,并不是为制程考虑——CPU不论几个模块多少核,都是作为一个整体(die)来制造的,毕竟十年前制程还没到瓶颈。
然而,到了AMD以代号Naples的(第一代)EPYC处理器重返服务器市场的2017年,摩尔定律放缓的迹象已很明显。同样的14nm(可能还没有英特尔的先进)制程,AMD如何以更低的成本提供更多的核芯?
EPYC系列处理器基于AMD的Zen系列架构,从Zen、Zen+到Zen 2,以及规划中的Zen 3的发展路线,有点像前面提到的Tick-Tock:开发一个良好的基础然后交替演进,不断优化。
与先辈们不同,Zen系列的模块化明显侧重于解决制程面对的挑战,即芯片在物理上被切割为多个die(比较小的芯片更容易制造,良率有保证,有利于降低成本),通过Infinity Fabric(IF)互连为一个整体,所以每个die就是一个模块,但不一定是模块化设计的最小单位。
第一代EPYC处理器的4个die及Infinity Fabric示意
还是从初代EPYC处理器所采用的Zen架构说起。Zen确立了该系列计算单元模块化的最小单位CCX(Core Complex,核芯复合体),每个CCX包括4个Zen核芯(Core),以及8 MiB共享L3 Cache,每核芯2 MiB。
从AMD公开的示意图来看,各片(Slice)L3 Cache之间的连接方式像是full-mesh(全网状,即每两个点之间都有直接连接,无需跳转),CCX内部的跨核芯L3 Cache访问是一致的
Zen的CCD里除了2个CCX,还有2个DDR内存控制器(各对应1个内存通道),用于片上(die之间)互连的Infinity Fabric(IF On-Package,IFOP),而CPU之间互连的Infinity Fabric(IF Inter-Socket,IFIS)与对外的PCIe通道是复用的——这个知识点在后面会用到。
芯片层面的模块是CCD(Core Complex Die),包括2个CCX,共8个Core、4 MiB L2 Cache、16 MiB L3 Cache。官方名称为AMD EPYC 7001系列的第一代EPYC处理器只有CCD这一种(die层面的)模块,所以每个CCD除了2个CCX,还有大量I/O接口器件,包括DDR、Infinity Fabric/PCIe控制器,CCX占CCD面积的比例只比一半略多(56%)。
这个多芯片模块(multi-chip module,MCM)架构的代号为Zeppelin(齐柏林),四个这样的“复合型”CCD构成完整的第一代EPYC处理器,最多能提供32核芯、64 MiB L3 Cache,直接减少CCD的数量就会得到面向PC市场的高端(2×CCD)和主流产品(单CCD)。
按照AMD提供的数据:每个die的面积为213mm²(平方毫米),4个die的MCM封装总面积为852mm²,如果要用大型单一芯片来实现,面积可以缩小到777mm²,大约节省10%,但是制造和测试成本要提高约40%,完全32核的收益下降约17%、成本提高约70%。投入产出比当然非常划算,也变相的说出了大英的苦衷——可是,后者为什么还在坚持单片路线呢?
MCM这种完全对称的模块化方案,如果套用到数据中心领域,相当于一个园区,几栋建筑结构和功能完全一样,都包含了机房、变配电、柴发、冷站、办公和接待区域等。好处当然是彼此之间没有硬性依赖,每栋建筑都可以独立作为数据中心使用,照此复制就可成倍扩大规模;缺点是没有其他类型的建筑,而有些功能还是需要专门的建筑集中和分区管理的,譬如人员办公和统一接待……
如果一个数据中心园区只有黄框里这一种建筑(模块)……实际上,加上左边的66KV变电站,这里也只是整个园区的一角
况且,与绝大多数的数据中心园区不同,CPU对各模块之间的耦合度要求高得多,否则无法作为一个整体来运作,分工合作快速完成数据处理等任务。而这,正是MCM方案的局限性所在。
第一代EPYC的每个CCD都有“自己的”内存和I/O(主要是PCIe)通道,加上CCD之间的互连,每个CCD的外部I/O都很“重度”
多芯片(对称)设计、全“分布式”架构的特点是内存和I/O扩展能力与CCD数量同步,随着核芯数量的增加,内存和I/O的总“容量”(包括带宽)会增加,这当然是优点,但缺点也随之而来:
首先是局部性(locality)会降低I/O的性能,主要是跨CCD的内存访问时延(latency)明显上升。因为每组(2个)CCX都有自己的本地内存,如果要访问其他CCD上连接的内存,要额外花费很多时间,即所谓的NUMA(Non-Uniform Memory Access,非一致性内存访问)。虽然Zen的CCD上有足够多的IFOP,让4个CCD之间能组成全连接(full-mesh),无需经其他CCD跳转(类似于CCX内4个核芯之间的状况),但I/O路径毕竟变长了;如果要访问其他CPU(插槽)连接的内存,还要经过IFIS,时延会进一步上升。
CCD里的两个CCX也通过Infinity Fabric连接,同样会增加跨CCX的Cache访问时延
根据AMD提供的数据,不同内存访问的时延水平大致如下:
随着访问路径变长和复杂,时延以大约一半的比例增加,这个幅度还是很明显的。
同一个CCD里的内存访问没有明显差异,而跨CCD的内存访问,时延增加就很明显了
然后是PCIe,前面已经有图说明,Zen用于CPU之间互连的IFIS与PCIe通道是复用的,即单路(单CPU)的情况下全都用于PCIe通道,共有128个;双路(双CPU)的情况下每个CPU都要拿出一半来作为(两者之间的)IFIS,所以(对外的)PCIe通道数量仍然是128个,没有随着CPU数量的增加而增长。
简单归纳一下,Zen架构的问题是:核数越多,内存访问的一致性越差;CPU数量增加,外部I/O的扩展能力不变——NUMA引发的跨CPU访问时延增长问题还更严重。
单CPU就能提供128个PCIe 3.0通道原本是第一代EPYC处理器的一大优势,但双CPU仍然是这么多,就略显尴尬了
核数进一步增加的困难很大,不论是增加每个CCD的核数,还是增加CCD的数量,都要面临互连的复杂度问题,也会进一步恶化一致性。
说得更直白一些,就是Zen架构的扩展能力比较有限,难以支持更大的规模。
既然双路配置有利有弊,AMD又是时隔多年重返服务器市场,单路一度被认为是EPYC的突破口,譬如戴尔(Dell)在2018年初推出三款基于第一代EPYC的PowerEdge服务器,其中就有两款是单路。
1U的R6415和2U的R7415都是单路服务器
类似的情况在通常用不到那么多核及I/O扩展能力的PC市场体现得更为明显,在只需要一到两个CCD即可的情况下,消费者更多感受到的是低成本带来的高性价比,所以“AMD Yes!”的鼓噪主要来自个人用户,服务器市场在等待EPYC的进一步成熟。
只有1个die的Ryzen将Zen架构的缺点最小化,获得个人用户的喜爱也就不足为奇了
Chiplet:异构混合模块化的是与非
时隔两年之后,AMD推出基于Zen 2架构的第二代EPYC处理器,通过架构与制程一体优化,达到最高64核、256 MiB L3 Cache,分别是第一代EPYC的2倍和4倍,内存访问一致性和双路的扩展性也有不同程度的改善,终于获得了一众云服务提供商(CSP)的青睐。
Zen 2的整体设计思维是Zen的延续,但做了很多明显的改进,配合制程(部分)升级到7nm,突破了Zen和Zen+在规模扩展上的限制。
首先,Zen2架构延续了Zen/Zen+架构每个CCD有2个CCX、每个CCX有4个核芯共享L3 Cache的布局,但是每个核芯的L3 Cache增大一倍,来到4MiB,每个CCX有16 MiB L3 Cache,是Zen/Zen+架构的两倍。
CCD层面的主要变化是把DDR内存、对外的Infinity Fabric(IFOP/IFIS)和PCIe控制器等I/O器件剥离,以便于升级到7nm制程。AMD表示,第一代EPYC中,上述I/O器件占CCD芯片面积的比例达到44%,从制程提高到7nm中获益很小;而第二代EPYC的7nm CCD中,CPU和L3 Cache这些核心计算、存储器件的占比,高达86%,具有很好的经济性。
被从CCD中拿出来的DDR内存控制器、Infinity Fabric和PCIe控制器等I/O器件,组成了一个单独的I/O芯片,即I/O Die,简称IOD,仍然采用成熟的14nm工艺。
自左至右,分别是传统单片式、第一代EPYC的MCM、第二代EPYC的Chiplet三种架构的示意图
一个IOD居中,最多8个CCD围绕着它,AMD把这种做法称为Chiplet(小芯片)。
如果继续拿数据中心的模块化来强行类比,相当于把整个园区内的变电站、柴发、冷站、办公和接待区域都整合到一个建筑里,位于园区中央,周围是构造完全相同的一座座机房楼……你说,这样一个所有机房楼都离不开的建筑,该有多重要?
仅从布局看,和第二代EPYC处理器有点像的数据中心,但变电站在园区外,制冷也是分布式的(与4个机房模块在一起),中间的建筑并没有上面设想的那么重要
第一代EPYC处理器(Naples)与第二代EPYC处理器(Rome)的片上布局对比,后者是1个IOD + 8个CCD,共9个小芯片组成的混合多die设计
因为CCD的数量增加一倍,所以Rome的核数可以达到Naples的两倍;因为每个CCX/CPU核芯的L3 Cache容量也增加了一倍,所以Rome的L3 Cache总容量可以达到Naples的四倍。
14nm IOD + 7nm CCD的组合——因为不是全部升级到7nm,所以我更愿意称之为制程的“优化”——体现了更高的扩展性和灵活性,使第二代EPYC能够以较低的制造成本提供更丰富的产品组合,提高了市场竞争力。但是,事情并没有看起来这么简单,要了解产品的具体构成和预期的性能表现,您还需要继续往下看。
2019年8月,第二代EPYC正式发布后不久,AMD在Hot Chips大会上介绍了Zen 2产品的Chiplet设计。可能是之前有Zen+架构采用12nm制程的缘故吧,IOD的制程被写成了12nm,其他场合的官方材料都是14nm,所以我们还是以后者为准
今年2月IEEE的ISSCC(International Solid-State Circuits Conference,国际固态电路峰会)2020上,AMD更详细的介绍了Zen 2这一代产品的设计。结合前一幅图可以看到,第二代EPYC的IOD具有83.4亿晶体管,数量与同样采用14nm制程的英特尔Skylake/Cascade Lake相当——虽然两者的晶体管类型构成有很大差别,但可以作为一个参照,说明这个IOD自身的规模和复杂度。
从红框中的选项来看,EPYC 7302 CPU有4个CCD,每个CCX有2个核芯,可以选择各启用1个
IOD集中所有I/O器件的一个好处是,CPU能提供的内存通道数量与CCD的数量无关。E企实验室前一阵测试了基于第二代EPYC处理器的Dell PowerEdge R7525服务器,送测配置包括2个AMD EPYC 7302处理器,从PowerEdge R7525的BIOS设置中可以看到,这款16核的CPU有4个CCD(而不是8个),应该对应下图中右二的情形:
上方柱状图是AMD列出7+14nm Chiplet方案与假设的单片7nm方案相比,成本优势可以达到一半以上(64核没有假设,可能是指单片式很难制造);下方从左至右依次是8、6、4、2个CCD的布局,原则是尽可能的对称
虽然7302在EPYC 7002系列产品中定位偏低端,只有16个核芯,用4个CCX就能满足,但是它拥有128MiB的L3 Cache,这又需要8个CCX才可以。因此,7302的每个CCX只有2个核芯,享受原本属于4个核芯的16 MiB L3 Cache。
从EPYC 7002系列的配置表中可以看出,7302下面72开头的产品才是真正的低端,譬如同样是16核的7282,不仅L3 Cache容量只有7302的一半(倒是符合每核4 MiB的“标配”),而且仅支持4个内存通道,也是7302等产品的一半——说明其CCD数量是2个,就像前一幅图右下方所示的情况——4个内存通道配置的运行频率也低,只有DDR4-2667,与标准的8通道DDR4-3200相比,理论内存带宽仅为40%多
Dell PowerEdge R7525用户手册里对内存条的安装位置有很详细的说明,毕竟插满8个内存通道和只用4个内存通道,性能差距太大
IOD集中所有I/O对性能也有好处,因为内存控制器集中在一个芯片上,有助于降低内存访问的局部性(NUMA)。不过,AMD在很多场合放出的示意图很有误导性,容易让人以为,对Rome(下图右侧)来说,同一个CPU上的内存访问是不存在NUMA的。
从上面的数据来看,第二代EPYC处理器的“本地”内存访问时延有所增长,毕竟内存控制器和CCX不在一个die上了;收益是跨CPU内存访问的时延有所下降,总体更为平均
好在,稍微详细一点的架构示意图表明,一个EPYC 7002系列CPU内部的内存访问仍然会有“远近”之分:
Dell PowerEdge R7525的BIOS配置中,可以在L3 Cache的NUMA设置为Enabled之后,看到每个CPU内部其实还是可以像EPYC 7001系列一样,分成4个不同的NUMA区域
这时学术性会议的价值就体现出来。AMD在ISSCC 2020上的演讲表明,完整版的Server IOD要承载的功能太多,已经有太多的晶体管,中间都被Infinity Fabric和PCIe相关的I/O所占据,内存控制器只能两两一组布置在IOD的四角,每2个CCD就近共享2个内存控制器。由于中间已经没有走线空间,只能构成一个没有对角线连接的2D-mesh拓扑——仅从拓扑角度而论,还不如EPYC 7001系列4个CCD的full-mesh连接方式。所以,临近的访问有长短边造成的延迟差异,对角线的内存访问因为要走过一长一短两条边,没有捷径可走,自然要更慢一些。
注意放大看IOD布局示意图和右侧1~4的不同等级时延注解,可以理解为每个CPU内部仍然分为4个NUMA区域:本地、短边、长边、(拐个弯才能抵达的)对角线
Hot Chips大会上的这张示意图突出了不同功能的Infinity Fabric导致的IOD中部拥挤,和DDR内存控制器都被挤到边角上的感觉。结合前一张图,不难理解,像EPYC 7282这样只有2个CCD对角线布置的低端SKU,另一条对角线上的4个DDR内存控制器主要起增加内存容量的作用,不如只保留CCD就近的4个内存通道
总之,不管是EPYC 7001系列的MCM,还是EPYC 7002系列的Chiplet,随着芯片数量的增长,性能肯定会受到越来越明显的影响(而不是近乎线性的同步提升),只是好的架构会延缓总体性能增长的衰减速度。
这里我们可以回过头来看看同样基于Zen 2架构的第三代AMD Ryzen处理器,主流PC产品没有那么多核数要求,只用2个CCD即可满足,所以其配套的Client IOD(cIOD)正好是Server IOD的四分之一,从前面图中晶体管数量的对比(20.9亿 vs. 83.4亿)也可以看出来。
代号“Matisse”的第三代Ryzen,仍然可以看到两个DDR4内存控制器偏居一隅的“遗存”,但对两个CCD已经公平了很多,基本不存在NUMA问题。也就难怪“AMD真香”党在消费类用户中比例要大得多
尽管CCD升级到了7nm,但更多核芯、更大得多的L3 Cache,意味着整体功耗的上升,譬如同样16核的7302和7282,前者Cache大一倍,频率略有提高,默认TDP就来到了155W,Dell为送测的R7525配备了180W的散热器——而EPYC 7282的TDP则“只有”120/150W。当然,CCD应用7nm的效果还是比较明显的,同样16核、L3 Cache只有7302四分之一,运行频率还低500MHz的7301,TDP也有150/170W,基本与7302相当。
为了满足云计算、高性能计算(HPC)和虚拟化等场景的用户需求,AMD又向EPYC 7002系列CPU中增加了大量多核大(L3) Cache以及核数虽少但频率很高的型号(如今年初发布的7Fx2系列),导致全系列产品中TDP在200W以上的SKU占比很高,也给服务器的散热设计带来了更高的挑战。
200W+的CPU将越来越常见
EPYC 7002系列的另一大改进是PCIe从3.0升级到4.0,单路仍然是128个通道,但双路可以支持多达160个通道(譬如Dell PowerEdge R7525的特定配置)——在主板支持的情况下。第一代EPYC处理器推出时的一个卖点是,为其设计的主板也可以支持第二代EPYC处理器。没有广而告之的是,要支持PCIe 4.0,主板需要重新设计。用老主板可以更快的把第二代EPYC处理器推向市场,却不能充分发挥新CPU的全部能力。
不过,PCIe 4.0本身就是一个很大的话题,留待以后(有机会的话)专文讨论。
从QQ到微信乃至王者荣耀,腾讯开发了多款国民级的产品。这也让腾讯给大众留下的第一个深刻印象就是,善于做产品,做得出产品。然而,不知何时,腾讯被贴上了“流量+资本”的标签。
这其实是一种结果导向的描述,因果关系错位导致的误读。现实是,腾讯是先有了那些卓越的、跨时代的产品,才渐渐有了流量、有了资本,而不是流量与资本成就了那些无可替代的产品。
理清这一点,在反垄断成为关键词的当下环境尤为重要。
有基金经理直言,反垄断让社交、内容平台更稳固,未来的平台竞争,将从流量竞争转化成内容、技术竞争;当互联网基于份额的垄断地位被打压,基于优质内容带来的用户黏性,才是做互联网投资的新基础。
腾讯2020年财报即将揭榜,是时候重新审视腾讯的核心能力了,当初那个无往不利的产品经理,现在还能饭否?
十岁的微信持续释放“新鲜感”
腾讯一个又一个国民级产品背后,离不开产品力,这包括对用户当下以及潜在需求的敏锐挖掘,持续迭代更新的技术支持,对用户体验和用户数据安全的极大敬畏,等等。
首当其冲的是持续迭代的产品力,这既有内生性的优化升级,也有外延式的开拓扩展。
如何让一个国民产品始终跑在技术跟用户习惯的迭代之前,持续领跑?
在这个方面,腾讯无疑是有足够的发言权,十岁的微信,2020年以来的一系列新变化,让市场再度兴奋。有研究员直呼,视频号的超预期发展给腾讯上一波市值上涨贡献了很大一部分估值,是腾讯的“价值心脏”。
这一年多,微信的变化甚至让人有点应接不暇:拍一拍尝试了新社交方式、微信与企业微信打通,服务抗疫线上化需求、微信支付快速推出低门槛、零成本的小商店工具……紧接着,搜一搜打通服务、视频搜索,全年视频号更是4次迭代更新。2021年春节,微信红包封面迅速走红,一些大品牌和明星封面“一面”难求。
用张小龙的话来说,微信会介入到每一个人的日常生活里面去。它应该紧随时代的潮流,甚至引导时代的潮流。如果不把它定位为一个生活方式,只是定位为一个通讯工具,那就会过于片面,或者让未来没有那么大的想象空间。
华创证券就做出了这样的分析:微信跨越即时聊天、图文阅读、图文社交、金融支付、生活/商业服务、短视频/直播等核心阶段以后,产品的包容性已超越各垂直赛道的独立App应用,具有保持生态内容原生性和外部内容导入性的持续生命力。在现有存量用户中,微信的每个微创新以及重点功能推出都在提升用户体验和满足用户对新功能的渴求。
流量来自于好的产品,而不是产品出生于流量;同样的,满足用户需求的产品具有无限商业潜力。微信的变化让资本市场再度兴奋,中信证券直接指出,“微信生态将在中长期带动广告、支付等细分业务持续超预期,带来新的估值增量。”
抗风险“核心资产”背后的“产品力”
去年,新冠病毒疫情席卷全球,不少企业发展受到影响,但腾讯财报表现出了强大的“免疫力”。
市场预计,腾讯2020年四季度仍将继续保持25%左右的收入增速。除了微信,To B产品阵营在2020年防疫抗疫的特殊环境中大放异彩,也充分证明了“数字生产力”的抗风险能力。腾讯会议、企业微信、腾讯文档等To B领域产品,开始奠定自己的位置。
2020年12月25日,腾讯会议在成立一周年之际公布数据,过去一年有超过3亿场会在腾讯会议上举行,腾讯会议上线2个月DAU超过1000万,发布245天用户数突破1亿,8天内扩容10万台云主机,创造了中国云计算的 历史 。
企业微信在与微信打通后也快速发展,为满足各企业内外沟通需求,企业微信将群聊人数上限提升至500人,其用户规模增长迅速。截止2020年底的数据,已有550万真实企业和组织使用企业微信,企业微信活跃用户数达到了1.3亿,企业通过企业微信服务的微信用户数已经达到4亿。
作为一款多人协作的在线文档工具,腾讯文档也是月活用户破亿产品,尤其是多人在线协同编辑功能,在疫情期间非常受到“远程办公”人群欢迎。
而人人都在用的 健康 码,更是在2020的防疫抗疫中发挥了关键作用。数据显示,过去一年腾讯防疫 健康 码累计用户超10亿,累计亮码次数超240亿,累计访问量超650亿次。
从财报信息看,腾讯在2020年“数字抗疫”中不计成本投入技术和开发团队,如果复盘这些新“爆款”类国民产品在过去一年的发展路径,其关键词并不难提炼:需求快速发现、技术高效响应、尊重用户体验。多个爆款产品同时走红,更应该是腾讯多年产品能力、技术能力积累的集中体现。
在特殊环境中,腾讯实现逆势增长,进一步凸显了数字化经济的内生成长性。在过去一年,国内公募基金持续增配腾讯,腾讯的整体抗风险能力、业绩的高确定性是重要因素,腾讯也被国内外机构视为港股“核心资产”标的。
持续技术投入凸显“ 科技 ”标签
值得注意的是,与消费互联网时代纯粹服务C端用户的产品不同,无论是企业微信还是腾讯会议、腾讯文档,To B产品连接用户,更服务企业、甚至需要深耕行业解决方案。
随着技术的迭代跟云的崛起,互联网下半场的产品方法论不再是产品经理最适应的路数,而变成了一种“技术加数据体系”的硅谷方法论。
具体而言,是在一个很强的中台技术框架下,或者很强的技术能力下的快速实验和迭代。这种方法论利于快速试错,从错误中沉淀经验、获得成长,以求抓到更好的机会点。
腾讯To B产品阵营崛起的背后正是腾讯云等产业互联网技术和产能的持续投入与更迭。
2020年腾讯宣布要投入5000亿用于新基建与产业互联网的进一步布局。去年12月,腾讯云在仪征的数据中心开服投产,计划部署超过30万台服务器,标志着腾讯云江苏“百万级”数据中心集群开始落地。这是目前腾讯在华东地区最大的在建数据中心,也是继在华南投产清远数据中心后,腾讯持续布局新基建的又一个大动作。
这两大数据中心都全面采用了腾讯自研的第四代数据中心技术——T-BLock。2021年3月16日,腾讯云宣布发布全新一代星海自研服务器,再次革新企业数字化升级、业务上云的底层新动能。
去年9月份,腾讯云曾对外宣布,其大数据平台的算力弹性资源池达500万核,每日分析任务数达1500万,每日实时计算次数超过40万亿,能支持超过十万亿维度的数据训练。这一系列数据不仅让腾讯云一举成为国内算力最强的云厂商,同时成为国内日实时计算量最大的公司。
而这一系列数据,其实都指向一个坚实的技术后台。
腾讯相关业务负责人对外披露,基于多年在数字化方面的积累,腾讯云正在把腾讯多年来的能力沉淀对外开放。除了云计算、大数据、AI、安全、LBS、区块链等基础技术服务,以及支付、小程序、企业微信等微信生态的能力对行业开放之外,腾讯云还与合作伙伴一起,为政务、文旅、教育、工业、金融等多个垂直行业提供数字化的解决方案。
也就是说,作为最重要的基础技术之一,腾讯大数据技术不仅支撑了腾讯内部所有业务,在疫情期间,也支持人们的线上生活和工作需求。例如微信 健康 码,通过大数据护航人群的安全流动,阻断疫情的快速传播,还帮助企业微信、腾讯会议、微信小程序、微信支付等应用海量业务数据分析和数据挖掘,助力企业复工复产。
根据3月18日正式对外发布的2020年度《腾讯研发大数据报告》,腾讯在研发投入上持续加码,2020年研发人员占公司总人数的68%,同比去年增长16%,在 科技 企业中位居前列。2020年也是腾讯开源十周年,腾讯目前已经成为全球开源贡献最大的 科技 公司之一。
随着产业互联网战略落地和转型成功,除了人们熟悉的那个社交腾讯,这家公司的 科技 标签已经越发鲜明。
3月24日腾讯2020年财报即将披露,这个特殊的年份过后,市场需要换个维度再看腾讯。