从1999年开始举办的上海工业博览会,在2007年正式更名为中国国际工业博览会,展会发展至今20年,不仅一直倍受全球各类顶尖企业的关注,而且还由国务院批准成为了唯一具有评奖功能的工业类展会。中国国际工业博览会已经成为企业公认的向潜在客户展示各类产品,体现企业最高实力的盛会。
毫无疑问,展会上有实力的企业可以说数不胜数,但在刚刚结束的第20届中国国际工业博览会上,一款国产x86处理器却杀出重围,获得了工博会的最高奖项—金奖。我们知道,x86处理器领域的市场、技术长期被国外的企业垄断,那么这款处理器到底有何实力,能够击败众多竞争对手,获得整个行业的认同呢?接下来就让《微型计算机》来为您揭开这颗处理器的神秘面纱。
中国国际工业博览会是由国家发展和改革委员会、商务部、工业和信息化部、科学技术部、教育部、中国科学院、中国工程院、中国国际贸易促进委员会和上海市人民政府共同主办,中国机械工业联合会协办,上海世博(集团)有限公司承办的中国最具影响力的国际工业品牌展。显然这款处理器能获得如此多专业、高层举办单位的认可,就必定有它的不俗之处。而这款处理器就是由上海兆芯集成电路有限公司设计的最新一代开先KX-6000系列x86处理器。
事实上,《微型计算机》长时间以来一直在跟踪报道国产兆芯x86处理器。与采用精简指令集的龙芯、申威等国产处理器不同,兆芯研发的处理器兼容x86指令集,可以运行Windows、Linux和多款国产操作系统,并且能够全面胜任日常办公、影音播放、数据存储、大众娱乐等应用。其产品在近几年也实现了多代发展,从早期在市场上销售的ZX-C处理器,到架构设计上有大幅更新的开先KX-5000系列处理器,再到现在的KX-6000系列,兆芯x86处理器的技术水准一直在不断提升。
兆芯处理器的发展之路:从南北桥架构到开先KX-5000系列
自2014年首次推出基于x86架构的ZX-A双核处理器后,兆芯接下来就完成了代号“张江”、4~8核心处理器ZX-C、ZX-C+处理器的设计与量产,并推向了市场,得到了厂商与政府部门的采用。ZX-C与ZX-C+两类处理器均基于28nm CMOS工艺打造,主频最高2.0GHz,兼容x86指令集,支持CPU虚拟化技术,ZX-C+处理器还支持SM3和SM4高速国密算法指令。
高速国密算法指令是由兆芯自主研发的一套算法指令集,不仅能大幅提升SM3和SM4两种国密算法的运算速度,还让密码学相关应用的开发以及部署和推广更为方便,这是市面上其他国外x86处理器所不具备的。
当然从技术上看,ZX-C、ZX-C+同国外产品还有比较明显的差距:整个平台还采用的是较为早期的南北桥架构设计,处理器只是一个单纯的计算核心,需要通过北桥、前端总线与显卡、内存进行通信,同时缓存的同步也需要先将数据传输到北桥。所以系统传输数据的能力不仅会被前端总线狭小的带宽所限制,访问延迟也大为增加。
所以前端总线架构的先天不足,在内存、显卡与缓存同步工作带来的高延迟,以及前端总线带宽限制都会对基于ZX-C+核心的多核处理器性能带来较大的影响。因此上海兆芯集成电路有限公司再接再厉,在2017年底推出了采用SoC(System-on-Chip)设计、核心架构名为“五道口”、代号ZX-D的新一代开先KX-5000系列处理器。
兆芯对开先KX-5000系列处理器内核的流水线进行了重新设计,其中开先KX-5000系列处理器的整数流水线相比ZX-C大幅减少了分支预测失败的开销,同频性能更强,并保持工作频率不变,而核心面积和功耗仅略微增加。
此外,CPU的L1及内存访问都实现了带宽翻倍,并在末级缓存引入了先进的替换算法,在相同缓存容量的情况下可大幅减少某些应用程序的缓存缺失率。同时,开先KX-5000系列处理器缓存的性能与容量均有了很大提升。在开先KX-5000系列的8核心处理器中,每4颗核心共享4MB缓存,总计拥有8MB缓存。
更值得一提的是,基于“五道口”架构的开先KX-5000系列处理器在架构上实现了与北桥的完全融合,使得其缓存数据的一致性直接在处理器内部就可以完成。这也就意味着处理器之间的交互不用再通过北桥,而是使用片内高速点对点直连网络互联,降低了延迟并提高了带宽,为将来更多核心的互联提供了基础(有点类似AMD处理器的ZEN架构)。
兆芯开先KX-5000系列采用BGA封装,直接焊接在主板上,将原北桥部分的内存控制器、PCIe控制器、集成图形核心全部整合在处理器内部。这款处理器采用28nm工艺生产,工作频率在2.0GHz。
同时开先KX-5000系列处理器在内部整合了PCIe控制器、DDR4内存控制器,也使得它成为国产处理器中首款可以支持DDR4内存的产品。处理器可通过内部的高带宽直连总线访问内存、显卡。其中内存访问带宽提升了1~2倍,能够有效地发挥出DDR4内存的优势,对于处理器多核及多线程应用有显著的提升。
不过相对于国外产品,开先KX-5000系列处理器仍然存在不足,首要问题就是它仍采用较老的28nm工艺生产,因此这款处理器的工作频率与ZX-C、ZX-C+系列处理器类似,最高频率只能达到2.0GHz,与国外产品相比有明显差距。其次也是由于工艺的影响,它的融合度并不高,仅仅只整合了原主板北桥功能部分,内部并没有集成如USB控制器、SATA控制器这些南桥功能模块,所以就电脑平台而言,它仍然需要搭配兆芯的ZX-200 IO扩展芯片才能正常使用。
兆芯也设计了配套的ZX-200 IO扩展芯片,可以提供多个PCIe、USB、SATA、M.2接口,既可作成主板上的芯片组,也可单独设计成独立扩展卡,插在普通主板上,为用户提供更多的接口。
各款早期兆芯处理器与主板芯片组—其中ZX-A是兆芯最早的x86处理器,ZX-B采用与ZX-A相同的微架构,但在国内代工流片。开先ZX-C与ZX-C+系列四核心处理器采用了新一代微架构,是后期市场上的主力产品。型号为FC-1080的ZX-C+开胜处理器是一款面向服务器的八核心处理器,而ZX-100S则是为以上CPU设计的配套主板芯片组。
兆芯ZX-C处理器的内部架构图,四颗核心清晰可见。
16nm降临 3.0GHz+高融合度打造更强中国芯
上海兆芯集成电路有限公司没有因为眼前所获得的一点成绩停滞不前,而是继续开启高速研发模式,并最终在2018年推出了采用“陆家嘴”架构、代号ZX-E的开先KX-6000系列x86处理器。
与以往的兆芯处理器相比,开先KX-6000系列x86处理器最大的进步就是采用了先进的16nm生产工艺。更先进的生产工艺不仅带来更小的晶体管面积,也预示着晶体管间电阻的降低,处理器工作电压、电流更低,从而使驱动它们所需要的功率、产生的热量也大幅减少,可以达到更高的工作频率,并最终在开先KX-6000系列x86处理器上实现了3.0GHz的工作频率,基本跟上了国外产品的步伐。
同时更小的晶体管面积也就意味着在相同空间下,处理器可以放入更多的功能模块,因此在开先KX-6000系列x86处理器上,兆芯终于完成了“功能完全体”的设计。一颗处理器内不仅集成了内存控制器、PCIe 3.0控制器、DirectX 11显示核心,还整合了USB、SATA控制器、HD AUDIO音频芯片、视频编解码器、HDMI/DP视频输出模块。
借助16nm生产工艺,开先KX-6000系列x86处理器不仅集成了内存控制器、PCIe 3.0控制器、DirectX 11显示核心,还整合了USB、SATA控制器、HD AUDIO音频芯片、视频编解码器、HDMI/DP视频输出模块,无需主板芯片组,是一个真正意义上的单芯片解决方案。
也就是说,根本无需主板芯片组,只要一颗处理器就可提供一台电脑主要需要的各类接口、功能。这一步可以说已经走在了英特尔、AMD两大国外处理器厂商的前面,毕竟现在绝大部分英特尔、AMD桌面级处理器都不具备I/O功能,电脑还必须搭配主板芯片组才能正常工作。
兆芯可独立完成处理器以及配套的图形处理器、芯片组三大部分的研发设计。
具体规格方面,开先KX-6000系列x86处理器提供了16条PCIe 3.0通道,两个SATA 3.0接口、2个USB 3.1 GEN1与4个USB 2.0接口,已经可以保证电脑连接各类扩展设备。当然如果用户需要更强大的扩展能力,也可考虑搭配兆芯ZX-200 IO扩展芯片,该芯片可以提供额外的PCIe通道、USB 3.1 GEN2接口,以及SATA 3.0、M.2等多个接口。
型号为ZX C960的内置显示核心虽然只支持到DirectX 11 API,但它具备4K视频(H.264、H.265)解码的能力,足以满足一般办公、影音播放。此外在前辈开先KX-5000系列处理器的基础上,开先KX-6000系列x86处理器强化了内存控制器的性能,最高可支持双通道DDR4 3200内存,从而为系统提供更高的内存带宽、更低的访问延迟。
由于开先KX-6000系列x86处理器仍处在工程测试阶段,因此现在暂时只曝光了一个型号——兆芯开先KX-U6880,其工作频率就是3.0GHz。根据技术资料显示,这一款处理器的性能已经可以与第七代酷睿处理器,采用4核心4线程设计的Core i5-7400匹敌,那么事实是否如此呢?
兆芯开先KX-U6880处理器实际产品展示
由于开先KX-U6880处理器目前还处于工程测试阶段,并未上市,因此上海兆芯集成电路有限公司只展示了一台样机,我们暂时还无法见到处理器的真身,不过从这台样机内部的构成,我们已经可以基本证实兆芯开先KX-U6880处理器的一些主要特性。
首先可以看到这台主机的主板就与其他主板明显不同——尽管它提供了PCIe、PCI、M.2插槽,但主板上却显得非常“空旷”,主板上没有芯片组,同样也就没有与之匹配的散热模块,这也就证明这些扩展接口均是由兆芯开先KX-U6880处理器所提供。第二点目前兆芯开先KX-U6880处理器采用的是BGA封装,处理器上只安装了一个非常简易的铝制风冷散热器,这显示出处理器的发热量并不高。
采用兆芯开先KX-U6880处理器的整机系统,打开侧面板后,可以看到主板上没有芯片组,显得相当“空旷”。
同时主板上的处理器供电电路也显得非常简单,可以隐约看见散热器下大概有三颗贴片电感,外部有几颗一体式封装的MOSFET,以及几颗三洋SEPC固态电容,总之其处理器供电电路远比一般普通主板简洁,也凸显出尽管目前兆芯还未公开开先KX-U6880处理器的TDP,但它的功耗肯定不会太高,所以对主板供电不会带来太大的压力,设计比较简单。
处理器供电电路的设计也较为简洁,凸显出开先KX-U6880处理器的低功耗。
匹敌Core i5-7400,兆芯开先KX-U6880处理器性能实测
接下来作为中国最具影响力的大众IT硬件媒体,《微型计算机》有幸独家获得了对兆芯开先KX-U6880处理器测试的机会,我们在现场将它的性能与Core i5-7400进行了对比。由于时间有限我们仅进行了部分测试与体验。
首先从六项性能测试来看,相对Core i5-7400处理器,兆芯开先KX-U6880处理器在性能上显然有明显的优势—它不仅在《鲁大师》处理器基准性能测试中较Core i5-7400领先约12.5%,在实际的应用性计算中也拥有明显的优势。如在7-Zip压缩与解压缩性能测试上,兆芯开先KX-U6880处理器的速度比Core i5-7400快了7.7%,在使用相同4K片源将其转码为1080p H.264视频时,兆芯开先KX-U6880的转码时间比Core i5-7400少用了多达13秒。
兆芯开先KX-U6880处理器的压缩与解压缩性能明显领先Core i5-7400
值得注意的是,这段4K片源的片长仅42秒,在处理如此短的视频时就能节约13秒的时间,在处理更长的视频片源时,兆芯开先KX-U6880显然还能带为用户节省更多的工作时间,从而有力提高工作效率。
值得注意的是,除了在Fritz Chess国际象棋算力测试这款体现处理器科学运算性能的测试中,兆芯开先KX-U6880拥有9.4%的领先幅度外,在TrueCrypt加密软件的基准测试中,兆芯开先KX-U6880的AES算法加解密速度相对于Core i5-7400也领先了10.3%。在使用复杂的AES-Twofish-Serpent级联加密算法时,其加解密速度领先幅度更提升到12.1%。这对于采用兆芯处理器的国内企事业单位来说显然是一个重大利好,毕竟在这些涉密单位,采用中国自己产的处理器对机密文件进行加密、解密在安全性上更有保证。
兆芯开先KX-U6880处理器的各种算法加解密速度均超过Core i5-7400
而现在对比国外同级产品,我们自己的处理器还拥有更快的加解密速度,也就意味着国产x86处理器不仅能提供更好的安全性,还能带来更高的工作效率。在这些应用环境中,使用像兆芯开先KX-U6880这样的处理器替代国外处理器完全是理所当然。
稍有落后的是,可能因为是工程版处理器的原因,在CINEBENCH R11.5处理器渲染性能测试中,兆芯开先KX-U6880的渲染速度还稍有落后,不过幅度不大,只有不到6%。
接下来我们还通过完美解码播放器,体验了兆芯开先KX-U6880处理器的视频播放能力。而从测试结果来看,目前这款工程版产品已经具备非常不错的硬解能力,不管是播放VC1还是x264编码的影片,不管码率有多高,兆芯开先KX-U6880处理器都可以硬解播放这些影片,即便码率已经达到70Mb/s以上,其CPU占用率也只有2%~5%。
在利用内置显示核心播放高码率视频时,借助硬件解码功能,处理器的占用率很低。
最后我们还在AIDA64系统稳定性测试里同时开启处理器、FPU、CACHE烤机测试,测试采用兆芯开先KX-U6880处理器的平台在最高负载下的功耗。测试表明,在处理器待机状态下,整个平台(不包括显示器)的功耗在44W左右,处理器满载后,平台最大功耗在105W左右,从而可推算出尽管频率提升到3.0GHz,但开先KX-U6880处理器的TDP很可能仍保持在65W,16nm生产工艺带来的优势得以显现。
兆芯开先KX-6000处理器支持多种操作系统,面向消费级应用。
同时对于注意运营成本的企事业单位来说,新一代的兆芯开先KX-U6880处理器显然也交出了一份满意的答案,即便在极端的满负载环境下,它的功耗也只有100W出头,就算是按105W这个满载功耗计算,一台电脑每天工作8小时、市电资费0.8元/千瓦时的话,一台电脑每天产生的电费也就在0.67元左右,其运营成本是非常低的。
进步神速 正式版更值得期待
虽然MC只在有限的时间对新一代兆芯处理器开先KX-U6880进行了测试,测试产品也还是工程版产品,但从这款处理器的表现中,我们不难看出它能够获得中国国际工业博览会绝对是实至名归的。毕竟尽管我国处理器在专业、超算领域都有亮眼的表现,但在专注消费级应用的x86处理器领域,长时间以来都被国外两家公司所垄断。
仅仅只用几年时间,兆芯就实现了在x86处理器技术上的大幅追赶。
除了上海兆芯集成电路有限公司外,几乎没有其他任何一家国内公司推出过完全拥有自主知识产权的x86处理器,原因无外乎就是难度太大,两大对手的产品太强,企业难以很快在经济上见到成效。
但值得称赞的是,兆芯并没有因为这种种的困难而放弃,毕竟从国家的角度来看,有些事情我们不能因为短期内不能产生巨大的效益就不做,如果有一天国外厂商对x86处理器的出口也设立种种刁难条款,如果贸易战波及IT硬件领域,x86处理器价格大幅上涨(实际上近期已经发生,英特尔x86处理器价格猛涨的情况),更关键的是我们如何保证在涉密单位,乃至整个国内企业的电脑中尽量杜绝可能存在的后门、提升安全性,那么发展自己的x86处理器就是最佳的选择。
而从新一代兆芯开先KX-U6880处理器初露头角的表现来看,毫无疑问是令人满意的。从2015年还是采用传统南北桥架构的ZX-C系列处理器,到现在可以匹敌Core i5-7400第七代酷睿、融合各类I/O功能、支持DDR4内存的兆芯开先KX-U6880处理器,我们仅仅用了几年就大幅缩短了在x86处理器上的技术差距。
当然在单核处理器性能上我们肯定还存在差距,现在需要8打4才能与对手匹敌,但就兆芯现在如此高速的发展速度来看,我们完全可以充满信心地期待在未来几年,上海兆芯集成电路有限公司在处理器技术上能够实现更多的突破。最后需要提及的是,本次测试的兆芯开先KX-U6880处理器也只是工程版产品,明年将会正式发布量产,工程师还在不断测试、调优,并针对各类软件进行优化,相信在最终量产时,这款处理器在性能上也会给我们带来更多的惊喜。