中国数据存储服务平台

数据中心应用液冷更省钱还是支出更高?英特尔这样解答

朱 朋博

2023年1月,英特尔第四代至强可扩展处理器发布,尽管平均性能每瓦效率提高了2.9倍,但最高TDP也从上一代的270瓦提升到了350瓦,依然为服务器散热带来了较大挑战。

在数据中心层面,国内政策对新建数据中心PUE,以及数据中心能耗利用效率提出了更高要求。如何提高能效利用率、降低碳排放,是基础设施领域亟待解决的问题。

这些背景之下,液冷也随之成为热点话题。但在现实面前,新的液冷必然需要额外资金投入,对数据中心建设和运营者来说,这笔额外的开销值得吗?

英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立,将企业在液冷技术上的投资比作买节能灯,节能灯的购买成本更高,但是后期长期使用过程中能省电费,液冷技术也是如此。

液冷技术利用了液体比热容的优势来高效散热,能减少甚至减免机箱风扇的电费支出,减少数据中心机房的空调电费支出。此外,高效散热还能让处理器在较低的温度下工作,不用增加电压就能有较高的性能表现,从而可以提高每瓦性能表现。

传统风冷数据中心的PUE为1.4-1.5,如果改为液冷则可以做到近1.1,这能够显著改善整体能耗,进而大幅降低数据中心对能源的需求。

长远来看,液冷技术益处较多,但初始投入成本仍要尽可能降低。

从宁畅总裁秦晓宁的介绍中,记者了解到目前市场上有许多冷板散热方案,但其标准并没有统一,因此通用性较差,而这不仅会给用户带来困扰,还会导致成本的上升。因此,英特尔牵头制定冷板液冷团体标准,不仅在业界得到了广泛的认同,并且为客户带来了积极影响。据了解,英特尔平台上的冷板散热更有普适性,初始采购成本更低。

同时,英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰也表示,英特尔在液冷技术发展中起到了链接产业的作用,英特尔联合生态伙伴共同定制了很多标准,这些标准有助于降低成本,也将推动产业化进程,加快液冷数据中心的普及。

从庄秉翰的介绍中了解到,液冷技术首先被大量应用在互联网行业,各个互联网公司都采取了不同的液冷方案,运营商对冷板的采用比例也很高,金融行业目前也在逐步采用液冷技术。现阶段,这些行业都已经跳过了POC阶段,进入到了规模化采用的阶段。

事实上,除了推动冷板方案标准化,英特尔还通过将绿色数据中心技术框架升级至2.0版本,围绕处理器、系统及软件与工具等创新,多个手段推动数据中心低碳、高能效可持续发展。

新的绿色数据中心技术框架2.0版本中,不仅加入了隐含碳排放,同时也细化了运营碳排放的维度。

该框架在原有的三个垂直领域,四个水平方向的基础上,新增了材料和可循环设计模块(上图右侧),旨在将可持续理念深入贯穿至源头的原材料及设计中,通过模块化服务器设计、可降解PCB及负责任材料计划等,降低数据中心整体生命周期的能耗。

在隐含碳排放中,英特尔提出创建模块化服务器,与合作伙伴联合打造通用开放服务器平台(OCSP),并发布OCSP模块化规范。目前,已有100多位本地生态伙伴加入OCSP社区,且多家厂商已推出或正在研发符合OCSP规范的主板、机箱和其他模组。

在处理器层面,第四代英特尔至强可扩展处理器的能效比达到了新的高度,处理器本身还内置了多种提高能效的技术,比如,如新的优化电源模式可以为某些工作负载带来高达20%的插槽节能,而对性能的影响仅有不到5%。

此外,提升供电板块效率亦有助于降低数据中心碳排放,基于此,英特尔也与生态伙伴从加速48v配电架构应用、以电源汇流排方案提升主板电源效率等维度,创新数据中心电源节能解决方案。

新华三集团计算存储产品线副总裁刘宏程表示,在合作过程当中英特尔为其提供了很多帮助,而且英特尔一直强调数据中心层面的可持续发展,不只是关注某一个元件技术,而是把数据中心的原件、部件、技术都纳入考量范围,以此来加速低碳数据中心的发展。

记者从刘宏程的介绍中了解到,此前,英特尔和新华三推出的节能方案帮助某运营商把5G方案的整体功耗降低了30%-40%。在新一代服务器里,英特尔创新地推出多种节能技术,这些技术的积累为双方的长期合作打下了重要基础。

在西数发布22TB磁盘的九个月后,希捷发布首款22TB盘

朱 朋博

在西部数据推出22TB硬盘九个月后,最近,希捷宣布推出首款22TB硬盘。

希捷IronWolf Pro 22TB硬盘的发布同时,宣布了与QNAP(威联通)的合作伙伴关系,合作涉及希捷的IronWolf Pro硬盘、Exos E JBOD存储系统和Lyve Cloud云存储解决方案。

希捷的新款22TB硬盘没有采用HAMR磁记录技术,主要面向NAS、直连存储(DAS)和RAID磁盘阵列等环境。

该硬盘包含10个2.222TB的碟片,封装在充满氦气的壳子里。相较于之前的9碟片20TB型号,新加入碟片使得硬盘的重量增加了,从680克增加到了690克。

新款22TB硬盘的功耗也有所上升,平均工作功耗现在为7.9瓦,而之前的20TB型号为7.7瓦。待机功耗为6瓦,而之前为5瓦。

希捷22TB IronWolf Pro

与之前的20TB产品相比,这款新硬盘在可靠性和工作负载方面有了显著的改进:MTBF(平均故障间隔时间)从120万小时提高到了250万小时,工作负载限制从每年300TB提高到了每年550TB。

性能方面,持续传输速率最高可达286MB,与之前相同,转速仍为7200转/分钟,接口为6Gbps的SATA。

这次容量增加没有用到HAMR技术,实际上,希捷的热辅助磁记录(HAMR)技术能带来容量的大幅跃升,下一季度,我们可能会看到希捷发布30TB的HAMR硬盘。

预计,希捷将很快推出22TB的Exos和SkyHawk版本,就像2021年,希捷发布20TB IronWolf Pro时一样,后续跟了两个其他版本。

Solidigm倪锦峰:QLC SSD已为主流工作负载做好了准备

朱 朋博

如今已是2023年,从2018年英特尔推出第一款QLC SSD到现在已有四年多时间。不久后,Solidigm也即将发布第四代192层的QLC SSD产品,将进一步拓展QLC的使用场景。

此前,英特尔就是QLC的坚定拥趸,而现在,继承了英特尔和SK海力士衣钵的Solidigm仍是QLC的主要推手,也极有可能是PLC的主要推动者。

QLC SSD已为主流工作负载做好了准备

QLC曾面临一些非议,而在近日举办的中国闪存市场峰会上,Solidigm亚太区销售总监倪锦峰表示,QLC SSD已为主流工作负载做好了准备。

从市场应用来看,截止到2023年,QLC技术和产品在质量、可靠性、寿命等诸多方面得到广泛的验证,已在消费级和企业级应用崭露头角。

寿命方面,QLC SSD拥有足够的寿命适应绝大部分工作负载。现实世界中的很多工作负载,实际需要的SSD寿命远小于预期,大约99%的系统中,其实际寿命损耗最多15%。

在性能方面,QLC SSD和入门级TLC SSD的读性能相当。在大型互联网公司和存储厂商那里,把QLC应用到读密集型工作负载,或者针对写密集场景进行顺序化处理,这些做法都已不新鲜,毕竟已经做了好多年了。

具体场景方面,QLC SSD在CDN加速, Cloud DVR(Digital Video Recorder)视频解决方案,HPC/AI,对象存储等行业典型工作场景得到了广泛的部署和价值证明。

不久后,Solidigm也即将发布第四代192层的QLC SSD产品,将进一步拓展QLC的使用场景,让QLC为主流工作负载做好准备。

倪锦峰介绍了基于Floating Gate技术的第四代192层QLC NAND的信息。单芯片密度为1.3Tb,相比于第一代64层的QLC NAND,其Programing速度提升了2.5倍,随机读取性能提升5倍,读取延迟降低了1.5倍。

Solidigm为QLC的更广泛部署提供了多个选项

作为QLC的主要推手,Solidigm为QLC的更广泛部署提供了多个选项。

QLC介于磁盘和TLC之间,在Solidigm看来,QLC SSD向上可部分替代TLC SSD,向下可部分替代磁盘。

4K数据块的读写一般是TLC的优势领域,而Solidigm的第四代QLC SSD支持将4K数据直接写入,并且不需要对应用做修改,这就是对于TLC的替代作用。

对于64KB及以上数据块而言,可以通过像Solidigm D5-5316这样的SSD直接写入,部分没有64KB对齐的数据块,需要额外进行Write shaping(写入整理)来减少写放大。

倪锦峰介绍称,Solidigm与英特尔合作,用QLC搭配CSAL(Cloud Storage Acceleration Layer)方案,为某云服务商的云主机提供了低延迟、高IO、高吞吐和高性价比的本地存储解决方案,替代了原来基于磁盘的方案。

在倪锦峰看来,对于需要快速访问大量数据集的读取密集型工作负载而言,QLC NAND SSD是理想选择。

从上图可见,QLC支持的业务负载类型还是非常丰富的。CDN、大数据、HCI等大文件块为主的读密集型工作负载都适合用QLC。

而随着即将发布的第四代QLC技术,QLC对于AI、深度学习、OLTP等小文件块读密集型工作负载的承载能力将进一步提升。

整体而言,QLC的应用正在逐渐增多。除了大型公有云服务商,还有非常多的企业级用户,OEM/ODM以及Lightbits Lab,VAST Data等创新企业都围绕着QLC进行创新。

为什么是Solidigm在推动QLC,甚至PLC的落地应用

Solidigm不仅推动QLC在更多场景中的应用,在PLC方面也有准备。PLC听起来有点言之过早,但有其必然性。

从倪锦峰的介绍中了解到,3D NAND技术的发展最主要表现是层数提高,更高层数带来更高的存储密度和更低的成本。但是,随着层数增加,其收益会不断收敛,同时,还要考虑工厂生产周期、良率控制等挑战。

如何打破这一窘境呢?这就需要PLC了。

倪锦峰介绍了世界上第一款PLC NAND(Penta Level Cell NAND),相比于192L QLC NAND,其容量密度提升25%。而且,经实际测试发现,PLC的数据维持能力可以达到与QLC产品相同的级别。

总之,PLC能提供更高的密度、更低的成本,为将来替换磁盘打下坚实的基础。

Solidigm融合了SK海力士和英特尔两家公司在SSD技术方面的积累,同时拥有Floating Gate和Charge Trap这两项NAND技术的设计与制造能力,前者容量更有优势,后者性能更有优势。

同时,结合在SoC(SSD控制器)、硬件、固件以及软件和工作负载方面的积累,在Form Factor方面的经验,Solidigm在SSD领域几乎可以“为所欲为”。

Solidigm秉承50年来在NAND技术上的创新,对工作负载的深入理解以及对数据中心的深入耕耘,打造可满足企业、云端、客户端等不同领域,适合AI、大数据等多种应用需求的创新存储解决方案。

从Solidigm公布的数据来看,其产品在CDN大厂CloudFlare、VPS大厂DigitalOcean、DropBox这样的云存储服务商,推特和领英这样的大型互联网公司得到了较多应用。

在思科、HPE、超微、戴尔这样的硬件大厂以及Lightbits和VAST等创新企业那里,采用率也在不断提升。

如何让存储厂商轻松用上大容量磁盘?

朱 朋博

Part 1:如何让存储厂商用上大容量磁盘?

过去近十几年以来,磁盘容量从十几GB爬升到了二十多个TB。

撇开闪存不说,当你仔细看磁盘存储系统的时候,总能发现存储系统厂商在使用最大容量的磁盘时,往往有一些滞后。

一块希捷Exos X20

这是为什么呢?

有人说了,这是因为大容量磁盘的容量太大,万一容量磁盘坏了,Raid重构的时候需要的时间就更长了。

恢复一块10TB的盘数据,跟恢复一块20TB的盘,工作量能一样吗?

小容量磁盘的重构时间短,对性能压力小,对业务连续性更有好处。

对业务人员的血压有好处,对存储管理员的人身安全有好处。

为了帮存储厂商安心用上大容量磁盘,还得从技术上解决大容量磁盘重构的难题。

为此,硬盘大厂希捷搞了一个叫ADR(自动容量重生)的硬盘技术,配合ADAPT技术,可将系统重构所需的大幅缩短,最多能缩短95%的时间。

传统RAID技术下,坏一块盘需要五十多个小时重构,而现在需要几个小时甚至几十分钟即可。

重构时间缩短,好处多多:系统性能更稳定,对性能影响更小,还能减少恢复过程中可能带来的二次损坏,比如,恢复过程中又有别的盘坏了。

能缩短95%就很诱人吧,但是,听着很简单的技术原理,实际用起来还比较有挑战。

目前,希捷自家的Exos CORVAULT存储系统支持,其他存储厂商,想要用上这一良心技术,还得需要投入一些人力物力才行。

想了解,希捷Exos CORVAULT的神奇之处的话,可以接着往下看。(看完整版视频)

Part 2:为什么希捷Exos CORVAULT能让存储系统用上大容量磁盘?

Exos CORVAULT是希捷的一块高性能块存储系统,双活架构,5个9的可靠性,还有颇具行业突破性的硬盘故障自愈技术。

4U的空间,装硬盘之前,空荡荡的跟被打劫了一样。说一个人腿长,脖子以下全是腿。说一个存储系统容量大,除了风扇全是硬盘。

一个人想插满硬盘,得需要大概两个小时,塞硬盘的人嫌时间过的慢,旁边围观的,总忍不住想来帮忙。但凡多一个人,装盘的过程都会快得多。

插满之后,2.12PB,容量高到吓人。106块的20TB的大容量磁盘满满当当挤在一起,壮观,我是头一次见到。

这这这,全都是硬盘,这么多磁盘这么高的密度放在一起没问题吧。

嗯,好问题。

防止因为硬盘发热,硬盘转动振动对性能以及稳定性的影响,Exos CORVAUL从控制器到机箱都进行了特别的设计。

硬盘怕噪音的震动,特别是噪音大户的风扇,这次也被特别针对,希捷开发了一种叫Acoustic Shield的技术,给硬盘提供了非常安心的工作环境。

106块硬盘老老实实的摆在这里,满满的,强迫症朋友说了,那个角上的是啥?

是控制器啊,本以为这又是基于英特尔至强的控制器。

仔细一看,原来是希捷自己搞的ASIC芯片,ASIC芯片的成本低,性能呢,做的好的话,性能也挺高的。

上图显示,顺序读性能是14GB/s,顺序写性能是12GB/s,额外查了一下资料,最高IOPS为17680,磁盘存储的重点不是IOPS。

今天,性能不是重点,控制器配合ADAPT和ADR缩短磁盘构建时间才是重点。接下来简单介绍一下。

如图所示,左面是一张图片,代表用户要存的数据。右边是一堆磁盘,代表CORVAULT存储系统。

在计算机的视角里,图片被切成了很多个碎片Shards。右侧的硬盘会组成ADAPT池,什么是ADAPT?

ADAPT全称叫Advanced Distributed Autonomic Protection Technology (ADAPT),直译为自动分布式分配保护技术,一种希捷专有的替代传统Raid的技术。

ADAPT池里有一堆硬盘,负责存数据,存什么数据呢?

一种是用户的碎片Shards数据,一种是CORVAULT的ASIC控制器为用户数据生成的奇偶校验(Parity)。

奇偶校验是干啥的?保护数据用的,硬盘坏了,数据丢了靠它就能找回来。

正在分布数据
数据分布完成

系统中,奇偶校验会和数据碎片一起均匀地散布到ADAPT池中的硬盘里。

值得注意的是,数据均匀散布到ADAPT池中的硬盘里的操作,其实就是ADAPT技术(分布式自动保护技术)得名的由来。

坏盘出现了

众所周知,磁盘出问题,一般都是划痕什么的,伤到磁头或者盘片,出问题时,CORVAULT的控制器能分析磁盘产生的日志,根据日志找出是哪个磁盘的哪个盘片出了问题。

CORVAULT控制器发现问题后,先把坏掉的硬盘放一边,依靠奇偶校验数据从其他硬盘中,很快就恢复一份Rebuild Data,也就是坏了的硬盘里的数据。

坏盘中的数据已被恢复

这些刚恢复来的数据存放在哪呢?也继续散布到其他硬盘里。

ADR(Autonomous Driver Regeneration)

接下来,就轮到ADR上场了。

刚才不是找出了出问题的盘片或者磁头了吗,CORVAULT控制器就跟硬盘配合,屏蔽掉出问题的盘片或者盘片对应的磁头,此时的硬盘容量会缩减。

现在一块磁盘最多有20个磁头和对应的盘片,坏了一个之后,就剩下95%了。

磁盘重生后,控制器就跟别的磁盘打声招呼说,这块盘又活过来了,把他该存的数据扔给他吧。

于是,一声令下,一群硬盘都快速把数据还给了它。最后,它又把原来属于它的数据存起来了,一切又恢复了事故之前的状况。

问题来了,为什么它的恢复速度快95%那么多呢?

因为,ADAPT技术把奇偶校验和数据碎片散布到其他硬盘里,恢复的时候,实际是由多个硬盘共同完成操作,而不是靠原来一块盘干活。

换句话说,一个ADAPT池里的磁盘越多,恢复速度就越快。

颇有韩信点兵,多多益善的意思。

结束语

如此一番操作,地球上就少了一块坏的硬盘,少了一块电子垃圾,用户少买一些硬盘,存储管理员少开一次机箱盖子,少拔出来一块硬盘。

对了,不知道大家注意到了没有,这场硬盘故障前后,所有操作都是在一台CORVAULT里完成的,完全不需要外部网络。

如上图所示,希捷CORVAULT的集群里,完全没有因为系统重建时的流量造成网络的拥堵,系统的性能表现会更高和更稳定。

以上就是存储厂商在大容量磁盘使用方面的技术挑战,而希捷能让存储系统用上大硬盘这一话题的全部内容。

相关阅读:

为什么说,希捷的磁盘是“绿色”的?

Thoughtworks Live:和衷共济,为企业数字化转型升级加码

谢 世诚

ChatGPT火爆全球,元宇宙方兴未艾,大数据、5G、区块链等技术快速发展,汹涌而来的数字化浪潮,给企业发展带来了新的机遇和挑战。同时,社会和经济发展的不确定性,也考验着企业的生存力、发展力。在这样的背景之下,企业该如何持续推进数字化转型?如何进行有效的创新?数字化又为社会发展带来哪些新问题?企业该怎样履行社会责任,促进数字包容?

2023年2月28日,全球知名软件及技术咨询公司思特沃克(Thoughtworks)在北京成功举办了第八届“Thoughtworks Live”大会,与全球知名企业高管、技术专家、媒体人士等齐聚一堂,以“和衷共济,领航创新”为主题,围绕上述问题,展开了一场精彩纷呈的探讨。

思特沃克(Thoughtworks)中国区总经理张松

在新形势下,数字经济与实体经济不断深入融合,企业数字化转型已进入深水区。创新和合作是企业提升竞争力,抓住发展机遇的关键。思特沃克(Thoughtworks)中国区总经理张松在致辞中表示:“在快速变化的社会环境之下,各种挑战接踵而至,各个组织需要不断通过融合技术、产品和服务来响应新的需求,去开拓新空间、创造新价值。新的价值不仅仅体现在商业成效上,还在于更有责任感地使用科技,在运用数字化技术的过程中避免引入社会问题,促进积极的社会发展。因此,企业需要比以往任何时候更加关注合作的重要性。我们希望与更多合作伙伴一起携手,融合优势,推动创新,直面时代的挑战。”

融合新模式、新技术,推动数字化转型深入

“唯一不变的是变化本身”,在这个大变局时代,面对数字化带来的挑战,不少企业因缺乏适应性,正在面临生存和发展的障碍。为了帮更多企业突出重围,思特沃克(Thoughtworks)全球创新技术总经理肖然携手思特沃克(Thoughtworks)全球数字化合作伙伴Gary O’brien 带来了《进化型组织客户为中心的运营模式》的主题分享。

肖然谈到:“数字化转型已成为越来越多的企业共识,但是不少企业并没有想好“转”什么,怎样“转”。我们分析了很多企业的数字化转型案例,大多数并未触及核心业务,其效果自然不理想。真正做好数字化转型,需要对企业母体进行改造,这其中改变企业的自身运营模式就至关重要。”

思特沃克(Thoughtworks)全球创新技术总经理肖然

基于这一现状,思特沃克(Thoughtworks)提出了客户为中心的运营模式。Gary O’brien介绍了这一运营模式,并指出:“ 思特沃克(Thoughtworks)客户为中心的运营模式以客户为关注点,具备有五个关键点:客户决定成效,成效决定度量,度量决定工作,工作决定技能,技能决定团队,能有效简化整个组织的运营机制,用精益切片的方式战胜组织惯性,帮助企业构建更有弹性的‘进化型’组织,实现面向现代数字化业务的持续演进。”

提到数字化转型,就无法回避近年来涌现的新技术,人工智能就是其中之一。ChatGPT的出现,又一次掀起人工智能的热潮。企业该怎样利用人工智能引领业务发展?如何构建负责任的人工智能解决方案?

思特沃克(Thoughtworks)首席咨询顾问Barton Friedland 博士与思特沃克(Thoughtworks)数据与人工智能业务线解决方案负责人、首席咨询顾问张晶白就《人工智能将如何助力现代决策方法》这一主题进行了阐述。Barton Friedland 博士强调说:在这个复杂且瞬息万变的世界中,高管们必须能够以更快的速度审查和调整他们的战略,并不断进行微调。将人类领域的专业知识与人工智能(AI)和机器学习(ML)相结合,我们能够为被忽视的企业战略可能性开拓出广泛的搜索空间。”张晶白则分享了思特沃克(Thoughtworks)帮助机场、威士忌品牌等利用人工智能增强运营、创造、自动化的实践案例,给更多企业客户以参考和启迪。

思特沃克(Thoughtworks)数据与人工智能业务线解决方案负责人、首席咨询顾问张晶白

携手探索与创新,助力数字化转型成功

当下,新能源快速发展,造车新势力不断兴起,汽车行业竞争持续加剧。汽车品牌要想突出重围,除了在产品力上下足功夫,也要特别关注出行体验。针对如何做好《面向未来的出行体验设计》这一话题,思特沃克(Thoughtworks)中国区客户体验与产品设计总监马彦青与长安汽车全球设计用户体验负责人、设计策略平台经理丁玮,从长安汽车的实践案例着手,给出了深入的思考。

长安汽车全球设计用户体验负责人、设计策略平台经理丁玮

在分享中,马彦青特别介绍了思特沃克(Thoughtworks)在出行体验方面所进行的有益探索。他说:“技术正以前所未有的速度进入大众视野,为了适应市场变化,整个车企要从产品为中心到客户为中心转变,这就需要脱离信息茧房,不断探索。为此,我们成立了思特沃克(Thoughtworks)未来实验室,通过技术+体验双驱,系统性推测可能场景,保持对新趋势和新场景的敏锐度,同时,采用冰山模型深度洞察用户需求,从而为车企提供整车体验策略解决方案,帮助企业在取悦用户和研发产品之间找到平衡点,实现新的突破。”

思特沃克(Thoughtworks)中国区客户体验与产品设计总监马彦青

作为业界一流的数字化转型服务商,思特沃克(Thoughtworks)帮助众多企业进行数字化顶层设计,开启流畅数字化之路。在本次大会上,思特沃克(Thoughtworks)首席咨询师、企业架构咨询总监王健,首创环保集团企业管理中心副总经理曲晓川做了题为《业务与场景驱动的数字化顶层设计》的分享,讲述了首创环保集团的数字化转型故事。

首创环保集团是环保领域的领军企业,思特沃克(Thoughtworks)从全局出发,结合集团的战略方向、业务布局、核心能力、核心资源等,秉承以业务为中心的理念,与集团企管中心共同绘制数字化建设的顶层蓝图,帮助集团稳步推进数字化转型。这其中所蕴含的现代数字化顶层规划方法论,也能帮助更多企业通过数字化技术对企业管理及业务从支持服务、融合共创到引领再造,最终实现数字化转型成功,推动企业的高质量发展。

图左:首创环保集团企业管理中心副总经理曲晓川;图右:思特沃克(Thoughtworks)首席咨询师、企业架构咨询总监王健

关注数字化下的社会,实现包容发展

扫码支付、手机点餐、线上挂号……数字技术正在以前所未有的速度改变我们与周边、与世界的关系,而数字技术的发展到底是增强了社会的公平正义,还是加剧了其中的诸多不平等? 中国社科院新闻与传播研究所副研究员孙萍围绕这一议题,基于丰富的调查研究和田野故事,在分享中给出了不一样的洞察和思考。她指出:“企业在促进社会公益、健康发展中起到了关键作用。我们共同期待,企业能够树立守正创新、共益互利的技术理念,在发展中超越短期主义和唯利主义,让开放、包容、可持续成为未来‘人—技’关系的奠基之路。”

中国社科院新闻与传播研究所副研究员孙萍

“数字化”在不断重构生产力、影响企业底层逻辑,也催生了数目庞大的“数字劳动者”,比如外卖骑手、快递员、数据标注员等。Thoughtworks Live大会的主题创新工作坊今年重点关注“数字劳动者的生存变革”这一议题,来自思特沃克(Thoughtworks)社会影响力和用户体验团队的咨询师们, 通过沉浸式互动结合思特沃克(Thoughtworks)提出的“变革设计”方法,与现场嘉宾、企业高管等,一起推演若技术只是瞄准利润所带来的可怕未来,共同探讨企业以“负责任的技术思想”来干预未来的方法与举措。

Thoughtworks Live大会的主题创新工作坊现场

结语

当前,数字化转型已纳入国家战略,党的二十大对推进数字技术创新、深化数字化转型、建设数字中国提出了更高要求。数字化转型已成为企业的必修课,众多企业也已经踏上了数字化转型之路,但是从顶层设计到部门协同再到实际落地过程中,依旧面临着不少难题,只有积极拥抱新技术,运用新模式,通过人力、技术与社会各界的力量创新聚合,持续推进业务发展,才能化挑战为机遇,实现企业的新发展。致力于为企业提供数字化转型咨询和高端软件定制开发服务的思特沃克(Thoughtworks),将继续以前瞻性的视角,结合对用户深度的洞察,丰富的数字化经验,帮助更多客户一起和衷共济,乘风破浪,开启数字时代的创新之路。

钉钉宣布用户破6亿,全新7.0版本化解产业链协同难题

谢 世诚

12月28日,钉钉7.0产品发布会在杭州召开。会上,钉钉正式发布7.0版本,推出了面向企业间协同的“群2.0”产品。同时,钉钉全面升级了文档、会议、低代码、酷应用等核心产品矩阵。

钉钉总裁叶军

钉钉总裁叶军宣布,截止到2022年9月30日,钉钉用户数破6亿,企业组织数超过2300万,付费DAU突破1500万。

叶军表示,中国企业的数字化转型分为三个阶段:第一阶段是组织在线,从传统的工作方式进化到在线办公;第二个阶段是从组织的数字化进化到业务的数字化;第三阶段则以企业间的数字化协同为标志,产业互联时代已来。

中国企业数字化进入产业链大协同阶段

从2014年1.0版本面世至今,钉钉诞生8年来经历了七次大版本的迭代。钉钉1.0到5.0版本,见证并推动了中小企业从纸质办公,跨越到以云和移动为特征的数字化办公时代。

阿里巴巴“云钉一体”战略后,钉钉宣布升级为协同办公和应用开发平台,并推出6.0版本。

现在,中国企业的数字化正在进入第三个阶段,即企业与企业间的数字化协同,连点成线,聚线成面,最终将实现整个产业链的数字化大协同。这将带来三个重要变革:

首先是组织协同方式发生变革,从企业内的协同,走向组织间、产业链的大协同。

其次,软件开发和使用方式发生变革。钉钉引领的低代码变革了软件的开发方式,未来人人都将是开发者,80%的业务应用将由一线业务人员通过低代码开发;钉钉开创的酷应用改变了软件的使用方式,将业务流穿透到群聊等高频办公场景,让过去低频的业务应用“活”了起来。

第三,企业获取服务的方式也在发生变革。钉钉坚持PaaS化,带来了生态的繁荣,企业用户告别了过去离散式的购买服务的方式,在钉钉上可以一站式购齐所需服务。企业也不必再购买功能繁冗的大软件,转变成按需购买服务。

“钉钉所有的迭代都在做一件事,就是不断降低中国企业数字化的门槛。让数字化工具人人可用,让数字化应用人人可开发”,叶军说。钉钉7.0,代表了钉钉从过去关注个体效率、单个组织效率,到关注企业之间乃至整个产业链协同效率,是一款标志性产品。

钉钉群2.0:让上下游之间如同一家公司一样协同

如何通过数字化工具实现企业与企业之间的连接?钉钉此次重磅推出的群2.0产品,通过建群使不同的企业之间、上下游伙伴之间像一家公司一样无缝协同。

通过洞察千行百业的工作方式,钉钉发现群聊是企业内部和企业之间最高频的协作场景,也是中国工作者最广泛接受的协作方式。但普通群聊消息没有组织性和结构化,在群聊中无法处理业务。

钉钉群1.0以沟通和组织内协同为核心,提供Ding、已读、文档协同、项目管理、日程、待办等功能,解决了信息的透明和触达效率问题。

钉钉群2.0的特点是跨组织的高效协同,通过审批、低代码和酷应用将业务流穿透到了群聊中,大幅降低企业与企业间沟通、协同与业务合作的门槛,推动产业互联。

通过钉钉群2.0,不同的企业可以在一个群内展开合作,包括编辑云文档、发布应用、处理流程、审批合同等等;群也升级为沟通、协作与应用融合的产品形态,推动企业间的业务应用共享与数据集成,支撑企业沉淀数据、利用数据指导生产经营。

目前钉钉会议、文档、项目等协作产品,已全面支持跨组织的使用;低代码、酷应用、审批等产品也进一步支持跨组织共享的能力,企业搭建的低代码应用、第三方应用和企业的自建系统,通过跨组织的应用共享,实现企业与企业间的业务协同。

一汽大众作为汽车制造领域的先行者,借助钉钉的组织连接能力,将供应商纳入了上游组织,实现了与供应商之间关键数据的打通。针对上游零部件供应商使用的系统多,市面上的MES系统昂贵等问题,一汽大众把数字化经验沉淀后用宜搭低代码搭建简易MES,帮助上千家供应商低门槛数字化。

钉选:企业服务、toB营销的第一入口

Gartner在近期发布的2023年需要探索的十大技术趋势中,超级应用是一个集应用、平台和生态系统功能于一身的应用程序,它最终能够整合并取代多个应用。Gartner预测,到2027年,全球50%以上的人口将成为多个超级应用的日活跃用户。

钉钉总裁叶军表示,钉钉已经具备超级应用的特征,拥有开放的底座能力,丰富的应用和功能,以及繁荣的生态体系。目前中国市场具备这一特质的只有微信与钉钉,钉钉已经从一个处理消息的IM系统变成一个处理数据的智能系统。

目前,钉钉上已有500万个低代码应用,预计在一年左右,包括低代码开发和全代码开发在内,在钉钉上产生的数字化应用会超过1000万个。酷应用的新增呈加速趋势,从今年3月到9月,半年之内酷应用数已超1万;9月至今不到3个月时间中又翻一倍,达到2万。酷应用还带起了企业在钉钉上使用SaaS的风潮,在钉钉开通使用三方SaaS的组织中,从酷应用市场开通应用的组织占35%,在所有渠道中位居首位。

通过钉钉,很多数字化服务可以高效、方便地触达用户界面,并且用极低的成本就能实现适配。这也让钉钉成为一站式企业服务平台。

亚组委广播电视和信息技术部副部长张鸽

本次发布会上,钉钉推出了 “钉选”企业服务聚合平台,聚合了钉钉上超过1500款SaaS应用,及钉钉联合合作伙伴推出企业差旅、企业采购、企业办公租赁、智能招聘、智能合同、客户管理等近10种企业服务,企业可一站式购齐所需服务。目前,携程、智联招聘、高德打车、人人租等不同种类的企业服务提供商已加入钉选,面向钉钉用户提供服务。

杭州市学军小学教育集团总校长张军林

与此同时,企业也正在钉钉上开辟to B服务的新场景,找到了新的增长机会。基于钉钉上to B人群,原本主要面向C端的企业,找到了面向B端企业提供服务的新场景,找到了第二增长曲线;tob企业也通过钉钉视频号带来新商机。

艾为电子CEO娄声波

发布会上,亚组委广播电视和信息技术部副部长张鸽、杭州市学军小学教育集团总校长张军林、艾为电子CEO娄声波等参会嘉宾分享了如何用钉钉实现组织间协同的经验。亚组委张鸽表示:“在全力推进杭州亚运的建设过程中,依托亚运钉这样的先进工具实现了传统工作方式的优化升级,这就是对本次钉钉发布会的 ‘大协同’ 的一次生动实践。”



疫情高峰期,“黄牛”抢号卷土重来,医院如何利用技术打击“号贩子”?

朱 朋博

最近全国各地疫情提速,多个城市均出现了医院就诊量暴增的场景,部分热门科室7天内的号源瞬间被预订一空。迫于“一号难求”的压力,人们不得不从“黄牛”手中买号,几十元的专家号倒卖到患者手中动辄两三百元甚至上千元,就医成本大幅上涨,加剧了普通百姓的看病难。

其实“黄牛”抢号并不是什么稀奇事,先垄断医院号源,再高价卖出,是常规操作。只是随着互联网医疗时代的到来,如今的黄牛“抢号”已不再是雇人排队的传统模式,而是利用手机挂号APP、114挂号平台发展出全新“线上业务”。不仅抢号手段信息化程度日渐提高,“黄牛”之中也不乏技术人员,其专业化程度之高、组织运作链条之完整令人咋舌。他们会在上游利用自动化攻击手段窃取和篡改用户信息、数据,或对系统发起漏洞攻击、DDoS攻击、网页篡改、撞库等方式入侵医院应用系统,下游则通过抢号、刷单、倒卖数据等各种方式牟利。

为了防止“黄牛”抢号,许多医院相继采取了“实名认证”的对策,大部分医院线上预约挂号的实名认证都需要填写就诊人姓名、身份证号及手机号进行绑定,有的医院甚至在挂号系统中加入人脸识别技术来确保患者身份的真实性。

但即便如此,依然拦不住“黄牛”利用自己开发的抢号软件“锁住”号源,将就诊人的个人信息索要来进行填写,完成线上预约。面对人脸识别的考验,“黄牛”也会让就诊人先录一段视频,然后在页面录制和回滚,通过脚本的方式劫持挂号页面、获取号源。

“黄牛”抢号再高价转卖不仅严重扰乱了医疗市场秩序,其恶意攻击也造成了医院无法正常挂号、医患信息批量泄露并被二次利用等一系列严重后果。那么,医院该如何打击这些利用自动化工具抢号的“黄牛”?

打击“黄牛”亟需新安全技术

在效率优先的现代社会,不法之徒早已迈过了“拼手速”的远古时代。当“黄牛”开始采用更加先进的技术进行攻击时,医院也亟需与时俱进提升自己的安全防护技术。

一方面,“黄牛”会针对网上预约页面定制机器人程序,自动化的实现“约号”流程。普通用户需要2-5分钟才能完成的流程,机器人程序2-3秒就可以完成多人“约号”,快人一步。这也形成了预约号刚放出来,随即被预约完毕的怪异现象。

同时,为了以合法形式掩盖非法目的,“黄牛”更多采取拟人攻击,会通过真实身份的模拟来进行欺诈或攻击行为,也会通过程序来模拟真人行为,包括模拟正常人使用程序以及网络操作等。

另一方面,传统安全技术已落后于新兴威胁。尽管许多企业已经部署了防火墙、IDS/IPS、WAF等安全设备,但面对自动化、拟人化的攻击,这些基于特定规则、特征库进行防护的传统安全设备,根本无法识别出新兴的威胁行为,防御手段几乎完全失效,只能被动“挨打”。

不难看到,随着“黄牛”不断专业化、组织化、规模化,医院现有的安全防护体系很难再发挥优势。那么,该如何识别并杜绝“黄牛”利用机器人程序“拟人”的抢号行为呢?

瑞数动态安全技术精准打击“号贩子”

在传统攻防规则中,攻击很容易,防守非常难。“动态安全”技术的出现,彻底改变了传统游戏规则,通过“先发制人,掌握先机”的防护哲学,颠覆了攻防态势,诠释出“进攻是最好的防守”的网络安全理念。

所谓“动态安全”技术,是由自动化bots攻击防御领域的绝对领导者——瑞数信息独创,通过隐藏漏洞、变换自身、验证真伪等多种方式提高攻击成本,倒逼攻击者放弃攻击。基于这种主动防护理念,动态安全技术不再依靠攻击特征库、异常特征库的匹配来识别攻击,同时也无需依赖攻击频率和工具特征来识别攻击,实现更加主动和有效的主动防护,能够有效打击抢号、刷单等业务欺诈行为。

具体而言,瑞数信息“动态安全”技术可以从几个方面精准打击“号贩子”:

  • 人机识别:动态令牌和动态验证是最能体现瑞数动态安全理念的两大技术。其中,动态令牌可以对合法请求授予一次性动态令牌,并为每个客户端生成不依赖于设备特征的唯一标识。令牌的动态变换,加上客户端唯一标识,就如同身份证一样难以伪造,可以阻拦没有令牌的非法请求。动态验证可以对客户端进行人机识别,同时识别脚本、程序等自动化工具,还可以对运行环境验证,从而有效甄别“人”还是“工具”,打击自动化工具发起的攻击。
  • 动态干扰:利用动态封装和动态混淆两大瑞数创新技术,对攻击者实施动态干扰。灵活运用Web代码混淆、JS混淆、前端反调试、Cookie混淆、中间人检测等多种动态干扰功能,对页面逻辑、代码、内容关键元素等进行混淆封装,能够采用不基于任何特征、规则的方式进行有效防护,对人工代码分析进行动态干扰,防止业务被逆向分析。
  • 按需拦截:利用可编程对抗技术,通过客户端采集到的超过300个信息字段进行规则编程,可以针对设备特征、输入事件、访问行为等场景进行攻防对抗微秒级实施响应,并且可以提供软拦截能力,灵活配置各种动态响应策略,如拦截、重定向、延时、发起挑战等,让攻击者无懈可击。
  • 高危文件精细化管理:对于脚本文件猜解用户提前发现并拦截,拦截不允许文件类型请求操作。针对不同站点设置常见木马类型进行拦截,同时还可以针对不同站点设置请求文件类型进行拦截。
  • 威胁透视:利用瑞数独有的全程式业务威胁感知和智能分析技术,以及内置的通用自动化威胁模型,准确透视细粒度的机器人行为,为精准判定自动化攻击提供有效威胁数据。

通过瑞数动态安全技术,可以大幅削减自动化工具的攻击效率,提升攻击成本。当“黄牛”要想逃避动态安全技术的防守,就需要不断更换IP,或花钱购买定制不同的工具,付出更多的时间成本,最终导致攻击成本过高,倒逼“黄牛”放弃“抢号”。同时,面对“黄牛”自动化工具的高度拟人操作,瑞数动态安全技术能够进行实时识别和拦截,在安全防护方面将更主动和灵活。

相比与传统安全厂商,瑞数信息的数据采集点更加丰富,可同时覆盖Web、H5、APP、小程序、API等多种业务渠道,实现线上业务全渠道以及客户端、数据传输、服务器端全方位的数据关联。通过对数据的全量采集,补充安全威胁数据与人机识别数据,并融合AI算法模型,瑞数信息能够为医院提供更加全面、精准的自动化攻击防御能力,从而有效打击“号贩子”。

结语

疫情时期,打击“黄牛”高价预约、整治医院抢号乱象刻不容缓。瑞数信息动态安全技术能够阻挡95%以上的机器人“抢号”行为,扭转普通老百姓抢不到号的不利局面,助力医院维持交易公平以及现有应用服务器的稳定性,为打击“黄牛”提供全新的技术方案。

re:Invent 2022:亚马逊云科技发布新Nitro卡和Graviton3E处理器

朱 朋博

2022年的云科技春晚,亚马逊云科技的re:Invent 2022开始了。

北京时间11月29号上午11点半,我个人最关注的主题内容,继续由亚马逊云科技高级副总裁Peter DeSantis带来。

Peter DeSantis的演讲内容分四个“靓仔”,分别是硬件、网络、科学和软件。其中,科学部分指的是AI/ML方面的创新,软件指的是应用软件运行。

首先,看硬件方面的创新

首先登场的依然是最令人期待的AWS Nitro,回顾历史,Nitro被分成了四个版本来介绍,每一代都会有一些明显的进步和提升,这次发布的就是Nitro V5。

与上代相比,Nitro V5采用的晶体管数量翻倍,内存速度提高了50%,PCIe带宽也实现了翻倍。反映到性能方面,PPS网络性能提高60%,延迟降低30%,此外,能耗比也将提升大约30%。

首发采用Nitro V5的就是这款叫C7gn的EC2实例,它采用的处理器是Graviton3,作为一款网络优化型实例,带宽提升到了200Gbps,各项参数相较于上代的C6gn有不小提升。

第二位重磅登场的其实是新一代的Arm处理器Graviton3E。

Graviton2相较于Graviton1提升很大,Graviton3相较于Graviton2有25%的性能优势,今年,很多人期待的是Graviton4,但这次只有Graviton3E。

Graviton3E是Graviton3的一个变种,主要优化了在浮点运算和向量运算场景中的表现,这种都是高性能计算领域特别强调的能力。

图中展示的性能提升仅限于在高性能计算领域,比如有分子动力学GROMACS、金融期权定价FINANCIAL OPTIONS PRICING等等场景。

为Graviton3E首发护航的就是HPC7g实例,它同时还采用了Nitro V5。对了,这就说明Nitro V5是专门给所有7代主机准备的。

第二,看网络创新方面的创新

网络部分,Peter重点介绍了SRD(Scalable Reliable Datagram)的重要性,并表示,EFA、EBS和ENA都用上了自家的SRD。

EFA是亚马逊云科技的高性能网卡,主要面向HPC和AI集群场景,它依靠Nitro来Offload,绕过内核,以此来提供更高的稳定性,更高的吞吐带宽和更低的延迟。

EFA优势很明显,但由于跟TCP有一些不同,所以,真正用的时候,只有少数对延迟特别敏感的应用才有可能来适配它,为了能让人用上EFA,亚马逊云科技也对接了HPC生态。

SRD在降低EBS写延迟方面效果显著,如上图所示,它能将极少数(P99.999)会出现的35ms延迟降低五倍,并且能将整体的延迟水平降到一个全新的水平。

SRD除了可以帮EBS降低延迟,还能提高吞吐带宽,如上图,采用了SRD的io2,其IOPS和带宽提升了四倍。

Peter还表示,此后新发布的EBS io2都会支持SRD,并且,不会给用户带来额外成本,应用本身无感知,用就行了。

与EFA不同,ENA(Elastic Network Adapter)才是大多数人要用的网络服务,亚马逊云科技把SRD装了进去ENA之后,发布了一个叫ENA Express的新东西。

其主要价值也是降低延迟和提升带宽,其中,带宽直接从原来的5GB/s提升到了25GB/s。

对于用户来说,也是只管用就行了,应用方面不需要单独作出调整。

第三部分,机器学习方面的创新。

这部分,Peter重点介绍了如何提高机器学习训练效率的问题。

如上图所示的是机器学习模型精度对训练时间的影响,16位计算精度的训练速度快(也省显存),但损失函数的值收敛不够,也就是说,训练出来的模型会很不准。

32位计算精度可以,但比较费时间,浪费时间就意味着会更费资源,更费钱,为了保证精度的同时能缩短训练时间,人们搞出了混合精度的做法。

为了进一步减少训练时间,还有了叫STOCHASTIC ROUNDING的做法,这个具体是什么,我实在是听不懂,有点超纲了,大概知道这是一个优化训练过程的思路。(懂的大佬能用白话解释一下吗?)

不过,提高训练效率的另外一个思路是横向扩展,用多台服务器来一起做训练。虽然集群运算的效率高,但集群信息交换同步的问题也很大,因为信息交换同步本身就会消耗很多时间。

Peter介绍了一个叫Ring of Rings(环中环?)的技术来解决信息交换同步效率差的问题。

相较于传统的Single Ring的方案,能提高信息交换同步的效率,能把集群规模做的更大。

目前,Ring of Rings技术支持开源的机器学习模型PyTorch,能把PyTorch的信息同步交换速度提高75%。

这么好的技术,怎么才能用上呢?

于是Peter就介绍了新推出的Trn1n实例,它的芯片自然是去年发布的Trainium芯片,网络部分采用的是增强的1600 Gbps的EFA网络,这种实例更适合用分布式集群来训练超大模型。

第四部分,软件运行方面的创新。

这部分主要谈的是亚马逊云科技引以为傲的Serverless服务Lambda,具体说是减少Lambda运行软件应用时的冷启动时间。

此前发布的Firecracker其实也做了一些优化,而今天又再进一步,这就是新发布的AWS Lambda SnapStart,它能把冷启动的时间缩短90%。

至于具体的技术实现的话,大致原理就是用了Snapshot快照技术来加快或者说绕开运行时环境初始化的时间。

关于Peter介绍的主要内容就先记录到这里。

以下是这两天的主要日程,喜欢熬夜的朋友可以蹲一下,我就不熬夜了。

我个人关注的会是CEO和CTO的演讲,渠道方面的不感兴趣,机器学习部分会酌情看一下,主要是预计我能听懂的不多orz。

最后,顺手贴一个注册观看链接:https://www.awsevents.cn/reInvent2022/registerSignUp.aspx?s=7982&smid=15580

百万用户福利被黑产套现,线上营销如何防“刷奖”?

朱 朋博

又到了一年一度的双十一购物季,各大平台营销活动纷纷上线,红包、优惠券、秒杀……这些优惠你抢到了吗?

为了拉新促活,一家知名保险公司近期投入上百万的营销费用,在自家APP、微信小程序上线了一个“抽奖得红包”的用户活动。然而,这些红包真正被用户抢到了吗?恐怕很难。经过瑞数信息的后台诊断分析,大部分红包并没有按计划被发放至终端用户手上,而是被大量“羊毛党”薅走了。

通过日志分析,瑞数信息发现了大量的高级自动化行为和批量接口调用等可疑情况:仅8天时间, 简单脚本攻击就超过140万次,高级自动化工具使用了2万+次,重访攻击逼近1.5万次,令牌篡改请求也突破了6000次。

换句话说,黑产团伙早就盯上了这个活动,通过系统化的技术手段和数以万计的账号,利用自动化的脚本程序,来批量参与保险线上平台的营销活动,以此获取高额利润。除此之外,由于黑产的大量“进攻”,营销活动页面经常卡顿,后端服务器难以支撑,严重影响了真实用户参与活动的体验。

那么问题来了,

为什么部署了大量安全设备的保险公司没有发现黑产团伙的行为?

瑞数信息又是如何发现并打击黑产的呢?

为什么用户无法发现黑产“薅羊毛”?

事实上,保险公司的遭遇并不是个例。由于黑产分工明确、合作流程成熟,并且逐渐向隐蔽、专业、精准方向发展,已经越来越难以被消灭。据《数字金融反欺诈白皮书》显示,目前羊毛党已形成15余工种、160余万从业人员、产业规模不低于1000亿元人民币的产业链。

从黑产自身来看,“薅羊毛”的技术正在不断精进。相比于过去人肉作假,现在黑产更多采用Bots自动化工具,批量参与营销活动,进一步提升了“薅羊毛”效率。同时,黑产攻击手法更加拟人化,大面积地使用虚拟机、改码设备、批量养号等各种高科技造假手段,足以模拟正常用户的行为、设备、身份等系列特征,作案手法更加隐蔽。

从外部环境看,随着数字化业务快速增长,APP、微信、小程序、H5等多种业务接入渠道产生,API接口大量被调用,带来了巨大的敞口风险。

一方面,小程序这类新兴线上渠道被攻击者逆向难度很低,只要调取代码就可以直接获取微信用户身份认证信息,完成登录、下单、查询等用户行为。另一方面,API接口承载着大量客户信息、业务和交易数据、认证信息等关键数据,经常面临接口越权、未授权访问等安全威胁。黑产不仅可以利用应用漏洞进行攻击,还通过各类拟人化Bots模拟业务操作,实现业务攻击,对数字化业务的影响也在快速攀升。

内外交困之下,传统的业务安全/风控产品也疲态尽显。

传统业务安全/风控产品的关注点在于账号、IP、设备信誉以及固定规则,需要频繁地更新数据库和规则来应对黑产攻击。但如今的黑产已经可以通过丰富IP、使用肉鸡、设备root、手机群控等手段,让传统的业务安全/风控系统疲于应对,甚至无法察觉黑产的存在。

瑞数信息解决的保险公司“薅羊毛”这一案例中,保险公司之所以拦不住黑产,很大原因也在于该公司部署的WAF产品,只能基于固定规则和签名对异常行为进行判定,因此感知不到模拟真人的黑产攻击行为。

三步发现黑产“薅羊毛”

针对传统安全/风控产品的弊端,瑞数信息利用独创的“动态安全+AI”技术,三步精准定位黑产“薅羊毛”行为,有效打击各类网络欺诈,包括伪装成正常交易的业务作弊、利用合法账号窃取敏感数据、假冒终端应用等。

  1. 批量调取接口行为分析(重放、脚本自动化)

以上述保险公司案例为例,通过单独分析抽奖路径,瑞数信息发现:20%的请求操作行为字段为空值,可以判断这一部分是使用的简单脚本进行攻击;30%的输入操作记录为0,说明可能是通过高级自动化攻击发起的请求,或者是使用重放工具发起的请求。

正常的抽奖逻辑需要先访问抽奖页面,然后通过该页面发起抽奖的接口请求。但瑞数信息从接口调用的referer发现:其中20%的请求没有前置页面请求,referer值为空,说明这些请求是直接自动化调用的抽奖接口,没有按照正常的抽奖逻辑进行抽奖。

  • 高级Bots工具

通过日志分析,瑞数信息发现了不少高级自动化工具。这类工具的访问日志中操作行为字段为空,没有人为的输入、滑动等行为,所有请求都是脚本驱动浏览器完成。

  • 黑产批量调取接口行为分析(代理池)

通过瑞数信息的cookie id(每个用户不会重复,具备唯一性),以及提取到的页面输入行为进行聚类分析,发现黑产团伙进行接口批量调用,直接参与抽奖行为。

以上种种分析,都指向了黑产团伙的行为路径:使用简单脚本,定时抓取活动页面,获取活动信息;使用高级自动化工具和重放攻击,模拟真人访问,自动化参与抽奖。

四招分层解决“薅羊毛”

在清晰洞察了黑产行为之后,瑞数信息采用四招分层解决黑产“薅羊毛”问题。

招式一:针对简单脚本攻击和高级Bots工具

瑞数信息的“动态令牌”“动态验证”技术,能够确保运行环境,进行人机识别,对抗浏览器模拟化以及自动化攻击;同时,防止重放攻击和越权,确保业务逻辑正常进行。

招式二:针对黑产团伙

通过业务威胁感知、群控模型、聚类分析指纹和IP对应关系、分析页面输入行为、定制可编程对抗策略等方式,瑞数信息能够实时识别和拦截模拟合法操作的异常行为,并梳理出黑产名单。

同时通过瑞数信息的“动态安全+AI”技术,大幅削减了自动化工具的攻击效率,拦截了大量的“薅羊毛”行为,也为客户服务器减轻了很大的压力。

不仅如此,考虑到黑产一般在活动发起前就开始进行诸多准备,如扫描系统漏洞、爬取用户信息、分析活动页面信息等,瑞数信息在活动发起前就对业务做好防护,让业务“风险前置”。

招式三:漏洞防扫描

通过动态安全技术,使得漏洞扫描或漏洞利用工具无法发起有效自动化扫描探测,无法发现可利用的漏洞及网页目录结构。同时,在网站/APP等应用未打补丁或补丁空窗期,提供有效安全防护。

招式四:用户信息防泄露

针对用户信息恶意爬取,瑞数信息利用“动态混淆”技术,将黑产每一次获取的信息都动态加密,让黑产无法获取真实信息;利用“动态封装”技术,将业务关键逻辑动态变化,防止攻击者分析网站代码。

总体而言,瑞数信息之所以能很好地解决黑产“薅羊毛”问题,一方面在于“动态安全+AI技术”具有自动化攻击防御、人机识别等独特优势;另一方面也在于能同时覆盖Web、H5、APP、小程序、API等多种业务渠道,数据采集点更加丰富,通过全量数据融合AI算法,使得防御能力更加精准,实现业务风控前置。

在黑产作案方式逐渐专业化、隐蔽化、团伙化的今天,线上营销需要新的安全技术方案才能更好地“应战”。瑞数信息作为Gartner、IDC等国际知名咨询机构推荐的在线反欺诈领域代表厂商,将持续发挥自身技术优势,为业务安全保驾护航。

英特尔数据存储创新三大技术看点和猜想

朱 朋博

“话说天下大势,分久必合,合久必分。周末七国分争,并入于秦。及秦灭之后,楚、汉分争,又并入于汉。汉朝自高祖斩白蛇而起义,一统天下,后来光武中兴,传至献帝,遂分为三国。”这是 “分久必合,合久必分”典故的出处。

天下大势如此, 数据信息产业的发展也概莫能外。但是大家也有一个疑问:现在的技术发展是三足鼎立呢?还是分久必合的趋势?

在2022中国数据与存储峰会上,来自英特尔的三位技术专家英特尔数据中心事业部 云解决方案架构师高伟、英特尔中国政企事务部及全球OEM解决方案经理吴国安、英特尔网络与边缘计算事业部云计算软件开发工程师裴迪分别从CSAL/WSR、持久内存存储和IPU SPDK存储卸载加速/优化的角度对数据存储的问题给出了解读。这些技术各有特色,依托各自强大的优势鼎立支持英特尔的技术发展

同时他们也具备一个共性,就是要解决爆炸式数据增长所带来的数据处理方面的问题。如Cloud Storage Accelerate Layer——CSAL(此前叫WSR),是利用QLC和傲腾构建云存储方面的价值,在提高性能和SLA的同时,提高存储密度,降低数据处理合存储的成本;傲腾持久内存存储模式优化,主要解决外部数据存储IO性能瓶颈的问题;相比,SPDK结合英特尔IPU对存储相关协议进行卸载和优化,则是充分利用IPU等异构计算来解决高性能和扩展性的问题。

让我们一起深入了解,这些技术是如何操作和实现的。

CSAL(WSR)助力阿里云打造更具竞争优势的云存储

随着CPU性能的不断提升,以及PCIe 4.0时代的来临,原本基于磁盘的存储方案越发捉襟见肘。磁盘存储容量有所提升,但单位容量的性能却不断降低,从而使得SLA下降。

以阿里云的一个实践案例来看,阿里云旗下大数据计算密集型实例规格族D2C采用的是磁盘的配置,在采用了CSAL和QLC加傲腾的技术组合后,阿里云推出了新的D3C实例。

新的D3C实例不仅存储性能和SLA有所提升,而且,整体密度增加3倍,RACK级别实现了3倍节省,减少了机架的空间占用,令阿里云受益良多。

D3C实例需要使用最新的QLC存储介质,但是QLC在耐久性上和写性能方面有许多问题,特别是在处理小IO的时候,其性能并没有比磁盘高多少,甚至在小数据块的顺序写场景中,其性能还不如磁盘。

在分享中高伟详细分析了造成此现象的原因:简单用QLC闪存盘替换磁盘的做法是行不通的。

阿里云旗下有I系列和D系列两类提供EBS本地存储的ECS实例,I系列强调低延迟和高性能,主要用于数据库场景,D系列强调低成本和大容量,主要用于大数据分析场景,新推出的D3C实例在性能上有大幅提升。

在构建实例的过程中,为了解决QLC在耐久性和性能方面的问题,英特尔和合作伙伴在过去一年里开展了一个叫CSAL的项目,而CSAL的作用主要有四个方面:

1,可根据用户工作负载需求自由调整的NAND存储性能和容量;

2,使用性能和耐久性都很高的傲腾来弥补QLC性能和耐久性不足的问题;

3,提供英特尔至强原生的高性能存储;

4,多租户下有更稳定的QoS表现,机架级别实现了三倍节省;

新的D3C实例采用了新一代的代号为Ice Lake的英特尔至强可扩展处理器,搭配CSAL技术和傲腾加QLC的技术组合,在计算和存储性能方面都有了大幅提升。

与此前的D2C相比,原来一台服务器只能提供一个大规格的虚拟机,而现在,一台服务器可以提供两个大规格的虚拟机。

并且,从TPCx-HS和TPC-DS两个跑分测试数据来看,新的D3C的性能表现都比原来的D2C有所提升。

此外,高伟还介绍了CSAL架构方面的更多细节,以及CSAL在新一代ZNS闪存盘上的一些性能数据,如何未来发挥更多作用。

英特尔®傲腾™持久内存存储模式的优化,值得期待

英特尔®傲腾™技术的研发始于2012年,2019年英特尔®傲腾™持久内存100系列与第二代英特尔®至强®可扩展处理器共同发布,随后,随着第三代英特尔®至强®可扩展处理器的发布,又发布了第二代的英特尔®傲腾™持久内存200系列,而第三代英特尔®傲腾™持久内存也将在明年年初与第四代英特尔®至强®可扩展处理器一道发布。

从英特尔技术专家吴国安的介绍中了解到,第三代英特尔®傲腾™持久内存的性能相比于200系列还会有大幅地提升。令人遗憾的是,由于一些原因,英特尔不再开发第四代傲腾持久内存产品,但后续将依靠至强平台支持的CXL协议来扩展内存的容量及带宽。

吴国安分享的重点是持久内存SNIA编程模型的优化问题,如图可见,编程模式分两种,一种是右侧的内存编程模式,另一种是左侧是存储编程模式,左侧是此次关注的重点。

与内存编程模式不同,存储编程模式不需要修改代码,并且,可以像操作普通磁盘和固态盘那样把傲腾当做块设备来使用,之所以能做到这点,很重要一方面就是因为有一个叫BTT的核心算法。BTT核心算法可以将字节访问的持久内存设备,映射成为Block原子性的块设备,从而将持久内存设备视为是快速且低延时的SSD。也因此,它具有了和SSD一样的编程模型,这意味着它可以利用现有的SSD的生态,使用传统的读写接口,在所有现有的文件系统下正常工作。

在这种模式之下,傲腾持久内存可以像普通SSD一样,作为缓存来加速存储性能。

最近,Linux内核方面有两个优化,这两个优化可以大大提升这种模式下的性能表现。分享中详细介绍了持久内存存储编程核心算法-BTT的更多细节,介绍了两种优化存储模式的方法,一种是算法优化,将BTT算法在持久内存中的16字节的bflog操作逻辑变为内存中的操作,减少写操作的开销。

另一种是动态控制deepflush,利用英特尔平台的ADR功能而无需使用deepflush指令从而获得非常好的性能提升。

最后,让我们再看持久内存存储编程模式可能的发展方向。新一代的英特尔至强可扩展处理器将内置DSA的加速器,它可以卸载CPU的数据搬迁工作,从而节省CPU的资源,又比如CXL技术将来可以和持久内存存一起来获得更优的存储性能。

详细的技术细节也可以参考:持久内存BTT实现及优化(一)持久内存BTT实现及优化(二)

相关的代码可以参考:[PATCH] BTT: Use dram freelist and remove bflog to otpimize perf以及[PATCH] ACPI/NFIT: Add no_deepflush param to dynamic control flush operation。 

SPDK在英特尔IPU的存储卸载中有重要作用

SPDK(Storage Performance Development Kit)提供了一系列的工具和类库来创建高性能、可扩展的、用户态的存储应用,能用于构建超高性能的存储应用。

去年,英特尔正式发布了两款IPU(Infrastructure Processing Unit),一个叫Big Spring Canyon(BSC),另一个叫Mount Evans,两款IPU都能对存储进行卸载,并利用SPDK来提高性能。

英特尔技术专家裴迪介绍了IPU推出的背景和IPU的诸多价值。IPU不仅可以减少CPU资源的浪费,让CPU得到更充分利用,还能提升性能和降低延迟,此外,通过软硬件的结合,从而为云基础设施带来更高的灵活性。

Big Spring Canyon(BSC)是由英特尔®至强®D系列处理器和FPGA智能网卡来构建的,其优势在于可以利用英特尔®至强®强大的软件生态,性能强大,功能强大,还可以应对未来新的需求和定制化的需求。

Big Spring Canyon(BSC)卡的使用场景可以分为虚拟化模式和裸金属模式两种,裴迪结合两种典型的使用场景在技术层面上做了一些具体的介绍。

裴迪介绍了SPDK软件结合Big Spring Canyon(BSC)来支持存储卸载和弹性块设备的技术细节,让我们看到了SPDK软件在Big Spring Canyon(BSC)卡的存储卸载方面有重要作用,之所以使用SPDK来完成存储卸载工作,是因为SPDK具有强大的优势:

一方面,因为SPDK是一个用户态的软件,使用了Polling mode避免了内核态IO处理频繁上下文切换带来的性能开销,SPDK的数据面零拷贝和无锁的特性也极大提高了性能。另一方面,SPDK目前已经比较成熟,支持多种远端存储。

Mount Evans是一款基于ASIC芯片和ARM CPU打造的IPU,提供2 x 100G的网络能力,它是由英特尔和谷歌合作开发设计的。

Mount Evans继承了以往多款基于FPGA的智能网卡和IPU的开发经验,可应对各种真实的工作负载。它不仅拥有强大的性能,而且,在安全性和隔离性上面也具有更高水平的实现,从设计之初就将安全性和隔离性视为重中之重。

Mount Evans在硬件层面有许多技术创新,比如,它具有业内一流的可编程的包处理引擎,它拥有从英特尔傲腾拓展而来的NVME存储接口,它支持下一代可靠传输技术,它还带有先进的解压缩加速器。

在软件生态方面,Mount Evans经由软件开发人员、硬件开发人员和加速器开发人员共同设计开发,有更好的软硬协同。它支持Barefoot P4 Studio,可以为开发者提供更好的可编程性。另外,卡上运行的Linux操作系统能够充分利用DPDK、SPDK以及IPDK等软件生态。

在Mount Evans的CPU上也运行着SPDK存储服务,可以提供存储卸载和加速,SPDK在不同形态的IPU产品上都可以快速的匹配对应的硬件,同时提供高性能、高可扩展性,可对接到不同的存储服务中,为IPU加速产品化提供存储生态上的支持。

裴迪介绍了Mount Evans用SPDK卸载存储的技术细节和一些典型的使用场景,在技术实现上,重点提到了一个叫vDPA的技术,vDPA技术增加了更多硬件实现的功能,从而带来性能加速效果。

同时在IPU结合SPDK的使用场景中,也有涉及到最近比较热门的FaaS (Function as a Service)云原生相关的支持。

以上是三位专家演讲内容的概要,如果想了解更多演讲具体内容,欢迎查看视频回放。