栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

测量NUMA(非统一内存访问)。没有明显的不对称性。为什么?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

测量NUMA(非统一内存访问)。没有明显的不对称性。为什么?

啊哈!神秘主义者是对的!硬件预取以某种方式优化了我的读/写。

如果这是缓存优化,那么强制使用内存屏障将使优化失败:

c = __sync_fetch_and_add(((char*)x) + j, 1);

但这没有任何区别。确实有所作为的是,将我的迭代器索引乘以质数1009来破坏预取优化:

*(((char*)x) + ((j * 1009) % N)) += 1;

有了这一更改,NUMA的不对称性就清楚地显示出来了:

numa_available() 0numa node 0 10101010 12884901888numa node 1 01010101 12874584064Elapsed read/write by same thread that allocated on core 0: 00:00:00.961725Elapsed read/write by thread on core 0: 00:00:00.942300Elapsed read/write by thread on core 1: 00:00:01.216286Elapsed read/write by thread on core 2: 00:00:00.909353Elapsed read/write by thread on core 3: 00:00:01.218935Elapsed read/write by thread on core 4: 00:00:00.898107Elapsed read/write by thread on core 5: 00:00:01.211413Elapsed read/write by thread on core 6: 00:00:00.898021Elapsed read/write by thread on core 7: 00:00:01.207114

至少我认为这是正在发生的事情。

感谢Mysticial!

编辑:结论〜133%

对于只看一下这篇文章以大致了解NUMA性能特征的任何人,根据我的测试,这是底线:

对非本地NUMA节点的内存访问的延迟约为对本地节点的内存访问的延迟的1.33倍。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/417246.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号