不知道你有没有听过这么一句:在使用 map 时尽量不要在 big map 中保存指针。好吧,你现在已经听过了:)为什么呢?原因在于 Go 语言的垃圾回收器会扫描标记 map 中的所有元素,GC 开销相当大,直接GG。
长子网站建设公司成都创新互联,长子网站设计制作,有大型网站制作公司丰富经验。已为长子上千余家提供企业网站建设服务。企业网站搭建\外贸营销网站建设要多少钱,请找那个售后服务好的长子做网站的公司定做!
这两天在《Mastering Go》中看到 GC 这一章节里面对比 map 和 slice 在垃圾回收中的效率对比,书中只给出结论没有说明理由,这我是不能忍的,于是有了这篇学习笔记。扯那么多,Show Your Code
这是一个简单的测试程序,保存字符串的 map 和 保存整形的 map GC 的效率相差几十倍,是不是有同学会说明明保存的是 string 哪有指针?这个要说到 Go 语言中 string 的底层实现了,源码在 src/runtime/string.go里,可以看到 string 其实包含一个指向数据的指针和一个长度字段。注意这里的是否包含指针,包括底层的实现。
Go 语言的 GC 会递归遍历并标记所有可触达的对象,标记完成之后将所有没有引用的对象进行清理。扫描到指针就会往下接着寻找,一直到结束。
Go 语言中 map 是基于 数组和链表 的数据结构实现的,通过 优化的拉链法 解决哈希冲突,每个 bucket 可以保存 8 对键值,在 8 个键值对数据后面有一个 overflow 指针,因为桶中最多只能装 8 个键值对,如果有多余的键值对落到了当前桶,那么就需要再构建一个桶(称为溢出桶),通过 overflow 指针链接起来。
因为 overflow 指针的缘故,所以无论 map 保存的是什么,GC 的时候就会把所有的 bmap 扫描一遍,带来巨大的 GC 开销。官方 issues 就有关于这个问题的讨论, runtime: Large maps cause significant GC pauses #9477
无脑机翻如下:
如果我们有一个map [k] v,其中k和v都不包含指针,并且我们想提高扫描性能,则可以执行以下操作。
将“ allOverflow [] unsafe.Pointer”添加到 hmap 并将所有溢出存储桶存储在其中。 然后将 bmap 标记为noScan。 这将使扫描非常快,因为我们不会扫描任何用户数据。
实际上,它将有些复杂,因为我们需要从allOverflow中删除旧的溢出桶。 而且它还会增加 hmap 的大小,因此也可能需要重新整理数据。
最终官方在 hmap 中增加了 overflow 相关字段完成了上面的优化,这是具体的 commit 地址。
下面看下具体是如何实现的,源码基于 go1.15,src/cmd/compile/internal/gc/reflect.go 中
通过注释可以看出,如果 map 中保存的键值都不包含指针(通过 Haspointers 判断),就使用一个 uintptr 类型代替 bucket 的指针用于溢出桶 overflow 字段,uintptr 类型在 GO 语言中就是个大小可以保存得下指针的整数,不是指针,就相当于实现了 将 bmap 标记为 noScan, GC 的时候就不会遍历完整个 map 了。随着不断的学习,愈发感慨 GO 语言中很多模块设计得太精妙了。
差不多说清楚了,能力有限,有不对的地方欢迎留言讨论,源码位置还是问的群里大佬 _
go语言中的指针和地址值,在使用上常常具有迷惑性,主要是其特殊的*、符号的使用,可能会让你摸不透,本文希望能讲清楚go语言的指针(pointer)和值(value)。
这里先简单的对指针和地址值概念做一个定义:
这是因为go方法传递参数的方式导致的,go方法函数传递参数传递的是一个拷贝,看看下面的程序会输出什么?
答案是8,而不是9,因为AddAge函数修改的是学生的一个备份,而不是原始的学生对象
如果你想正确的给学生年龄增加的话,函数传递的需要是这个值的指针,如下所示:
需要注意的是,这里我们的指针传递的仍然是一个拷贝,比如,如果你将s赋值给另外一个指针地址,不会影响原有的指针,这点可以自行实践下。
那在使用go语言开发的时候,何时该用指针何时改用地址值呢?比如考虑以下场景:
简单原则: 当你不确定该使用哪种的时候,优先使用指针
如果考虑在数组、切片、map等复合对象中使用指针和值,比如:
很多开发者会认为b会更高效,但是被传递的都是一个切片的拷贝,切片本身就是一个引用,所以这里被传递的其实没有什么区别。
对于指针和地址值的使用,大家需要牢记的一点就是go数据传递的不可变性,活学活用此特点,在无状态函数中此特性非常有用。
【格式化输出】
// 格式化输出:将 arg 列表中的 arg 转换为字符串输出
// 使用动词 v 格式化 arg 列表,非字符串元素之间添加空格
Print(arg列表)
// 使用动词 v 格式化 arg 列表,所有元素之间添加空格,结尾添加换行符
Println(arg列表)
// 使用格式字符串格式化 arg 列表
Printf(格式字符串, arg列表)
// Print 类函数会返回已处理的 arg 数量和遇到的错误信息。
【格式字符串】
格式字符串由普通字符和占位符组成,例如:
"abc%+ #8.3[3]vdef"
其中 abc 和 def 是普通字符,其它部分是占位符,占位符以 % 开头(注:%% 将被转义为一个普通的 % 符号,这个不算开头),以动词结尾,格式如下:
%[旗标][宽度][.精度][arg索引]动词
方括号中的内容可以省略。
【旗标】
旗标有以下几种:
空格:对于数值类型的正数,保留一个空白的符号位(其它用法在动词部分说明)。
0 :用 0 进行宽度填充而不用空格,对于数值类型,符号将被移到所有 0 的前面。
其中 "0" 和 "-" 不能同时使用,优先使用 "-" 而忽略 "0"。
【宽度和精度】
“宽度”和“精度”都可以写成以下三种形式:
数值 | * | arg索引*
其中“数值”表示使用指定的数值作为宽度值或精度值,“ ”表示使用当前正在处理的 arg 的值作为宽度值或精度值,如果这样的话,要格式化的 arg 将自动跳转到下一个。“arg索引 ”表示使用指定 arg 的值作为宽度值或精度值,如果这样的话,要格式化的 arg 将自动跳转到指定 arg 的下一个。
宽度值:用于设置最小宽度。
精度值:对于浮点型,用于控制小数位数,对于字符串或字节数组,用于控制字符数量(不是字节数量)。
对于浮点型而言,动词 g/G 的精度值比较特殊,在适当的情况下,g/G 会设置总有效数字,而不是小数位数。
【arg 索引】
“arg索引”由中括号和 arg 序号组成(就像上面示例中的 [3]),用于指定当前要处理的 arg 的序号,序号从 1 开始:
'[' + arg序号 + ']'
【动词】
“动词”不能省略,不同的数据类型支持的动词不一样。
[通用动词]
v:默认格式,不同类型的默认格式如下:
布尔型:t
整 型:d
浮点型:g
复数型:g
字符串:s
通 道:p
指 针:p
无符号整型:x
T:输出 arg 的类型而不是值(使用 Go 语法格式)。
[布尔型]
t:输出 true 或 false 字符串。
[整型]
b/o/d:输出 2/8/10 进制格式
x/X :输出 16 进制格式(小写/大写)
c :输出数值所表示的 Unicode 字符
q :输出数值所表示的 Unicode 字符(带单引号)。对于无法显示的字符,将输出其转义字符。
U :输出 Unicode 码点(例如 U+1234,等同于字符串 "U+%04X" 的显示结果)
对于 o/x/X:
如果使用 "#" 旗标,则会添加前导 0 或 0x。
对于 U:
如果使用 "#" 旗标,则会在 Unicode 码点后面添加相应的 '字符'(前提是该字符必须可显示)
[浮点型和复数型]
b :科学计数法(以 2 为底)
e/E:科学计数法(以 10 为底,小写 e/大写 E)
f/F:普通小数格式(两者无区别)
g/G:大指数(指数 = 6)使用 %e/%E,其它情况使用 %f/%F
[字符串或字节切片]
s :普通字符串
q :双引号引起来的 Go 语法字符串
x/X:十六进制编码(小写/大写,以字节为元素进行编码,而不是字符)
对于 q:
如果使用了 "+" 旗标,则将所有非 ASCII 字符都进行转义处理。
如果使用了 "#" 旗标,则输出反引号引起来的字符串(前提是
字符串中不包含任何制表符以外的控制字符,否则忽略 # 旗标)
对于 x/X:
如果使用了 " " 旗标,则在每个元素之间添加空格。
如果使用了 "#" 旗标,则在十六进制格式之前添加 0x 前缀。
[指针类型]
p :带 0x 前缀的十六进制地址值。
[符合类型]
复合类型将使用不同的格式输出,格式如下:
结 构 体:{字段1 字段2 ...}
数组或切片:[元素0 元素1 ...]
映 射:map[键1:值1 键2:值2 ...]
指向符合元素的指针:{}, [], map[]
复合类型本身没有动词,动词将应用到复合类型的元素上。
结构体可以使用 "+v" 同时输出字段名。
【注意】
1、如果 arg 是一个反射值,则该 arg 将被它所持有的具体值所取代。
2、如果 arg 实现了 Formatter 接口,将调用它的 Format 方法完成格式化。
3、如果 v 动词使用了 # 旗标(%#v),并且 arg 实现了 GoStringer 接口,将调用它的 GoString 方法完成格式化。
如果格式化操作指定了字符串相关的动词(比如 %s、%q、%v、%x、%X),接下来的两条规则将适用:
4。如果 arg 实现了 error 接口,将调用它的 Error 方法完成格式化。
5。如果 arg 实现了 string 接口,将调用它的 String 方法完成格式化。
在实现格式化相关接口的时候,要避免无限递归的情况,比如:
type X string
func (x X) String() string {
return Sprintf("%s", x)
}
在格式化之前,要先转换数据类型,这样就可以避免无限递归:
func (x X) String() string {
return Sprintf("%s", string(x))
}
无限递归也可能发生在自引用数据类型上面,比如一个切片的元素引用了切片自身。这种情况比较罕见,比如:
a := make([]interface{}, 1)
a[0] = a
fmt.Println(a)
【格式化输入】
// 格式化输入:从输入端读取字符串(以空白分隔的值的序列),
// 并解析为具体的值存入相应的 arg 中,arg 必须是变量地址。
// 字符串中的连续空白视为单个空白,换行符根据不同情况处理。
// \r\n 被当做 \n 处理。
// 以动词 v 解析字符串,换行视为空白
Scan(arg列表)
// 以动词 v 解析字符串,换行结束解析
Scanln(arg列表)
// 根据格式字符串中指定的格式解析字符串
// 格式字符串中的换行符必须和输入端的换行符相匹配。
Scanf(格式字符串, arg列表)
// Scan 类函数会返回已处理的 arg 数量和遇到的错误信息。
【格式字符串】
格式字符串类似于 Printf 中的格式字符串,但下面的动词和旗标例外:
p :无效
T :无效
e/E/f/F/g/G:功能相同,都是扫描浮点数或复数
s/v :对字符串而言,扫描一个被空白分隔的子串
对于整型 arg 而言,v 动词可以扫描带有前导 0 或 0x 的八进制或十六进制数值。
宽度被用来指定最大扫描宽度(不会跨越空格),精度不被支持。
如果 arg 实现了 Scanner 接口,将调用它的 Scan 方法扫描相应数据。只有基础类型和实现了 Scanner 接口的类型可以使用 Scan 类方法进行扫描。
【注意】
连续调用 FScan 可能会丢失数据,因为 FScan 中使用了 UnreadRune 对读取的数据进行撤销,而参数 io.Reader 只有 Read 方法,不支持撤销。比如:
tips: *号,可以指向指针类型内存地址上的值,号,可以获取值类型的内存地址
每一个变量都有内存地址,可以通过变量来操作内存地址中的值,即内存的大小
go语言中获取变量的内存地址方法:通过 符号可以获取变量的地址
定义:普通变量存储的是对应类型的值,这些类型就叫值类型
变量b,在内存中的地址为:0x1040a124,在这个内存地址上存储的值为:156
定义:指针类型的变量存储的是⼀个地址,所以⼜叫指针类型或引⽤类型
b 是值类型,它指向的是内存地址上的值
a是指针类型,它指向的是b的内存地址
指针类型定义,语法: var 变量名 *类型
指针类型在定义完成后,默认为空地址,即空指针(nil)
在定义好指针变量后,可以通过***** 符号可以获取指针变量指向的变量
在这里的 *a 等价于 b,通过修改 *a ,最终修改的是值类型b的值
这里a,d是值类型,b,c是指针类型
d就相当于把a内存地址上值,在内存中从新开辟了一块空间存储,d和a互不影响
b,c相当于指向了a的内存地址,当使用*号引用出内存地址上的变量上,修改值得,a的值也会跟着改变
如果该函数会修改receiver,此时一定要用指针
如果receiver是 struct 并且包含互斥类型 sync.Mutex ,或者是类似的同步变量,receiver必须是指针,这样可以避免对象拷贝
如果receiver是较大的 struct 或者 array ,使用指针则更加高效。多大才算大?假设struct内所有成员都要作为函数变量传进去,如果觉得这时数据太多,就是struct太大
如果receiver是 struct , array 或者 slice ,并且其中某个element指向了某个可变量,则这个时候receiver选指针会使代码的意图更加明显
如果receiver使较小的 struct 或者 array ,并且其变量都是些不变量、常量,例如 time.Time ,value receiver更加适合,因为value receiver可以减少需要回收的垃圾量。
以下代码在VC6.0以上版本测试通过!
输出结果:6
#include stdio.h
int main(void)
{
int a[2][2] = {{1,2}, {3,4}};
int b[2][2] = {{5,6}, {7,8}};
int (*p1)[2] = a;
int (*p2)[2] = b;
int (*q[2])[2] = {p1, p2}; 这样才是正确的定义!
printf("%d\n", *(*q[1]+1));
return 0;
}
但在tc2.0和bc3.1中提示非法初始化!
但把
int (*q[2])[2] = {p1, p2};
改成
int (*q[2])[2];
q[0] = p1;
q[1] = p2;
可以通过!
原因暂不清楚,估计是老旧的编译器不支持太复杂的定义!
其实最好的方法是使用typedef,简单明了,可读性大大提升!
#include stdio.h
int main(void)
{
typedef int (*PA)[2]; 使用typedef
int a[2][2] = {{1,2}, {3,4}};
int b[2][2] = {{5,6}, {7,8}};
int (*p1)[2] = a;
int (*p2)[2] = b;
PA q[2]= {p1, p2}; 这样可读性是否大大的增加?!
printf("%d\n", *(*q[1]+1));
return 0;
}