//orFilter.setPredicates(new NodeFilter[] { spanFilter,tableFilter });
创新互联长期为成百上千家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为磁县企业提供专业的成都网站制作、成都做网站,磁县网站改版等技术服务。拥有10余年丰富建站经验和众多成功案例,为您定制开发。
nodeList = nodeList.extractAllNodesThatMatch(orFilter,true);
Node[] nodeArray = nodeList.toNodeArray();
for(Node node : nodeArray ){
Span sp=(Span)node;
String spanId = span.getAttribute("id");
if("title".equals(spanId))){
parser.setInputHTML(tag.toHtml());
String tempStr = getHtmlAsNoTag(parser);
作为C语言家族的一员,go和c一样也支持结构体。可以类比于java的一个POJO。
在学习定义结构体之前,先学习下定义一个新类型。
新类型 T1 是基于 Go 原生类型 int 定义的新自定义类型,而新类型 T2 则是 基于刚刚定义的类型 T1,定义的新类型。
这里要引入一个底层类型的概念。
如果一个新类型是基于某个 Go 原生类型定义的, 那么我们就叫 Go 原生类型为新类型的底层类型
在上面的例子中,int就是T1的底层类型。
但是T1不是T2的底层类型,只有原生类型才可以作为底层类型,所以T2的底层类型还是int
底层类型是很重要的,因为对两个变量进行显式的类型转换,只有底层类型相同的变量间才能相互转换。底层类型是判断两个类型本质上是否相同的根本。
这种类型定义方式通常用在 项目的渐进式重构,还有对已有包的二次封装方面
类型别名表示新类型和原类型完全等价,实际上就是同一种类型。只不过名字不同而已。
一般我们都是定义一个有名的结构体。
字段名的大小写决定了字段是否包外可用。只有大写的字段可以被包外引用。
还有一个点提一下
如果换行来写
Age: 66,后面这个都好不能省略
还有一个点,观察e3的赋值
new返回的是一个指针。然后指针可以直接点号赋值。这说明go默认进行了取值操作
e3.Age 等价于 (*e3).Age
如上定义了一个空的结构体Empty。打印了元素e的内存大小是0。
有什么用呢?
基于空结构体类型内存零开销这样的特性,我们在日常 Go 开发中会经常使用空 结构体类型元素,作为一种“事件”信息进行 Goroutine 之间的通信
这种以空结构体为元素类建立的 channel,是目前能实现的、内存占用最小的 Goroutine 间通信方式。
这种形式需要说的是几个语法糖。
语法糖1:
对于结构体字段,可以省略字段名,只写结构体名。默认字段名就是结构体名
这种方式称为 嵌入字段
语法糖2:
如果是以嵌入字段形式写的结构体
可以省略嵌入的Reader字段,而直接访问ReaderName
此时book是一个各个属性全是对应类型零值的一个实例。不是nil。这种情况在Go中称为零值可用。不像java会导致npe
结构体定义时可以在字段后面追加标签说明。
tag的格式为反单引号
tag的作用是可以使用[反射]来检视字段的标签信息。
具体的作用还要看使用的场景。
比如这里的tag是为了帮助 encoding/json 标准包在解析对象时可以利用的规则。比如omitempty表示该字段没有值就不打印出来。
【格式化输出】
// 格式化输出:将 arg 列表中的 arg 转换为字符串输出
// 使用动词 v 格式化 arg 列表,非字符串元素之间添加空格
Print(arg列表)
// 使用动词 v 格式化 arg 列表,所有元素之间添加空格,结尾添加换行符
Println(arg列表)
// 使用格式字符串格式化 arg 列表
Printf(格式字符串, arg列表)
// Print 类函数会返回已处理的 arg 数量和遇到的错误信息。
【格式字符串】
格式字符串由普通字符和占位符组成,例如:
"abc%+ #8.3[3]vdef"
其中 abc 和 def 是普通字符,其它部分是占位符,占位符以 % 开头(注:%% 将被转义为一个普通的 % 符号,这个不算开头),以动词结尾,格式如下:
%[旗标][宽度][.精度][arg索引]动词
方括号中的内容可以省略。
【旗标】
旗标有以下几种:
空格:对于数值类型的正数,保留一个空白的符号位(其它用法在动词部分说明)。
0 :用 0 进行宽度填充而不用空格,对于数值类型,符号将被移到所有 0 的前面。
其中 "0" 和 "-" 不能同时使用,优先使用 "-" 而忽略 "0"。
【宽度和精度】
“宽度”和“精度”都可以写成以下三种形式:
数值 | * | arg索引*
其中“数值”表示使用指定的数值作为宽度值或精度值,“ ”表示使用当前正在处理的 arg 的值作为宽度值或精度值,如果这样的话,要格式化的 arg 将自动跳转到下一个。“arg索引 ”表示使用指定 arg 的值作为宽度值或精度值,如果这样的话,要格式化的 arg 将自动跳转到指定 arg 的下一个。
宽度值:用于设置最小宽度。
精度值:对于浮点型,用于控制小数位数,对于字符串或字节数组,用于控制字符数量(不是字节数量)。
对于浮点型而言,动词 g/G 的精度值比较特殊,在适当的情况下,g/G 会设置总有效数字,而不是小数位数。
【arg 索引】
“arg索引”由中括号和 arg 序号组成(就像上面示例中的 [3]),用于指定当前要处理的 arg 的序号,序号从 1 开始:
'[' + arg序号 + ']'
【动词】
“动词”不能省略,不同的数据类型支持的动词不一样。
[通用动词]
v:默认格式,不同类型的默认格式如下:
布尔型:t
整 型:d
浮点型:g
复数型:g
字符串:s
通 道:p
指 针:p
无符号整型:x
T:输出 arg 的类型而不是值(使用 Go 语法格式)。
[布尔型]
t:输出 true 或 false 字符串。
[整型]
b/o/d:输出 2/8/10 进制格式
x/X :输出 16 进制格式(小写/大写)
c :输出数值所表示的 Unicode 字符
q :输出数值所表示的 Unicode 字符(带单引号)。对于无法显示的字符,将输出其转义字符。
U :输出 Unicode 码点(例如 U+1234,等同于字符串 "U+%04X" 的显示结果)
对于 o/x/X:
如果使用 "#" 旗标,则会添加前导 0 或 0x。
对于 U:
如果使用 "#" 旗标,则会在 Unicode 码点后面添加相应的 '字符'(前提是该字符必须可显示)
[浮点型和复数型]
b :科学计数法(以 2 为底)
e/E:科学计数法(以 10 为底,小写 e/大写 E)
f/F:普通小数格式(两者无区别)
g/G:大指数(指数 = 6)使用 %e/%E,其它情况使用 %f/%F
[字符串或字节切片]
s :普通字符串
q :双引号引起来的 Go 语法字符串
x/X:十六进制编码(小写/大写,以字节为元素进行编码,而不是字符)
对于 q:
如果使用了 "+" 旗标,则将所有非 ASCII 字符都进行转义处理。
如果使用了 "#" 旗标,则输出反引号引起来的字符串(前提是
字符串中不包含任何制表符以外的控制字符,否则忽略 # 旗标)
对于 x/X:
如果使用了 " " 旗标,则在每个元素之间添加空格。
如果使用了 "#" 旗标,则在十六进制格式之前添加 0x 前缀。
[指针类型]
p :带 0x 前缀的十六进制地址值。
[符合类型]
复合类型将使用不同的格式输出,格式如下:
结 构 体:{字段1 字段2 ...}
数组或切片:[元素0 元素1 ...]
映 射:map[键1:值1 键2:值2 ...]
指向符合元素的指针:{}, [], map[]
复合类型本身没有动词,动词将应用到复合类型的元素上。
结构体可以使用 "+v" 同时输出字段名。
【注意】
1、如果 arg 是一个反射值,则该 arg 将被它所持有的具体值所取代。
2、如果 arg 实现了 Formatter 接口,将调用它的 Format 方法完成格式化。
3、如果 v 动词使用了 # 旗标(%#v),并且 arg 实现了 GoStringer 接口,将调用它的 GoString 方法完成格式化。
如果格式化操作指定了字符串相关的动词(比如 %s、%q、%v、%x、%X),接下来的两条规则将适用:
4。如果 arg 实现了 error 接口,将调用它的 Error 方法完成格式化。
5。如果 arg 实现了 string 接口,将调用它的 String 方法完成格式化。
在实现格式化相关接口的时候,要避免无限递归的情况,比如:
type X string
func (x X) String() string {
return Sprintf("%s", x)
}
在格式化之前,要先转换数据类型,这样就可以避免无限递归:
func (x X) String() string {
return Sprintf("%s", string(x))
}
无限递归也可能发生在自引用数据类型上面,比如一个切片的元素引用了切片自身。这种情况比较罕见,比如:
a := make([]interface{}, 1)
a[0] = a
fmt.Println(a)
【格式化输入】
// 格式化输入:从输入端读取字符串(以空白分隔的值的序列),
// 并解析为具体的值存入相应的 arg 中,arg 必须是变量地址。
// 字符串中的连续空白视为单个空白,换行符根据不同情况处理。
// \r\n 被当做 \n 处理。
// 以动词 v 解析字符串,换行视为空白
Scan(arg列表)
// 以动词 v 解析字符串,换行结束解析
Scanln(arg列表)
// 根据格式字符串中指定的格式解析字符串
// 格式字符串中的换行符必须和输入端的换行符相匹配。
Scanf(格式字符串, arg列表)
// Scan 类函数会返回已处理的 arg 数量和遇到的错误信息。
【格式字符串】
格式字符串类似于 Printf 中的格式字符串,但下面的动词和旗标例外:
p :无效
T :无效
e/E/f/F/g/G:功能相同,都是扫描浮点数或复数
s/v :对字符串而言,扫描一个被空白分隔的子串
对于整型 arg 而言,v 动词可以扫描带有前导 0 或 0x 的八进制或十六进制数值。
宽度被用来指定最大扫描宽度(不会跨越空格),精度不被支持。
如果 arg 实现了 Scanner 接口,将调用它的 Scan 方法扫描相应数据。只有基础类型和实现了 Scanner 接口的类型可以使用 Scan 类方法进行扫描。
【注意】
连续调用 FScan 可能会丢失数据,因为 FScan 中使用了 UnreadRune 对读取的数据进行撤销,而参数 io.Reader 只有 Read 方法,不支持撤销。比如: