对比 htmlcxx (c++)和 htmlparser(java) :
1. 功能上htmlparser会更强大一些,提供了filter/http下载等能力,还有vistor模式等等,灵活强大;而htmlcxx主要是一个分析库,有html/css两个分析器,可以将内容分析为dom类型的节点树,以提供遍历的能力,还可以分析节点的属性,相比之下也比较灵活;
2. 两者在分析tag方面的能力相差不大,性能上,感觉htmlcxx速度比htmlparser快很多(不知道是不是我的elicpse导致的);
范例:
//htmlcxx_test.cc
tree tr;
HTML::ParserDom parser;
parser.parse(sFileBuffer);
tr = parser.getTree();
tree::iterator it = tr.begin();