expat: 一个著名的xml parser
改了下expat使之支持GB2312(事先声明我没深入的测试过,可能还有不少BUG的)
expat的结构过于复杂,而且甚少说明,看了很久还一头雾水,幸好有个日本人在老版的基础上
做了一个支持日文的补丁,我就看着它来修改expat,结果....虽然能用,但还是不明白原理 :(
expat下载 (只在winme上的vc编译通过)
xml 下载 (我写的使用expat的一个简单的例子,vc)
gb_handle (避免修改expat,利用了expat得SetUnknowEncodingHandle()来处理GB2312编码)
outline.c (测试上面函数得例子) gbtest.xml
unicode: 在研究expat支持中文过程中找的资料
Unicode 又称统一码,是为了统一全球各种语言而研究出来的一种编码格式
目前支持unicode的系统很多,如win2k,win98,winme, linux,freebsd....
而越来越多的应用系统也将使用unicode作为缺省编码,如java.....
这4篇是介绍中文编码入门的优秀资料,如果你对什么是GB2312,GBK,UNICODE一无所知,建议你先看看:
汉字编码标准与识别1
汉字编码标准与识别2
汉字编码标准与识别3
汉字编码标准与识别4
转换表
MS的GBK->Unicode转换表
MS的BIG5->Unicode转换表
Unicode.org的GB2312->Unicode转换表
一个gb2312到unicode的对应表
几个工具
utf-converter-1.0.tar.gz
utf8conv-1.0.tar.gz
gb2u.zip
关于UTF8,UTF16的资料
ISO-10646-UTF-16
rfc2044
rfc2781
Unicode Transformation Formats
Unicode To GB
ISO-UTF8