2012年4月8日星期日

charset encoding guess

bigbluebutton上传txt文件有乱码,根本原因是openoffice不知道txt的编码,看了一下,有些第三方的工具可以猜测编码。另外关于编码的问题,可以参考

http://blogs.msdn.com/b/michkap/archive/2005/01/30/363308.aspx
http://blogs.msdn.com/b/oldnewthing/archive/2007/04/17/2158334.aspx

猜编码的开源项目
http://docs.codehaus.org/display/GUESSENC/Home(这个不猜,参考)
http://code.google.com/p/juniversalchardet/
http://jchardet.sourceforge.net/
http://site.icu-project.org/
http://cpdetector.sourceforge.net/
http://tika.apache.org/1.1/api/org/apache/tika/language/LanguageIdentifier.html

看介绍说juniversalchardet比jchardet准确率更高,打算先用这个试试看。

试用了一下,可以识别,还比较好用,准备给bbb提交patch了

没有评论:

发表评论