个人管理功能

在CSDN Blog撰写技术文章,即有机会入选CSDN技术中心,现在就去免费注册!已注册用户,点击登录

搜索
热门标签
专题历史

有人说SOA是一种IT策略,有人说SOA是一种架构理念,还有人说SOA是一种服务。SOA到底是什么?它将带来什么?软件产业的变革亦或是新的机遇下的挑战?业界权威专家带领我们一起去深究,去探索。BEA三位重量级专家与您共同探讨SOA

随着WPF/E更名为正式名称Silverlight,以及Silverlight 1.1 Alpha 版本的发布,答案变得清晰,而且令人兴奋! - 一个跨操作系统,跨浏览器的Web应用平台出现了。Silverlight 这样一个4.5MB的浏览器插件(1.1 Alpha文件)是如何做到的这些的?周岳: SilverLight-Web应用的一道强光

中国移动用户数量在大踏步地发展与增长,根据产业部的数据,仅三月就新增了670万户。预估计6月份之后,中国很快将迎来第五亿手机用户(平均不到3人拥有一台手机)而J2ME做为最重要的手机跨平台技术,凭借Java平台以其良好的开放性和支持能力,得到了众多手机厂商的支持。对众多开发者来说,J2ME程序易于移植,轻松实现“一次编写,到处运行”。J2ME系列开发专题,将带你从最基本的工具安装,环境配置开始,进入移动应用开发的世界。
 
CSDN移动开发系列之-“J2ME开发实训”

7月31日-8月1日,即将在上海召开甲骨文全球大会•亚太地区会议同期举行的甲骨文开发者大会,这是一项付费参加的面向开发人员的活动。在甲骨文开发者大会期间,您将听到世界一流的专家讲述如何使用Java、.NET、XML和PL/SQL以及Ajax、PHP、Spring、Groovy on Rails等流行技术来简化开发过程。在为期两天的甲骨文开发者大会中,您将能够提高自身的开发技能,扩充知识,参加几十场由专家主持的深入细致的技术讲座并在专家的辅导下进行上机操作、了解高级技能和获得详细指导。在甲骨文开发者大会期间,您有机会直接向业界一流的技术专家和开发人员请教。欢迎参加甲骨文全球大会·2007·亚太地区开发者大会

2007年6月29日,自由软件基金会宣布,其创始人Richard Stallman将在GNU的网站上,在本周太平洋时间星期五上午9点通过视频发布GPLv3。本来,GPL并不是所有开源组织所认可的协议。其从出现以来一直存在争议,GPL被认为是一种“病毒式”的协议,BSD的fans和老牌Unix黑客们认为,他们编写Unix的年头都比GPL声明要长得多,他们更愿意采用比GPL更加的自由的BSD协议。今天,开源社区中有70%左右的项目采用了GPL。很多在开源社区的老牌黑客们认为,Richard Stallman所鼓吹开源软件的言行与当年卡尔·马克思号召产业无产阶级反抗工作的努力如出一辙。在GPLv3的第三版修订案发布时,开源软件团体中的许多成员都反对这种协议。尤其是Linux的核心开发小组,其中29个高级架构师有28个反对这个协议。Linus Torvalds称这个协议有“宗教性质”,并公开反对。而整个软件行业特别是开源社区对GPLv3的争论也愈演愈烈。GPLv3:大教堂和集市的新一轮对抗

2007年7月14日由CSDN与ThoughtWorks联合主办的第二届“敏捷中国”技术大会在北京丽亭华苑酒店召开,多位开源社区和ThoughtWorks公司的技术领袖即将带来精彩的演讲。本次“敏捷中国”技术大会集中展现塑造敏捷企业所需的方方面面:业界领先的敏捷项目管理工具;极大提升软件开发效率的新语言和新框架;数据库领域的敏捷实践;全方位的敏捷项目管理指导;还有身临其境的亲身体验。来自开源社区和ThoughtWorks公司的技术领导者们将带领听众全面感受敏捷企业。“敏捷中国大会”现场直击

从2004年起,在每年的夏季,CSDN都会举办面向中国程序员的大型网上调查活动。这是中国样本最丰富的开发者社区调查,持续、全面和深入地反映了中国开发者社群自身状况、各项技术、工具、产品的使用状况和发展趋势,是完整、准确地了解中国开发者市场的重要参考资料。本次调查覆盖基础信息、.NET、Java、C/C++、Web开发、数据库应用开发、软件工程及项目管理、移动及嵌入式开发、开放源代码、企业信息化等10个领域。还有惊喜大奖等着你哦,赶快进入吧! 2007中国软件开发者大调查正式启动

推荐作者
  • 大宝大宝

    时间如流水,知惜方成功。

  • SkymanSkyman

    江苏人氏,梅兰芳之老乡。现游学渝州之最...

  • ralph623ralph623

新进作者
  • 冲 s冲 s

  • 小鱼小鱼

  • 棱角棱角

    多年J2EE构架设计与开发经验,专注于企业信息系统建设,精通Java设计模式,并能熟练的运用到企业开发中。 精通Struts与Spring框架。数据库方面精通Oracle数据库,从事过数据库方面的开发以及oracle优化方面的工作。

最新技术图书推荐
UTF-8到Unicode的编码转换

发表日期:2007-5-18
更新日期:2007-5-18
作者文章阅读次数:7290

源自:happykevins (个人网站) 标签:游戏

您认为本文应该得        共有5人参与打分打印|收藏|讨论|投诉

UTF-8就是Unicode Transformation Format-8,是Unicode的一种变换编码格式。本文介绍了UTF-8转换为Unicode编码的方法,给出了在J2ME环境下的实现。

UTF-8就是Unicode Transformation Format-8,是Unicode的一种变换编码格式。

 

 

UTF-8 有以下特性:

 

UCS 字符 U+0000 U+007F (ASCII) 被编码为字节 0x00 0x7F (ASCII 兼容). 这意味着只包含 7 ASCII 字符的文件在 ASCII UTF-8 两种编码方式下是一样的.

 

所有 >U+007F UCS 字符被编码为一个多个字节的串, 每个字节都有标记位集. 因此, ASCII 字节 (0x00-0x7F) 不可能作为任何其他字符的一部分.

 

表示非 ASCII 字符的多字节串的第一个字节总是在 0xC0 0xFD 的范围里, 并指出这个字符包含多少个字节. 多字节串的其余字节都在 0x80 0xBF 范围里. 这使得重新同步非常容易, 并使编码无国界, 且很少受丢失字节的影响.

 

可以编入所有可能的 231 UCS 代码

 

UTF-8 编码字符理论上可以最多到 6 个字节长, 然而 16 BMP 字符最多只用到 3 字节长.

 

Bigendian UCS-4 字节串的排列顺序是预定的.

 

字节 0xFE 0xFF UTF-8 编码中从未用到.

 

下列字节串用来表示一个字符. 用到哪个串取决于该字符在 Unicode 中的序号.

 

U-00000000 - U-0000007F:

 

 

0xxxxxxx

 

 

U-00000080 - U-000007FF:

 

 

110xxxxx 10xxxxxx

 

 

U-00000800 - U-0000FFFF:

 

 

1110xxxx 10xxxxxx 10xxxxxx

 

 

U-00010000 - U-001FFFFF:

 

 

11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

 

 

U-00200000 - U-03FFFFFF:

 

 

111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

 

 

U-04000000 - U-7FFFFFFF:

 

 

1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

 

 

从上表还可以看出,UTF-8每个编码字符都不可能以“10”开头,“10”是以连接符的形式出现在后面的编码字节开头。因此UTF-8编码在存储和传输时是不容易出错的。

 

下面是UTF-8Unicode的编码转换代码(J2ME环境下的实现)UTFC2UniC方法包含了编码转换逻辑。

 

/**

 

     * UTF-8字节数据转化为Unicode字符串

 

     * @param utf_data byte[] - UTF-8编码字节数组

 

     * @param len int - 字节数组长度

 

     * @return String - 变换后的Unicode编码字符串

 

     */

 

    public static String UTF2Uni(byte[] utf_data, int len)

    {

        StringBuffer unis = new StringBuffer();

        char unic = 0;

        int ptr = 0;

        int cntBits = 0;

        for(;ptr < len;)

        {

            cntBits = getCntBits(utf_data[ptr]);

            if(cntBits == -1)

            {

                ++ptr;

                continue;

            }

            else

            if(cntBits == 0)

            {

                unic = UTFC2UniC(utf_data, ptr, cntBits);

                ++ptr;

            }

            else

            {

                unic = UTFC2UniC(utf_data, ptr, cntBits);

                ptr += cntBits;

            }

 

            unis.append(unic);

        }

 

        return unis.toString();

    }

 

    /**

 

     * 将指定的UTF-8字节组合成一个Unicode编码字符

 

     * @param utf byte[] - UTF-8字节数组

 

     * @param sptr int - 编码字节起始位置

 

     * @param cntBits int - 编码字节数

 

     * @return char - 变换后的Unicode字符

 

     */

 

    public static char UTFC2UniC(byte[] utf, int sptr, int cntBits)

    {

       /*

 

         Unicode <-> UTF-8

 

         U-00000000 - U-0000007F:  0xxxxxxx

 

         U-00000080 - U-000007FF:  110xxxxx 10xxxxxx

 

         U-00000800 - U-0000FFFF:  1110xxxx 10xxxxxx 10xxxxxx

 

         U-00010000 - U-001FFFFF:  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

 

         U-00200000 - U-03FFFFFF:  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

 

         U-04000000 - U-7FFFFFFF:  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

 

      */

 

        int uniC = 0;                         //  represent the unicode char

        byte firstByte = utf[sptr];

        int ptr = 0;                          //  pointer 0 ~ 15

 

        // resolve single byte UTF-8 encoding char

 

        if(cntBits == 0)

            return (char) firstByte;

 

        // resolve the first byte

 

        firstByte &= (1 << (7 - cntBits)) - 1;

 

        // resolve multiple bytes UTF-8 encoding char(except the first byte)

 

        for(int i = sptr + cntBits - 1; i > sptr; --i)

        {

            byte utfb = utf[i];

            uniC |= (utfb & 0x3f) << ptr;

            ptr += 6;

        }

        uniC |= firstByte << ptr;

 

        return (char)uniC;

    }

 

    // 根据给定字节计算UTF-8编码的一个字符所占字节数

 

    // UTF-8规则定义,字节标记只能为02~6

 

    private static int getCntBits(byte b)

    {

        int cnt = 0;

        if (b == 0) return -1;

        for(int i = 7; i >= 0; --i)

        {

            if (((b >> i) & 0x1) == 1)

                ++cnt;

            else

                break;

        }

        return (cnt > 6 || cnt == 1) ? -1 : cnt;

    }

 

 

参考资料:

UTF-8 and Unicode FAQ》—— http://www.linuxforum.net/books/UTF-8-Unicode.html

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

您认为本文应该得        共有5人参与打分打印|收藏|讨论|投诉

暂无图片

The only limitation is my imagination.

评论

CSDN技术中心团队官方Blog:http://blog.csdn.net/techcenter/,反馈邮箱:techcenter at csdn.net (注意:请把 at 换成@)


网站简介广告服务网站地图帮助联系方式诚聘英才English问题报告

北京创新乐知广告有限公司 版权所有, 京 ICP 证 070598 号

世纪乐知(北京)网络技术有限公司 提供技术支持

Copyright © 2000-2008, CSDN.NET, All Rights Reserved