【thrift】vc中使用thrift中文字符串乱码问题解决

问题描述:

VC中使用Apache thrift时,若是字符串中包含中文,会出现乱码问题,这个问题的缘由是因为thrift为了达到跨语言交互而使用了UTF-8格式发送字符串,这点对java或者C#不会形成影响,可是在VC中UTF-8却很成问题。VC中的string编码随项目编码通常是multibytes或者unicode,虽然倡导使用unicode,但实际上使用multibytes多字节开发仍然普遍存在,下面的解决方案主要解决的是多字节下的乱码问题。java

解决方案

一、手动转换

第一种解决方案就是在使用的时候,本身手动转换,读取时从utf-8转为multibytes,写入时从multibytes转为utf-8。显然这样费时费力,只适用于中文字符存在较少的场景。c++

二、修改thrift lib库

为了达到一劳永逸的目的,能够修改thrift c++ lib库来完成转换,这里只分析使用TBinaryProtocol的场景,其余Protocol若是出现相同状况请参照。函数

打开TBinaryProtocol.h和TBinaryProtocol.tcc,修改其readString和writeString方法测试

template <class Transport_>
template<typename StrType>
uint32_t TBinaryProtocolT<Transport_>::readString(StrType& str) {
  uint32_t result;
  int32_t size;
  result = readI32(size);
  result += readStringBody(str, size);
 //modified by xiaosuiba
  //convert utf-8 to multibytes
#ifdef _WIN32
    str = utf8_to_mb(str);
#endif
  return result;
}
template <class Transport_>
template<typename StrType>
uint32_t TBinaryProtocolT<Transport_>::writeString(const StrType& str) {
    //modified by xiaosuiba
    //添加多字节到UTF-8转换
    
#ifdef _WIN32
    StrType theStr = mb_to_utf8(str);
#else
    const StrType &theStr = str;
#endif

  if(theStr.size() > static_cast<size_t>((std::numeric_limits<int32_t>::max)()))
    throw TProtocolException(TProtocolException::SIZE_LIMIT);
  uint32_t size = static_cast<uint32_t>(theStr.size());
  uint32_t result = writeI32((int32_t)size);
  if (size > 0) {
    this->trans_->write((uint8_t*)theStr.data(), size);
  }
  return result + size;
}

 从新编译lib库,测试OK。ui

这样会存在必定的效率损失(读取写入都会复制一遍),可是相对于手动转换却能大大节省工做量。this

其中的转换函数mb_to_utf8和utf8_to_mb能够在网上找到大量源码。编码

相关文章
相关标签/搜索