JSON保存文件时候不丢转义符号

时间 2019-11-09

原文原文链接

这些天在给公司里作mcq，hbase版本升级的测试，要求数量千万级的mcq，hbase读写。 java

由于数据太大，中间须要保存json格式的文件，本身纱布呵呵地使用了FileWriter而后数据错误地一塌糊涂。 json

在各位须要保存json到文本时候，千万注意别用String形式保存，会有不少麻烦。我的使用的最后方案是测试

net.sf.json包+FileInputStream，代码以下：编码

private static String protoToJson(List<Column> rowkey, List<Column> values, int tableId) {
		JSONObject json=new JSONObject();
		json.accumulate("type", "mutation");
		JSONArray mutations=new JSONArray();
		JSONObject mutation=new JSONObject();
		mutation.accumulate("kind", "PUT");
		mutation.accumulate("table_id", tableId);
		mutation.accumulate("timestamp", 1445221080071L);
		
		JSONArray keys=new JSONArray();
		JSONArray value=new JSONArray();
			
		// 处理rowkey
		for (int i = 0; i < rowkey.size(); i++) {

			ColumnProto cp=rowkey.get(i).toProto();
			JSONObject onekey=new JSONObject();
			onekey.accumulate("column_id", cp.getColumnId());
			switch(rowkey.get(i).getColumnType().getNumber()){
			case 1:
				onekey.accumulate("int_value", cp.getIntValue());
				break;
			
			case 3:
				onekey.accumulate("double_value", cp.getDoubleValue());
				break;
			case 4:
				onekey.accumulate("string_value", cp.getBytesValue().toStringUtf8());
				break;
			}
			keys.add(onekey);
		}
		mutation.accumulate("keys", keys);
		// 处理value
		for (int j = 0; j < values.size(); j++) {
			ColumnProto cp=values.get(j).toProto();
			JSONObject onevalue=new JSONObject();
			onevalue.accumulate("column_id", cp.getColumnId());
			switch(values.get(j).getColumnType().getNumber()){
			case 1:
				onevalue.accumulate("int_value", cp.getIntValue());
				break;
			case 3:
				onevalue.accumulate("double_value", cp.getDoubleValue());
				break;
			case 4:
				onevalue.accumulate("string_value", cp.getBytesValue().toStringUtf8());
				break;
			}
				
			value.add(onevalue);
		}
		mutation.accumulate("value", value);
		mutations.add(mutation);
		json.accumulate("mutations", mutations);
		return json.toString();
	}

其中的重点就是：使用sf.json组建json数据可以方便地实现字符转义，（公司不少人用阿里巴巴的fastjson，我的以为没有广泛适用性...）,第二步就是写文件时候要使用二进制写入文件这样json中的转义符号就不会丢掉！

private static void toWrite(String path, String content) {
		File f = new File(path);
		try {
			if (!f.exists()) {
				f.createNewFile();
			}
			FileOutputStream fw = new FileOutputStream(f, true);
			fw.write(content.getBytes());
			fw.write("\n".getBytes());
			fw.close();
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

白痴地测试过程。。。 spa

-------------------------------------------------------------------------------------------------- code

测试过程是读取hbase数据解析为json再插入新的hbase，再将新hbase数据扫出解析为json，最终数据对比。中间的数据格式都是json。因为数据量太大不得不把json格式的数据保存到本地文件。可是hbase存储的是json解析后按照column拆分的数据，并且公司通信过程当中对部分数据使用了protobuf序列化了数据，使得从hbase扫出的数据比较混乱，生成json也比较复杂。字符串

这时候出现了一个白痴的场景，为了拼接json更快捷，我自做聪明地本身写了一个json的字符串拼接，而后用FIleWriter写入文件。结果很悲剧：json数据中存在各类特殊字符
get

1.引号转译 string

2.反斜杠转译 it

3.换行符转译

4.特殊字符（韩文，日文等）

这些字符在使用String类型进行Writer时候会出现因为系统编码与内容编码不一致致使许多字符丢失！其中最明显的就是韩文的丢失。