对话识别分析spa
哈工大的语音输入转文字是每说一句话添加一个逗号,说完就是句号,如如下示例:it
阿德自豪地说,固然喽,我此次坐的飞船是新型的,阿德说,外婆,据说月球上的科研人员已研制出了无污染的太阳能汽车,市场上有卖的吗。方法
直接看结果是得不出说话者所说的话的,因而,我针对这种句式进行分析提出一些识别对话方案。文字
通常出现的状况:
对话开始标志:
句子结尾部分为“...说”、“...问”、“...叫一声”、“XX问XXX”、“...说道”、“...问道”、“...喊道”、“...喊着”、“...喊”
例如:
小白兔大声喊:“燕子,燕子,你为何飞得这么低呀?”
睡莲问:“小蚂蚁,你怎么啦?”
代码实现方案:采用String的endsWith方法判断是否有这些标志
对话结束标志:
1.对话结束的下一句出现另外一个主语,以及含有“XX说”
例如:
阿德自豪地说,固然喽,我此次坐的飞船是新型的,阿德说,外婆,据说月球上的科研人员已研制出了无污染的太阳能汽车,市场上有卖的吗。
原句:
阿德自豪地说:“固然喽!我此次坐的飞船是新型的。”阿德说:“外婆,据说月球上的科研人员已研制出了无污染的太阳能汽车,市场上有卖的吗?”
代码实现方案:采用String的endsWith方法判断是否有这些标志
2.下一句出现前一句的说话者
例如:
他猛地跳起来,说,我也要干第八次,他四处奔走,招集打散的军队,动员人民起来抵抗。
原句:
他猛地跳起来,说:“我也要干第八次!”他四处奔走,招集打散的军队,动员人民起来抵抗。
代码实现方案:将文本进行分词处理,找出主语。
3.下一句句式为“XXX的话刚说完”其中XXX为开头的说话者
例如:
地球爷爷说,不,我有手,并且有很大很大的力气,能让成熟的桃子掉下来,能让踢到半空的足球掉下来,个人手,就是大家看不见的地心引力,地球爷爷的话刚说完,几个桃子又从树上掉了下来。
原句:
地球爷爷说:“不,我有手,并且有很大很大的力气,能让成熟的桃子掉下来,能让踢到半空的足球掉下来……个人手,就是大家看不见的地心引力。”地球爷爷的话刚说完,几个桃子又从树上掉了下来。
代码实现方案:采用String的endsWith方法判断是否有这些标志
4.“XXX对XX说”XXX为说话者,XX为听者,结束标志,为“XX听了”。或者“XXX问XX”,结束标记为“XX说/回答”
例如:
(1)伊琳娜越想越生气,次日一早就去问朗志万,您怎么能够提这样的问题,来哄骗咱们小朋友呢,朗志万听了,哈哈大笑。
(2)爷爷笑着问我,你知道这车要通过哪几座主要城市吗,我眨了眨眼睛说,镇江,常州,无锡,苏州,对吗。
原句:
(1)伊琳娜越想越生气,次日一早就去问朗志万:“您怎么能够提这样的问题,来哄骗咱们小朋友呢?”朗志万听了,哈哈大笑。
(2)爷爷笑着问我:“你知道这车要通过哪几座主要城市吗?”我眨了眨眼睛说:“镇江、常州、无锡、苏州,对吗?”
以上只是部分分析,可能不是很全面,还须要后续的改进。