1.文本朗读(Text to speech)/语音合成(Speech synthesis)php
2.语音识别(Speech recognition)算法
3.中文自动分词(Chinese word segmentation)性能
4.词性标注(Part-of-speech tagging)spa
5.句法分析(Parsing)翻译
6.天然语言生成(Natural language generation)设计
7.文本分类(Text categorization)orm
8.信息检索(Information retrieval)ip
9.信息抽取(Information extraction)ci
10.文字校对(Text-proofing)文档
11.问答系统(Question answering)
12.机器翻译(Machine translation)
13.自动摘要(Automatic summarization)
14.文字蕴涵(Textual entailment)
1. 单词的边界界定
在口语中,词与词之间一般是连贯的,而界定字词边界一般使用的办法是取用能让给定的上下文最为通顺且在文法上无误的一种最佳组合。在书写上,汉语也没有词与词之间的边界。
2.词义的消歧
许多字词不单只有一个意思,于是咱们必须选出使句意最为通顺的解释。
3.句法的模糊性
天然语言的文法一般是模棱两可的,针对一个句子一般可能会剖析(Parse)出多棵剖析树(Parse Tree),而咱们必需要仰赖语意及先后文的资讯才能在其中选择一棵最为适合的剖析树。
例如语音处理时遇到外国口音或地方口音,或者在文本的处理中处理拼写,语法或者光学字符识别(OCR)的错误。
5.语言行为与计划
句子经常并不仅是字面上的意思;例如,“你能把盐递过来吗”,一个好的回答应当是把盐递过去;在大多数上下文环境中,“能”将是糟糕的回答,虽然说 回答“不”或者“太远了我拿不到”也是能够接受的。再者,若是一门课程去年没开设,对于提问“这门课程去年有多少学生没经过?”回答“去年没开这门课”要 比回答“没人没经过”好。