单字字频统计

      语言学中常常用统计数据对语言现象进行定量描写,主要用来支持语言的自动分析,其中字频和词频是最基本的统计单位,其中运用的原理主要是几率论。本文主要讨论对于单个文本文件的单字字频统计,其任务是:给定一批语料,统计其中有多少个不一样的汉字(即词形,Word Type),每一个汉字各出现多少次(即字频,Word Frequency)(因为汉字出现的总次数是必定的,所以能够直接用其出现的次数来代
相关文章
相关标签/搜索