基于潜在语义分析的统计语言模型--,平滑分析

xzdxmynet 发布于 2024-02-03 阅读(50)

【摘要】语言模型在语音识别中占有重要地位。 它负责将拼音转换为汉字。 语言模型的性能直接影响语音识别的结果。 目前应用最广泛的语言模型是基于统计的语言模型。 数据稀疏问题是统计语言模型面临的主要问题之一。 同时,由于统计语言模型只考虑语言的局部信息,因此将全局信息纳入统计语言模型是非常有意义的。 目前统计语言模型中使用了许多平滑技术。 Katz 平滑和 Gale 平滑常用于语音识别。 为了将全局信息添加到统计语言模型中,本文参考了所提出的基于潜在语义分析的语言模型。 该模型从文本全局内容的角度预测单词的出现概率,很好地弥补了统计语言模型的局部性,是对统计语言模型的良好补充。 通过对词-文档矩阵进行奇异值分解,所有文档和词都用相同维度的向量表示,通过其对应向量的相似度来衡量文档对词的预测能力。 基于统计语言模型和潜在语义分析语言模型构建了混合语言模型,该模型既包含文本的局部信息又包含文本的全局信息。 为了比较混合模型和统计模型的性能,衡量语言模型性能的主要方法——困惑度。 实验中采用Katz平滑法构建二值统计语言模型,采用直接建模法构建潜在语义分析语言模型。 将这两种不同类型的语言模型结合起来,得到了一种新的混合语言模型。 。 实验结果表明,与纯二进制统计语言模型相比,这种混合语言模型降低了困惑度,提高了性能。

标签:  语义分析 统计模型 语音识别 数据分析 

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。