欢迎光临中评网!

语言模型是什么?它到底有何用途?

时间:2023-03-21  来源:评论网  作者:未知  点击:0
语言模型(英文Language Models,简称LM)是一种单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的数学描述,比较适合于计算机进行自动处理,因而语言模型对于人工智能(AI)尤其自然语言处理(NLP)具有重大的意义。
 
       语言模型(英文Language Models,简称LM)是一种单纯的、统一的、抽象的形式系统,语言客观事实经过语言模型的数学描述,比较适合于计算机进行自动处理,因而语言模型对于人工智能(AI)尤其自然语言处理(NLP)具有重大的意义。
      语言模型主要有三种类型:生成性模型、分析性模型和辨识性模型。 生成性模型从一个形式语言系统出发,生成语言的某一集合;分析性模型从语言的某一集合开始,根据对某一集合中各个元素的性质的分析,阐明这些元素之间的关系,并在此基础上用演绎的方法建立语言的规则系统;辨识性模型可以通过有限步骤的运算,确定某一集合中各个元素是一堆乱七八糟的词还是语言中合格的句子。
      自然语言处理近年来发生了革命性的变化,特别预训练语言模型的开发和使用,在许多应用方面都取得了显著的成绩。预训练语言模型有两个主要优点:一是可以显著提高许多自然语言处理任务的准确性;另一是通用的语言处理工具。如果在传统的自然语言处理中进行基于机器学习的任务,需要标记大量的数据来训练模型。
     人们利用数学手段建立语言模型主要有两种方法:一种是基于概率论,另一种是基于形式语言理论;这两种方法也可以结合使用。从基本框架的观点来看,语言模型属于第一类。在形式上,语言模型是一个定义在单词序列(一个句子或一个段落)上的概率分布,是基于概率论、统计学、信息论和机器学习的自然语言文本建模工具。
    近年来,通过深度学习得到的神经语言模型,特别是最近开发的预训练语言模型,已经成为自然语言处理的基础技术。语言模型可以用来计算语言的概率(词序列)或生成语言。在后一种情况下,自然语言的句子或文章可以从语言模型中随机抽样,从大量数据中学习的长短期记忆网络(LSTM)语言模型可以生成相当自然的句子。
     神经语言建模似乎是迄今为止最成功的方法。语言建模的基本特征没有改变,也就是说,它依赖于在一个包含所有单词序列的离散空间中定义的概率分布。学习过程就是找到最优模型,以便用交叉熵预测语言数据的最高准确性。神经语言模型的优势在于,它可以利用复杂的模型、大数据和强大的计算能力非常精确地模拟人类语言行为。
     人们发现,只有语言模型规模足够大,机器才可能具备推理能力。而大型语言模型(LLM)代表着人工智能领域的重大进步,并有望通过习得的知识改变该领域。在过去几年中,大型语言模型的规模每年增加10倍,而且随着这些模型的复杂程度和规模的增加,其性能也在不断发展。
     大型语言模型阶段从2023年起,目的是让机器能听懂人的命令、遵循人的价值观。其特性是在第一个阶段把过去的两个阶段缩成一个预训练阶段,第二阶段转换成与人的价值观对齐,而不是向领域迁移。这个阶段的突变性是很高的,已经从专用任务转向通用任务,或是以自然语言人机接口的方式呈现。
    目前,在大型语言模型方面主要有两个优势:一是技术,另一是数据。由于大型语言模型在当今世界掀起热潮,人工智能技术的发展获得里程碑式的突破,并产生了广泛的影响。正如我国著名学者周海中先生在20世纪90年代初所预言的那样:“人工智能技术将广泛应用到各学科领域,会产生意想不到的效果。”
文/吴汶燕(作者单位:同济大学软件学院)
有帮助
--
没帮助
--
分享到:
下一篇:没有了