21世纪经济报道记者江月 上海报道让数字人专业导引客户、让机器视觉在工业生产线上发挥监测功能……人工智能正在生产、生活中大量进行应用落地。为何人工智能可以实现拟人效果,又为何能批量化推开大规模应用?这归功于算法研究。
9月2日在世界人工智能大会“认知智能 改变世界”主题论坛上,来自类脑科学、电子工程、数学等领域的专家,讨论了认知科学对算法的推动作用。
当前,人工智能界按照自然语言、知识推理、机器视觉等分类,展开了算法研究,不断推陈出新相关模型和框架,推进“含智量”提升。实现算法突破的关键在何处?
在论坛上,华院计算创始人、董事长宣晓华在与21世纪经济报道记者专访中,介绍了算法研究和训练的关键点。他还指出,将认知科学运用到算法研究中,将改善神经网络模型的推理能力。
21财经:华院计算对人工智能进行了哪些类型的算法研究?
宣晓华:华院计算在感知智能技术基础上,融入了偏态学习、小样本学习、鲁棒学习及行为概率知识图谱等技术,以实现理解、推理和决策等认知智能能力。具体来说:
在机器视觉方面,我们通过构建基于minimax(极小极大)的分布鲁棒学习算法框架,实现了小样本和偏态分布情形下的图像理解和生成,在智能制造、虚拟数字人等领域得到了广泛的应用和验证。
在自然语言方面,我们在大规模预训练模型基础上发展和优化了文本向量化技术,有效实现了小样本情形下的理解与生成能力,在智慧司法、金融保险等领域得到了较好的应用。
在知识推理方面,我们将常识图谱和行为概率性知识图谱引入生成模型,实现了问答机器人具备同理心和内在性格一致性,大幅度提升了问答质量,在服务问答等领域取得了很好的效果。
21财经:神经网络被认为深度学习的基石,然而这有什么不足,如何加以改进?
宣晓华:我们认为认知智能的终极目标是机器能够理解符号所代表的深层意义,可以进行推理,进而做出决策。
这样的智能系统不必依赖大数据也能进行自我学习,它可以像人类那样根据极少的数据进行概念归纳与知识提取,并运用这些高度概括的知识实现新任务的快速学习。
因此,华院计算认为实现认知智能不仅仅是将大数据输入神经网络模型中,期待模型自动学习获得,而是需要像人那样更加有效的利用数据,并能够融会贯通。
认知科学是研究这个问题的学科,通过利用认知科学关于人类以及动物大脑的研究成果,对神经网络进行优化设计,就有可能加速认知智能的实现。
21财经:认知科学的应用具体是什么?
宣晓华:我们在三方面将认知科学引入了算法研究。
针对人类小样本学习的能力,我们提出了一套基于非线性期望的极小极大(minimax)算法,利用极大平均场重新定义了损失函数,模拟人类面对不均衡样本的解决方法,有效克服了样本集不平衡、非独立同分布的问题。
关于行为的理解与推理,我们以认知心理学实验结果为基础建立了关于人类行为的概率知识图谱,并以此实现机器对于人类行为的快速理解与推理。
关于决策方面,我们构建了一套基于复杂网络与强化学习的智能决策系统,对于人和事进行关系型建模,通过引入内在驱动力机制以及模拟智能体与复杂环境进行交互,实现基于认知的决策能力。
总之,华院计算理解的认知智能算法,是大量引入认知科学的研究成果,来优化神经网络的设计,以使其更加具备实现认知智能的潜力。
21财经:有关数字人技术,市场对其效果还有很多争议,例如它能实际解决的问题有限、互动缺乏等。请问哪些NLP(自然语言处理)的重要模型以及视觉模型是最关键的?
宣晓华:数字人的实际应用场景还在不断探索中,目前的数字孪生、虚拟引擎等技术在医疗、娱乐、文旅等多个领域已经慢慢铺展开来。当然,更多的场景还要依赖技术的进步,类似互动缺乏问题也是正在攻克的难点之一。
从NLP来说,对话模型非常关键,它与认知、表达、常识、知识、个性化等都紧密相关。从视觉模型来说,面像2D/3D场景的生成模型,如何让虚拟人的表达更自然、表情更丰富、动作更流畅都依赖于生成模型。
21财经:“大模型”概念正在流行,也有不少中国公司和研究者取得了相关成就。大模型的研究挑战在何处?它对行业将产生什么影响?
宣晓华:近年,大模型在性能上取得一系列突破,参数量不断升级,已经达到10万亿级别,大模型的发展使得人工智能在多个领域取得了重要进展,给人工智能带来了更多易用的开源平台。当然,大模型的研究也遇到了一些挑战,主要表现在如下几个方面:
首先,大模型需要消耗庞大的数据、算力、算法等各种软硬件资源。其次,大模型尚缺乏统一的评价标准和模块化流程。另外,大模型的创新性和应用价值取决于其泛化能力,并不是参数规模越大越好。
业界对大模型的未来期望,包括令它们在多领域落地通用应用、带来标准易用的工作流程。目前,基于大模型建立的更易用的开源平台也正在建立。
(图为华院计算创始人、董事长宣晓华,受访者提供)
21财经:目前进行算法研究和训练的主要挑战还有哪些?
宣晓华:目前进行算法研究的主要挑战在于实验数据和真实世界数据分布不一致性上。
实验数据通常比较干净且训练与测试数据分布一致,而真实世界数据往往存在偏态问题,例如样本少,正负样本不均衡,样本不再满足独立同分布条件等。这样会导致经典方法训练出来的模型巨大,泛化能力弱且鲁棒性差。
基于此,华院计算致力于发展一套基于偏态分布学习的鲁棒算法框架。利用小样本学习、鲁棒优化等方法一定程度上解决了该问题。
21财经:在国内的产业链条里,算法公司如何推动行业进步?国内如何出现世界领先水平的人工智能公司?
宣晓华:在人工智能产业链上,算法技术驱动着应用以及基础设施的发展。比如说,更先进的算法模型和框架,驱动应用层在不同场景里实现更优效果的商业化落地。
反过来,算法技术的可持续发展,也需要产业化的应用、足够的基础设施来支撑。例如,更先进的AI芯片、大数据服务,可以推动更复杂的算法模型和框架诞生。
如果要促使国内产生领先的人工智能公司,需要研发AI算法的公司、研制AI芯片的公司以及探索AI应用的公司结合起来,加强技术间的协同,产品间的互联互通,最终形成一个领先世界的产业体系。