欢迎浏中国科技导报网!

网站地图

当前位置:中国科技导报 > 新闻 > 国内 > >

蜜度以大数据大模型推动内容勘误的智能化与实用性

时间:2023-01-03 11:00

来源:中国科技导报

编辑:晴川

伴随着数字内容产生方式的变化和数量的增长,以传统人工方式对数字内容进行快速审校的难度越来越大,亟需将人工智能相关技术手段引入到内容勘误过程...

伴随着数字内容产生方式的变化和数量的增长,以传统人工方式对数字内容进行快速审校的难度越来越大,亟需将人工智能相关技术手段引入到内容勘误过程中,对政府网站、官方媒体等内容生产部门发布的数字内容进行智能化审核把关,提前发现潜在的内容风险并加以规避。基于行业发展状况,2022年11月,中国通信标准化协会网络数据技术与标准推进委员会发布了《内容审核 第4部分:内容勘误服务系统指标要求和评估方法》,用于规定内容勘误服务系统的基本技术和服务指标要求,以期规范功能需求并推动内容勘误技术的发展。

如何满足标准的功能和技术要求,实现内容勘误技术的智能化和实用性,上海蜜度信息技术有限公司基于多年自主研发经验,形成了“大数据+大模型”叠加知识图谱的整体技术解决方案,并经过真实场景下的严格验证和持续应用,保障了一流的内容自动勘误效果。

所谓大数据是指构建形成大规模高质量的机器可学习训练集,通过让机器大量阅读问题句子和正确句子,学习到语言规律和语义背景。训练集构造和标注需要充分考虑语言特点和用户使用习惯,如:汉语的字形信息,发音信息,同义、对义、反义等语义信息,实词虚词等词元信息。同时,“蜜度校对通”提供了用户反馈机制,持续对典型的内容错误进行人工标记,通过自动和人工标注相结合的方式,目前形成了百亿规模的高质量可机器读取的有效训练数据。

大模型则是指学习网络的深度和宽度有一定规模,网络有足够的参数量,从而可以拥有将大规模数据进行理解和泛化的能力。“蜜度校对通”网络基础模型的总参数规模超过十亿,融合了错误序列标记和翻译生成逻辑,从而让勘误系统具有更好的智能体验。

此外,为清晰表达现实世界中的语义知识,实现对常识的自动勘误处理,“蜜度校对通”构建了专有的知识图谱,将人物、机构、地域、作品、法律法规等知识进行碎片化处理和语义化组织,并具备开放数据中的知识自动获取和融合的持续更新能力,进而结合实体关系识别和图谱关系推理,实现对常识的一致性检测和勘误处理。

在内容勘误应用能力上,“蜜度校对通”基于大数据大模型的技术路线形成了文字标点差错、知识性差错和内容导向风险识别三大校对方向26个细分小类的错误校对,能够满足新闻出版、网络媒体、政府公文等日常稿件的文字、图片和视频等多模态信息的检测和纠错需要,提升各行业文稿校对的效率和质量。

(“蜜度校对通”产品截图)

温馨提示:以上内容整理于网络,仅供参考,如果侵犯您的权益,请联系我们删除!
相关阅读
栏目排行
相关标签
内容推荐

关于我们 | 版权声明 | 广告服务 | 友情链接 | 联系我们 | 网站地图

Copyright © 2012-2020中国科技导报 版权所有 备案号:京ICP备123456789号
本站资料均来源互联网收集整理,作品版权归作者所有,如果侵犯了您的版权,请跟我们联系。

关注微信