人工智能在内容安全的应用实践

随着网络强国战略思想、加强网络内容建设等指导思想的推出和强化，内容安全已经成为互联网企业生存和发展的生命线。然而，传统的内容技术已难以满足企业日益增长的安全需求，就拿图像来说，传统的色情识别技术为例，就经常会存在误判、错判、漏判等情况。

基于深度学习模型的图像分类，则可以实现更高的准确率，以及图像、内容文本实时处理。实时图像处理的背后是这样的一个技术架构在支撑：下载集群和并行计算，然后再经过色情模型、暴恐模型、涉政模型、广告模型等判断处理，最后给出结果处理。这一套流程下来，平均时长仅在500ms以内。

在文本内容识别上，之前的传统技术存在着：

变化多：垃圾变种形式多样。
内容重复率低；规则系统需要及时维护，庞大的规则库才能较好的拦截，人工审核量巨大。
内容短：1-2句话居多，词汇量少；常规的文本分类模型不适用。
语义：部分敏感词有多重语义；容易误判正常语境下的内容。
词序敏感：同样的词在不同词序下会有不同的语义；现有方法无法较好地处理这种问题。

而人工智能技术的应用则可以进行准确实时的文本处理，包括垃圾内容变种智能识别与修正、多重意义上下文短文本垃圾检测、Deep Learning垃圾检测等。其中垃圾内容变种智能识别与修正，能够结合上下文，智能识别同音、拼音、形近、拆字、符号等变形内容。通过事先收录的拼音库、形近字库、拆字库、符号库等字典，找出有变种嫌疑的内容，再结合上下文语境信息，使用Machine Learning技术判断是否变种并进行修正。汉字有几万个，人工收集形近字耗时耗力，而且不全面。通过算法计算汉字的相似度，快速找出所有的形近字，再进行人工确认，保证精准度。

此外，音频处理也是其中的重要影响因素。图像分类技术能够基于不同的语音场景分类，对语音事件进行检测和识别，并且返回文本进行文本过滤。基于以上的功能，谛听安全还做了定制化的模型，根据业务需要，将图像处理分为预处理、模型、策略三阶段。预处理阶段输入图像特征分析或质量分析后，会根据需要进入基础服务阶段或定制服务阶段。模型阶段下，基础分类网络下的数据将根据图像全局特征网略、一般网络、局部特征浅层网略进行模型整合和目标检测，定制分类网络则直接进入目标检测。

谛听帮助用户在语种识别、处理效率、安全标准提升、审核团队运营等方面不断实现能力提升，包括增加或即将增加全球性语种识别；提升直播、短视频的处理效率；密切配合监管部门，不断完善内容安全标准；并且不断优化审核系统、培养审核团队。

展开阅读全文

页面更新：2024-04-17

标签：语义上下文人工智能变种模型图像文本垃圾阶段内容技术容安全

1 2 3 4 5

人工智能在内容安全的应用实践

Elon Musk 说 Cybertruck 像是一艘船（有点像）

12GB+512GB跌至2229元，一亿像素+144Hz电竞屏，骁龙888+加速离场

新能源车如今疯狂涨价，大哥为何反其道花6万买台二手MINI？

牛人！武汉一快递小哥为提高派送效率，四年记住2700多个客户名字

海尔卡奥斯推动工业互联网建设，获“集群龙头企业代表”

“宁王”的IPO朋友圈：宁德时代是他们的大客户也是投资者

电动汽车能走进东北、西北吗

上亿辆新能源汽车，可化身“超级电池”？

不顾加密市场暴跌贝莱德(BLK.US)计划推出第二只加密货币ETF

小米米家冰柜 203L 今日开售：四档控温，到手价 899 元

蔚来宣布 ET5 量产车正式开启用户交付

全球能源供需失衡的根源与影响

9月30日早评，美股又暴跌了，北溪管线事件影响超过我们的想象

纳指跌近3%，特斯拉、苹果遭重挫，巴菲特再买西方石油

美国加息收割世界，为啥中国反而降息了？

中兴、电信研究院、信通院发布《可编程交换机测试技术

中兴、电信研究院、信通院发布《可编程交换机测试技术

中甲第三阶段结束！50分够冲超吗？24场只丢10球什么水平？

2022年中国智慧城市和可持续发展技术成熟度曲线

中国家族办公室报告(2022)：资产管理规模显著增长，行业仍

不同阶段宝宝奶量，你必须收藏

混动和纯电双驱动！比亚迪用技术创新助中国新能源汽车向

移动支付里的中国金融与科技演变十年进化史：技术、人与

「硬科技周报」第38周：电网级新型储能电池技术研发商“

标晚：任命技术总监，切尔西有意莱比锡主管维威尔