今日头条升级灵犬反低俗助手，新增图片识别功能

2019-07-30 16:43

鞭牛士 7月30日报道，今日头条宣布正式推出新版灵犬反低俗助手（以下简称“灵犬”），同时支持图片和文本识别。这是时隔半年后，“灵犬”的又一次重要升级。

“灵犬”脱胎于今日头条反低俗模型，是一款检测内容健康度的辅助小工具，致力于打击低俗低质内容，净化网络空间。用户目前可以在今日头条内，搜索“灵犬”进行试用。

今日，字节跳动人工智能实验室总监王长虎对外介绍了“灵犬”背后的技术原理。

据了解，在文本识别领域，新版“灵犬”同时应用了“Bert”和半监督技术，训练数据集包含920万个样本，准确率提升至91%。在图片识别领域，“灵犬”采用深度学习作为解决方案，在数据、模型、计算力等方面均做了针对性优化。

“灵犬”使用人次超300万

王长虎认为，低俗的定义相对笼统，很难完全精确地定义出来，这项工作即使对人来说也不容易，交给机器做更难实现，而在当前内容创作和消费海量增长的趋势下，纯靠人工解决，效率低，无法有效满足用户需求。

字节跳动人工智能实验室总监王长虎

新版“灵犬”重点拓展了反低俗识别类型和模型能力，现已覆盖图片识别（反色情低俗、反血腥暴力）和文本识别（反色情低俗、反暴力谩骂、反标题党）。后续还将支持语音识别和视频识别。

此前一年时间内，“灵犬”已陆续完成两次迭代。2018年3月28日，今日头条首次上线“灵犬”，支持检测文字和文章链接。2018年5月16日，“灵犬”完成服务能力升级，增加反色情短文本模型和反谩骂模型，将准确率从73%提升至82%。2019年2月20日，“灵犬2.0”正式上线，除了反色情低俗模型，加入反暴力谩骂和反标题党模型，覆盖了主要的低俗低质内容类型，整体识别准确率接近85%。截至2019年6月，灵犬反低俗助手的使用人次已经超过了300万。

用户只需要在“灵犬”内输入一段文字或文章链接，“灵犬”就可以帮助其检测内容健康指数，返回一个鉴定结果。图片和图片链接检测同理，用户在“灵犬”内上传图片或图片链接，即可快速获取鉴定结果。

“灵犬”背后的技术迭代

据王长虎介绍，“灵犬”背后的文本分类模型，已经经过了三次迭代。每个新版本相对于旧版本，在技术和数据集层面，都有一个明显的跃升。

第一代“灵犬”，应用的是“词向量”和“CNN（卷积神经网络）”技术，训练数据集包含350万数据样本，对随机样本的预测准确率达到79%。第二代“灵犬”，应用的是“LSTM（长短期记忆）”和“Attention”技术，训练数据集包含840万数据样本，准确率提升至85%。

新版“灵犬”同时应用了“Bert”和半监督技术，并且在此基础上使用了专门的中文语料，在不牺牲效果的情况调整了模型结构，使得计算效率能达到实用水平。“Bert”是当前最先进的自然语言处理技术，是该领域近年来重大进展的集大成者。这项技术在常见的阅读理解、语义蕴含、问答、相关性等各项任务上，大幅提高了性能。

这一代“灵犬”训练数据集总量是1.2个T，相当于20倍百度百科或100倍维基百科的数据总量，包含920万个样本，准确率提升至91%。

一些技术难以搞定的问题，现阶段还有赖于人工判断。此外是因为使用场景、人群不同而导致标准变动的案例。

王长虎说，“针对低俗判断问题的复杂性和不同判断方式的局限性，一方面需要不断进化技术模型，一方面需要有效结合技术和人工判断两种方式。”

当前，“灵犬”建设了比较完善的模型迭代系统。通过“数据收集—数据标注—数据清洗—模型训练—模型评估—badcase分析”这一套完整的流程，持续做优化。

扫码下载app 最新资讯实时掌握

灵犬

上一篇华为董事长梁华演讲实录：迎难而上，对未来充满信心

下一篇蚂蚁金服蒋国飞：支付宝要用区块链彻底消灭“萝卜章、假合同”