鞭牛士 9月7日消息,由机械工业出版社出版,声网研究院组编的实时互动行业书籍《读懂实时互动》8月27日正式发售上架,目前,该书已登陆京东、当当等各大电商平台及实体书店。
本书从开始策划到正式出版历时两年,涵盖实时互动的发展历程、概念解析、技术原理、应用场景、大数据观察等五个部分,全面介绍了实时互动究竟是什么?是如何从 RTC 实时音视频演变来的?其背后的技术原理是什么?目前 RTE 已经落地了多少个应用场景?等诸多内容。
本书还准备了丰富且实用的配套资源,包括与实时互动相关的图表、图谱、行业发展报告和白皮书等电子文档。
值得一提的是,该书获得了Granite Asia 高级管理合伙人Jixun Foo、CSDN 创始人兼董事长蒋涛、五源资本创始合伙人刘芹、36氪创始人兼董事长刘成城、清华大学教授李东红、北京大学教授马思伟、西北工业大学教授谢磊等联合力荐。
RTE实时互动作为一种未来数字生活的基础设施,已经全面深入人们的社交、娱乐、工作、购物等方方面面,并撬动各行各业的价值增长。甚至在当下的AIGC热潮中,实时互动也在扮演重要角色,推动人与AI的交互方式从文本升级为音频、视频的多模态。
借书发布之际,鞭牛士也与声网就RTE应用在各方面进行了交流。
AIGC被认为是当前的技术革命。谈到RTE与AIGC相结合,声网表示,AIGC与RTE的结合,将为人与AI的交互带来全新的改变,例如AI可以更能听得懂用户的提问,人与AI的语音交互延迟更低,交流更加自然、智能。
另一方面,在RTE的加持下,AIGC应用场景也将迎来爆发,RTC 技术的接入将推动当下较常见的 AI口语老师、AI客服、AI社交陪聊等场景的 AI交互体验进一步升级,学生的学习效率更高,社交陪聊场景的娱乐性与沉浸感也进一步增强。以AI语音助手为例,通过多模态大模型+RTC,能够让用户与AI助手进行1v1实时语音对话。通过 Prompt (AI指令或AI提示词)为助手设置丰富的人设,配合RTC的超低延迟传输,能够让AI像真实的助手一样互动,提供帮助。
同时,在游戏社交、AI分身、实时语音翻译等场景,对话式多模态大模型也大有可为。例如,在狼人杀、谁是卧底等场景,AI NPC角色虽然已经在应用,但是AI的痕迹还是较为明显。在大模型具备实时语音交互能力后,谁是卧底中的 AI 角色可以做到快速的推理并发言,再搭配语音仿真技术,有望做到AI角色的以假乱真。
在书中第四章《实时互动万象图谱》中,谈到了实时互动在泛娱乐行业的应用,并解析了多种场景中实现实时互动的技术难点。其中,在直播带货盛行的时代,实时互动在直播拍卖、产地直播、主播带货直播、主播之间PK等多种场景中起到了不可或缺的作用,攻克了各种技术难点。
例如产地直播,很多海边的渔民为了强化原产地的卖点,获取消费者的深度信任,需要直播自己出海打鱼的过程,然后在直播间销售海鲜。这对直播间对音视频传输质量要求很高,在实时互动应用的情况下,直播间确保延时低至500ms,高质量、高稳定的音视频通话体验。单频道内需要支持最高百万人并发的要求,网络架构设计能够应对10倍以上符合,轻松应对用户流量突增,保障了视频第一帧画面的出图时间达到秒级出图。
除了书中相关内容的交流,声网也谈到了在AIGC的浪潮之下的机遇和挑战。声网表示,在AIGC领域,以GPT-4o为首的多模态大模型的出现,推动了人与AI交互方式从文本升级为音频、视频,目前国内外的大模型厂商也纷纷加速集成RTC技术,以实现人与AI的实时音视频通话,对于声网以及RTC行业而言,这也是一个全新的机遇与挑战,实时互动的场景从人人交互进一步延伸到人机交互。
声网认为,RTC 技术的应用让对话式大模型的交互更智能,更具真实感。低延时的快速响应让人与AI的互动更接近人与人之间的实时对话,更自然。语音还能识别说话人的情绪、语调,视频能识别人的表情与所处的环境,最终输出更精准、更智能的回答。但同时多模态大模型能力的不断进化,对于RTC厂商也带来了一些技术挑战,在延迟、抗弱网、机型适配等指标方面需要不断优化,以适应不同的大模型,给用户带来完美的AI交互体验。
今年是声网成立10周年,声网表示,作为全球实时互动云行业的开创者,一直以“帮助人们跨越距离实时互动,如聚一堂”为使命,致力于通过高质量的实时音视频技术服务,全面提升人们的实时互动体验,为社交、教育、金融、医疗等行业赋能,推动经济、社会的发展。
