声网《读懂实时互动》新书重磅发布

鞭牛士 2024-09-07 20:06

鞭牛士 9月7日消息，由机械工业出版社出版，声网研究院组编的实时互动行业书籍《读懂实时互动》8月27日正式发售上架，目前，该书已登陆京东、当当等各大电商平台及实体书店。

本书从开始策划到正式出版历时两年，涵盖实时互动的发展历程、概念解析、技术原理、应用场景、大数据观察等五个部分，全面介绍了实时互动究竟是什么？是如何从 RTC 实时音视频演变来的？其背后的技术原理是什么？目前 RTE 已经落地了多少个应用场景？等诸多内容。

本书还准备了丰富且实用的配套资源，包括与实时互动相关的图表、图谱、行业发展报告和白皮书等电子文档。

值得一提的是，该书获得了Granite Asia 高级管理合伙人Jixun Foo、CSDN 创始人兼董事长蒋涛、五源资本创始合伙人刘芹、36氪创始人兼董事长刘成城、清华大学教授李东红、北京大学教授马思伟、西北工业大学教授谢磊等联合力荐。

RTE实时互动作为一种未来数字生活的基础设施，已经全面深入人们的社交、娱乐、工作、购物等方方面面，并撬动各行各业的价值增长。甚至在当下的AIGC热潮中，实时互动也在扮演重要角色，推动人与AI的交互方式从文本升级为音频、视频的多模态。

借书发布之际，鞭牛士也与声网就RTE应用在各方面进行了交流。

AIGC被认为是当前的技术革命。谈到RTE与AIGC相结合，声网表示，AIGC与RTE的结合，将为人与AI的交互带来全新的改变，例如AI可以更能听得懂用户的提问，人与AI的语音交互延迟更低，交流更加自然、智能。

另一方面，在RTE的加持下，AIGC应用场景也将迎来爆发，RTC 技术的接入将推动当下较常见的 AI口语老师、AI客服、AI社交陪聊等场景的 AI交互体验进一步升级，学生的学习效率更高，社交陪聊场景的娱乐性与沉浸感也进一步增强。以AI语音助手为例，通过多模态大模型+RTC，能够让用户与AI助手进行1v1实时语音对话。通过 Prompt (AI指令或AI提示词)为助手设置丰富的人设，配合RTC的超低延迟传输，能够让AI像真实的助手一样互动，提供帮助。

同时，在游戏社交、AI分身、实时语音翻译等场景，对话式多模态大模型也大有可为。例如，在狼人杀、谁是卧底等场景，AI NPC角色虽然已经在应用，但是AI的痕迹还是较为明显。在大模型具备实时语音交互能力后，谁是卧底中的 AI 角色可以做到快速的推理并发言，再搭配语音仿真技术，有望做到AI角色的以假乱真。

在书中第四章《实时互动万象图谱》中，谈到了实时互动在泛娱乐行业的应用，并解析了多种场景中实现实时互动的技术难点。其中，在直播带货盛行的时代，实时互动在直播拍卖、产地直播、主播带货直播、主播之间PK等多种场景中起到了不可或缺的作用，攻克了各种技术难点。

例如产地直播，很多海边的渔民为了强化原产地的卖点，获取消费者的深度信任，需要直播自己出海打鱼的过程，然后在直播间销售海鲜。这对直播间对音视频传输质量要求很高，在实时互动应用的情况下，直播间确保延时低至500ms，高质量、高稳定的音视频通话体验。单频道内需要支持最高百万人并发的要求，网络架构设计能够应对10倍以上符合，轻松应对用户流量突增，保障了视频第一帧画面的出图时间达到秒级出图。

除了书中相关内容的交流，声网也谈到了在AIGC的浪潮之下的机遇和挑战。声网表示，在AIGC领域，以GPT-4o为首的多模态大模型的出现，推动了人与AI交互方式从文本升级为音频、视频，目前国内外的大模型厂商也纷纷加速集成RTC技术，以实现人与AI的实时音视频通话，对于声网以及RTC行业而言，这也是一个全新的机遇与挑战，实时互动的场景从人人交互进一步延伸到人机交互。

声网认为，RTC 技术的应用让对话式大模型的交互更智能，更具真实感。低延时的快速响应让人与AI的互动更接近人与人之间的实时对话，更自然。语音还能识别说话人的情绪、语调,视频能识别人的表情与所处的环境,最终输出更精准、更智能的回答。但同时多模态大模型能力的不断进化，对于RTC厂商也带来了一些技术挑战，在延迟、抗弱网、机型适配等指标方面需要不断优化，以适应不同的大模型，给用户带来完美的AI交互体验。

今年是声网成立10周年，声网表示，作为全球实时互动云行业的开创者，一直以“帮助人们跨越距离实时互动，如聚一堂”为使命，致力于通过高质量的实时音视频技术服务，全面提升人们的实时互动体验，为社交、教育、金融、医疗等行业赋能，推动经济、社会的发展。

扫码下载app 最新资讯实时掌握

声网 实时互动

上一篇谷歌反垄断第二案开审，被指独占广告技术市场多达91%

下一篇垂直软件，才是AI的终极未来