桌面机器人,作为人工智能领域中一个充满潜力的分支,正逐渐成为我们日常生活中的伙伴。它们不仅能够提供信息查询、陪伴关怀等实用功能,还能以更加人性化的方式与我们互动,成为我们工作和娱乐的好帮手。
本文以聆思CSK6大模型开发板为例,讲解怎么定义人设、修改发音人音色、增加技能、挂载私有知识库、让您的桌面小伙伴更加智能、更加贴近用户的需求。
1、个性人设塑造
功能描述:
个性塑造功能支持设置设备的交互风格,包括对话风格、语调语速等,增加个性化体验。支持更改“大模型的自我认知”设定,让其展示特定的个性特征,适应不同用户的喜好。
自定义自我认知示例:
• 角色和关系:定义AI助手为“智能助手”或“朋友”,并设定与用户的关系,比如“智能助手与朋友”。
• 背景故事:设定背景,如由聆思工程师创造,增加亲和力。
• 个人喜好和语言风格:添加兴趣(如“喜欢自然”)和轻松友好的语调,提升人性化互动。
通过这些设定,AI助手可以呈现独特的“个性”,增进用户的交互体验。
2、发音人(音色)更换功能
功能描述:
大模型语音回复提供多种音色,以满足多样化需求。通过在聆思平台上的“应用模板中心”添加“大模型语音交互模板”,可以实现发音人更换功能,使应用语音更加灵活、个性化。
操作步骤:
- 进入聆思平台的“应用模板中心”,找到并添加“大模型语音交互模板”。
- 在“我的应用”中点击新建的大模型语音交互模板,进入配置页面。
- 在配置界面的“回复设定”部分,找到“发音人”设置选项,共有八种不同音色的发音人供选择。开发者可以根据用户需求选定合适的发音人。
-可调节发音人的音量和语速,参数范围为0-10,支持更精细化的音效调整,满足不同交互场景的需求。
3、增加语音技能
功能描述:
语音技能模块提供了常用AIUI技能配置选项,例如选择即刻生效。
操作步骤:
-在应用配置页面找到“技能配置”模块。
-点击进入后,可以选择配置以下语音技能:
- **计算器**:支持基本的四则运算功能,用户可以通过语音计算数值。
- **查询股票**:实时获取股票市场数据,提供简易的市场查询。
- **查询天气**:提供天气预报信息。
- **博报新闻**:播报实时新闻,方便用户了解时事。
开发者可以根据应用场景和用户需求配置所需的技能模块,丰富语音交互功能。
部分AIUI技能需要对应的互联网内容版权,例如音乐、白噪音、儿歌等,此处可以演示技能,但购买对应版权后才可以播放具体内容。
4、关联知识库
功能描述:
通过关联知识库,设备可以将预先配置的知识内容加载到交互模板中,提供信息查询、知识解答等功能,适用于学习助手、产品介绍等需信息支持的场景。
操作步骤:
- 在左边栏“知识库”中上传知识库文件,直接在应用配置中关联相关知识库,确保语音交互模板可以调用知识库内容。
- 可调整以下参数:
- **阈值**:设置召回文本切片的最低相似度分数,分数低于阈值的切片将不会被召回。调低阈值增加召回数量但降低相关性;调高则有助于提高召回内容的相关性。
- **知识点数量**:设置可被检索的文本切片数,影响大模型的参考信息量。增加知识点数量提供更多信息,但可能增加处理时间和资源消耗。
5、其他功能简介
语义VAD和后端点时长设置:
语义VAD(语义活动检测)结合语义信息识别语音的起始和结束,后端点时长通常设置为600ms,以确保捕捉到完整语音,减少不必要的中断。600ms平衡了处理延迟与语音流畅度,让用户有更自然的交互体验。
历史对话:
上下文记忆
用于AI在对话中记住之前的内容。开启时,AI可追溯多轮对话历史,连贯性更佳;关闭时,AI每次会话视为独立。记忆轮数参数决定了AI能记住多少轮对话,常用设置为3轮,平衡性能与对话流畅度。
智能记忆
AI分析对话向量,存储关键信息并在数据库中匹配历史记录。向量数据库用于存储超出记忆轮数的对话记录。开启此功能,AI即使在长对话中也能保持对历史的记忆,关闭则限于当前对话轮次。
端侧交互体验优化(非必须):
由于唤醒提示音播放的是开发板本地文件,云端更改发音人后,如果本地唤醒回复音色不协调,可以自行删除和更改唤醒提示音.
**删除本地回复音频的操作**
在开发环境中,通过 VS Code 打开项目 SDK(路径示例:'duomotai_ap\apps\LLM_pic\’),进入 `resource/tone` 目录并删除对应唤醒提示音频文件,同时注释掉代码中 `app_player_start(TONE_PLAYER, "/lfs/对应文件名.mp3");` 的相关调用。确保更改生效并验证设备运行正常且已无本地唤醒音。
以上就是自定制聊天机器人/AI智能语音助理的常用操作,聆思CSK6 大模型开发板其他更多玩法、例如更换大模型、添加优化知识库、自定义流程、控制设备等请参考之前发布的博客,也可以私信、评论或在技术群交流。