实操用CSK6大模型开发板打造一个能说会唱的桌面聊天机器人/AI语音智能助理

桌面机器人，作为人工智能领域中一个充满潜力的分支，正逐渐成为我们日常生活中的伙伴。它们不仅能够提供信息查询、陪伴关怀等实用功能，还能以更加人性化的方式与我们互动，成为我们工作和娱乐的好帮手。

本文以聆思CSK6大模型开发板为例，讲解怎么定义人设、修改发音人音色、增加技能、挂载私有知识库、让您的桌面小伙伴更加智能、更加贴近用户的需求。

1、个性人设塑造

功能描述：

个性塑造功能支持设置设备的交互风格，包括对话风格、语调语速等，增加个性化体验。支持更改“大模型的自我认知”设定，让其展示特定的个性特征，适应不同用户的喜好。

自定义自我认知示例：

• 角色和关系：定义AI助手为“智能助手”或“朋友”，并设定与用户的关系，比如“智能助手与朋友”。

• 背景故事：设定背景，如由聆思工程师创造，增加亲和力。

• 个人喜好和语言风格：添加兴趣（如“喜欢自然”）和轻松友好的语调，提升人性化互动。

通过这些设定，AI助手可以呈现独特的“个性”，增进用户的交互体验。

2、发音人(音色)更换功能

功能描述：

大模型语音回复提供多种音色，以满足多样化需求。通过在聆思平台上的“应用模板中心”添加“大模型语音交互模板”，可以实现发音人更换功能，使应用语音更加灵活、个性化。

操作步骤：

- 进入聆思平台的“应用模板中心”，找到并添加“大模型语音交互模板”。

- 在“我的应用”中点击新建的大模型语音交互模板，进入配置页面。

- 在配置界面的“回复设定”部分，找到“发音人”设置选项，共有八种不同音色的发音人供选择。开发者可以根据用户需求选定合适的发音人。

-可调节发音人的音量和语速，参数范围为0-10，支持更精细化的音效调整，满足不同交互场景的需求。

3、增加语音技能

功能描述：

语音技能模块提供了常用AIUI技能配置选项，例如选择即刻生效。

操作步骤：

-在应用配置页面找到“技能配置”模块。

-点击进入后，可以选择配置以下语音技能：

- **计算器**：支持基本的四则运算功能，用户可以通过语音计算数值。

- **查询股票**：实时获取股票市场数据，提供简易的市场查询。

- **查询天气**：提供天气预报信息。

- **博报新闻**：播报实时新闻，方便用户了解时事。

开发者可以根据应用场景和用户需求配置所需的技能模块，丰富语音交互功能。

部分AIUI技能需要对应的互联网内容版权，例如音乐、白噪音、儿歌等，此处可以演示技能，但购买对应版权后才可以播放具体内容。

4、关联知识库

功能描述：

通过关联知识库，设备可以将预先配置的知识内容加载到交互模板中，提供信息查询、知识解答等功能，适用于学习助手、产品介绍等需信息支持的场景。

操作步骤：

- 在左边栏“知识库”中上传知识库文件，直接在应用配置中关联相关知识库，确保语音交互模板可以调用知识库内容。

- 可调整以下参数：

- **阈值**：设置召回文本切片的最低相似度分数，分数低于阈值的切片将不会被召回。调低阈值增加召回数量但降低相关性；调高则有助于提高召回内容的相关性。

- **知识点数量**：设置可被检索的文本切片数，影响大模型的参考信息量。增加知识点数量提供更多信息，但可能增加处理时间和资源消耗。

5、其他功能简介

语义VAD和后端点时长设置：

语义VAD（语义活动检测）结合语义信息识别语音的起始和结束，后端点时长通常设置为600ms，以确保捕捉到完整语音，减少不必要的中断。600ms平衡了处理延迟与语音流畅度，让用户有更自然的交互体验。

历史对话：

上下文记忆

用于AI在对话中记住之前的内容。开启时，AI可追溯多轮对话历史，连贯性更佳；关闭时，AI每次会话视为独立。记忆轮数参数决定了AI能记住多少轮对话，常用设置为3轮，平衡性能与对话流畅度。

智能记忆

AI分析对话向量，存储关键信息并在数据库中匹配历史记录。向量数据库用于存储超出记忆轮数的对话记录。开启此功能，AI即使在长对话中也能保持对历史的记忆，关闭则限于当前对话轮次。

端侧交互体验优化（非必须）：

由于唤醒提示音播放的是开发板本地文件，云端更改发音人后，如果本地唤醒回复音色不协调，可以自行删除和更改唤醒提示音.

**删除本地回复音频的操作**

在开发环境中，通过 VS Code 打开项目 SDK（路径示例：'duomotai_ap\apps\LLM_pic\’），进入 `resource/tone` 目录并删除对应唤醒提示音频文件，同时注释掉代码中 `app_player_start(TONE_PLAYER, "/lfs/对应文件名.mp3");` 的相关调用。确保更改生效并验证设备运行正常且已无本地唤醒音。