150元搞定国产开源 AI 机器人，乐鑫ESP32+豆包、DeepSeek、OpenAI 、通义千问

ESP32-S3智能AI机器人在ESP32-S3开发板上运行豆包大模型，使用RTC连续对话，也可以搭载多种开源AI大模型( DeepSeek、OpenAI 、通义千问)等，通过对话角色自定义、海量知识库、长期记忆、语音声纹识别等功能，成为了一个真正“懂你”的AI助理。

本文演示如何快速搭建 ESP-ADF 环境、适配开发板、完成鉴权配置，以及通过 RTC 实现大模型对话。想了解豆包大模型的更多玩法，千万别错过！

ESP32豆包机器人架构

ESP32-豆包智能AI机器人支持两种模式，一个是唤醒对话模式，一个是普通模式：

唤醒对话模式是用户需要通过唤醒词去唤醒设备，唤醒后设备进入语音交互模式，用户可以与设备进行语音交互。默认的唤醒词是 Hi 乐鑫, 可以在 menuconfig -> ESP Speech Recognition → use wakenet → Select wake words 中去更换唤醒词
普通模式是用户无需唤醒词，直接与设备进行语音交互。

乐鑫 ESP-ADF 框架是专为音频应用设计的开发框架，基于其物联网开发框架ESP-IDF构建。它针对音频设备的开发需求，提供了丰富的音频组件，像音频编解码、CODEC 芯片驱动等，还能运行优化过的 3A 音频算法，无需额外 DSP 芯片，有效降低成本，从硬件驱动到上层应用的完整工具链和组件库，简化了音频产品的开发流程。

ESP-ADF仓库发布的豆包大模型的 WebRTC 组件基于 UDP 协议，传输速度更快、实时性更强，能更高效地利用带宽资源，未来还可应用于实时视频识别等场景。

在 ESP-ADF 框架下，音频处理借助灵活的 pipeline 完成。上行时，先采集音频，运行本地回声消除算法，接着 opus 编码，随后上传至服务端；

下行则是从服务器获取实时音频数据，经过 opus 解码还原，根据实际情况进行 resample，最终输出到音频设备。而且 pipeline 可随时暂停或继续播放，以此实现语音打断功能，保障音频交互流畅。

在 main 文件夹的 config.h 中配置 Wi-Fi 和大模型的鉴权信息。商业项目可以自行搭建服务器来分发 Token。在项目初期进行测试时，有两种方式获取 Token：一种是在控制台申请临时 Token；另一种是通过扣子服务器来请求 Token，获取 Token 后能确保设备正常接入大模型服务。

在完成上述操作后，要让设备和智能体进入 RTC 房间，这样才能实现与豆包大模型的对话。同时，还可以在控制台根据个人需求配置智能体的音色等选项，从而获得更个性化的交互体验。

ESP32智能AI机器人应用场景