65元，免费开源！实时AI语音伴侣，Arduino编程 ESP32开发板，支持DeepSeek、Qwen、豆包，跨设备无缝对话

ElatoAI 是一个开源免费的实时AI语音交互系统，采用Arduino 编程，运行在乐鑫 ESP32 主控制器上，通过安全WebSocket连接至部署在Deno边缘函数构建的服务端，通过OpenAI Realtime API等技术实现低成本、长时长、跨设备的自然对话体验，支持多种AI模型，包括OpenAI、Gemini、DeepSeek、Qwen、豆包等，降低了AI语音硬件的开发门槛，为智能玩具、AI伴侣等设备提供流畅、个性化的交互能力。

实时语音交互：依托 OpenAI Realtime API 实现端到端的语音到语音交互，支持边说边回，无需等待，能够维持超过 10 分钟的连续自然对话，交互流畅度接近真实聊天。
角色个性化定制：支持用户自定义 AI 角色的性格、语气及声音特征，使设备能够根据设定呈现不同的情绪反馈，具备独特的个性化表现。停舵机并使机器人趴下。如果机器人在做一些“怪异”的事，你可以按这个键让它停下。
跨平台兼容性：支持乐鑫 ESP32-S3开发板，内置 WiFi 管理、OTA 固件升级、音量控制、物理按钮/触摸唤醒、恢复出厂设置，还提供了完整的前端解决方案。frontend-nextjs/目录下的代码实现了响应式设计，确保在各种设备上都能获得一致的用户体验。

🤖 ElatoAI 架构设计

硬件设计：ElatoAI 项目基于ESP32-S3微控制器构建，展示了如何将麦克风、扬声器和LED等组件与ESP32无缝集成。

软件架构：ElatoAI的软件架构分为以下几个主要部分：

固件层：firmware-arduino/目录包含了ESP32上运行的固件代码，负责音频处理、网络连接和设备控制。
服务器层：server-deno/目录下的代码实现了基于Deno的边缘函数，处理AI模型调用和实时通信。
前端层：frontend-nextjs/目录包含了使用Next.js构建的用户界面，提供直观的交互体验。
数据库层：supabase/目录包含了项目使用的数据库迁移和配置文件，确保数据的可靠存储和检索。

管理后台，你可以通过Web管理后台轻松创建 AI 角色、选择声音、管理设备、查看实时转录

🌟ElatoAI 核心功能

实时语音转语音 (Speech-to-Speech)：由 OpenAI 的实时 API 驱动，实现瞬间语音转换。
创建自定义 AI 智能体：可以打造具有不同性格和声音的专属 AI 角色。
可定制的音色：提供多种声音和性格供你选择。
安全的 WebSockets：提供可靠且加密的 WebSocket 通信。
服务端 VAD 语音活动检测：智能处理对话流程，让互动更加丝滑顺畅。
Opus 音频压缩：以极低的带宽占用实现高质量的音频流传输。
全球边缘网络性能：低延迟的边缘函数（Edge Functions），确保全球范围内的对话无缝衔接。
ESP32 Arduino 框架：经过优化且易于上手的硬件集成方案。
对话历史查看：随时查看你的历史对话记录。
设备管理与身份验证：注册并管理你的硬件设备。
用户身份验证：安全的用户认证与授权机制。
基于 WebRTC 和 WebSockets 的对话：你可以在 NextJS 网页端通过 WebRTC 与 AI 畅聊，而在 ESP32 端则通过 WebSockets 连接。
音量控制：直接在 NextJS 网页端就能调节 ESP32 扬声器的音量。
实时转录文本：对话的实时转录内容会保存在 Supabase 数据库中。
OTA 空中升级：支持对 ESP32 固件进行无线远程更新。
通过 Captive Portal 管理 Wi-Fi：可以直接从 ESP32 设备端连接你的 Wi-Fi 网络。
恢复出厂设置：通过 NextJS 网页端即可将 ESP32 设备恢复出厂设置。
按键与触摸支持：可以使用物理按键或者触摸传感器来控制 ESP32 设备。
网页端 OAuth 登录：为你的用户提供 OAuth 登录，方便他们管理自己的 AI 角色和设备。