实时语音交互:依托 OpenAI Realtime API 实现端到端的语音到语音交互,支持边说边回,无需等待,能够维持超过 10 分钟的连续自然对话,交互流畅度接近真实聊天。
角色个性化定制:支持用户自定义 AI 角色的性格、语气及声音特征,使设备能够根据设定呈现不同的情绪反馈,具备独特的个性化表现。停舵机并使机器人趴下。如果机器人在做一些“怪异”的事,你可以按这个键让它停下。
跨平台兼容性:支持乐鑫 ESP32-S3开发板,内置 WiFi 管理、OTA 固件升级、音量控制、物理按钮/触摸唤醒、恢复出厂设置,还提供了完整的前端解决方案。frontend-nextjs/目录下的代码实现了响应式设计,确保在各种设备上都能获得一致的用户体验。
硬件设计:ElatoAI 项目基于ESP32-S3微控制器构建,展示了如何将麦克风、扬声器和LED等组件与ESP32无缝集成。
软件架构:ElatoAI的软件架构分为以下几个主要部分:
固件层:firmware-arduino/目录包含了ESP32上运行的固件代码,负责音频处理、网络连接和设备控制。
服务器层:server-deno/目录下的代码实现了基于Deno的边缘函数,处理AI模型调用和实时通信。
前端层:frontend-nextjs/目录包含了使用Next.js构建的用户界面,提供直观的交互体验。
数据库层:supabase/目录包含了项目使用的数据库迁移和配置文件,确保数据的可靠存储和检索。
管理后台,你可以通过Web管理后台轻松创建 AI 角色、选择声音、管理设备、查看实时转录
实时语音转语音 (Speech-to-Speech):由 OpenAI 的实时 API 驱动,实现瞬间语音转换。
创建自定义 AI 智能体:可以打造具有不同性格和声音的专属 AI 角色。
可定制的音色:提供多种声音和性格供你选择。
安全的 WebSockets:提供可靠且加密的 WebSocket 通信。
服务端 VAD 语音活动检测:智能处理对话流程,让互动更加丝滑顺畅。
Opus 音频压缩:以极低的带宽占用实现高质量的音频流传输。
全球边缘网络性能:低延迟的边缘函数(Edge Functions),确保全球范围内的对话无缝衔接。
ESP32 Arduino 框架:经过优化且易于上手的硬件集成方案。
对话历史查看:随时查看你的历史对话记录。
设备管理与身份验证:注册并管理你的硬件设备。
用户身份验证:安全的用户认证与授权机制。
基于 WebRTC 和 WebSockets 的对话:你可以在 NextJS 网页端通过 WebRTC 与 AI 畅聊,而在 ESP32 端则通过 WebSockets 连接。
音量控制:直接在 NextJS 网页端就能调节 ESP32 扬声器的音量。
实时转录文本:对话的实时转录内容会保存在 Supabase 数据库中。
OTA 空中升级:支持对 ESP32 固件进行无线远程更新。
通过 Captive Portal 管理 Wi-Fi:可以直接从 ESP32 设备端连接你的 Wi-Fi 网络。
恢复出厂设置:通过 NextJS 网页端即可将 ESP32 设备恢复出厂设置。
按键与触摸支持:可以使用物理按键或者触摸传感器来控制 ESP32 设备。
网页端 OAuth 登录:为你的用户提供 OAuth 登录,方便他们管理自己的 AI 角色和设备。
ElatoAI 通过将强大的AI语音能力带到嵌入式设备,为开发者和爱好者提供了一个充满创造力的平台。无论是构建教育工具、智能玩具还是工业解决方案,ElatoAI都为实时语音交互开辟了新的可能性。ElatoAI的应用场景很多:
教育工具:创建互动式学习助手,帮助学生学习新语言或复杂概念。
智能家居:打造个性化的语音控制中心,简化日常生活。
玩具与游戏:开发智能玩具,提供沉浸式游戏体验。
辅助技术:为有特殊需求的人群提供语音辅助工具。
工业应用:在工厂环境中实现语音控制的设备操作。
ElatoAI 开源项目地址:
https://github.com/akdeb/ElatoAI
如有IoT 源码采购和项目交付需求,请扫码联系小编,微信号:beacon0418
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...