Skip to content

xiaozhi-esp32-server

ESP32Python活跃开发中

xiaozhi-esp32-server是为开源智能硬件项目xiaozhi-esp32提供的后端服务,根据小智通信协议使用Python实现,帮助您快速搭建小智服务器。

适用人群

本项目需要配合ESP32硬件设备使用。如果您已经购买了ESP32相关硬件,且成功对接过虾哥部署的后端服务,并希望独立搭建自己的xiaozhi-esp32后端服务,那么本项目非常适合您。

⚠️ 重要提示

  1. 本项目为开源软件,与对接的任何第三方API服务商(包括但不限于语音识别、大模型、语音合成等平台)均不存在商业合作关系,不为其服务质量及资金安全提供任何形式的担保。建议使用者优先选择持有相关业务牌照的服务商,并仔细阅读其服务协议及隐私政策。本软件不托管任何账户密钥、不参与资金流转、不承担充值资金损失风险。
  2. 本项目成立时间较短,还未通过网络安全测评,请勿在生产环境中使用。如果您在公网环境中部署学习本项目,请务必在配置文件config.yaml中开启防护。

核心特性

🔄

通信协议

基于xiaozhi-esp32协议,通过WebSocket实现数据交互

💬

对话交互

支持唤醒对话、手动对话及实时打断,长时间无对话时自动休眠

🧠

意图识别

支持使用LLM意图识别、function call函数调用,减少硬编码意图判断

🌐

多语言识别

支持国语、粤语、英语、日语、韩语(默认使用FunASR)

🤖

LLM模块

支持灵活切换LLM模块,默认使用ChatGLMLLM,也可选用阿里百炼、DeepSeek、Ollama等

🔊

TTS模块

支持EdgeTTS(默认)、火山引擎豆包TTS等多种TTS接口,满足语音合成需求

📝

记忆功能

支持超长记忆、本地总结记忆、无记忆三种模式,满足不同场景需求

🏠

IOT功能

支持管理注册设备IOT功能,支持基于对话上下文语境下的智能物联网控制

🖥️

智控台

提供Web管理界面,支持智能体管理、用户管理、系统配置等功能

部署方式

本项目提供两种部署方式,请根据您的具体需求选择:

部署方式特点适用场景
最简化安装智能对话、IOT功能,数据存储在配置文件低配置环境,无需数据库
全模块安装智能对话、IOT、OTA、智控台,数据存储在数据库完整功能体验

详细部署文档请参考:

支持平台列表

xiaozhi-esp32-server支持丰富的第三方平台和组件:

LLM 语言模型

接口调用

支持平台:阿里百炼、火山引擎豆包、深度求索、智谱ChatGLM、Gemini、Ollama、Dify、Fastgpt、Coze

免费平台:智谱ChatGLM、Gemini

实际上,任何支持openai接口调用的LLM均可接入使用

TTS 语音合成

接口调用

支持平台:EdgeTTS、火山引擎豆包TTS、腾讯云、阿里云TTS、CosyVoiceSiliconflow、TTS302AI、CozeCnTTS、GizwitsTTS、ACGNTTS、OpenAITTS

免费平台:EdgeTTS、CosyVoiceSiliconflow(部分)

本地服务

支持平台:FishSpeech、GPT_SOVITS_V2、GPT_SOVITS_V3、MinimaxTTS

免费平台:FishSpeech、GPT_SOVITS_V2、GPT_SOVITS_V3、MinimaxTTS

ASR 语音识别

接口调用

支持平台:DoubaoASR

本地服务

支持平台:FunASR、SherpaASR

免费平台:FunASR、SherpaASR

更多组件

  • VAD语音活动检测:支持SileroVAD(本地免费使用)
  • 记忆存储:支持mem0ai(1000次/月额度)、mem_local_short(本地总结,免费)
  • 意图识别:支持intent_llm(通过大模型识别意图)、function_call(通过大模型函数调用完成意图)

参与贡献

xiaozhi-esp32-server是一个活跃的开源项目,欢迎贡献代码或提交问题反馈: