xiaozhi-esp32-server

ESP32Python活跃开发中

xiaozhi-esp32-server是为开源智能硬件项目xiaozhi-esp32提供的后端服务，根据小智通信协议使用Python实现，帮助您快速搭建小智服务器。

适用人群

本项目需要配合ESP32硬件设备使用。如果您已经购买了ESP32相关硬件，且成功对接过虾哥部署的后端服务，并希望独立搭建自己的xiaozhi-esp32后端服务，那么本项目非常适合您。

⚠️ 重要提示

本项目为开源软件，与对接的任何第三方API服务商（包括但不限于语音识别、大模型、语音合成等平台）均不存在商业合作关系，不为其服务质量及资金安全提供任何形式的担保。建议使用者优先选择持有相关业务牌照的服务商，并仔细阅读其服务协议及隐私政策。本软件不托管任何账户密钥、不参与资金流转、不承担充值资金损失风险。
本项目成立时间较短，还未通过网络安全测评，请勿在生产环境中使用。如果您在公网环境中部署学习本项目，请务必在配置文件config.yaml中开启防护。

核心特性

🔄

通信协议

基于xiaozhi-esp32协议，通过WebSocket实现数据交互

💬

对话交互

支持唤醒对话、手动对话及实时打断，长时间无对话时自动休眠

🧠

意图识别

支持使用LLM意图识别、function call函数调用，减少硬编码意图判断

🌐

多语言识别

支持国语、粤语、英语、日语、韩语（默认使用FunASR）

🤖

LLM模块

支持灵活切换LLM模块，默认使用ChatGLMLLM，也可选用阿里百炼、DeepSeek、Ollama等

🔊

TTS模块

支持EdgeTTS（默认）、火山引擎豆包TTS等多种TTS接口，满足语音合成需求

📝

记忆功能

支持超长记忆、本地总结记忆、无记忆三种模式，满足不同场景需求

🏠

IOT功能

支持管理注册设备IOT功能，支持基于对话上下文语境下的智能物联网控制

🖥️

智控台

提供Web管理界面，支持智能体管理、用户管理、系统配置等功能

部署方式

本项目提供两种部署方式，请根据您的具体需求选择：

部署方式	特点	适用场景
最简化安装	智能对话、IOT功能，数据存储在配置文件	低配置环境，无需数据库
全模块安装	智能对话、IOT、OTA、智控台，数据存储在数据库	完整功能体验

详细部署文档请参考：

支持平台列表

xiaozhi-esp32-server支持丰富的第三方平台和组件：

LLM 语言模型

接口调用

支持平台：阿里百炼、火山引擎豆包、深度求索、智谱ChatGLM、Gemini、Ollama、Dify、Fastgpt、Coze

免费平台：智谱ChatGLM、Gemini

实际上，任何支持openai接口调用的LLM均可接入使用

TTS 语音合成

接口调用

支持平台：EdgeTTS、火山引擎豆包TTS、腾讯云、阿里云TTS、CosyVoiceSiliconflow、TTS302AI、CozeCnTTS、GizwitsTTS、ACGNTTS、OpenAITTS

免费平台：EdgeTTS、CosyVoiceSiliconflow(部分)

本地服务

支持平台：FishSpeech、GPT_SOVITS_V2、GPT_SOVITS_V3、MinimaxTTS

免费平台：FishSpeech、GPT_SOVITS_V2、GPT_SOVITS_V3、MinimaxTTS

ASR 语音识别

接口调用

支持平台：DoubaoASR

本地服务

支持平台：FunASR、SherpaASR

免费平台：FunASR、SherpaASR

参与贡献

xiaozhi-esp32-server是一个活跃的开源项目，欢迎贡献代码或提交问题反馈：

xiaozhi-esp32-server ​

适用人群 ​

⚠️ 重要提示

核心特性 ​

通信协议

对话交互

意图识别

多语言识别

LLM模块

TTS模块

记忆功能

IOT功能

智控台

部署方式 ​

支持平台列表 ​

LLM 语言模型 ​

接口调用

TTS 语音合成 ​

接口调用

本地服务

ASR 语音识别 ​

接口调用

本地服务

更多组件 ​

参与贡献 ​

xiaozhi-esp32-server

适用人群

核心特性

部署方式

支持平台列表

LLM 语言模型

TTS 语音合成

ASR 语音识别

更多组件

参与贡献