これは シャーガー(Terrence)の最初のハードウェア作品です。
👉 ESP32+SenseVoice+Qwen72Bで AI チャット仲間を作ろう!【bilibili】
👉 シャオジーに DeepSeek のスマートな頭脳を搭載【bilibili】
👉 自分だけの AI パートナーを作る、初心者向けガイド【bilibili】
このプロジェクトは MIT ライセンスの下で公開されているオープンソースプロジェクトで、商用利用を含め、誰でも自由に使用することができます。
このプロジェクトを通じて、より多くの人々が AI ハードウェア開発を始め、急速に進化している大規模言語モデルを実際のハードウェアデバイスに実装する方法を理解できるようになることを目指しています。AI に興味のある学生でも、新しい技術を探求する開発者でも、このプロジェクトから貴重な学習経験を得ることができます。
プロジェクトの開発と改善には誰でも参加できます。アイデアや提案がありましたら、Issue を立てるかチャットグループにご参加ください。
学習・交流 QQ グループ:946599635
- Wi-Fi / ML307 Cat.1 4G
- BOOT ボタンによる起動と中断、クリックと長押しの2種類のトリガーに対応
- オフライン音声起動 ESP-SR
- ストリーミング音声対話(WebSocket または UDP プロトコル)
- 5言語対応:標準中国語、広東語、英語、日本語、韓国語 SenseVoice
- 話者認識、AI の名前を呼んでいる人を識別 3D Speaker
- 大規模モデル TTS(Volcano Engine または CosyVoice)
- 大規模言語モデル(Qwen, DeepSeek, Doubao)
- 設定可能なプロンプトと音声トーン(カスタムキャラクター)
- 短期記憶、各会話ラウンド後の自己要約
- OLED / LCD ディスプレイ、信号強度や会話内容を表示
- LCD での画像表情表示に対応
- 多言語対応(中国語、英語)
Feishu ドキュメントチュートリアルをご覧ください:
ブレッドボードのデモ:
- LiChuang ESP32-S3 開発ボード
- Espressif ESP32-S3-BOX3
- M5Stack CoreS3
- AtomS3R + Echo Base
- AtomMatrix + Echo Base
- マジックボタン 2.4
- Waveshare ESP32-S3-Touch-AMOLED-1.8
- LILYGO T-Circle-S3
- XiaGe Mini C3
- Moji シャオジー AI 派生版
初心者の方は、まず開発環境のセットアップなしでフラッシュできるファームウェアを使用することをお勧めします。
ファームウェアはデフォルトで公式 xiaozhi.me サーバーに接続します。現在、個人ユーザーはアカウントを登録することで、Qwen リアルタイムモデルを無料で使用できます。
- Cursor または VSCode
- ESP-IDF プラグインをインストール、SDK バージョン 5.3 以上を選択
- Linux は Windows より好ましい(コンパイルが速く、ドライバーの問題も少ない)
- Google C++ コードスタイルを使用、コード提出時にはコンプライアンスを確認
シャオジー AI チャットボットデバイスをお持ちの場合は、xiaozhi.me コンソールで設定できます。
個人のコンピュータでのサーバーデプロイメントについては、同じく MIT ライセンスで公開されている別のプロジェクト xiaozhi-esp32-server を参照してください。