ChatdollKitは、お好みの3Dモデルを使って音声対話可能なチャットボットを作るためのフレームワークです。 🇬🇧README in English is here
AzureStreamSpeechLister
を追加し、会話をよりスムーズなものにしました。SpeechSynthesizer
コンポーネントが導入されました。このコンポーネントはModel
パッケージに依存せず、プロジェクト間で再利用可能なため、キャラクター対話以外のあらゆるユースケースで利用することができます。セットアップ手順についてはこちらの動画をご覧いただくとより簡単に理解できます。ChatGPTと会話するデモシーンを動かせるまでの手順です: https://www.youtube.com/watch?v=rRtm18QSJtc
バージョン0.8のデモを実行するには、依存関係をインポートした後、以下の手順に従ってください:
Demo/Demo08
を開きます。AIAvatarVRM
オブジェクトを選択します。VRMモデルを使用したセットアップの手順は以下の通りです。VRChatのモデルを使用する場合の手順は、README v0.7.7を参照してください。
最新版のChatdollKit.unitypackageをダウンロードし、以下の依存関係をインポートした後、Unityプロジェクトにインポートしてください:
Burst
AzureStreamSpeechListener
)に必要です3Dモデルをシーンに追加し、好みに合わせて調整します。また、シェーダーなど、3Dモデルに必要なリソースをインストールします。
そして、アニメーションクリップをインポートします。このREADMEでは、デモでも使用されているAnime Girls Idle Animations Freeを使用します。プロ版の購入をおすすめします👍
ChatdollKit/Prefabs/AIAvatarVRM
プレハブをシーンに追加します。また、UIコンポーネントを使用するためにEventSystemを作成します。
ModelControllerのコンテキストメニューからSetup ModelController
を選択します。
ModelControllerのコンテキストメニューからSetup Animator
を選択し、アニメーションクリップを含むフォルダまたはその親フォルダを選択します。この場合、01_Idles
と03_Others
のアニメーションクリップをオーバーライドブレンディング用にBase Layer
に、02_Layers
をアディティブブレンディング用にAdditive Layer
に配置します。
次に、選択したフォルダに新しく作成されたAnimatorControllerのBase Layer
を確認します。アイドルアニメーションとして設定したい状態への遷移の値を確認します。
最後に、ModelControllerのインスペクタでIdle Animation Value
にその値を設定します。
AIAvatar
のインスペクタで、会話を開始するためのWake Word
(例:hello / こんにちは🇯🇵)、会話を停止するためのCancel Word
(例:stop / おしまい🇯🇵)、エラー発生時に表示されるError Voice
とError Face
(例:Something wrong / 調子が悪いみたい🇯🇵)を設定します。
Prefix / Suffix Allowance
は、ウェイクワードの前後に許容される追加文字の長さです。例えば、ウェイクワードが"Hello"で、許容値が4文字の場合、"Ah, Hello!"という語句もウェイクワードとして検出されます。
ChatdollKit/Scripts/LLM
から対応するLLMサービスのコンポーネントをアタッチし、APIキーやシステムプロンプトなどの必要なフィールドを設定します。この例ではChatGPTを使用していますが、フレームワークはClaude、Gemini、Difyもサポートしています。
音声認識用にChatdollKit/Scripts/SpeechListener
からSpeechListener
コンポーネントを、音声合成用にChatdollKit/Scripts/SpeechSynthesizer
からSpeechSynthesizer
コンポーネントをアタッチします。APIキーや言語コードなどの必要なフィールドを設定します。SpeechListenerの設定でPrintResult
を有効にすると、認識された音声がログに出力され、デバッグに役立ちます。
ChatdollKit/Prefabs/Runtime/MicrophoneController
をシーンに追加します。これにより、音声認識の最小音量を調整するUIが提供されます。周囲が騒がしい場合、スライダーを左にスライドさせることで騒音をフィルタリングできます。
Unityエディタの再生ボタンを押します。キャラクターが待機アニメーションと瞬きを開始するのが確認できます。
Wake Word
を話します(例:hello / こんにちは🇯🇵)。Enjoy👍
テキスト生成AIサービスとして、ChatGPT、Claude、Gemini、そしてDifyをサポートしています。試験的にCommand Rにも対応していますが、動作が安定しません。
LLMサービスを使用するには、ChatdollKit/Scripts/LLM
から該当するLLMServiceコンポーネントをAIAvatarオブジェクトにアタッチして、IsEnabled
にチェックを入れてください。すでに他のLLMServiceがアタッチされている場合、使用しないLLMServiceのIsEnabled
はチェックを外す必要がある点に注意してください。
アタッチしたLLMServiceには、APIキーやシステムプロンプトをはじめとして、その他パラメーターをインスペクター上で設定することができます。これらのパラメーターの意味や設定すべき値等についてはLLMのAPIリファレンスを参照してください。
会話の内容に合わせて、自律的に表情をコントロールすることができます。
表情をコントロールするには、AIからの応答に[face:表情名]
といったタグを含ませる必要があり、システムプロンプト等にその指示を含むことで実現することができます。以下はそのシステムプロンプトの例です。
You have four expressions: 'Joy', 'Angry', 'Sorrow', 'Fun' and 'Surprised'.
If you want to express a particular emotion, please insert it at the beginning of the sentence like [face:Joy].
Example
[face:Joy]Hey, you can see the ocean! [face:Fun]Let's go swimming.
表情の名前は、AIがそれからどのような表情なのか理解できる必要があります。 また、VRMモデルに定義された表情をそのまま操作しますので、大文字小文字の違いも含めて一致させるようにしてください。
会話の内容に合わせて、自律的に身振り手振り(以降、アニメーションといいます)をコントロールすることができます。
アニメーションをコントロールするには、AIからの応答に[anim:アニメーション名]
といったタグを含ませる必要があり、システムプロンプト等にその指示を含むことで実現することができます。以下はそのシステムプロンプトの例です。
You can express your emotions through the following animations:
- angry_hands_on_waist
- brave_hand_on_chest
- calm_hands_on_back
- concern_right_hand_front
- energetic_right_fist_up
- energetic_right_hand_piece
- pitiable_right_hand_on_back_head
- surprise_hands_open_front
- walking
- waving_arm
- look_away
- nodding_once
- swinging_body
If you want to express emotions with gestures, insert the animation into the response message like [anim:waving_arm].
Example
[anim:waving_arm]Hey, over here!
アニメーションの名前は、AIがそれからどのような身振り手振りなのか理解できる必要があります。
また、指定されたアニメーション名とAnimator Controller
に定義されたアニメーションを紐づけるため、以下の通り任意の箇所でコードベースでModelController
に登録する必要があります。
// Base
modelController.RegisterAnimation("angry_hands_on_waist", new Model.Animation("BaseParam", 0, 3.0f));
modelController.RegisterAnimation("brave_hand_on_chest", new Model.Animation("BaseParam", 1, 3.0f));
modelController.RegisterAnimation("calm_hands_on_back", new Model.Animation("BaseParam", 2, 3.0f));
modelController.RegisterAnimation("concern_right_hand_front", new Model.Animation("BaseParam", 3, 3.0f));
modelController.RegisterAnimation("energetic_right_fist_up", new Model.Animation("BaseParam", 4, 3.0f));
modelController.RegisterAnimation("energetic_right_hand_piece", new Model.Animation("BaseParam", 5, 3.0f));
modelController.RegisterAnimation("pitiable_right_hand_on_back_head", new Model.Animation("BaseParam", 7, 3.0f));
modelController.RegisterAnimation("surprise_hands_open_front", new Model.Animation("BaseParam", 8, 3.0f));
modelController.RegisterAnimation("walking", new Model.Animation("BaseParam", 9, 3.0f));
modelController.RegisterAnimation("waving_arm", new Model.Animation("BaseParam", 10, 3.0f));
// Additive
modelController.RegisterAnimation("look_away", new Model.Animation("BaseParam", 6, 3.0f, "AGIA_Layer_look_away_01", "Additive Layer"));
modelController.RegisterAnimation("nodding_once", new Model.Animation("BaseParam", 6, 3.0f, "AGIA_Layer_nodding_once_01", "Additive Layer"));
modelController.RegisterAnimation("swinging_body", new Model.Animation("BaseParam", 6, 3.0f, "AGIA_Layer_swinging_body_01", "Additive Layer"));
Animation Girl Idle Animationsまたはその無償版を利用している場合、以下のように簡単に登録することもできます。
modelController.RegisterAnimations(AGIARegistry.GetAnimations(animationCollectionKey));
キャラクターの発話に「間」を挿入することで、会話をより自然で人間らしくすることができます。
「間」の長さを制御するために、システムプロンプトを通じてAIの応答に [pause:秒数] タグを含めます。秒数はfloat値を指定することができ、そのポイントでの間の長さを正確に制御することができます。以下はシステムプロンプトの例です。
You can insert pauses in the character's speech to make conversations feel more natural and human-like.
Example:
Hey, it's a beautiful day outside! [pause:1.5] What do you think we should do?
表情やアニメーション以外に、開発者が定義したタグに応じた処理を実行することができます。
システムプロンプトで応答にタグを含ませるための指示をするとともに、任意の箇所にHandleExtractedTags
を実装します。
以下は、会話の内容に合わせて言語を自動的に切り替える場合の例です。
If you want change current language, insert language tag like [language:en-US].
Example:
[language:en-US]From now on, let's talk in English.
chatGPTService.HandleExtractedTags = (tags, session) =>
{
if (tags.ContainsKey("language"))
{
var language = tags["language"].Contains("-") ? tags["language"].Split('-')[0] : tags["language"];
if (language != "ja")
{
var openAISpeechSynthesizer = gameObject.GetComponent<OpenAISpeechSynthesizer>();
modelController.SpeechSynthesizerFunc = openAISpeechSynthesizer.GetAudioClipAsync;
}
else
{
var voicevoxSpeechSynthesizer = gameObject.GetComponent<VoicevoxSpeechSynthesizer>();
modelController.SpeechSynthesizerFunc = voicevoxSpeechSynthesizer.GetAudioClipAsync;
}
var openAIListener = gameObject.GetComponent<OpenAISpeechListener>();
openAIListener.Language = language;
Debug.Log($"Set language to {language}");
}
};
LLMへのリクエストにカメラやファイル等から取得した画像を含むことができます。
DialogProcessor.StartDialogAsync
の第二引数としてpayloads
の中にimageBytes
というキーで画像のバイナリーデータを含むようにしてください。
また、ユーザーの発話内容を処理するための画像が必要なときに自律的に画像を取得するようにすることができます。 AIからの応答に[vision:camera]というタグを含ませるようにシステムプロンプトに設定するとともに、このタグを受け取った際に呼び出される画像取得処理をLLM Serviceに実装してください。
You can use camera to get what you see.
When the user wants to you to see something, insert [vision:camera] into your response message.
Example
user: Look! I bought this today.
assistant: [vision:camera]Let me see.
gameObject.GetComponent<ChatGPTService>().CaptureImage = async (source) =>
{
if (simpleCamera != null)
{
try
{
return await simpleCamera.CaptureImageAsync();
}
catch (Exception ex)
{
Debug.LogError($"Error at CaptureImageAsync: {ex.Message}\n{ex.StackTrace}");
}
}
return null;
};
音声合成サービスとしてクラウドサービスとして提供されるGoogle、Azure、OpenAI、Watsonをサポートするほか、キャラクターとしてより魅力的な音声を提供するVOICEVOX、VOICEROID、Style-Bert-VITS2をサポートします。
音声合成サービスを使用するには、ChatdollKit/Scripts/SpeechSynthesizer
の各サービス名が含まれるSpeechSynthesizer
をAIAvatarオブジェクトにアタッチして、IsEnabled
にチェックを入れてください。すでに他のSpeechSynthesizerがアタッチされている場合、使用しないSpeechSynthesizerのIsEnabled
はチェックを外す必要がある点に注意してください。
アタッチしたSpeechSynthesizerには、APIキーやエンドポイントなどのパラメーターをインスペクター上で設定することができます。これらのパラメーターの意味や設定すべき値等については各TTSサービス・製品のAPIリファレンスを参照してください。
お好みの音声合成サービスを利用するために、カスタムのSpeechSynthesizerを簡単に作成・利用することができます。
ChatdollKit.Model.WebVoiceLoaderBase
を継承したクラスを作成し、発話文言のstring text
と各種パラメーターのDictionary<string, object> parameters
を引数にとり、Unityで再生可能なAudioClip
オブジェクトを返す非同期メソッドDownloadAudioClipAsync
を実装してください。
UniTask<AudioClip> DownloadAudioClipAsync(string text, Dictionary<string, object> parameters, CancellationToken token)
なおWebGLでは圧縮音源の再生をサポートしないため、必要ならばプラットフォームに応じて処理を分岐するなど対応するようにしましょう。
高速なレスポンスを実現するため、AIからの応答メッセージ全体を音声合成するのではなく、文章を句読点等で区切って順次音声合成・発話しています。
これは応答パフォーマンスを大幅に改善する一方で、特にStyle-Bert-VITS2などのAI音声合成を利用する場合、あまり細かく分割すると話し方やトーンの品質が犠牲になってしまいます。
このパフォーマンスと品質のバランスを両立するために、音声合成の区切り方をLLMContentSkill
コンポーネントインスペクター上で設定することができます。
項目 | 説明 |
---|---|
Split Chars | 区切文字。この文字で必ず区切って音声合成処理を行います。 |
Optional Split Chars | オプション区切り文字。原則として区切りませんが、文章の長さが次のMax Length Before Optional Split よりも長い場合に区切ります。 |
Max Length Before Optional Split | オプション区切り文字を区切り文字として使用する長さの閾値。 |
音声認識サービスとしてクラウドサービスとして提供されるGoogle、Azure、OpenAIをサポートしています。
音声認識サービスを使用するには、ChatdollKit/Scripts/SpeechListener
に含まれる各サービス名を冠したSpeechListener
をAIAvatarオブジェクトにアタッチしてください。複数のSpeechListenerをアタッチした場合、複数のSpeechListenerが並行して動作してしまいますのでご注意ください。
アタッチしたSpeechListnerには、APIキーやエンドポイントなどのパラメーターをインスペクター上で設定することができます。これらのパラメーターの意味や設定すべき値等については各STTサービス・製品のAPIリファレンスを参照してください。
Voice Recorder Settings
の各設定項目は、後述するAIAvatar
コンポーネントから制御されるため、以下を除いてインスペクター上での設定は無視されます。
項目 | 説明 |
---|---|
Auto Start | オンにすると、アプリケーションの起動時に音声認識を開始します |
Print Result | オンにすると、認識した音声を文字起こししたものをコンソールに出力します |
SpeechListnerに関連する設定の多くは、AIAvatar
コンポーネントのインスペクター上で設定します。
項目 | 説明 |
---|---|
Conversation Timeout | 会話の終了とみなすまでの待機時間(秒)。この時間を過ぎるとIdleモードに移行し、メッセージウィンドウが非表示になります。再び会話するにはウェイクワードの認識が必要です |
Idle Timeout | アイドル状態を終了してスリープモードに入るまでの待機時間(秒)。デフォルトではアイドルモードとスリープモードに違いはありませんが、音声認識の方式やアイドルアニメーションなどをユーザー実装で切り替えるのに利用することができます |
Voice Recognition Threshold DB | 音声認識のしきい値(デシベル)。この値以下の音声は認識されません |
Voice Recognition Raised Threshold DB | 音声認識の強化されたしきい値(デシベル)。より高い音量での発話を認識するためのしきい値です。これは後述するMicrophone Mute By の値をThreshold にした場合に利用されます |
Conversation Silence Duration Threshold | 指定した時間以上の無音が検出されると録音が終了し、その時点で音声認識が実行されます |
Conversation Min Recording Duration | 録音された音声が指定した時間以上の場合にのみ音声認識を実行します。これにより、短い物音などを無視して、誤認識を防ぎます |
Conversation Max Recording Duration | 録音された音声が指定した時間を超えると音声認識を行わず、録音を無視します。これにより、長すぎる音声が音声認識に負担をかけることを防止します |
Idle Silence Duration Threshold | アイドルモード時の録音終了までの無音時間(秒)。ウェイクワードの待ち受け状態では、短い無音をスムーズに識別するため小さな値を設定します |
Idle Min Recording Duration | アイドルモード時の最低録音時間。短いフレーズをスムーズに識別できるように、会話中よりも小さな値を設定します |
Idle Max Recording Duration | アイドルモード時の最長録音時間。ウェイクワードは通常短いため、会話中よりも短い値を設定します |
Microphone Mute By | 発話中にアバターの発話内容を音声認識させないための方式です。- None: 何もしません- Threshold: 音声認識の閾値をVoice Recognition Raised Threshold DB まで上昇させます- Mute: マイクからの入力音声を無視します- Stop Device: マイクデバイスを停止します- Stop Listener: リスナーを停止します。AzureStreamSpeechListenerを使用する場合はこれを選択してください
|
AzureStreamSpeechListener
を使用する場合は、他のSpeechListenerとは一部設定が異なります。これはAzureStreamSpeechListener
がSDK内部でマイクを制御していることや、文字起こしが逐次行われることに起因します。
Stop Listener
を選択してください。そうしないと、発話内容を聞き取ってしまい、会話が成立しません。Is Text Animated
のチェックを外し、Pre Gap
を0
、Post Gap
を0.2
程度にしてください。Update()
の中に追加してください。if (aiAvatar.Mode == AIAvatar.AvatarMode.Conversation)
{
if (!string.IsNullOrEmpty(azureStreamSpeechListener.RecognizedTextBuffer))
{
aiAvatar.UserMessageWindow.Show(azureStreamSpeechListener.RecognizedTextBuffer);
}
}
会話の開始トリガーとして、ウェイクワードを検知することができます。 また、会話の終了トリガーとなるキャンセルワードや、フレーズではなく認識した音声の長さをトリガーにする設定など、AIAvatarコンポーネントのインスペクターで設定することができます。
このフレーズを認識したときに会話を開始します。複数のウェイクワードを登録することができます。以下の項目以外は、v0.8以降では無視されます。
項目 | 説明 |
---|---|
Text | 会話を開始するトリガーとなる文言 |
Prefix / Suffix Allowance | ウェイクワードの前後に許容される追加文字の長さ。例えば、ウェイクワードが"こんにちは"で、許容値が4文字の場合、"やあ、こんにちは!"という語句もウェイクワードとして検出されます。 |
このフレーズを認識したときに会話を終了します。複数のキャンセルワードを登録することができます。
キャラクターが発話を停止し、ユーザーのリクエストを聞き始めます。複数の割り込みワードを登録することができます。(例:「待って」)
NOTE: この機能を使用するには、AIAvatarのインスペクターで Microphone Mute By
の項目から Threshold
を選択してください。キャラクターが話している間もChatdollKitがあなたの声を聞けるようになります。
認識した音声がウェイクワードやキャンセルワードかどうかの判定をする際に無視する文字列を登録します。たとえば句読点の有無を意識したくないときに利用します。
特定の文言ではなく、認識した文字列の長さで会話を開始することができます。値が0
のときこの機能は無効です。
たとえば、アイドルモードではウェイクワードではなく文字列長で会話を再開し、スリープモードではウェイクワードで会話を再開することで、断続的に会話が続く場合に煩わしさを解決することができます。
LLMでTool Call(Function Calling)がサポートされている場合、その機能を利用して呼び出す処理を定義・実装することができます。
LLMFunctionSkillBase
を継承したコンポーネントを作成してAIAvatarオブジェクトにアタッチすることで、自動的にツールとして識別され、必要に応じて実行されるようになります。
独自のスキルを作成するには、FunctionName
、FunctionDescription
を定義し、Functionの定義を返すGetToolSpec
メソッド、Functionの処理そのものであるExecuteFunction
メソッドを実装します。詳細はChatdollKit/Examples/WeatherSkill
を参考にしてください。
デバイス制御の仕組みを提供します。現時点ではマイクとカメラのみです。
マイクから音声を取得し、取得した音声の波形データを他のコンポーネントから利用するためのMicrophoneManager
コンポーネントを提供します。
基本的にはSpeechListenerからの利用を想定していますが、任意のユーザー実装プログラムからでもStartRecordingSession
を使用して録音セッションを登録し、利用することができます。
インスペクターで設定できる項目は以下の通りです。
項目 | 説明 |
---|---|
Sample Rate | サンプリングレートです。WebGLで使用する場合は44100としてください |
Noise Gate Threshold DB | ノイズゲートです。デシベルで指定します。AIAvatarコンポーネントと合わせて使用する場合は、AIAvatarコンポーネントからこの値を制御します |
Auto Start | アプリケーションの開始時にマイクからの音声取得をスタートします |
Is Debug | マイクの開始・終了やミュート・ミュート解除の際にログ出力します |
カメラからの画像取得やプレビューの表示、カメラの切り替えなどをパッケージ化したSimpleCamera
プレファブを提供します。
デバイスによるカメラの仕様の吸収の仕方が完璧ではなく、試験的な提供となります。詳細は当該プレファブやアタッチされているスクリプトを参照してください。
3Dモデルの身振り手振りや表情、発話を制御するModelController
コンポーネントを提供します。
AIAvatar
コンポーネントやLLMContentSkill
でもこれを利用しています。また、SpeechSynthesizer
はModelController
から利用されています。
待機中に相応しいモーションをループ実行します。実行したいモーションはAnimator Controllerのステートマシーンに登録して、ModelController
のインスペクター上でその遷移の条件となるパラメーター名をIdle Animation Key
、その値をIdle Animation Value
として登録する方法が最も簡単です。
複数のモーションを登録し、一定間隔でランダムに切り替えて実行するには、以下の通り任意の箇所でコードベースでAddIdleAnimation
メソッドを使って登録してください。第一引数は実行するAnimation
オブジェクト、weight
は出現確率の倍数、mode
は特定のモデルの状態に表示させたい場合にのみ指定します。また、Animation
のコンストラクターの第一引数はパラメーター名、第二引数が値、第三引数が継続時間(秒)です。
modelController.AddIdleAnimation(new Animation("BaseParam", 2, 5f));
modelController.AddIdleAnimation(new Animation("BaseParam", 6, 5f), weight: 2);
modelController.AddIdleAnimation(new Animation("BaseParam", 99, 5f), mode: "sleep");
作成中です。基本的にはAnimatedVoiceRequest
オブジェクトを作成して、ModelController.AnimatedSay
を呼び出します。
LLMContentSkill
の内部でアニメーション、表情、発話を組み合わせた要求をしていますので、参考にしてみて下さい。
音声対話型AIキャラクターアプリケーションでよく使用するUI部品をプレファブとして提供します。いずれもシーンに追加すれば使用できるようになります。設定項目等はデモを参考にしてください。
外部プログラムからソケット通信やJavaScriptの関数呼び出しによりChatdollKitアプリケーションにメッセージを送信することができます。
これにより、AI Vtuberの配信やリモートでのアバター接客、AIと人とのハイブリッドなキャラクター運用など新たなユースケースに活用することができます。ソケット通信を使用するにはChatdollKit/Scripts/Network/SocketServer
をAIAvatarオブジェクトにアタッチして任意のポート番号(8080等)を設定、またはJavaScriptから制御するにはChatdollKit/Scripts/IO/JavaScriptMessageHandler
をアタッチしてしてください。
また、ネットワーク経由で対話リクエストを処理するにはChatdollKit/Scripts/Dialog/DialogPriorityManager
を、AIによる応答の代わりに人が作成した任意の身振り手振り・表情・発話をキャラクターに実行させるためのリクエストを処理するにはChatdollKit/Scripts/Model/ModelRequestBroker
をAIAvatarオブジェクトにアタッチしてください。
以下は、上記の両方を使用するために任意の箇所に追加するコードベースの例です。
// Configure message handler for remote control
#pragma warning disable CS1998
#if UNITY_WEBGL && !UNITY_EDITOR
gameObject.GetComponent<JavaScriptMessageHandler>().OnDataReceived = async (message) =>
{
HandleExternalMessage(message, "JavaScript");
};
#else
gameObject.GetComponent<SocketServer>().OnDataReceived = async (message) =>
{
HandleExternalMessage(message, "SocketServer");
};
#endif
#pragma warning restore CS1998
private void HandleExternalMessage(ExternalInboundMessage message, string source)
{
// Assign actions based on the request's Endpoint and Operation
if (message.Endpoint == "dialog")
{
if (message.Operation == "start")
{
if (source == "JavaScript")
{
dialogPriorityManager.SetRequest(message.Text, message.Payloads, 0);
}
else
{
dialogPriorityManager.SetRequest(message.Text, message.Payloads, message.Priority);
}
}
else if (message.Operation == "clear")
{
dialogPriorityManager.ClearDialogRequestQueue(message.Priority);
}
}
else if (message.Endpoint == "model")
{
modelRequestBroker.SetRequest(message.Text);
}
}
SocketServer
はソケット通信で任意の情報を受け取るようになっているだけで、公式としてサポートするクライアントプログラムは提供していませんが、Pythonのサンプルコードを提供しています。
以下を参考に必要に応じて別の言語に読み替えたり他のプラットフォームに移植してみてください。
https://gist.github.com/uezo/9e56a828bb5ea0387f90cc07f82b4c15
さしあたっては以下のTipsを参考にしてください。加えてWebGL用のデモを公開予定です。
To use dlopen, you need to use Emscripten’s linking support, see https://github.com/kripken/emscripten/wiki/Linking
ChatdollMicrophone
を使いましょうChatdollKitでは以下のすばらしい素材・ツールを利用させていただいており、心から感謝申し上げます。