Support not using external buffers for node-addon (#925)

csukuangfj · web-flow · commit b1c7d04ce207 · 2024-05-28T11:50:23.000+08:00
diff --git a/.github/scripts/node-addon/run.sh b/.github/scripts/node-addon/run.sh
@@ -18,7 +18,7 @@ fi
 SHERPA_ONNX_VERSION=$(grep "SHERPA_ONNX_VERSION" ./CMakeLists.txt  | cut -d " " -f 2  | cut -d '"' -f 2)
 echo "SHERPA_ONNX_VERSION $SHERPA_ONNX_VERSION"
 
-# SHERPA_ONNX_VERSION=1.0.25
+# SHERPA_ONNX_VERSION=1.0.27
 
 if [ -z $owner ]; then
   owner=k2-fsa
diff --git a/.github/workflows/npm-addon.yaml b/.github/workflows/npm-addon.yaml
@@ -55,7 +55,7 @@ jobs:
 
           SHERPA_ONNX_VERSION=$(grep "SHERPA_ONNX_VERSION" ./CMakeLists.txt  | cut -d " " -f 2  | cut -d '"' -f 2)
           echo "SHERPA_ONNX_VERSION $SHERPA_ONNX_VERSION"
-          # SHERPA_ONNX_VERSION=1.0.25
+          # SHERPA_ONNX_VERSION=1.0.27
 
           src_dir=.github/scripts/node-addon
           sed -i.bak s/SHERPA_ONNX_VERSION/$SHERPA_ONNX_VERSION/g $src_dir/package.json
diff --git a/nodejs-addon-examples/package.json b/nodejs-addon-examples/package.json
@@ -1,5 +1,5 @@
 {
   "dependencies": {
-    "sherpa-onnx-node": "^1.0.25"
+    "sherpa-onnx-node": "^1.0.27"
   }
 }
diff --git a/nodejs-addon-examples/test_tts_non_streaming_vits_coqui_de.js b/nodejs-addon-examples/test_tts_non_streaming_vits_coqui_de.js
@@ -24,7 +24,12 @@ const tts = createOfflineTts();
 const text = 'Alles hat ein Ende, nur die Wurst hat zwei.'
 
 let start = Date.now();
-const audio = tts.generate({text: text, sid: 0, speed: 1.0});
+const audio = tts.generate({
+  text: text,
+  sid: 0,
+  speed: 1.0,
+  enableExternalBuffer: true,
+});
 let stop = Date.now();
 const elapsed_seconds = (stop - start) / 1000;
 const duration = audio.samples.length / audio.sampleRate;
diff --git a/scripts/check_style_cpplint.sh b/scripts/check_style_cpplint.sh
@@ -99,7 +99,7 @@ function do_check() {
       ;;
     2)
       echo "Check all files"
-      files=$(find $sherpa_onnx_dir/sherpa-onnx -name "*.h" -o -name "*.cc")
+      files=$(find $sherpa_onnx_dir/sherpa-onnx/csrc $sherpa_onnx_dir/sherpa-onnx/python $sherpa_onnx_dir/scripts/node-addon-api/src $sherpa_onnx_dir/sherpa-onnx/jni $sherpa_onnx_dir/sherpa-onnx/c-api -name "*.h" -o -name "*.cc")
       ;;
     *)
       echo "Check last commit"
diff --git a/scripts/node-addon-api/lib/speaker-identification.js b/scripts/node-addon-api/lib/speaker-identification.js
@@ -18,9 +18,9 @@ class SpeakerEmbeddingExtractor {
   }
 
   // return a float32 array
-  compute(stream) {
+  compute(stream, enableExternalBuffer = true) {
     return addon.speakerEmbeddingExtractorComputeEmbedding(
-        this.handle, stream.handle);
+        this.handle, stream.handle, enableExternalBuffer);
   }
 }
 
diff --git a/scripts/node-addon-api/lib/vad.js b/scripts/node-addon-api/lib/vad.js
@@ -11,8 +11,9 @@ class CircularBuffer {
   }
 
   // return a float32 array
-  get(startIndex, n) {
-    return addon.circularBufferGet(this.handle, startIndex, n);
+  get(startIndex, n, enableExternalBuffer = true) {
+    return addon.circularBufferGet(
+        this.handle, startIndex, n, enableExternalBuffer);
   }
 
   pop(n) {
@@ -48,23 +49,23 @@ config = {
   }
 
   acceptWaveform(samples) {
-    addon.voiceActivityDetectorAcceptWaveform(this.handle, samples)
+    addon.voiceActivityDetectorAcceptWaveform(this.handle, samples);
   }
 
   isEmpty() {
-    return addon.voiceActivityDetectorIsEmpty(this.handle)
+    return addon.voiceActivityDetectorIsEmpty(this.handle);
   }
 
   isDetected() {
-    return addon.voiceActivityDetectorIsDetected(this.handle)
+    return addon.voiceActivityDetectorIsDetected(this.handle);
   }
 
   pop() {
-    addon.voiceActivityDetectorPop(this.handle)
+    addon.voiceActivityDetectorPop(this.handle);
   }
 
   clear() {
-    addon.VoiceActivityDetectorClearWrapper(this.handle)
+    addon.VoiceActivityDetectorClearWrapper(this.handle);
   }
 
   /*
@@ -73,12 +74,12 @@ config = {
   start: a int32
 }
    */
-  front() {
-    return addon.voiceActivityDetectorFront(this.handle)
+  front(enableExternalBuffer = true) {
+    return addon.voiceActivityDetectorFront(this.handle, enableExternalBuffer);
   }
 
   reset() {
-    return addon.VoiceActivityDetectorResetWrapper(this.handle)
+    return addon.VoiceActivityDetectorResetWrapper(this.handle);
   }
 }
 
diff --git a/scripts/node-addon-api/src/non-streaming-tts.cc b/scripts/node-addon-api/src/non-streaming-tts.cc
@@ -2,6 +2,7 @@
 //
 // Copyright (c)  2024  Xiaomi Corporation
 
+#include <algorithm>
 #include <sstream>
 
 #include "macros.h"  // NOLINT
@@ -265,6 +266,13 @@ static Napi::Object OfflineTtsGenerateWrapper(const Napi::CallbackInfo &info) {
     return {};
   }
 
+  bool enable_external_buffer = true;
+  if (obj.Has("enableExternalBuffer") &&
+      obj.Get("enableExternalBuffer").IsBoolean()) {
+    enable_external_buffer =
+        obj.Get("enableExternalBuffer").As<Napi::Boolean>().Value();
+  }
+
   Napi::String _text = obj.Get("text").As<Napi::String>();
   std::string text = _text.Utf8Value();
   int32_t sid = obj.Get("sid").As<Napi::Number>().Int32Value();
@@ -273,20 +281,37 @@ static Napi::Object OfflineTtsGenerateWrapper(const Napi::CallbackInfo &info) {
   const SherpaOnnxGeneratedAudio *audio =
       SherpaOnnxOfflineTtsGenerate(tts, text.c_str(), sid, speed);
 
-  Napi::ArrayBuffer arrayBuffer = Napi::ArrayBuffer::New(
-      env, const_cast<float *>(audio->samples), sizeof(float) * audio->n,
-      [](Napi::Env /*env*/, void * /*data*/,
-         const SherpaOnnxGeneratedAudio *hint) {
-        SherpaOnnxDestroyOfflineTtsGeneratedAudio(hint);
-      },
-      audio);
-  Napi::Float32Array float32Array =
-      Napi::Float32Array::New(env, audio->n, arrayBuffer, 0);
-
-  Napi::Object ans = Napi::Object::New(env);
-  ans.Set(Napi::String::New(env, "samples"), float32Array);
-  ans.Set(Napi::String::New(env, "sampleRate"), audio->sample_rate);
-  return ans;
+  if (enable_external_buffer) {
+    Napi::ArrayBuffer arrayBuffer = Napi::ArrayBuffer::New(
+        env, const_cast<float *>(audio->samples), sizeof(float) * audio->n,
+        [](Napi::Env /*env*/, void * /*data*/,
+           const SherpaOnnxGeneratedAudio *hint) {
+          SherpaOnnxDestroyOfflineTtsGeneratedAudio(hint);
+        },
+        audio);
+    Napi::Float32Array float32Array =
+        Napi::Float32Array::New(env, audio->n, arrayBuffer, 0);
+
+    Napi::Object ans = Napi::Object::New(env);
+    ans.Set(Napi::String::New(env, "samples"), float32Array);
+    ans.Set(Napi::String::New(env, "sampleRate"), audio->sample_rate);
+    return ans;
+  } else {
+    // don't use external buffer
+    Napi::ArrayBuffer arrayBuffer =
+        Napi::ArrayBuffer::New(env, sizeof(float) * audio->n);
+
+    Napi::Float32Array float32Array =
+        Napi::Float32Array::New(env, audio->n, arrayBuffer, 0);
+
+    std::copy(audio->samples, audio->samples + audio->n, float32Array.Data());
+
+    Napi::Object ans = Napi::Object::New(env);
+    ans.Set(Napi::String::New(env, "samples"), float32Array);
+    ans.Set(Napi::String::New(env, "sampleRate"), audio->sample_rate);
+    SherpaOnnxDestroyOfflineTtsGeneratedAudio(audio);
+    return ans;
+  }
 }
 
 void InitNonStreamingTts(Napi::Env env, Napi::Object exports) {
diff --git a/scripts/node-addon-api/src/speaker-identification.cc b/scripts/node-addon-api/src/speaker-identification.cc
@@ -1,6 +1,7 @@
 // scripts/node-addon-api/src/speaker-identification.cc
 //
 // Copyright (c)  2024  Xiaomi Corporation
+#include <algorithm>
 #include <sstream>
 
 #include "macros.h"  // NOLINT
@@ -175,9 +176,9 @@ static Napi::Boolean SpeakerEmbeddingExtractorIsReadyWrapper(
 static Napi::Float32Array SpeakerEmbeddingExtractorComputeEmbeddingWrapper(
     const Napi::CallbackInfo &info) {
   Napi::Env env = info.Env();
-  if (info.Length() != 2) {
+  if (info.Length() != 2 && info.Length() != 3) {
     std::ostringstream os;
-    os << "Expect only 2 arguments. Given: " << info.Length();
+    os << "Expect only 2 or 3 arguments. Given: " << info.Length();
 
     Napi::TypeError::New(env, os.str()).ThrowAsJavaScriptException();
 
@@ -199,6 +200,16 @@ static Napi::Float32Array SpeakerEmbeddingExtractorComputeEmbeddingWrapper(
     return {};
   }
 
+  bool enable_external_buffer = true;
+  if (info.Length() == 3) {
+    if (info[2].IsBoolean()) {
+      enable_external_buffer = info[2].As<Napi::Boolean>().Value();
+    } else {
+      Napi::TypeError::New(env, "Argument 2 should be a boolean.")
+          .ThrowAsJavaScriptException();
+    }
+  }
+
   SherpaOnnxSpeakerEmbeddingExtractor *extractor =
       info[0].As<Napi::External<SherpaOnnxSpeakerEmbeddingExtractor>>().Data();
 
@@ -210,14 +221,29 @@ static Napi::Float32Array SpeakerEmbeddingExtractorComputeEmbeddingWrapper(
 
   int32_t dim = SherpaOnnxSpeakerEmbeddingExtractorDim(extractor);
 
-  Napi::ArrayBuffer arrayBuffer = Napi::ArrayBuffer::New(
-      env, const_cast<float *>(v), sizeof(float) * dim,
-      [](Napi::Env /*env*/, void *data) {
-        SherpaOnnxSpeakerEmbeddingExtractorDestroyEmbedding(
-            reinterpret_cast<float *>(data));
-      });
+  if (enable_external_buffer) {
+    Napi::ArrayBuffer arrayBuffer = Napi::ArrayBuffer::New(
+        env, const_cast<float *>(v), sizeof(float) * dim,
+        [](Napi::Env /*env*/, void *data) {
+          SherpaOnnxSpeakerEmbeddingExtractorDestroyEmbedding(
+              reinterpret_cast<float *>(data));
+        });
+
+    return Napi::Float32Array::New(env, dim, arrayBuffer, 0);
+  } else {
+    // don't use external buffer
+    Napi::ArrayBuffer arrayBuffer =
+        Napi::ArrayBuffer::New(env, sizeof(float) * dim);
+
+    Napi::Float32Array float32Array =
+        Napi::Float32Array::New(env, dim, arrayBuffer, 0);
 
-  return Napi::Float32Array::New(env, dim, arrayBuffer, 0);
+    std::copy(v, v + dim, float32Array.Data());
+
+    SherpaOnnxSpeakerEmbeddingExtractorDestroyEmbedding(v);
+
+    return float32Array;
+  }
 }
 
 static Napi::External<SherpaOnnxSpeakerEmbeddingManager>
diff --git a/scripts/node-addon-api/src/vad.cc b/scripts/node-addon-api/src/vad.cc
diff --git a/scripts/node-addon-api/src/wave-reader.cc b/scripts/node-addon-api/src/wave-reader.cc

Original file line number	Diff line number	Diff line change
`@@ -1,5 +1,5 @@`
`1`	`1`	`{`
`2`	`2`	`"dependencies": {`
`3`		`- "sherpa-onnx-node": "^1.0.25"`
	`3`	`+ "sherpa-onnx-node": "^1.0.27"`
`4`	`4`	`}`
`5`	`5`	`}`
Original file line number	Diff line number	Diff line change
`@@ -18,9 +18,9 @@ class SpeakerEmbeddingExtractor {`
`18`	`18`	`}`
`19`	`19`
`20`	`20`	`// return a float32 array`
`21`		`- compute(stream) {`
	`21`	`+ compute(stream, enableExternalBuffer = true) {`
`22`	`22`	`return addon.speakerEmbeddingExtractorComputeEmbedding(`
`23`		`- this.handle, stream.handle);`
	`23`	`+ this.handle, stream.handle, enableExternalBuffer);`
`24`	`24`	`}`
`25`	`25`	`}`
`26`	`26`
Original file line number	Diff line number	Diff line change
`@@ -11,8 +11,9 @@ class CircularBuffer {`
`11`	`11`	`}`
`12`	`12`
`13`	`13`	`// return a float32 array`
`14`		`- get(startIndex, n) {`
`15`		`- return addon.circularBufferGet(this.handle, startIndex, n);`
	`14`	`+ get(startIndex, n, enableExternalBuffer = true) {`
	`15`	`+ return addon.circularBufferGet(`
	`16`	`+ this.handle, startIndex, n, enableExternalBuffer);`
`16`	`17`	`}`
`17`	`18`
`18`	`19`	`pop(n) {`
`@@ -48,23 +49,23 @@ config = {`
`48`	`49`	`}`
`49`	`50`
`50`	`51`	`acceptWaveform(samples) {`
`51`		`- addon.voiceActivityDetectorAcceptWaveform(this.handle, samples)`
	`52`	`+ addon.voiceActivityDetectorAcceptWaveform(this.handle, samples);`
`52`	`53`	`}`
`53`	`54`
`54`	`55`	`isEmpty() {`
`55`		`- return addon.voiceActivityDetectorIsEmpty(this.handle)`
	`56`	`+ return addon.voiceActivityDetectorIsEmpty(this.handle);`
`56`	`57`	`}`
`57`	`58`
`58`	`59`	`isDetected() {`
`59`		`- return addon.voiceActivityDetectorIsDetected(this.handle)`
	`60`	`+ return addon.voiceActivityDetectorIsDetected(this.handle);`
`60`	`61`	`}`
`61`	`62`
`62`	`63`	`pop() {`
`63`		`- addon.voiceActivityDetectorPop(this.handle)`
	`64`	`+ addon.voiceActivityDetectorPop(this.handle);`
`64`	`65`	`}`
`65`	`66`
`66`	`67`	`clear() {`
`67`		`- addon.VoiceActivityDetectorClearWrapper(this.handle)`
	`68`	`+ addon.VoiceActivityDetectorClearWrapper(this.handle);`
`68`	`69`	`}`
`69`	`70`
`70`	`71`	`/*`
`@@ -73,12 +74,12 @@ config = {`
`73`	`74`	`start: a int32`
`74`	`75`	`}`
`75`	`76`	`*/`
`76`		`- front() {`
`77`		`- return addon.voiceActivityDetectorFront(this.handle)`
	`77`	`+ front(enableExternalBuffer = true) {`
	`78`	`+ return addon.voiceActivityDetectorFront(this.handle, enableExternalBuffer);`
`78`	`79`	`}`
`79`	`80`
`80`	`81`	`reset() {`
`81`		`- return addon.VoiceActivityDetectorResetWrapper(this.handle)`
	`82`	`+ return addon.VoiceActivityDetectorResetWrapper(this.handle);`
`82`	`83`	`}`
`83`	`84`	`}`
`84`	`85`