Add TTS for node-addon-api (#871)

csukuangfj · web-flow · commit 031134b4d4a1 · 2024-05-13T19:24:09.000+08:00
diff --git a/.github/scripts/test-nodejs-addon-npm.sh b/.github/scripts/test-nodejs-addon-npm.sh
@@ -6,6 +6,8 @@ d=nodejs-addon-examples
 echo "dir: $d"
 cd $d
 
+echo "----------streaming asr----------"
+
 curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2
 tar xvf sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2
 rm sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20.tar.bz2
@@ -31,6 +33,8 @@ rm sherpa-onnx-streaming-paraformer-bilingual-zh-en.tar.bz2
 node ./test_asr_streaming_paraformer.js
 rm -rf sherpa-onnx-streaming-paraformer-bilingual-zh-en
 
+echo "----------non-streaming asr----------"
+
 curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/asr-models/sherpa-onnx-zipformer-en-2023-04-01.tar.bz2
 tar xvf sherpa-onnx-zipformer-en-2023-04-01.tar.bz2
 rm sherpa-onnx-zipformer-en-2023-04-01.tar.bz2
@@ -58,3 +62,35 @@ rm sherpa-onnx-paraformer-zh-2023-03-28.tar.bz2
 
 node ./test_asr_non_streaming_paraformer.js
 rm -rf sherpa-onnx-paraformer-zh-2023-03-28
+
+echo "----------tts----------"
+
+curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/vits-piper-en_GB-cori-medium.tar.bz2
+tar xvf vits-piper-en_GB-cori-medium.tar.bz2
+rm vits-piper-en_GB-cori-medium.tar.bz2
+
+node ./test_tts_non_streaming_vits_piper_en.js
+rm -rf vits-piper-en_GB-cori-medium
+
+curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/vits-coqui-de-css10.tar.bz2
+tar xvf vits-coqui-de-css10.tar.bz2
+rm vits-coqui-de-css10.tar.bz2
+
+node ./test_tts_non_streaming_vits_coqui_de.js
+rm -rf vits-coqui-de-css10
+
+curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/sherpa-onnx-vits-zh-ll.tar.bz2
+tar xvf sherpa-onnx-vits-zh-ll.tar.bz2
+rm sherpa-onnx-vits-zh-ll.tar.bz2
+
+node ./test_tts_non_streaming_vits_zh_ll.js
+rm -rf sherpa-onnx-vits-zh-ll
+
+curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/vits-icefall-zh-aishell3.tar.bz2
+tar xvf vits-icefall-zh-aishell3.tar.bz2
+rm vits-icefall-zh-aishell3.tar.bz2
+
+node ./test_tts_non_streaming_vits_zh_aishell3.js
+rm -rf vits-icefall-zh-aishell3
+
+ls -lh
diff --git a/.github/workflows/npm-addon-linux-aarch64.yaml b/.github/workflows/npm-addon-linux-aarch64.yaml
@@ -94,7 +94,7 @@ jobs:
                 -DSHERPA_ONNX_ENABLE_BINARY=OFF \
                 ..
 
-              make -j
+              make -j2
               make install
               cd ..
 
diff --git a/.gitignore b/.gitignore
@@ -105,3 +105,4 @@ sherpa-onnx-ced-*
 node_modules
 package-lock.json
 sherpa-onnx-nemo-*
+sherpa-onnx-vits-*
diff --git a/nodejs-addon-examples/README.md b/nodejs-addon-examples/README.md
@@ -143,3 +143,43 @@ node ./test_asr_non_streaming_paraformer.js
 npm install naudiodon2
 node ./test_vad_asr_non_streaming_paraformer_microphone.js
 ```
+
+## Text-to-speech with piper VITS models (TTS)
+
+```bash
+wget https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/vits-piper-en_GB-cori-medium.tar.bz2
+tar xvf vits-piper-en_GB-cori-medium.tar.bz2
+rm vits-piper-en_GB-cori-medium.tar.bz2
+
+node ./test_tts_non_streaming_vits_piper_en.js
+```
+
+## Text-to-speech with piper Coqui-ai/TTS models (TTS)
+
+```bash
+wget https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/vits-coqui-de-css10.tar.bz2
+tar xvf vits-coqui-de-css10.tar.bz2
+rm vits-coqui-de-css10.tar.bz2
+
+node ./test_tts_non_streaming_vits_coqui_de.js
+```
+
+## Text-to-speech with vits Chinese models (1/2)
+
+```bash
+wget https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/sherpa-onnx-vits-zh-ll.tar.bz2
+tar xvf sherpa-onnx-vits-zh-ll.tar.bz2
+rm sherpa-onnx-vits-zh-ll.tar.bz2
+
+node ./test_tts_non_streaming_vits_zh_ll.js
+```
+
+## Text-to-speech with vits Chinese models (2/2)
+
+```bash
+wget https://github.com/k2-fsa/sherpa-onnx/releases/download/tts-models/vits-icefall-zh-aishell3.tar.bz2
+tar xvf vits-icefall-zh-aishell3.tar.bz2
+rm vits-icefall-zh-aishell3.tar.bz2
+
+node ./test_tts_non_streaming_vits_zh_aishell3.js
+```
diff --git a/nodejs-addon-examples/test_tts_non_streaming_vits_coqui_de.js b/nodejs-addon-examples/test_tts_non_streaming_vits_coqui_de.js
@@ -0,0 +1,43 @@
+// Copyright (c)  2024  Xiaomi Corporation
+const sherpa_onnx = require('sherpa-onnx-node');
+const performance = require('perf_hooks').performance;
+
+// please download model files from
+// https://github.com/k2-fsa/sherpa-onnx/releases/tag/tts-models
+function createOfflineTts() {
+  const config = {
+    model: {
+      vits: {
+        model: './vits-coqui-de-css10/model.onnx',
+        tokens: './vits-coqui-de-css10/tokens.txt',
+      },
+      debug: true,
+      numThreads: 1,
+      provider: 'cpu',
+    },
+    maxNumStences: 1,
+  };
+  return new sherpa_onnx.OfflineTts(config);
+}
+
+const tts = createOfflineTts();
+
+const text = 'Alles hat ein Ende, nur die Wurst hat zwei.'
+
+let start = performance.now();
+const audio = tts.generate({text: text, sid: 0, speed: 1.0});
+let stop = performance.now();
+const elapsed_seconds = (stop - start) / 1000;
+const duration = audio.samples.length / audio.sampleRate;
+const real_time_factor = elapsed_seconds / duration;
+console.log('Wave duration', duration.toFixed(3), 'secodns')
+console.log('Elapsed', elapsed_seconds.toFixed(3), 'secodns')
+console.log(
+    `RTF = ${elapsed_seconds.toFixed(3)}/${duration.toFixed(3)} =`,
+    real_time_factor.toFixed(3))
+
+const filename = 'test-coqui-de.wav';
+sherpa_onnx.writeWave(
+    filename, {samples: audio.samples, sampleRate: audio.sampleRate});
+
+console.log(`Saved to ${filename}`);
diff --git a/nodejs-addon-examples/test_tts_non_streaming_vits_piper_en.js b/nodejs-addon-examples/test_tts_non_streaming_vits_piper_en.js
@@ -0,0 +1,46 @@
+// Copyright (c)  2024  Xiaomi Corporation
+const sherpa_onnx = require('sherpa-onnx-node');
+const performance = require('perf_hooks').performance;
+
+// please download model files from
+// https://github.com/k2-fsa/sherpa-onnx/releases/tag/tts-models
+function createOfflineTts() {
+  const config = {
+    model: {
+      vits: {
+        model: './vits-piper-en_GB-cori-medium/en_GB-cori-medium.onnx',
+        tokens: './vits-piper-en_GB-cori-medium/tokens.txt',
+        dataDir: './vits-piper-en_GB-cori-medium/espeak-ng-data',
+      },
+      debug: true,
+      numThreads: 1,
+      provider: 'cpu',
+    },
+    maxNumStences: 1,
+  };
+  return new sherpa_onnx.OfflineTts(config);
+}
+
+const tts = createOfflineTts();
+
+const text =
+    'Today as always, men fall into two groups: slaves and free men. Whoever does not have two-thirds of his day for himself, is a slave, whatever he may be: a statesman, a businessman, an official, or a scholar.'
+
+
+let start = performance.now();
+const audio = tts.generate({text: text, sid: 0, speed: 1.0});
+let stop = performance.now();
+const elapsed_seconds = (stop - start) / 1000;
+const duration = audio.samples.length / audio.sampleRate;
+const real_time_factor = elapsed_seconds / duration;
+console.log('Wave duration', duration.toFixed(3), 'secodns')
+console.log('Elapsed', elapsed_seconds.toFixed(3), 'secodns')
+console.log(
+    `RTF = ${elapsed_seconds.toFixed(3)}/${duration.toFixed(3)} =`,
+    real_time_factor.toFixed(3))
+
+const filename = 'test-piper-en.wav';
+sherpa_onnx.writeWave(
+    filename, {samples: audio.samples, sampleRate: audio.sampleRate});
+
+console.log(`Saved to ${filename}`);
diff --git a/nodejs-addon-examples/test_tts_non_streaming_vits_zh_aishell3.js b/nodejs-addon-examples/test_tts_non_streaming_vits_zh_aishell3.js
@@ -0,0 +1,48 @@
+// Copyright (c)  2024  Xiaomi Corporation
+const sherpa_onnx = require('sherpa-onnx-node');
+const performance = require('perf_hooks').performance;
+
+// please download model files from
+// https://github.com/k2-fsa/sherpa-onnx/releases/tag/tts-models
+function createOfflineTts() {
+  const config = {
+    model: {
+      vits: {
+        model: './vits-icefall-zh-aishell3/model.onnx',
+        tokens: './vits-icefall-zh-aishell3/tokens.txt',
+        lexicon: './vits-icefall-zh-aishell3/lexicon.txt',
+      },
+      debug: true,
+      numThreads: 1,
+      provider: 'cpu',
+    },
+    maxNumStences: 1,
+    ruleFsts:
+        './vits-icefall-zh-aishell3/date.fst,./vits-icefall-zh-aishell3/phone.fst,./vits-icefall-zh-aishell3/number.fst,./vits-icefall-zh-aishell3/new_heteronym.fst',
+    ruleFars: './vits-icefall-zh-aishell3/rule.far',
+  };
+  return new sherpa_onnx.OfflineTts(config);
+}
+
+const tts = createOfflineTts();
+
+const text =
+    '他在长沙出生，长白山长大，去过长江，现在他是一个银行的行长，主管行政工作。有困难，请拨110，或者13020240513。今天是2024年5月13号, 他上个月的工资是12345块钱。'
+
+let start = performance.now();
+const audio = tts.generate({text: text, sid: 88, speed: 1.0});
+let stop = performance.now();
+const elapsed_seconds = (stop - start) / 1000;
+const duration = audio.samples.length / audio.sampleRate;
+const real_time_factor = elapsed_seconds / duration;
+console.log('Wave duration', duration.toFixed(3), 'secodns')
+console.log('Elapsed', elapsed_seconds.toFixed(3), 'secodns')
+console.log(
+    `RTF = ${elapsed_seconds.toFixed(3)}/${duration.toFixed(3)} =`,
+    real_time_factor.toFixed(3))
+
+const filename = 'test-zh-aishell3.wav';
+sherpa_onnx.writeWave(
+    filename, {samples: audio.samples, sampleRate: audio.sampleRate});
+
+console.log(`Saved to ${filename}`);
diff --git a/nodejs-addon-examples/test_tts_non_streaming_vits_zh_ll.js b/nodejs-addon-examples/test_tts_non_streaming_vits_zh_ll.js
@@ -0,0 +1,48 @@
+// Copyright (c)  2024  Xiaomi Corporation
+const sherpa_onnx = require('sherpa-onnx-node');
+const performance = require('perf_hooks').performance;
+
+// please download model files from
+// https://github.com/k2-fsa/sherpa-onnx/releases/tag/tts-models
+function createOfflineTts() {
+  const config = {
+    model: {
+      vits: {
+        model: './sherpa-onnx-vits-zh-ll/model.onnx',
+        tokens: './sherpa-onnx-vits-zh-ll/tokens.txt',
+        lexicon: './sherpa-onnx-vits-zh-ll/lexicon.txt',
+        dictDir: './sherpa-onnx-vits-zh-ll/dict',
+      },
+      debug: true,
+      numThreads: 1,
+      provider: 'cpu',
+    },
+    maxNumStences: 1,
+    ruleFsts:
+        './sherpa-onnx-vits-zh-ll/date.fst,./sherpa-onnx-vits-zh-ll/phone.fst,./sherpa-onnx-vits-zh-ll/number.fst',
+  };
+  return new sherpa_onnx.OfflineTts(config);
+}
+
+const tts = createOfflineTts();
+
+const text =
+    '当夜幕降临，星光点点，伴随着微风拂面，我在静谧中感受着时光的流转，思念如涟漪荡漾，梦境如画卷展开，我与自然融为一体，沉静在这片宁静的美丽之中，感受着生命的奇迹与温柔。2024年5月13号，拨打110或者18920240513。123456块钱。'
+
+let start = performance.now();
+const audio = tts.generate({text: text, sid: 2, speed: 1.0});
+let stop = performance.now();
+const elapsed_seconds = (stop - start) / 1000;
+const duration = audio.samples.length / audio.sampleRate;
+const real_time_factor = elapsed_seconds / duration;
+console.log('Wave duration', duration.toFixed(3), 'secodns')
+console.log('Elapsed', elapsed_seconds.toFixed(3), 'secodns')
+console.log(
+    `RTF = ${elapsed_seconds.toFixed(3)}/${duration.toFixed(3)} =`,
+    real_time_factor.toFixed(3))
+
+const filename = 'test-zh-ll.wav';
+sherpa_onnx.writeWave(
+    filename, {samples: audio.samples, sampleRate: audio.sampleRate});
+
+console.log(`Saved to ${filename}`);
diff --git a/nodejs-addon-examples/test_vad_asr_non_streaming_nemo_ctc_microphone.js b/nodejs-addon-examples/test_vad_asr_non_streaming_nemo_ctc_microphone.js
@@ -99,7 +99,7 @@ ai.on('data', data => {
               .split(' ')[0]}.wav`;
       sherpa_onnx.writeWave(
           filename,
-          {samples: segment.samples, sampleRate: vad.config.sampleRate})
+          {samples: segment.samples, sampleRate: vad.config.sampleRate});
 
       index += 1;
     }
diff --git a/nodejs-addon-examples/test_vad_asr_non_streaming_paraformer_microphone.js b/nodejs-addon-examples/test_vad_asr_non_streaming_paraformer_microphone.js
@@ -97,7 +97,7 @@ ai.on('data', data => {
               .split(' ')[0]}.wav`;
       sherpa_onnx.writeWave(
           filename,
-          {samples: segment.samples, sampleRate: vad.config.sampleRate})
+          {samples: segment.samples, sampleRate: vad.config.sampleRate});
 
       index += 1;
     }
diff --git a/nodejs-addon-examples/test_vad_asr_non_streaming_transducer_microphone.js b/nodejs-addon-examples/test_vad_asr_non_streaming_transducer_microphone.js
@@ -102,7 +102,7 @@ ai.on('data', data => {
               .split(' ')[0]}.wav`;
       sherpa_onnx.writeWave(
           filename,
-          {samples: segment.samples, sampleRate: vad.config.sampleRate})
+          {samples: segment.samples, sampleRate: vad.config.sampleRate});
 
       index += 1;
     }
diff --git a/nodejs-addon-examples/test_vad_asr_non_streaming_whisper_microphone.js b/nodejs-addon-examples/test_vad_asr_non_streaming_whisper_microphone.js
@@ -98,7 +98,7 @@ ai.on('data', data => {
               .split(' ')[0]}.wav`;
       sherpa_onnx.writeWave(
           filename,
-          {samples: segment.samples, sampleRate: vad.config.sampleRate})
+          {samples: segment.samples, sampleRate: vad.config.sampleRate});
 
       index += 1;
     }
diff --git a/nodejs-addon-examples/test_vad_microphone.js b/nodejs-addon-examples/test_vad_microphone.js
@@ -71,7 +71,7 @@ ai.on('data', data => {
               .split(' ')[0]}.wav`;
       sherpa_onnx.writeWave(
           filename,
-          {samples: segment.samples, sampleRate: vad.config.sampleRate})
+          {samples: segment.samples, sampleRate: vad.config.sampleRate});
       const duration = segment.samples.length / vad.config.sampleRate;
       console.log(`${index} End of speech. Duration: ${duration} seconds`);
       console.log(`Saved to ${filename}`);
diff --git a/scripts/node-addon-api/CMakeLists.txt b/scripts/node-addon-api/CMakeLists.txt
@@ -19,6 +19,7 @@ include_directories(${CMAKE_JS_INC})
 
 set(srcs
   src/non-streaming-asr.cc
+  src/non-streaming-tts.cc
   src/sherpa-onnx-node-addon-api.cc
   src/streaming-asr.cc
   src/vad.cc
diff --git a/scripts/node-addon-api/lib/addon.js b/scripts/node-addon-api/lib/addon.js
@@ -25,8 +25,8 @@ for (const p of possible_paths) {
 }
 
 if (!found) {
-  let msg =
-      `Could not find sherpa-onnx. Tried\n\n  ${possible_paths.join('\n  ')}\n`
+  let msg = `Could not find sherpa-onnx-node. Tried\n\n  ${
+      possible_paths.join('\n  ')}\n`
   if (os.platform() == 'darwin' && process.env.DYLD_LIBRARY_PATH &&
       !process.env.DYLD_LIBRARY_PATH.includes(
           `node_modules/sherpa-onnx-${platform_arch}`)) {
diff --git a/scripts/node-addon-api/lib/non-streaming-tts.js b/scripts/node-addon-api/lib/non-streaming-tts.js
@@ -0,0 +1,25 @@
+const addon = require('./addon.js');
+
+class OfflineTts {
+  constructor(config) {
+    this.handle = addon.createOfflineTts(config);
+    this.config = config;
+
+    this.numSpeakers = addon.getOfflineTtsNumSpeakers(this.handle);
+    this.sampleRate = addon.getOfflineTtsSampleRate(this.handle);
+  }
+
+  /*
+   input obj: {text: "xxxx", sid: 0, speed: 1.0}
+   where text is a string, sid is a int32, speed is a float
+
+   return an object {samples: Float32Array, sampleRate: <a number>}
+   */
+  generate(obj) {
+    return addon.offlineTtsGenerate(this.handle, obj);
+  }
+}
+
+module.exports = {
+  OfflineTts,
+}
diff --git a/scripts/node-addon-api/lib/sherpa-onnx.js b/scripts/node-addon-api/lib/sherpa-onnx.js
diff --git a/scripts/node-addon-api/src/non-streaming-tts.cc b/scripts/node-addon-api/src/non-streaming-tts.cc
diff --git a/scripts/node-addon-api/src/sherpa-onnx-node-addon-api.cc b/scripts/node-addon-api/src/sherpa-onnx-node-addon-api.cc
diff --git a/scripts/node-addon-api/src/streaming-asr.cc b/scripts/node-addon-api/src/streaming-asr.cc
diff --git a/sherpa-onnx/c-api/c-api.h b/sherpa-onnx/c-api/c-api.h

Original file line number	Diff line number	Diff line change
`@@ -99,7 +99,7 @@ ai.on('data', data => {`
`99`	`99`	.split(' ')[0]}.wav`;
`100`	`100`	`sherpa_onnx.writeWave(`
`101`	`101`	`filename,`
`102`		`- {samples: segment.samples, sampleRate: vad.config.sampleRate})`
	`102`	`+ {samples: segment.samples, sampleRate: vad.config.sampleRate});`
`103`	`103`
`104`	`104`	`index += 1;`
`105`	`105`	`}`
Original file line number	Diff line number	Diff line change
`@@ -97,7 +97,7 @@ ai.on('data', data => {`
`97`	`97`	.split(' ')[0]}.wav`;
`98`	`98`	`sherpa_onnx.writeWave(`
`99`	`99`	`filename,`
`100`		`- {samples: segment.samples, sampleRate: vad.config.sampleRate})`
	`100`	`+ {samples: segment.samples, sampleRate: vad.config.sampleRate});`
`101`	`101`
`102`	`102`	`index += 1;`
`103`	`103`	`}`
Original file line number	Diff line number	Diff line change
`@@ -102,7 +102,7 @@ ai.on('data', data => {`
`102`	`102`	.split(' ')[0]}.wav`;
`103`	`103`	`sherpa_onnx.writeWave(`
`104`	`104`	`filename,`
`105`		`- {samples: segment.samples, sampleRate: vad.config.sampleRate})`
	`105`	`+ {samples: segment.samples, sampleRate: vad.config.sampleRate});`
`106`	`106`
`107`	`107`	`index += 1;`
`108`	`108`	`}`
Original file line number	Diff line number	Diff line change
`@@ -98,7 +98,7 @@ ai.on('data', data => {`
`98`	`98`	.split(' ')[0]}.wav`;
`99`	`99`	`sherpa_onnx.writeWave(`
`100`	`100`	`filename,`
`101`		`- {samples: segment.samples, sampleRate: vad.config.sampleRate})`
	`101`	`+ {samples: segment.samples, sampleRate: vad.config.sampleRate});`
`102`	`102`
`103`	`103`	`index += 1;`
`104`	`104`	`}`