Skip to content

Commit af47a96

Browse files
committed
Fix build script
This fixes how files are generated. Previously the ISO 639-3 code was guessed incorrectly. This now changes from that to UDHR declarations, and uses the by UDHR provided ISO 639-3 code as the source of truth. * Add support for Javanese script to detect `jav` (Javanese) * Change Portuguese trigrams to use Portuguese as used in Brazil instead of Portuguese as used in Portugal * Use the more specific codes `lvs` (Standard Latvian) instead of `lav` (Latvian), use `rup` (Macedo-Romanian) instead of `rmy` (Vlax Romani), and use `ekk` (Standard Estonian) instead of `est` (Estonian) * Add `oci` (Occitan (post 1500)) * Add `cbs` (Cashinahua) * Use `pes` (Iranian Persian) and `prs` (Dari) instead of `fas` (Persian) * Use `npi` (Nepali (individual language)) instead of `nep` (Nepali (macrolanguage)) * Change `hus` (to prefer San Luís Potosí dialect) * Change `twi` (to prefer Asante) * Remove `aka` (Akan), `gax` (Borana-Arsi-Guji Oromo), `qud` (Calderón Highland Quichua), `qxa` (Chiquián Ancash Quechua), which seems to have been incorrectly identified * Remove unneeded trigrams for `chr` (Cherokee) * Remove `ccp` (Chakma)
1 parent f0be325 commit af47a96

16 files changed

+489
-506
lines changed

package.json

-1
Original file line numberDiff line numberDiff line change
@@ -31,7 +31,6 @@
3131
"udhr": "^5.0.0",
3232
"@unicode/unicode-14.0.0": "^1.0.0",
3333
"unified": "^10.0.0",
34-
"unist-builder": "^3.0.0",
3534
"xo": "^0.39.0"
3635
},
3736
"scripts": {

packages/franc-all/data.js

+11-17
Some generated files are not rendered by default. Learn more about customizing how changed files appear on GitHub.

packages/franc-all/expressions.js

+2-3
Some generated files are not rendered by default. Learn more about customizing how changed files appear on GitHub.

packages/franc-all/readme.md

+13-19
Original file line numberDiff line numberDiff line change
@@ -4,7 +4,7 @@
44

55
> Detect the language of text.
66
7-
Built with support for 409 languages.
7+
Built with support for 403 languages.
88

99
View the [monorepo](https://github.com/wooorm/franc) for more packages and
1010
usage information.
@@ -35,7 +35,8 @@ This build supports the following languages:
3535
| [`jpn`](http://www-01.sil.org/iso639-3/documentation.asp?id=jpn) | Japanese | 125M |
3636
| [`fra`](http://www-01.sil.org/iso639-3/documentation.asp?id=fra) | French | 124M |
3737
| [`deu`](http://www-01.sil.org/iso639-3/documentation.asp?id=deu) | German | 121M |
38-
| [`jav`](http://www-01.sil.org/iso639-3/documentation.asp?id=jav) | Javanese | 76M |
38+
| [`jav`](http://www-01.sil.org/iso639-3/documentation.asp?id=jav) | Javanese (Javanese) | 76M |
39+
| [`jav`](http://www-01.sil.org/iso639-3/documentation.asp?id=jav) | Javanese (Latin) | 76M |
3940
| [`kor`](http://www-01.sil.org/iso639-3/documentation.asp?id=kor) | Korean | 75M |
4041
| [`tel`](http://www-01.sil.org/iso639-3/documentation.asp?id=tel) | Telugu | 73M |
4142
| [`vie`](http://www-01.sil.org/iso639-3/documentation.asp?id=vie) | Vietnamese | 67M |
@@ -47,13 +48,11 @@ This build supports the following languages:
4748
| [`guj`](http://www-01.sil.org/iso639-3/documentation.asp?id=guj) | Gujarati | 44M |
4849
| [`pol`](http://www-01.sil.org/iso639-3/documentation.asp?id=pol) | Polish | 44M |
4950
| [`ukr`](http://www-01.sil.org/iso639-3/documentation.asp?id=ukr) | Ukrainian | 41M |
50-
| [`fas`](http://www-01.sil.org/iso639-3/documentation.asp?id=fas) | Persian | 40M |
5151
| [`kan`](http://www-01.sil.org/iso639-3/documentation.asp?id=kan) | Kannada | 38M |
5252
| [`mai`](http://www-01.sil.org/iso639-3/documentation.asp?id=mai) | Maithili | 35M |
5353
| [`mal`](http://www-01.sil.org/iso639-3/documentation.asp?id=mal) | Malayalam | 34M |
54+
| [`pes`](http://www-01.sil.org/iso639-3/documentation.asp?id=pes) | Iranian Persian | 33M |
5455
| [`mya`](http://www-01.sil.org/iso639-3/documentation.asp?id=mya) | Burmese | 31M |
55-
| [`ori`](http://www-01.sil.org/iso639-3/documentation.asp?id=ori) | Oriya (macrolanguage) | 31M |
56-
| [`gax`](http://www-01.sil.org/iso639-3/documentation.asp?id=gax) | Borana-Arsi-Guji Oromo | 30M |
5756
| [`swh`](http://www-01.sil.org/iso639-3/documentation.asp?id=swh) | Swahili (individual language) | 30M |
5857
| [`sun`](http://www-01.sil.org/iso639-3/documentation.asp?id=sun) | Sundanese | 27M |
5958
| [`ron`](http://www-01.sil.org/iso639-3/documentation.asp?id=ron) | Romanian | 26M |
@@ -76,7 +75,7 @@ This build supports the following languages:
7675
| [`zlm`](http://www-01.sil.org/iso639-3/documentation.asp?id=zlm) | Malay (individual language) (Arabic) | 18M |
7776
| [`zlm`](http://www-01.sil.org/iso639-3/documentation.asp?id=zlm) | Malay (individual language) (Latin) | 18M |
7877
| [`ibo`](http://www-01.sil.org/iso639-3/documentation.asp?id=ibo) | Igbo | 17M |
79-
| [`nep`](http://www-01.sil.org/iso639-3/documentation.asp?id=nep) | Nepali (macrolanguage) | 16M |
78+
| [`npi`](http://www-01.sil.org/iso639-3/documentation.asp?id=npi) | Nepali (individual language) | 16M |
8079
| [`ceb`](http://www-01.sil.org/iso639-3/documentation.asp?id=ceb) | Cebuano | 15M |
8180
| [`skr`](http://www-01.sil.org/iso639-3/documentation.asp?id=skr) | Saraiki | 15M |
8281
| [`tgl`](http://www-01.sil.org/iso639-3/documentation.asp?id=tgl) | Tagalog | 15M |
@@ -110,7 +109,7 @@ This build supports the following languages:
110109
| [`uig`](http://www-01.sil.org/iso639-3/documentation.asp?id=uig) | Uighur (Latin) | 7M |
111110
| [`hat`](http://www-01.sil.org/iso639-3/documentation.asp?id=hat) | Haitian | 7M |
112111
| [`khm`](http://www-01.sil.org/iso639-3/documentation.asp?id=khm) | Khmer | 7M |
113-
| [`aka`](http://www-01.sil.org/iso639-3/documentation.asp?id=aka) | Akan | 7M |
112+
| [`prs`](http://www-01.sil.org/iso639-3/documentation.asp?id=prs) | Dari | 7M |
114113
| [`hil`](http://www-01.sil.org/iso639-3/documentation.asp?id=hil) | Hiligaynon | 7M |
115114
| [`sna`](http://www-01.sil.org/iso639-3/documentation.asp?id=sna) | Shona | 7M |
116115
| [`tat`](http://www-01.sil.org/iso639-3/documentation.asp?id=tat) | Tatar | 7M |
@@ -186,12 +185,12 @@ This build supports the following languages:
186185
| [`kbd`](http://www-01.sil.org/iso639-3/documentation.asp?id=kbd) | Kabardian | 2M |
187186
| [`iii`](http://www-01.sil.org/iso639-3/documentation.asp?id=iii) | Sichuan Yi | 2M |
188187
| [`yao`](http://www-01.sil.org/iso639-3/documentation.asp?id=yao) | Yao | 2M |
189-
| [`lav`](http://www-01.sil.org/iso639-3/documentation.asp?id=lav) | Latvian | 2M |
188+
| [`lvs`](http://www-01.sil.org/iso639-3/documentation.asp?id=lvs) | Standard Latvian | 2M |
190189
| [`quz`](http://www-01.sil.org/iso639-3/documentation.asp?id=quz) | Cusco Quechua | 2M |
191190
| [`src`](http://www-01.sil.org/iso639-3/documentation.asp?id=src) | Logudorese Sardinian | 2M |
191+
| [`rup`](http://www-01.sil.org/iso639-3/documentation.asp?id=rup) | Macedo-Romanian | 2M |
192192
| [`sco`](http://www-01.sil.org/iso639-3/documentation.asp?id=sco) | Scots | 2M |
193193
| [`tso`](http://www-01.sil.org/iso639-3/documentation.asp?id=tso) | Tsonga | 2M |
194-
| [`rmy`](http://www-01.sil.org/iso639-3/documentation.asp?id=rmy) | Vlax Romani | 2M |
195194
| [`men`](http://www-01.sil.org/iso639-3/documentation.asp?id=men) | Mende (Sierra Leone) | 1M |
196195
| [`fon`](http://www-01.sil.org/iso639-3/documentation.asp?id=fon) | Fon | 1M |
197196
| [`nhn`](http://www-01.sil.org/iso639-3/documentation.asp?id=nhn) | Central Nahuatl | 1M |
@@ -201,7 +200,7 @@ This build supports the following languages:
201200
| [`kbp`](http://www-01.sil.org/iso639-3/documentation.asp?id=kbp) | Kabiyè | 1M |
202201
| [`tem`](http://www-01.sil.org/iso639-3/documentation.asp?id=tem) | Timne | 1M |
203202
| [`toi`](http://www-01.sil.org/iso639-3/documentation.asp?id=toi) | Tonga (Zambia) | 1M |
204-
| [`est`](http://www-01.sil.org/iso639-3/documentation.asp?id=est) | Estonian | 1M |
203+
| [`ekk`](http://www-01.sil.org/iso639-3/documentation.asp?id=ekk) | Standard Estonian | 1M |
205204
| [`snk`](http://www-01.sil.org/iso639-3/documentation.asp?id=snk) | Soninke | 1M |
206205
| [`cjk`](http://www-01.sil.org/iso639-3/documentation.asp?id=cjk) | Chokwe | 1M |
207206
| [`ada`](http://www-01.sil.org/iso639-3/documentation.asp?id=ada) | Adangme | 1M |
@@ -216,6 +215,7 @@ This build supports the following languages:
216215
| [`tly`](http://www-01.sil.org/iso639-3/documentation.asp?id=tly) | Talysh | 915K |
217216
| [`srr`](http://www-01.sil.org/iso639-3/documentation.asp?id=srr) | Serer | 869K |
218217
| [`kha`](http://www-01.sil.org/iso639-3/documentation.asp?id=kha) | Khasi | 865K |
218+
| [`oci`](http://www-01.sil.org/iso639-3/documentation.asp?id=oci) | Occitan (post 1500) | 855K |
219219
| [`hea`](http://www-01.sil.org/iso639-3/documentation.asp?id=hea) | Northern Qiandong Miao | 820K |
220220
| [`gkp`](http://www-01.sil.org/iso639-3/documentation.asp?id=gkp) | Guinea Kpelle | 808K |
221221
| [`hni`](http://www-01.sil.org/iso639-3/documentation.asp?id=hni) | Hani | 747K |
@@ -335,13 +335,11 @@ This build supports the following languages:
335335
| [`qvc`](http://www-01.sil.org/iso639-3/documentation.asp?id=qvc) | Cajamarca Quechua | 35K |
336336
| [`ojb`](http://www-01.sil.org/iso639-3/documentation.asp?id=ojb) | Northwestern Ojibwa | 35K |
337337
| [`jiv`](http://www-01.sil.org/iso639-3/documentation.asp?id=jiv) | Shuar | 35K |
338-
| [`qud`](http://www-01.sil.org/iso639-3/documentation.asp?id=qud) | Calderón Highland Quichua | 30K |
339338
| [`lld`](http://www-01.sil.org/iso639-3/documentation.asp?id=lld) | Ladin | 30K |
340339
| [`hlt`](http://www-01.sil.org/iso639-3/documentation.asp?id=hlt) | Matu Chin | 30K |
341340
| [`que`](http://www-01.sil.org/iso639-3/documentation.asp?id=que) | Quechua | 30K |
342341
| [`pon`](http://www-01.sil.org/iso639-3/documentation.asp?id=pon) | Pohnpeian | 28K |
343342
| [`agr`](http://www-01.sil.org/iso639-3/documentation.asp?id=agr) | Aguaruna | 28K |
344-
| [`qxa`](http://www-01.sil.org/iso639-3/documentation.asp?id=qxa) | Chiquián Ancash Quechua | 25K |
345343
| [`quh`](http://www-01.sil.org/iso639-3/documentation.asp?id=quh) | South Bolivian Quechua | 25K |
346344
| [`tca`](http://www-01.sil.org/iso639-3/documentation.asp?id=tca) | Ticuna | 25K |
347345
| [`chj`](http://www-01.sil.org/iso639-3/documentation.asp?id=chj) | Ojitlán Chinantec | 22K |
@@ -376,6 +374,7 @@ This build supports the following languages:
376374
| [`huu`](http://www-01.sil.org/iso639-3/documentation.asp?id=huu) | Murui Huitoto | 3K |
377375
| [`cof`](http://www-01.sil.org/iso639-3/documentation.asp?id=cof) | Colorado | 2K |
378376
| [`boa`](http://www-01.sil.org/iso639-3/documentation.asp?id=boa) | Bora | 2K |
377+
| [`cbs`](http://www-01.sil.org/iso639-3/documentation.asp?id=cbs) | Cashinahua | 2K |
379378
| [`ztu`](http://www-01.sil.org/iso639-3/documentation.asp?id=ztu) | Güilá Zapotec | 2K |
380379
| [`piu`](http://www-01.sil.org/iso639-3/documentation.asp?id=piu) | Pintupi-Luritja | 2K |
381380
| [`cbr`](http://www-01.sil.org/iso639-3/documentation.asp?id=cbr) | Cashibo-Cacataibo | 2K |
@@ -399,9 +398,7 @@ This build supports the following languages:
399398
| [`bax`](http://www-01.sil.org/iso639-3/documentation.asp?id=bax) | Bamun | unknown |
400399
| [`nku`](http://www-01.sil.org/iso639-3/documentation.asp?id=nku) | Bouna Kulango | unknown |
401400
| [`cbi`](http://www-01.sil.org/iso639-3/documentation.asp?id=cbi) | Chachi | unknown |
402-
| [`ccp`](http://www-01.sil.org/iso639-3/documentation.asp?id=ccp) | Chakma | unknown |
403-
| [`chr`](http://www-01.sil.org/iso639-3/documentation.asp?id=chr) | Cherokee (Cherokee) | unknown |
404-
| [`chr`](http://www-01.sil.org/iso639-3/documentation.asp?id=chr) | Cherokee (Cherokee) | unknown |
401+
| [`chr`](http://www-01.sil.org/iso639-3/documentation.asp?id=chr) | Cherokee | unknown |
405402
| [`crh`](http://www-01.sil.org/iso639-3/documentation.asp?id=crh) | Crimean Tatar | unknown |
406403
| [`duu`](http://www-01.sil.org/iso639-3/documentation.asp?id=duu) | Drung | unknown |
407404
| [`cfm`](http://www-01.sil.org/iso639-3/documentation.asp?id=cfm) | Falam Chin | unknown |
@@ -420,14 +417,11 @@ This build supports the following languages:
420417
| [`niu`](http://www-01.sil.org/iso639-3/documentation.asp?id=niu) | Niuean | unknown |
421418
| [`kqs`](http://www-01.sil.org/iso639-3/documentation.asp?id=kqs) | Northern Kissi | unknown |
422419
| [`sey`](http://www-01.sil.org/iso639-3/documentation.asp?id=sey) | Secoya | unknown |
423-
| [`ekk`](http://www-01.sil.org/iso639-3/documentation.asp?id=ekk) | Standard Estonian | unknown |
424-
| [`lvs`](http://www-01.sil.org/iso639-3/documentation.asp?id=lvs) | Standard Latvian | unknown |
425420
| [`gsw`](http://www-01.sil.org/iso639-3/documentation.asp?id=gsw) | Swiss German | unknown |
426421
| [`blt`](http://www-01.sil.org/iso639-3/documentation.asp?id=blt) | Tai Dam | unknown |
427422
| [`kdh`](http://www-01.sil.org/iso639-3/documentation.asp?id=kdh) | Tem | unknown |
428423
| [`tdt`](http://www-01.sil.org/iso639-3/documentation.asp?id=tdt) | Tetun Dili | unknown |
429-
| [`twi`](http://www-01.sil.org/iso639-3/documentation.asp?id=twi) | Twi (Latin) | unknown |
430-
| [`twi`](http://www-01.sil.org/iso639-3/documentation.asp?id=twi) | Twi (Latin) | unknown |
424+
| [`twi`](http://www-01.sil.org/iso639-3/documentation.asp?id=twi) | Twi | unknown |
431425
| [`auc`](http://www-01.sil.org/iso639-3/documentation.asp?id=auc) | Waorani | unknown |
432426
| [`gaz`](http://www-01.sil.org/iso639-3/documentation.asp?id=gaz) | West Central Oromo | unknown |
433427
| [`pnb`](http://www-01.sil.org/iso639-3/documentation.asp?id=pnb) | Western Panjabi | unknown |

0 commit comments

Comments
 (0)