-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathREADME
63 lines (46 loc) · 2.45 KB
/
README
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
** Réamhrá **
Séard atá sa stórlann seo ná ríomhchlár simplí a dhéanann aicmiú ar théacsanna
Gaeilge de réir a gcanúint: Gaeilge Chonnacht, Gaeilge na Mumhan,
nó Gaeilge Uladh.
Baineann sé úsáid as samhail staitistiúil (aicmiú Bayes) a thraenáil mé ó
chorpas mór téacsanna canúnacha ón tréimhse 1900-1950. Táim buíoch
d'fhoireann Fhoclóir Stairiúil na Nua-Ghaeilge in Acadamh Ríoga na hÉireann
a chuir an corpas seo ar fáil go poiblí (http://research.dho.ie/fng/index.php)
mar acmhainn do thaighdeoirí agus do phobal na Gaeilge go ginearálta.
** Úsáid **
Tá an ríomhchlár scríofa i bPerl agus Shell. Mar sin, molaim duit an script
a úsáid ar chóras Linux nó Mac, ar líne na n-orduithe (Terminal ar Mhac),
cé gurbh fhéidir leat é a úsáid ar Windows trí ActiveState Perl nó a leithéid.
Mura bhfuil tú cleachta le git agus github, is féidir leat an pacáiste
iomlán a íoslódáil leis an gcnaipe "Download ZIP" ar dheis.
Oibríonn sé ar chomhaid ghnáth-théacs mar a leanas:
$ cat CreNaCille.txt | bash canuint.sh
C
$ cat MoSgealFein.txt | bash canuint.sh
M
$ cat CaisleainOir.txt | bash canuint.sh
U
Is féidir tuilleadh sonraí (logprob do gach canúint) a fháil
leis an mbratach -v:
$ cat CaisleainOir.txt | bash canuint.sh -v
M: -2148.756
C: -2175.766
U: -1382.291
U
Nó fiú abairt amháin a thástáil le "echo":
$ echo "goidé mar atá na préataí ag an bhomaite seo" | bash canuint.sh
U
** Cuidiú **
Ba dhúshlán suimiúil sa ríomhfhoghlaim é an tionscadal seo. Bhí sé an-éasca
dul thar fóir le linn an phróisis traenála ("overfitting" i mBéarla). Baineann
an fhadhb le foirmeacha a léiríonn fíordhifríocht idir na canúintí agus
litrithe éagsúla a d'úsáid údair sa chorpas nach mbaineann le
cúrsaí canúna ar chor ar bith (go bhfios dom - mar shampla "teampal" atá
chun tosaigh i gCúige Mumhan, "teampall" i gCúige Uladh, agus "teampoll"
i gCúige Connacht). Mar sin, ba mhór an chabhair é an tsamhail a "bhearradh"
agus gan ach na gnéithe is suntasaí a choinneáil. Gheobhaidh tú na gnéithe
seo sa chomhad "features.txt". Sílim go bhfuil sé suimiúil an comhad seo
a bhrabhsáil fiú mura bhfuil suim mhór agat sna mionsonraí teicniúla - arís,
is éard atá ann ná na gnéithe is suntasaí ó thaobh canúna, bunaithe
go hiomlán ar anailís staitistiúil. Fearaim fáilte roimh cheartúcháin,
moltaí, nó focail/frásaí eile ba chóir dom a chur leis an liosta gnéithe.