Skip to content
Open
Show file tree
Hide file tree
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
2 changes: 1 addition & 1 deletion Jenkinsfile
Original file line number Diff line number Diff line change
Expand Up @@ -27,7 +27,7 @@ pipeline {
HY_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/03-12-24-0'
MR_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/03-12-24-1'
JA_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/10-17-24-1'
HI_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/04-23-26-0'
HI_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/04-24-26-0'
KO_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/04-22-26-0'
DEFAULT_TN_CACHE='/home/jenkins/TestData/text_norm/ci/grammars/06-08-23-0'
}
Expand Down
24 changes: 21 additions & 3 deletions nemo_text_processing/text_normalization/hi/data/date/days.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -3,7 +3,7 @@
०३ तीन
०४ चार
०५ पाँच
०६ छः
०६ छह
०७ सात
०८ आठ
०९ नौ
Expand Down Expand Up @@ -34,7 +34,7 @@
03 तीन
04 चार
05 पाँच
06 छः
06 छह
07 सात
08 आठ
09 नौ
Expand All @@ -59,4 +59,22 @@
28 अट्ठाईस
29 उनतीस
30 तीस
31 इकतीस
31 इकतीस
१ एक
Copy link
Copy Markdown
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

instead of adding these as additional lines, let's create a rule that allows accepting the number with or without a preceding 0. if possible, let's also leverage cardinals instead

२ दो
३ तीन
४ चार
५ पाँच
६ छह
७ सात
८ आठ
९ नौ
1 एक
2 दो
3 तीन
4 चार
5 पाँच
6 छह
7 सात
8 आठ
9 नौ
35 changes: 34 additions & 1 deletion nemo_text_processing/text_normalization/hi/data/date/months.tsv
Original file line number Diff line number Diff line change
Expand Up @@ -21,4 +21,37 @@
09 सितंबर
10 अक्टूबर
11 नवंबर
12 दिसंबर
12 दिसंबर
जनवरी जनवरी
Copy link
Copy Markdown
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

if you just want to accept the month name without a transformation, you can just have an acceptor only from pynini.project of the normalized forms of this tsv

फ़रवरी फ़रवरी
फरवरी फरवरी
मार्च मार्च
अप्रैल अप्रैल
अप्रील अप्रील
मई मई
जून जून
जुलाई जुलाई
अगस्त अगस्त
सितंबर सितंबर
अक्टूबर अक्टूबर
अक्तूबर अक्तूबर
नवंबर नवंबर
दिसंबर दिसंबर
१ जनवरी
Copy link
Copy Markdown
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

instead of adding these as additional lines, let's create a rule that allows accepting the number with or without a preceding 0.

२ फ़रवरी
३ मार्च
४ अप्रैल
५ मई
६ जून
७ जुलाई
८ अगस्त
९ सितंबर
1 जनवरी
2 फ़रवरी
3 मार्च
4 अप्रैल
5 मई
6 जून
7 जुलाई
8 अगस्त
9 सितंबर
Original file line number Diff line number Diff line change
@@ -1,3 +1,4 @@
सन्
सन
साल
सन्
सन
साल
दशक
Original file line number Diff line number Diff line change
@@ -0,0 +1,38 @@
१३ तेरह
१४ चौदह
१५ पंद्रह
१६ सोलह
१७ सत्रह
१८ अठारह
१९ उन्नीस
२० बीस
२१ इक्कीस
२२ बाईस
२३ तेईस
२४ चौबीस
२५ पच्चीस
२६ छब्बीस
२७ सत्ताईस
२८ अट्ठाईस
२९ उनतीस
३० तीस
३१ इकतीस
13 तेरह
14 चौदह
Copy link
Copy Markdown
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

are the lines here different than the ones in days? if not, let's restrict a rule to these numbers instead of creating a separate data file

15 पंद्रह
16 सोलह
17 सत्रह
18 अठारह
19 उन्नीस
20 बीस
21 इक्कीस
22 बाईस
23 तेईस
24 चौबीस
25 पच्चीस
26 छब्बीस
27 सत्ताईस
28 अट्ठाईस
29 उनतीस
30 तीस
31 इकतीस
Loading