Files changed (3) hide show
  1. special_tokens_map.json +130 -0
  2. tokenizer.json +0 -0
  3. tokenizer_config.json +133 -0
special_tokens_map.json ADDED
@@ -0,0 +1,130 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<|sep|>",
4
+ "<|s|>",
5
+ "<|/s|>",
6
+ "<|pad|>",
7
+ "<|bos|>",
8
+ "<|eos|>",
9
+ "<|endoftext|>",
10
+ "<|fim_prefix|>",
11
+ "<|fim_suffix|>",
12
+ "<|fim_middle|>",
13
+ "<|translate|>",
14
+ "<|startofprompt|>",
15
+ "<|endofprompt|>",
16
+ "<|user|>",
17
+ "<|assistant|>",
18
+ "<|system|>",
19
+ "<|meta|>",
20
+ "<|meta_start|>",
21
+ "<|meta_end|>",
22
+ "<|mask|>",
23
+ "<|mask1|>",
24
+ "<|cls|>",
25
+ "<|cls_vision|>",
26
+ "<|cls_audio|>",
27
+ "<|tel_start|>",
28
+ "<|tel_end|>",
29
+ "<|rrn_start|>",
30
+ "<|rrn_end|>",
31
+ "<|url_start|>",
32
+ "<|url_end|>",
33
+ "<|email_start|>",
34
+ "<|email_end|>",
35
+ "<|crd_start|>",
36
+ "<|crd_end|>",
37
+ "<|acc_start|>",
38
+ "<|acc_end|>",
39
+ "<|name_start|>",
40
+ "<|name_end|>",
41
+ "<|org_start|>",
42
+ "<|org_end|>",
43
+ "<|sos|>",
44
+ "<|unk|>",
45
+ "<|sep|>",
46
+ "<|mask|>",
47
+ "<|unused0|>",
48
+ "<|unused1|>",
49
+ "<|unused2|>",
50
+ "<|unused3|>",
51
+ "<|unused4|>",
52
+ "<|unused5|>",
53
+ "<|unused6|>",
54
+ "<|unused7|>",
55
+ "<|unused8|>",
56
+ "<|unused9|>",
57
+ "<|unused10|>",
58
+ "<|unused11|>",
59
+ "<|unused12|>",
60
+ "<|unused13|>",
61
+ "<|unused14|>",
62
+ "<|unused15|>",
63
+ "<|unused16|>",
64
+ "<|unused17|>",
65
+ "<|unused18|>",
66
+ "<|unused19|>",
67
+ "<|unused20|>",
68
+ "<|unused21|>",
69
+ "<|unused22|>",
70
+ "<|unused23|>",
71
+ "<|unused24|>",
72
+ "<|unused25|>",
73
+ "<|unused26|>",
74
+ "<|unused27|>",
75
+ "<|unused28|>",
76
+ "<|unused29|>",
77
+ "<|unused30|>",
78
+ "<|unused31|>",
79
+ "<|unused32|>",
80
+ "<|unused33|>",
81
+ "<|unused34|>",
82
+ "<|unused35|>",
83
+ "<|unused36|>",
84
+ "<|unused37|>",
85
+ "<|unused38|>",
86
+ "<|unused39|>",
87
+ "<|unused40|>",
88
+ "<|unused41|>",
89
+ "<|unused42|>",
90
+ "<|unused43|>",
91
+ "<|unused44|>",
92
+ "<|unused45|>",
93
+ "<|unused46|>",
94
+ "<|unused47|>",
95
+ "<|unused48|>",
96
+ "<|unused49|>",
97
+ "<|unused50|>",
98
+ "<|unused51|>",
99
+ "<|unused52|>",
100
+ "<|unused53|>",
101
+ "<|unused54|>",
102
+ "<|unused55|>",
103
+ "<|unused56|>",
104
+ "<|unused57|>",
105
+ "<|unused58|>",
106
+ "<|unused59|>",
107
+ "<|unused60|>",
108
+ "<|unused61|>",
109
+ "<|unused62|>",
110
+ "<|unused63|>",
111
+ "<|unused64|>",
112
+ "<|unused65|>",
113
+ "<|unused66|>",
114
+ "<|unused67|>",
115
+ "<|unused68|>",
116
+ "<|unused69|>",
117
+ "<|unused70|>",
118
+ "<|unused71|>",
119
+ "<|unused72|>",
120
+ "<|unused73|>",
121
+ "<|unused74|>",
122
+ "<|unused75|>"
123
+ ],
124
+ "bos_token": "<|bos|>",
125
+ "cls_token": "<|cls|>",
126
+ "eos_token": "<|eos|>",
127
+ "mask_token": "<|mask|>",
128
+ "pad_token": "<|pad|>",
129
+ "sep_token": "<|sep|>"
130
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,133 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "additional_special_tokens": [
3
+ "<|sep|>",
4
+ "<|s|>",
5
+ "<|/s|>",
6
+ "<|pad|>",
7
+ "<|bos|>",
8
+ "<|eos|>",
9
+ "<|endoftext|>",
10
+ "<|fim_prefix|>",
11
+ "<|fim_suffix|>",
12
+ "<|fim_middle|>",
13
+ "<|translate|>",
14
+ "<|startofprompt|>",
15
+ "<|endofprompt|>",
16
+ "<|user|>",
17
+ "<|assistant|>",
18
+ "<|system|>",
19
+ "<|meta|>",
20
+ "<|meta_start|>",
21
+ "<|meta_end|>",
22
+ "<|mask|>",
23
+ "<|mask1|>",
24
+ "<|cls|>",
25
+ "<|cls_vision|>",
26
+ "<|cls_audio|>",
27
+ "<|tel_start|>",
28
+ "<|tel_end|>",
29
+ "<|rrn_start|>",
30
+ "<|rrn_end|>",
31
+ "<|url_start|>",
32
+ "<|url_end|>",
33
+ "<|email_start|>",
34
+ "<|email_end|>",
35
+ "<|crd_start|>",
36
+ "<|crd_end|>",
37
+ "<|acc_start|>",
38
+ "<|acc_end|>",
39
+ "<|name_start|>",
40
+ "<|name_end|>",
41
+ "<|org_start|>",
42
+ "<|org_end|>",
43
+ "<|sos|>",
44
+ "<|unk|>",
45
+ "<|sep|>",
46
+ "<|mask|>",
47
+ "<|unused0|>",
48
+ "<|unused1|>",
49
+ "<|unused2|>",
50
+ "<|unused3|>",
51
+ "<|unused4|>",
52
+ "<|unused5|>",
53
+ "<|unused6|>",
54
+ "<|unused7|>",
55
+ "<|unused8|>",
56
+ "<|unused9|>",
57
+ "<|unused10|>",
58
+ "<|unused11|>",
59
+ "<|unused12|>",
60
+ "<|unused13|>",
61
+ "<|unused14|>",
62
+ "<|unused15|>",
63
+ "<|unused16|>",
64
+ "<|unused17|>",
65
+ "<|unused18|>",
66
+ "<|unused19|>",
67
+ "<|unused20|>",
68
+ "<|unused21|>",
69
+ "<|unused22|>",
70
+ "<|unused23|>",
71
+ "<|unused24|>",
72
+ "<|unused25|>",
73
+ "<|unused26|>",
74
+ "<|unused27|>",
75
+ "<|unused28|>",
76
+ "<|unused29|>",
77
+ "<|unused30|>",
78
+ "<|unused31|>",
79
+ "<|unused32|>",
80
+ "<|unused33|>",
81
+ "<|unused34|>",
82
+ "<|unused35|>",
83
+ "<|unused36|>",
84
+ "<|unused37|>",
85
+ "<|unused38|>",
86
+ "<|unused39|>",
87
+ "<|unused40|>",
88
+ "<|unused41|>",
89
+ "<|unused42|>",
90
+ "<|unused43|>",
91
+ "<|unused44|>",
92
+ "<|unused45|>",
93
+ "<|unused46|>",
94
+ "<|unused47|>",
95
+ "<|unused48|>",
96
+ "<|unused49|>",
97
+ "<|unused50|>",
98
+ "<|unused51|>",
99
+ "<|unused52|>",
100
+ "<|unused53|>",
101
+ "<|unused54|>",
102
+ "<|unused55|>",
103
+ "<|unused56|>",
104
+ "<|unused57|>",
105
+ "<|unused58|>",
106
+ "<|unused59|>",
107
+ "<|unused60|>",
108
+ "<|unused61|>",
109
+ "<|unused62|>",
110
+ "<|unused63|>",
111
+ "<|unused64|>",
112
+ "<|unused65|>",
113
+ "<|unused66|>",
114
+ "<|unused67|>",
115
+ "<|unused68|>",
116
+ "<|unused69|>",
117
+ "<|unused70|>",
118
+ "<|unused71|>",
119
+ "<|unused72|>",
120
+ "<|unused73|>",
121
+ "<|unused74|>",
122
+ "<|unused75|>"
123
+ ],
124
+ "bos_token": "<|bos|>",
125
+ "cls_token": "<|cls|>",
126
+ "eos_token": "<|eos|>",
127
+ "mask_token": "<|mask|>",
128
+ "model_max_length": 1000000000000000019884624838656,
129
+ "pad_token": "<|pad|>",
130
+ "sep_token": "<|sep|>",
131
+ "tokenizer_class": "PreTrainedTokenizerFast",
132
+ "vocab_size": 102400
133
+ }