mirror of
https://github.com/d0zingcat/rime-ice.git
synced 2026-05-13 15:09:58 +00:00
dict: 连接号处理 (#1194)
This commit is contained in:
@@ -2246,7 +2246,7 @@
|
||||
#///
|
||||
---
|
||||
name: base
|
||||
version: "2025-03-06"
|
||||
version: "2025-03-07"
|
||||
sort: by_weight
|
||||
...
|
||||
# +_+
|
||||
@@ -82686,7 +82686,7 @@ sort: by_weight
|
||||
第二手 di er shou 1350
|
||||
第二受益人 di er shou yi ren 2885
|
||||
第二顺序 di er shun xu 885
|
||||
狄尔斯–阿尔德反应 di er si a er de fan ying 60
|
||||
狄尔斯-阿尔德反应 di er si a er de fan ying 60
|
||||
第二四分位数 di er si fen wei shu 1
|
||||
第二台 di er tai 4075
|
||||
第二胎 di er tai 2690
|
||||
@@ -149462,7 +149462,7 @@ sort: by_weight
|
||||
哈伯 ha bo 1
|
||||
# 哈博 ha bo 0
|
||||
哈勃定律 ha bo ding lv 125
|
||||
哈勃–勒梅特定律 ha bo le mei te ding lv 3333
|
||||
哈勃-勒梅特定律 ha bo le mei te ding lv 3333
|
||||
哈博罗内 ha bo luo nei 320
|
||||
哈勃望远镜 ha bo wang yuan jing 945
|
||||
哈布雷 ha bu lei 80
|
||||
@@ -382054,8 +382054,8 @@ sort: by_weight
|
||||
特例入境 te li ru jing 68
|
||||
特莉丝 te li si 146
|
||||
特莉丝·梅莉葛德 te li si mei li ge de 111
|
||||
特里斯坦–达库尼亚 te li si tan da ku ni ya 3333
|
||||
特里斯坦–达库尼亚群岛 te li si tan da ku ni ya qun dao 3333
|
||||
特里斯坦-达库尼亚 te li si tan da ku ni ya 3333
|
||||
特里斯坦-达库尼亚群岛 te li si tan da ku ni ya qun dao 3333
|
||||
特里谢 te li xie 2460
|
||||
特亮 te liang 350
|
||||
特林加岱拉 te lin jia dai la 1
|
||||
|
||||
@@ -16,7 +16,7 @@
|
||||
# - 简化字八股文 https://github.com/rime/rime-essay-simp
|
||||
---
|
||||
name: ext
|
||||
version: "2025-03-06"
|
||||
version: "2025-03-07"
|
||||
sort: by_weight
|
||||
...
|
||||
# +_+
|
||||
@@ -2771,7 +2771,7 @@ sort: by_weight
|
||||
昂昂自若 ang ang zi ruo 100
|
||||
昂藏不凡 ang cang bu fan 100
|
||||
昂藏七尺 ang cang qi chi 100
|
||||
盎格鲁撒克逊 ang ge lu sa ke xun 100
|
||||
盎格鲁-撒克逊 ang ge lu sa ke xun 100
|
||||
盎格鲁萨克逊 ang ge lu sa ke xun 100
|
||||
盎格鲁萨克逊人 ang ge lu sa ke xun ren 100
|
||||
昂贵的 ang gui de 100
|
||||
@@ -16688,6 +16688,7 @@ sort: by_weight
|
||||
薄弱学校 bo ruo xue xiao 100
|
||||
薄弱学校改造 bo ruo xue xiao gai zao 100
|
||||
播散着 bo san zhe 100
|
||||
玻色-爱因斯坦凝聚 bo se ai yin si tan ning ju 100
|
||||
玻色子 bo se zi 100
|
||||
波森莓 bo sen mei 100
|
||||
薄纱长裙 bo sha chang qun 100
|
||||
@@ -90003,6 +90004,7 @@ sort: by_weight
|
||||
鼓山区 gu shan qu 100
|
||||
孤善于千里袭人 gu shan yu qian li xi ren 100
|
||||
孤山寨 gu shan zhai 100
|
||||
谷山-志村猜想 gu shan zhi cun cai xiang 100
|
||||
骨伤病 gu shang bing 100
|
||||
故上兵伐谋 gu shang bing fa mou 100
|
||||
鼓舌摇唇 gu she yao chun 100
|
||||
@@ -133730,6 +133732,8 @@ sort: by_weight
|
||||
咔咔一顿操作 ka ka yi dun cao zuo 100
|
||||
卡口系统 ka kou xi tong 100
|
||||
卡拉比拉 ka la bi la 100
|
||||
卡拉比-丘空间 ka la bi qiu kong jian 100
|
||||
卡拉比-丘流形 ka la bi qiu liu xing 100
|
||||
卡拉布里亚 ka la bu li ya 100
|
||||
喀拉蚩 ka la chi 100
|
||||
喀拉汗国 ka la han guo 100
|
||||
@@ -137775,6 +137779,7 @@ sort: by_weight
|
||||
克伦奇 ke lun qi 100
|
||||
克罗埃 ke luo ai 100
|
||||
克罗德 ke luo de 100
|
||||
克洛德·列维-斯特劳斯 ke luo de lie wei si te lao si 100
|
||||
可落地 ke luo di 100
|
||||
克罗地亚队 ke luo di ya dui 100
|
||||
克罗地亚国家队 ke luo di ya guo jia dui 100
|
||||
@@ -149429,6 +149434,7 @@ sort: by_weight
|
||||
列王记下 lie wang ji xia 100
|
||||
列为被执行人 lie wei bei zhi xing ren 100
|
||||
列为失信被执行人 lie wei shi xin bei zhi xing ren 100
|
||||
列维-斯特劳斯 lie wei si te lao si 100
|
||||
列为重点 lie wei zhong dian 100
|
||||
猎物也是猎人 lie wu ye shi lie ren 100
|
||||
烈性传染病 lie xing chuan ran bing 100
|
||||
@@ -157241,6 +157247,8 @@ sort: by_weight
|
||||
马拉威 ma la wei 100
|
||||
麻辣鱼 ma la yu 100
|
||||
麻辣鱼鳞 ma la yu lin 100
|
||||
马来-波利尼西亚 ma lai bo li ni xi ya 100
|
||||
马来-波利尼西亚语族 ma lai bo li ni xi ya yu zu 100
|
||||
马莱部队 ma lai bu dui 100
|
||||
马莱帝国 ma lai di guo 100
|
||||
马莱帝国军 ma lai di guo jun 100
|
||||
@@ -197334,6 +197342,8 @@ sort: by_weight
|
||||
让我坐下 rang wo zuo xia 100
|
||||
让贤与能 rang xian yu neng 100
|
||||
让心灵去旅行 rang xin ling qu lv xing 100
|
||||
让-雅克·阿诺 rang ya ke a nuo 100
|
||||
让-雅克·卢梭 rang ya ke lu suo 100
|
||||
让逸竞劳 rang yi jing lao 100
|
||||
让一追三 rang yi zhui san 100
|
||||
让一追四 rang yi zhui si 100
|
||||
@@ -280764,6 +280774,7 @@ sort: by_weight
|
||||
亚克朗 ya ke lang 100
|
||||
压克力 ya ke li 100
|
||||
压克力板 ya ke li ban 100
|
||||
雅克-路易·大卫 ya ke lu yi da wei 100
|
||||
亚克诺姆 ya ke nuo mu 100
|
||||
亚克席 ya ke xi 100
|
||||
亚克席法印 ya ke xi fa yin 100
|
||||
@@ -283232,6 +283243,8 @@ sort: by_weight
|
||||
杨梦婧 yang meng jing 100
|
||||
杨幂参加活动 yang mi can jia huo dong 100
|
||||
杨幂的大长腿 yang mi de da chang tui 100
|
||||
杨-米尔斯方程 yang mi er si fang cheng 100
|
||||
杨-米尔斯理论 yang mi er si li lun 100
|
||||
仰面长叹 yang mian chang tan 100
|
||||
仰面朝上 yang mian chao shang 100
|
||||
仰面大笑 yang mian da xiao 100
|
||||
|
||||
@@ -4671,8 +4671,8 @@ Vs. Vs. 🆚
|
||||
阿拉伯叙利亚共和国 阿拉伯叙利亚共和国 🇸🇾
|
||||
斯威士兰 斯威士兰 🇸🇿
|
||||
斯威士兰王国 斯威士兰王国 🇸🇿
|
||||
特里斯坦–达库尼亚群岛 特里斯坦–达库尼亚群岛 🇹🇦
|
||||
特里斯坦–达库尼亚 特里斯坦–达库尼亚 🇹🇦
|
||||
特里斯坦-达库尼亚群岛 特里斯坦-达库尼亚群岛 🇹🇦
|
||||
特里斯坦-达库尼亚 特里斯坦-达库尼亚 🇹🇦
|
||||
特克斯和凯科斯群岛 特克斯和凯科斯群岛 🇹🇨
|
||||
乍得 乍得 🇹🇩
|
||||
乍得共和国 乍得共和国 🇹🇩
|
||||
|
||||
@@ -1996,7 +1996,7 @@ S$ 新加坡元 新加坡币
|
||||
🇸🇽 荷属圣马丁 圣马丁
|
||||
🇸🇾 叙利亚 叙利亚共和国 阿拉伯叙利亚共和国
|
||||
🇸🇿 斯威士兰 斯威士兰王国
|
||||
🇹🇦 特里斯坦–达库尼亚群岛 特里斯坦–达库尼亚
|
||||
🇹🇦 特里斯坦-达库尼亚群岛 特里斯坦-达库尼亚
|
||||
🇹🇨 特克斯和凯科斯群岛
|
||||
🇹🇩 乍得 乍得共和国
|
||||
🇹🇫 法属南部领地
|
||||
|
||||
@@ -31,18 +31,12 @@ var (
|
||||
// 初始化特殊词汇列表、需要注音列表、错别字列表、拼音列表
|
||||
func initCheck() {
|
||||
// 特殊词汇列表,不进行任何检查
|
||||
specialWords.Add("狄尔斯–阿尔德反应")
|
||||
specialWords.Add("特里斯坦–达库尼亚")
|
||||
specialWords.Add("特里斯坦–达库尼亚群岛")
|
||||
specialWords.Add("茱莉亚·路易斯-德瑞弗斯")
|
||||
specialWords.Add("梅赛德斯-奔驰")
|
||||
specialWords.Add("科科斯(基林)群岛")
|
||||
specialWords.Add("刚果(金)")
|
||||
specialWords.Add("刚果(布)")
|
||||
specialWords.Add("赛博朋克:边缘行者")
|
||||
specialWords.Add("赛博朋克:边缘跑手")
|
||||
specialWords.Add("赛博朋克:命运之轮")
|
||||
specialWords.Add("哈勃–勒梅特定律")
|
||||
|
||||
// 需要注音的列表
|
||||
file1, err := os.Open(需要注音TXT)
|
||||
@@ -241,9 +235,9 @@ func checkLine(dictPath string, _type int, line string, lineNumber int) {
|
||||
return
|
||||
}
|
||||
|
||||
// text 不应该有非汉字内容,除了间隔号 ·
|
||||
// text 不应该有非汉字内容,除了间隔号 · (Middle Dot: U+00B7)和连接号 - (Hyphen-Minus: U+002D)
|
||||
for _, c := range text {
|
||||
if string(c) != "·" && !unicode.Is(unicode.Han, c) {
|
||||
if !unicode.Is(unicode.Han, c) && !strings.ContainsRune("·-", c) {
|
||||
fmt.Println("❌ text 含有非汉字内容:", line)
|
||||
break
|
||||
}
|
||||
@@ -263,8 +257,9 @@ func checkLine(dictPath string, _type int, line string, lineNumber int) {
|
||||
if code != "" {
|
||||
codeCount := len(strings.Split(code, " "))
|
||||
textCount := utf8.RuneCountInString(text)
|
||||
if strings.Contains(text, "·") {
|
||||
if strings.ContainsAny(text, "·-") {
|
||||
textCount -= strings.Count(text, "·")
|
||||
textCount -= strings.Count(text, "-")
|
||||
}
|
||||
if strings.HasPrefix(text, "# ") {
|
||||
textCount -= 2
|
||||
@@ -292,10 +287,10 @@ func checkLine(dictPath string, _type int, line string, lineNumber int) {
|
||||
// 检查拼写错误,如「赞zan」写成了zna;顺便检查是否存在字表中没有注音的字
|
||||
if dictPath != HanziPath && (_type == 2 || _type == 3) && !hanPinyinFilter.Contains(text) {
|
||||
// 把汉字和拼音弄成一一对应关系,「拼音:pin yin」→「拼:pin」「音:yin」
|
||||
textWithoutDian := strings.ReplaceAll(text, "·", "") // 去掉间隔号
|
||||
textWithoutSpecialChars := strings.NewReplacer("·", "", "-", "").Replace(text) // 去掉间隔号和连接号
|
||||
pinyins := strings.Split(code, " ")
|
||||
i := 0
|
||||
for _, zi := range textWithoutDian {
|
||||
for _, zi := range textWithoutSpecialChars {
|
||||
if !contains(hanPinyin[string(zi)], pinyins[i]) {
|
||||
fmt.Printf("❌ 注音错误 or 字表未包含的汉字及注音: %s - %s.+%s\n", line, string(zi), pinyins[i])
|
||||
}
|
||||
|
||||
Reference in New Issue
Block a user