dict: 连接号处理 (#1194)

This commit is contained in:
Lithium-7
2025-03-08 02:02:59 +08:00
committed by GitHub
parent 22699f5ade
commit de5e5d267d
5 changed files with 29 additions and 21 deletions

View File

@@ -2246,7 +2246,7 @@
#///
---
name: base
version: "2025-03-06"
version: "2025-03-07"
sort: by_weight
...
# +_+
@@ -82686,7 +82686,7 @@ sort: by_weight
第二手 di er shou 1350
第二受益人 di er shou yi ren 2885
第二顺序 di er shun xu 885
狄尔斯阿尔德反应 di er si a er de fan ying 60
狄尔斯-阿尔德反应 di er si a er de fan ying 60
第二四分位数 di er si fen wei shu 1
第二台 di er tai 4075
第二胎 di er tai 2690
@@ -149462,7 +149462,7 @@ sort: by_weight
哈伯 ha bo 1
# 哈博 ha bo 0
哈勃定律 ha bo ding lv 125
哈勃勒梅特定律 ha bo le mei te ding lv 3333
哈勃-勒梅特定律 ha bo le mei te ding lv 3333
哈博罗内 ha bo luo nei 320
哈勃望远镜 ha bo wang yuan jing 945
哈布雷 ha bu lei 80
@@ -382054,8 +382054,8 @@ sort: by_weight
特例入境 te li ru jing 68
特莉丝 te li si 146
特莉丝·梅莉葛德 te li si mei li ge de 111
特里斯坦达库尼亚 te li si tan da ku ni ya 3333
特里斯坦达库尼亚群岛 te li si tan da ku ni ya qun dao 3333
特里斯坦-达库尼亚 te li si tan da ku ni ya 3333
特里斯坦-达库尼亚群岛 te li si tan da ku ni ya qun dao 3333
特里谢 te li xie 2460
特亮 te liang 350
特林加岱拉 te lin jia dai la 1

View File

@@ -16,7 +16,7 @@
# - 简化字八股文 https://github.com/rime/rime-essay-simp
---
name: ext
version: "2025-03-06"
version: "2025-03-07"
sort: by_weight
...
# +_+
@@ -2771,7 +2771,7 @@ sort: by_weight
昂昂自若 ang ang zi ruo 100
昂藏不凡 ang cang bu fan 100
昂藏七尺 ang cang qi chi 100
盎格鲁撒克逊 ang ge lu sa ke xun 100
盎格鲁-撒克逊 ang ge lu sa ke xun 100
盎格鲁萨克逊 ang ge lu sa ke xun 100
盎格鲁萨克逊人 ang ge lu sa ke xun ren 100
昂贵的 ang gui de 100
@@ -16688,6 +16688,7 @@ sort: by_weight
薄弱学校 bo ruo xue xiao 100
薄弱学校改造 bo ruo xue xiao gai zao 100
播散着 bo san zhe 100
玻色-爱因斯坦凝聚 bo se ai yin si tan ning ju 100
玻色子 bo se zi 100
波森莓 bo sen mei 100
薄纱长裙 bo sha chang qun 100
@@ -90003,6 +90004,7 @@ sort: by_weight
鼓山区 gu shan qu 100
孤善于千里袭人 gu shan yu qian li xi ren 100
孤山寨 gu shan zhai 100
谷山-志村猜想 gu shan zhi cun cai xiang 100
骨伤病 gu shang bing 100
故上兵伐谋 gu shang bing fa mou 100
鼓舌摇唇 gu she yao chun 100
@@ -133730,6 +133732,8 @@ sort: by_weight
咔咔一顿操作 ka ka yi dun cao zuo 100
卡口系统 ka kou xi tong 100
卡拉比拉 ka la bi la 100
卡拉比-丘空间 ka la bi qiu kong jian 100
卡拉比-丘流形 ka la bi qiu liu xing 100
卡拉布里亚 ka la bu li ya 100
喀拉蚩 ka la chi 100
喀拉汗国 ka la han guo 100
@@ -137775,6 +137779,7 @@ sort: by_weight
克伦奇 ke lun qi 100
克罗埃 ke luo ai 100
克罗德 ke luo de 100
克洛德·列维-斯特劳斯 ke luo de lie wei si te lao si 100
可落地 ke luo di 100
克罗地亚队 ke luo di ya dui 100
克罗地亚国家队 ke luo di ya guo jia dui 100
@@ -149429,6 +149434,7 @@ sort: by_weight
列王记下 lie wang ji xia 100
列为被执行人 lie wei bei zhi xing ren 100
列为失信被执行人 lie wei shi xin bei zhi xing ren 100
列维-斯特劳斯 lie wei si te lao si 100
列为重点 lie wei zhong dian 100
猎物也是猎人 lie wu ye shi lie ren 100
烈性传染病 lie xing chuan ran bing 100
@@ -157241,6 +157247,8 @@ sort: by_weight
马拉威 ma la wei 100
麻辣鱼 ma la yu 100
麻辣鱼鳞 ma la yu lin 100
马来-波利尼西亚 ma lai bo li ni xi ya 100
马来-波利尼西亚语族 ma lai bo li ni xi ya yu zu 100
马莱部队 ma lai bu dui 100
马莱帝国 ma lai di guo 100
马莱帝国军 ma lai di guo jun 100
@@ -197334,6 +197342,8 @@ sort: by_weight
让我坐下 rang wo zuo xia 100
让贤与能 rang xian yu neng 100
让心灵去旅行 rang xin ling qu lv xing 100
让-雅克·阿诺 rang ya ke a nuo 100
让-雅克·卢梭 rang ya ke lu suo 100
让逸竞劳 rang yi jing lao 100
让一追三 rang yi zhui san 100
让一追四 rang yi zhui si 100
@@ -280764,6 +280774,7 @@ sort: by_weight
亚克朗 ya ke lang 100
压克力 ya ke li 100
压克力板 ya ke li ban 100
雅克-路易·大卫 ya ke lu yi da wei 100
亚克诺姆 ya ke nuo mu 100
亚克席 ya ke xi 100
亚克席法印 ya ke xi fa yin 100
@@ -283232,6 +283243,8 @@ sort: by_weight
杨梦婧 yang meng jing 100
杨幂参加活动 yang mi can jia huo dong 100
杨幂的大长腿 yang mi de da chang tui 100
杨-米尔斯方程 yang mi er si fang cheng 100
杨-米尔斯理论 yang mi er si li lun 100
仰面长叹 yang mian chang tan 100
仰面朝上 yang mian chao shang 100
仰面大笑 yang mian da xiao 100

View File

@@ -4671,8 +4671,8 @@ Vs. Vs. 🆚
阿拉伯叙利亚共和国 阿拉伯叙利亚共和国 🇸🇾
斯威士兰 斯威士兰 🇸🇿
斯威士兰王国 斯威士兰王国 🇸🇿
特里斯坦达库尼亚群岛 特里斯坦达库尼亚群岛 🇹🇦
特里斯坦达库尼亚 特里斯坦达库尼亚 🇹🇦
特里斯坦-达库尼亚群岛 特里斯坦-达库尼亚群岛 🇹🇦
特里斯坦-达库尼亚 特里斯坦-达库尼亚 🇹🇦
特克斯和凯科斯群岛 特克斯和凯科斯群岛 🇹🇨
乍得 乍得 🇹🇩
乍得共和国 乍得共和国 🇹🇩

View File

@@ -1996,7 +1996,7 @@ S$ 新加坡元 新加坡币
🇸🇽 荷属圣马丁 圣马丁
🇸🇾 叙利亚 叙利亚共和国 阿拉伯叙利亚共和国
🇸🇿 斯威士兰 斯威士兰王国
🇹🇦 特里斯坦达库尼亚群岛 特里斯坦达库尼亚
🇹🇦 特里斯坦-达库尼亚群岛 特里斯坦-达库尼亚
🇹🇨 特克斯和凯科斯群岛
🇹🇩 乍得 乍得共和国
🇹🇫 法属南部领地

View File

@@ -31,18 +31,12 @@ var (
// 初始化特殊词汇列表、需要注音列表、错别字列表、拼音列表
func initCheck() {
// 特殊词汇列表,不进行任何检查
specialWords.Add("狄尔斯–阿尔德反应")
specialWords.Add("特里斯坦–达库尼亚")
specialWords.Add("特里斯坦–达库尼亚群岛")
specialWords.Add("茱莉亚·路易斯-德瑞弗斯")
specialWords.Add("梅赛德斯-奔驰")
specialWords.Add("科科斯(基林)群岛")
specialWords.Add("刚果(金)")
specialWords.Add("刚果(布)")
specialWords.Add("赛博朋克:边缘行者")
specialWords.Add("赛博朋克:边缘跑手")
specialWords.Add("赛博朋克:命运之轮")
specialWords.Add("哈勃–勒梅特定律")
// 需要注音的列表
file1, err := os.Open(需要注音TXT)
@@ -241,9 +235,9 @@ func checkLine(dictPath string, _type int, line string, lineNumber int) {
return
}
// text 不应该有非汉字内容,除了间隔号 ·
// text 不应该有非汉字内容,除了间隔号 · (Middle Dot: U+00B7)和连接号 - (Hyphen-Minus: U+002D)
for _, c := range text {
if string(c) != "·" && !unicode.Is(unicode.Han, c) {
if !unicode.Is(unicode.Han, c) && !strings.ContainsRune("·-", c) {
fmt.Println("❌ text 含有非汉字内容:", line)
break
}
@@ -263,8 +257,9 @@ func checkLine(dictPath string, _type int, line string, lineNumber int) {
if code != "" {
codeCount := len(strings.Split(code, " "))
textCount := utf8.RuneCountInString(text)
if strings.Contains(text, "·") {
if strings.ContainsAny(text, -") {
textCount -= strings.Count(text, "·")
textCount -= strings.Count(text, "-")
}
if strings.HasPrefix(text, "# ") {
textCount -= 2
@@ -292,10 +287,10 @@ func checkLine(dictPath string, _type int, line string, lineNumber int) {
// 检查拼写错误如「赞zan」写成了zna顺便检查是否存在字表中没有注音的字
if dictPath != HanziPath && (_type == 2 || _type == 3) && !hanPinyinFilter.Contains(text) {
// 把汉字和拼音弄成一一对应关系,「拼音:pin yin」→「拼:pin」「音:yin」
textWithoutDian := strings.ReplaceAll(text, "·", "") // 去掉间隔号
textWithoutSpecialChars := strings.NewReplacer("·", "", "-", "").Replace(text) // 去掉间隔号和连接号
pinyins := strings.Split(code, " ")
i := 0
for _, zi := range textWithoutDian {
for _, zi := range textWithoutSpecialChars {
if !contains(hanPinyin[string(zi)], pinyins[i]) {
fmt.Printf("❌ 注音错误 or 字表未包含的汉字及注音: %s - %s.+%s\n", line, string(zi), pinyins[i])
}