Files
archived-MoviePilot-Plugins/plugins.v2/lexiannot/README.md

59 lines
2.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 美剧生词标注
根据CEFR等级为英语影视剧标注高级词汇。
___
在影视剧入库后LexiAnnot 会读取媒体文件的MediaInfo和文件列表如果视频的原始语言为英语并且包含英文文本字幕LexiAnnot将为其生成包含词汇注释的`.en.ass`字幕文件。
## 主要功能
![](https://images2.imgbox.com/c8/3a/rEJBWu5v_o.png)
![](https://images2.imgbox.com/56/c0/FBhJMvRD_o.jpg)
![](https://images2.imgbox.com/e8/8c/B1EJwst7_o.jpg)
![](https://images2.imgbox.com/8a/d4/AtgOe265_o.jpg)
- 识别视频的原始语言和字幕语言
- 自动适应原字幕样式
- 俚语 / 自造词 / 熟词生义标注和解释
## 使用配置
- spaCy 模型
- spaCy 用于词形还原、POS 标注和命名实体识别,`en_core_web_sm``en_core_web_md` 已足够满足需求。
- LLM 设置
- 一集影视剧的字幕通常包含数千个单词,建议使用支持长文本输入的模型,选择一个适当的上下文窗口大小。
- 处理 60 min 的影视剧字幕大约会消耗 `60K`~`80K` token具体取决于字幕内容。
- 配置请参考 MoviePilot 智能助手的设置部分。
- Agent 工具
- 在聊天中使用 `/ai` 命令告诉智能助手你要标注的影视剧。
## CEFR
CEFR全称是Common European Framework of Reference for Languages。
它是一个国际标准用于描述语言学习者的语言能力水平。CEFR 将语言能力分为六个级别,并进一步归类为三大使用者类型:
- **A - 基础使用者 (Basic User)**
- **A1** (初学者/Beginner):能够理解并使用日常熟悉的表达和非常基本的短语。
- **A2** (初级/Elementary):能够理解基本的表达方式,并以简单的方式进行交流。
- **B - 独立使用者 (Independent User)**
- **B1** (中级/Intermediate):能够理解熟悉主题的主要观点,可以处理旅行中可能遇到的多数情况,并能就熟悉的话题发表意见和描述。
- **B2** (中高级/Upper-Intermediate):能够理解复杂文本的主要思想,并能与母语者进行一定程度的流利、自然的互动,可以就广泛的主题进行清晰、详细的阐述。
- **C - 熟练使用者 (Proficient User)**
- **C1** (高级/Advanced):能够理解各种较长、要求较高的文本,并能识别隐含意义,表达流利、自然,能灵活有效地使用语言来应对各种目的。
- **C2** (精通/Proficient):能够轻松理解几乎所有听到的或读到的内容,能够非常流利、准确、精细地表达自己,即使在复杂的情况下也能区分细微的含义。
## 计划
- 双语字幕支持
- ~~考试词汇标注~~
## FAQ
- **只能处理已有字幕的视频吗?**
- 是的,视频需要包含**英文文本字幕**
- **为什么无法处理一些包含字幕视频**
- 目前无法识别基于图片的字幕(通常是特效字幕)
## 感谢
- [coca-vocabulary-20000](https://github.com/llt22/coca-vocabulary-20000)