Files
archived-MoviePilot-Plugins/plugins.v2/lexiannot

美剧生词标注

根据CEFR等级为英语影视剧标注高级词汇。


在影视剧入库后LexiAnnot 会读取媒体文件的MediaInfo和文件列表如果视频的原始语言为英语并且包含英文文本字幕LexiAnnot将为其生成包含词汇注释的.en.ass字幕文件。

主要功能

  • 识别视频的原始语言和字幕语言
  • 自动适应原字幕样式
  • 俚语 / 自造词 / 熟词生义标注和解释

使用配置

  • spaCy 模型
    • spaCy 用于词形还原、POS 标注和命名实体识别,en_core_web_smen_core_web_md 已足够满足需求。
  • LLM 设置
    • 一集影视剧的字幕通常包含数千个单词,建议使用支持长文本输入的模型,选择一个适当的上下文窗口大小。
    • 处理 60 min 的影视剧字幕大约会消耗 60K~80K token具体取决于字幕内容。
    • 配置请参考 MoviePilot 智能助手的设置部分。
  • Agent 工具
    • 在聊天中使用 /ai 命令告诉智能助手你要标注的影视剧。

CEFR

CEFR全称是Common European Framework of Reference for Languages。

它是一个国际标准用于描述语言学习者的语言能力水平。CEFR 将语言能力分为六个级别,并进一步归类为三大使用者类型:

  • A - 基础使用者 (Basic User)
    • A1 (初学者/Beginner):能够理解并使用日常熟悉的表达和非常基本的短语。
    • A2 (初级/Elementary):能够理解基本的表达方式,并以简单的方式进行交流。
  • B - 独立使用者 (Independent User)
    • B1 (中级/Intermediate):能够理解熟悉主题的主要观点,可以处理旅行中可能遇到的多数情况,并能就熟悉的话题发表意见和描述。
    • B2 (中高级/Upper-Intermediate):能够理解复杂文本的主要思想,并能与母语者进行一定程度的流利、自然的互动,可以就广泛的主题进行清晰、详细的阐述。
  • C - 熟练使用者 (Proficient User)
    • C1 (高级/Advanced):能够理解各种较长、要求较高的文本,并能识别隐含意义,表达流利、自然,能灵活有效地使用语言来应对各种目的。
    • C2 (精通/Proficient):能够轻松理解几乎所有听到的或读到的内容,能够非常流利、准确、精细地表达自己,即使在复杂的情况下也能区分细微的含义。

计划

  • 双语字幕支持
  • 考试词汇标注

FAQ

  • 只能处理已有字幕的视频吗?
    • 是的,视频需要包含英文文本字幕
  • 为什么无法处理一些包含字幕视频
    • 目前无法识别基于图片的字幕(通常是特效字幕)

感谢