腾讯混元与 SSV Digital Culture Lab 联合中国科学院计算技术研究所发布了 Chronicles-OCR,时间为 5 月 18 日,这是首个评估基准,覆盖从甲骨文到草书的七种古文字字体风格。该基准包含 2,800 张由专家标注的图像。
对 28 个主流多模态大语言模型的测试显示古文字表现不佳。GPT-5 和 Gemini 2.5 Pro 在跨时代字符检测上得分接近 0,而表现最好的模型也仅达到 16.5。即使提供边界框以跳过本地化,最高准确率也只有 27.1%,Gemini 3.1 Pro 在甲骨文上的准确率仅为 14.0%。
相关快讯