猎户星空大模型多项评测霸榜,日、韩语能力全球第一
以下文章来源于猎户星空OrionStar ,作者猎户星空
1月21日,猎户星空发布了开源大模型Orion-14B,以其140亿参数规模展现出了卓越的性能,在多个权威通用能力上Orion-14B表现出百亿参数大模型基座能力的行业领先性,其中MMLU、C-Eval、CMMLU、GAOKAO、BBH等第三方测试集上,均为同级别模型SOTA。
不仅如此,Orion-14B超越了市面上许多更大参数的模型,尤其日语和韩语能力表现优秀,评测全球第一。
官网链接:https://www.orionstar.com/llm.html
多项权威评测霸榜,日、韩语能力全球第一
在200亿参数以下,Orion-14B在评测平台上的分数都很高,MMLU、C-Eval、CMMLU、GAOKAO、BBH等第三方测试集上,均为同级别模型SOTA。这不仅代表较强的基座能力,也意味着犯错的几率很小。
基于第三方机构OpenCompass独立评测结果
不仅如此,Orion-14B在评测中表现了超强的多语言能力,超越了市面上许多更大参数的模型,尤其日语和韩语能力表现优秀,评测全球第一。
日文为JNLI等8项评测集平均得分;韩文为COPA等4项评测集平均得分;中文英文为OpenCompass对应语言评测集平均得分
董事长傅盛强调,Orion-14B在语料训练中专门强化了日语和韩语,旨在为猎户星空出海商用机器人应用提供支持。猎户星空机器人在日本和韩国不仅限于送餐服务,还能与用户进行流畅的交流。在以往的自然语言处理时代,我们因为定制过于繁琐而望而却步。然而,如今通过应用Orion-14B基座能力,我们不仅在递送方面可以发挥极致,而且在语言交流方面也能轻松应对用户需求。
Orion-14B在第三方OpenCompass综合测评总分中,700亿以下参数基座模型中文数据集排名第一。
最长可支持 320K token 超长文本,一次性读入一本小说。在三十万文字中任意位置随机隐藏关键信息,对模型进行提问,结果全部正确,实现长文本中「大海捞针」。
量化性能几乎无损,千元显卡可跑。 通过AWQ Q4量化技术,模型大小减少70%,推理速度提升30%,性能几乎无损(损失小于1%),在千元级显卡可以流畅运行。在NVIDIA RTX 3060显卡实测,推理速度可达31 token/s (约每秒50汉字)
此外,猎户星空还发布了七大场景应用微调模型和大模型应用交钥匙解决方案「聚言」。
引发海外技术达人热议
Orion-14B一经发布便引发海外技术达人热议,Twitter大V、著名模型套件公司Gradio创始成员AK大力推荐,还有开发者表示“这是我见过的最全面的基准模型之一!为猎户星空团队的全面工作点赞”。
技术达人表示“模型看起来非常强大。我喜欢他们列出的所有基准分数,真的能给人很好的整体感觉”。
还有达人表示“希望他们能用RAG(检索增强生成)测试更多数据提取任务模型”。
YouTube上达人表示“猎户星空团队的研究工作很philosophical。”
还有日本达人表示“看演示感觉日语相当流利。”
Orion-14B是如何打造的?
预训练数据质量方面,预训练数据质量对大型语言模型训练至关重要,为确保高质量,猎户星空实施了一系列过滤措施,包括文本规范化、有害内容移除、个人信息过滤和质量过滤。虽然数据高质量很重要,但猎户星空也平衡了数据质量和数量。
多语言方面,多语言分词器是大型语言模型的基础组件,猎户星空采用统计方法生成词级或子词级标记,使用字节对编码算法实现。通过策划广泛的文本类型构建多样化的语料库,确保字符覆盖率和与训练数据分布匹配。分词器词汇量大小适宜且压缩比高。
高质量、多样性的微调数据方面,如何构建高质量、多样性数据是猎户星空重点关注的问题,高质量微调数据具备有帮助、真实性和无害性;多样性微调数据具备任务多样、指令多样、覆盖领域多样,比如:长度、语种的多样性覆盖。
更具体信息参考技术报告: https://arxiv.org/pdf/2401.12246.pdf
Orion-14B模型体验(附推理微调最佳实践及体验地址)
猎户星空大模型Orion-14B “专为企业应用而生”,围绕企业应用的核心场景,Orion-14B 在基础能力、文档问答、插件工具调用、QA对生成、数据抽取方面均展示了不俗的效果:
基础能力-代码能力:
文档问答:
插件工具调用能力:
QA对生成:
信息数据抽取:
Orion-14B可以直接线上体验,参考链接:
GitHub:https://github.com/OrionStarAI/Orion
Hugging Face:https://huggingface.co/OrionStarAI
ModelScope:https://modelscope.cn/studios/OrionStarAI/Orion-14B-App-Demo/summary
合作|张子鹏 newsmedia007
----------------------------
(科记汇,财经、科技先锋,资深内容团队,三十家网络平台同步。不保证以上内容的准确性和真实性。市场有风险,投资交易需谨慎。所涉标的不做任何推荐,据此投资交易,风险自担。)