kimi 开源

大家好,我是 Ai 学习的老章

昨天MiniMax 开源了 M1 系列 MoE 大模型,模型参数 456B,比 Qwen3 还要庞大,最大亮点是超长上下文支持,原生支持 100 万 token,是 DeepSeek R1 的 8 倍,其实昨天还有一个大模型开源了——Kimi-Dev-72B

Kimi 暂未放出技术文件,所以信息不多,这里就简单看看

Kimi-Dev-72B 基于 Qwen2.5-72B 进行微调,为软件工程任务优化,旨在提升代码生成、bug 修复、测试编写和问题解决的能力:

测评情况:

目前已知,Kimi 只放出了 SWE-bench Verified 基准测试表现,Kimi-Dev-72B 达到 60.4% 的成绩,超越了此前由 DeepSeek-R1 保持的 57.6% 的记录,创造了开源模型的新纪录。

SWE-Bench 是用于评估大语言模型(LLM)在真实软件开发环境中解决代码问题的基准测试工具,尤其在自动修复 bug、代码生成等软件工程任务中具有权威性。

SWE - bench Verified 是 OpenAI 推出的 SWE - bench 的改进版本,包含 500 个经过验证的样本,是一个更精炼的子集。

看了一下评价,普遍质疑态度

主要是作为 Qwen2.5-72B 微调版的模型,仅在一个基准测试上取得的成绩没有说服力,而且很多实测效果远不如 DeepSeek-R1-0528,让人怀疑是否在刷榜

还有就是为了增强思考/推理能力而牺牲了多语言处理功能

还有就是幻觉非常严重

我也简单测试了一下,感觉类似:中文提问,思考和回答都是英文,最终效果也很一般

效果如下

DeepSeek-R1-0528-Qwen3-8BQwen3:32B 都差,也不如昨天的 Agent 模式下的 MiniMax-M1

我没有本地部署,模型文件 140GB 靠上了,没实力

测试我用的 OpenRouter

它提供了免费兼容 OpenAI API 调用的 Kimi-Dev-72B

https://openrouter.ai/moonshotai/kimi-dev-72b:free

申请 api:
https://openrouter.ai/settings/keys

chatbot 我用的 CherryStudio,之前介绍过 给所有大模型加上联网功能,套到极致,就是艺术

后续:我让它中文回复我,效果更惊艳一些

依然是英文回复,效果上,仅仅是改了颜色

有点失望

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

搭建完美的写作环境:工具篇(12 章)
图解机器学习 - 中文版(72 张 PNG)
ChatGPT、大模型系列研究报告(50 个 PDF)
108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础
116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数
史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等

展开阅读全文

更新时间:2025-06-19

标签:科技   模型   代码   测试   效果   基准   机器   环境   小册子   英文   软件工程

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020- All Rights Reserved. Powered By 71396.com 闽ICP备11008920号
闽公网安备35020302034903号

Top