让Minimax M3性能更出色
Make Minimax M3 Great More
标题党一下~
注1:要是minimax(海外版)能让我成功退款,也许就没有这篇文章了。。。
注2:这两个skill应该对所有模型都是有帮助的~
故事背景
我长期使用Codex(主要是Codex App),主要用GPT 5.5 Extra High。然而Token的开销比较高,最近在寻找合适的替代方案。
听说minimax m3表现非常不错,集齐了 Frontier 三件套——前沿 Coding/Agentic 能力、百万 token 级超长上下文、原生多模态的目前只有 Claude Opus 4.7、Gemini 3.1 Pro 、 GPT-5.5,以及Minimax M3。
于是我买了5美刀的API试用了一下,初见效果确实不错。之后买了20美刀的Token Plan,打算替代GPT。最开始我使用的minimax code,但是使用了大概两天之后,发现一些问题:
minimax code这个软件似乎存在一些bug。比如steer消息有时候会打断message,或者无缘无故的提示“Your message violates our content policy. Please revise and try again.”(但我仅仅是让它解释几篇机器人的论文)。此外,token的消耗不知道为什么,感觉越来越快了。

今天我意外的发现不同软件,比如codex app和minimax code,是存在system prompt的,不同的软件system prompt不一样、工具链不一样,会导致minimax m3模型表现也不一样。经过测试,我发现minimax m3接入codex app的话,似乎更稳定一些,执行一些任务更好一些。
但在codex app上用了minimax m3几天后,还是存在一些问题:
- 执行的能力不错,但是指令遵守的较差,有时候会忽略指令里面的一部分内容;
- 存在token焦虑,喜欢偷懒;比如让它读论文,没有明确说的话,只会读abstract和introduction,完全不会读正文,而如果我要求它每一页都读,它又会省略掉补充材料,而且偶尔对话里面会出现“节省token”之类的词,很奇怪;
- 不爱解析图片;这和第2点比较相似,有时候我要求论文截图,它只会根据文字来选择caption截图,不会真的去渲染这一页pdf自己看,然后再截图,它不会看自己的截图内容;
- 不喜欢搜索,有时候我问他问题,尽管是解释某个课件,但是它不会像GPT一样会补充一些搜索的内容,而且搜索之后不喜欢给出自己搜到的网络链接,并且搜到的内容看的也不仔细。
考虑到似乎不同的system prompt会导致模型的表现不一样,我猜测上面这几个问题也许可以用skill来缓解一下。
设计两个针对minimax m3的skill
上面四个问题简单来说可以分成两步来解决:
- 确保minimax m3理解了我的意图,关注到我的prompt每一句话;
- 确保minimax m3完全按照我的prompt执行任务,并且是按照我希望的强度进行执行。
这两步各自对应了一个skill,我开源放在:minimax_task_preflight、minimax_thorough_execution
minimax_task_preflight这个 skill 只负责读取原始用户请求,识别真正影响后续 prompt 的歧义,在必要时做简短追问,然后把请求改写成更清晰的 prompt。它的目标是让 MiniMax M3 在执行前更准确地理解用户的请求。
minimax_thorough_execution这个 skill 的目标是压制 MiniMax 常见的失败模式,比如擅自改写任务、为了省 token 悄悄缩小任务范围、读论文只读 abstract 和 introduction、跳过 appendix 或 supplementary material、不认真做视觉核验、浅搜索,以及搜完不给原始链接。此外,由于我发现GPT 5.5很喜欢在我的工作目录建立一个缓存文件夹,我把这一点也放了进去,让minimax也把一些重要信息缓存在本地。
用这两个skill让Minimax M3性能更出色
简单介绍一下这两个skill如何使用。
示例一
比如我现在要通过minimax m3,修改一个画图的skill。
我先发送一个简单的prompt,然后调用minimax_task_preflight,让minimax m3对我进行追问,并且重写prompt。


简单看一下minimax修改的prompt有没有问题、符不符合自己的要求,没问题之后发送,并且调用minimax_thorough_execution。之后minimax就会非常严格的把这个指令做好。

后续对话、追问,也可以继续调用minimax_thorough_execution这个skill。
如果认为自己的prompt写的比较清楚,直接用
minimax_thorough_execution就够了。由于skill的修改是一个线性的过程,因此minimax画了一个很丑的流程图(一条线怎么才能画好看呢)。

示例二
让minimax m3帮我总结一份课件,辅助我的学习。如下所示,这次我就不使用minimax_task_preflight了。

这次任务执行了20分钟,下载了很多论文,而且把40页的课件转成图片看了一遍。
但是,这文件结构过于混乱了。一会儿再改改skill。。。

不过消耗的token我觉得还算好,花掉了5h limit的3%。如果我按照这个强度一直用的话,似乎5个小时用不完所有额度。

产出的文档基本满足了我的要求,而且也解释了我关心的一些名词。基本上我把课件看完了,minimax也看完了。
放一个目录,但是这个目录好丑啊,受不了。

后续我再给他问一些问题,解释的也还行。
我以为它不打算搜索了,但是看下面两张图,我的信息steer之前它其实计划搜索了。


总结
