让Minimax M3性能更出色

Make Minimax M3 Great More

标题党一下~

注1：要是minimax（海外版）能让我成功退款，也许就没有这篇文章了。。。

注2：这两个skill应该对所有模型都是有帮助的~

故事背景

我长期使用Codex（主要是Codex App），主要用GPT 5.5 Extra High。然而Token的开销比较高，最近在寻找合适的替代方案。

听说minimax m3表现非常不错，集齐了 Frontier 三件套——前沿 Coding/Agentic 能力、百万 token 级超长上下文、原生多模态的目前只有 Claude Opus 4.7、Gemini 3.1 Pro 、 GPT-5.5，以及Minimax M3。

于是我买了5美刀的API试用了一下，初见效果确实不错。之后买了20美刀的Token Plan，打算替代GPT。最开始我使用的minimax code，但是使用了大概两天之后，发现一些问题：

minimax code这个软件似乎存在一些bug。比如steer消息有时候会打断message，或者无缘无故的提示“Your message violates our content policy. Please revise and try again.”（但我仅仅是让它解释几篇机器人的论文）。此外，token的消耗不知道为什么，感觉越来越快了。
今天我意外的发现不同软件，比如codex app和minimax code，是存在system prompt的，不同的软件system prompt不一样、工具链不一样，会导致minimax m3模型表现也不一样。经过测试，我发现minimax m3接入codex app的话，似乎更稳定一些，执行一些任务更好一些。

参考：Codex System Prompt

但在codex app上用了minimax m3几天后，还是存在一些问题：

执行的能力不错，但是指令遵守的较差，有时候会忽略指令里面的一部分内容；
存在token焦虑，喜欢偷懒；比如让它读论文，没有明确说的话，只会读abstract和introduction，完全不会读正文，而如果我要求它每一页都读，它又会省略掉补充材料，而且偶尔对话里面会出现“节省token”之类的词，很奇怪；
不爱解析图片；这和第2点比较相似，有时候我要求论文截图，它只会根据文字来选择caption截图，不会真的去渲染这一页pdf自己看，然后再截图，它不会看自己的截图内容；
不喜欢搜索，有时候我问他问题，尽管是解释某个课件，但是它不会像GPT一样会补充一些搜索的内容，而且搜索之后不喜欢给出自己搜到的网络链接，并且搜到的内容看的也不仔细。

考虑到似乎不同的system prompt会导致模型的表现不一样，我猜测上面这几个问题也许可以用skill来缓解一下。

设计两个针对minimax m3的skill

上面四个问题简单来说可以分成两步来解决：

确保minimax m3理解了我的意图，关注到我的prompt每一句话；
确保minimax m3完全按照我的prompt执行任务，并且是按照我希望的强度进行执行。

这两步各自对应了一个skill，我开源放在：minimax_task_preflight、minimax_thorough_execution

minimax_task_preflight这个 skill 只负责读取原始用户请求，识别真正影响后续 prompt 的歧义，在必要时做简短追问，然后把请求改写成更清晰的 prompt。它的目标是让 MiniMax M3 在执行前更准确地理解用户的请求。

minimax_thorough_execution这个 skill 的目标是压制 MiniMax 常见的失败模式，比如擅自改写任务、为了省 token 悄悄缩小任务范围、读论文只读 abstract 和 introduction、跳过 appendix 或 supplementary material、不认真做视觉核验、浅搜索，以及搜完不给原始链接。此外，由于我发现GPT 5.5很喜欢在我的工作目录建立一个缓存文件夹，我把这一点也放了进去，让minimax也把一些重要信息缓存在本地。