Mira乔娃维琪用AI做出“满分项目”？开发者实测：是真有料还是夸大炒作？

CryptoCity

2026-04-08 22:14:40

蜜拉·乔沃维奇参与开发的 AI 记忆系统 MemPalace 宣称测试满分而爆红，却遭社群踢爆测试涉嫌作弊与数据误导。实测发现成效夸大且有大量错误，团队已承认瑕疵并着手修复中。

蜜拉·乔沃维奇打造AI记忆宫殿，引发外界关注

昨天（4/7）AI 圈有个大新闻是，以《恶灵古堡》、《第五元素》闻名的好莱坞女星蜜拉·乔沃维奇（Milla Jovovich），与开发者 Ben Sigman 使用 Claude Code 辅助开发出「MemPalace」开源 AI 记忆系统。

一时间，「好莱坞巨星跨界做出满分专案」的说法广泛流传，MemPalace 至今在 GitHub 上也获得超过 2 万颗星星，但很快地就引发开发者社群质疑：是真的有料还是炒作？

先来谈一下 MemPalace 诞生的动机，官方文件称是想解决目前 AI 系统使用者与 AI 的对话内容、决策过程与架构讨论通常会在工作阶段结束后消失，导致数个月的心血归零的限制。

为解决这个问题，MemPalace 采用空间架构来储存记忆，将资讯明确归类至代表人员或专案的翼区，以及走廊、房间与抽屉等不同层级的结构中，保留对话原文供后续语意检索。

开发团队宣称，MemPalace 在长效记忆评估基准 LongMemEval 中获得 100% 的完美成绩，并且在不调用任何外部 API 的情况下达到 96.6% 的准确率，而且能完全在本地端运行，不需订阅云端服务，并搭载号称能达到 30 倍无损压缩的 AAAK 方言系统。

图源：GitHub 美国电影明星蜜拉乔沃维奇打造AI记忆宫殿，引发外界关注

同行与社群齐质疑，测试方法与宣传存瑕疵

不过，MemPalace 号称 LongMemEval 满分的成绩，很快就引来同行质疑。

同样是制作 AI 记忆系统的 PenfieldLabs 指出，MemPalace 宣称在 LoCoMo 数据集获得满分，在数学上不可能发生，因为该数据集的标准答案本身就包含 99 个错误。

PenfieldLabs 分析发现，MemPalace 的 100% 成绩来自于将检索数量设置为 50 次，但测试数据集对话的最高阶段数仅有 32 次，这代表系统直接绕过检索阶段，将所有数据交给 AI 模型阅读。

针对 LongMemEval 的 100% 成绩，开发团队被发现是针对开发集中出错的 3 个特定问题，撰写专属修复代码，存在针对测试集作弊的嫌疑。

图源：Reddit同行PenfieldLabs 指出，MemPalace 宣称在 LoCoMo 数据集获得满分，在数学上不可能发生

GitHub 使用者实测，基准测试有误导成分

GitHub 使用者 hugooconnor 则在实测后评论，MemPalace 宣称高达 96.6% 的检索准确率，实际上完全没有使用到 MemPalace 标榜的记忆宫殿架构。hugooconnor 称，他们的测试单纯调用底层数据库 ChromaDB 的预设功能，完全没有牵涉专案强调的翼区、房间或抽屉等分类逻辑。

hugooconnor 测试后发现，当系统真正启用这些记忆宫殿的专属分类逻辑时，检索成绩反而出现衰退。以房间模式为例，准确率下降至 89.4%，而启用 AAAK 压缩技术后，准确率更跌至 84.2%，两者皆低于预设数据库表现。

hugooconnor 也批评了测试方法，MemPalace 的测试环境刻意把每个问题的检索范围，缩小至约 50 个对话阶段，在极小的样本库中寻找答案过于简单。

若把范围扩大到真实情境的 19,000 多个对话阶段，传统关键词搜索的准确率会暴跌至 30%，显示 MemPalace 目前的测试方式掩盖真实的搜索难题。

图源：GitHub GitHub使用者实测，MemPalace基准测试有误导成分

同时，虽然开发团队已经发布更正声明，承认 AAAK 技术确实验证为有损压缩，并承诺会根据社群的严厉批评修正说明文件与系统设计。但专案的主说明文件依然保留多项未经修正的夸大说法，包含宣称 30 倍无损压缩与 34% 检索提升，且与其他竞争对手的比较图表也完全缺乏来源出处。

MemPalace 原始码面临多项 Bug

随着越来越多开发者下载测试，目前 GitHub 平台上出现大量关于 MemPalace 原始码的 Bug 回报。

使用者 cktang88 列出多项严重瑕疵，包含压缩指令无法运作并导致系统崩溃、摘要字数计算逻辑错误、挖掘房间的统计数据不准确，以及伺服器在每次调用时会将所有诠释资料载入内存中，造成严重的资源消耗问题。

其他被指出的问题，还包括系统将开发者的家庭成员名称硬性写入预设设置档中，以及查询状态时存在 1 万笔数据的强制显示上限。

针对这些问题，开源社群已经开始积极修复。**使用者 adv3nt3 提交多项修复请求，包含修正挖掘统计数据、移除预设的家庭成员名称，以及延迟知识图谱的初始化时间。**开发团队后续也承认这些错误，正透过社群协作逐步解决程式码的问题。

蜜拉·乔沃维奇 Vibe Coding 很酷，行销方式不酷

对于 MemPalace 这个专案，Hacker News 网友 darkhanakh 下了一个结论：MemPalace 给人一种 OpenClaw 的既视感，也就是人为操纵基准测试（benchmark）结果使其看起来完美无瑕，然后再将其包装成某种重大突破来行销。

他认为，MemPalace 的底层技术可能确实很有意思，但在测试方法带有这类瑕疵的情况下，还主打「史上公开最高分」来宣传，实在不太妥当，「不过，蜜拉·乔沃维奇在玩 Vibe Coding 这件事，我想还是挺酷的啦。」

延伸阅读：
AI 写程式出包！超商即期品 App「惜食猎人」爆资安问题，家中GPS全裸奔

信息来源

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论