谷歌发布 AI 文件检测工具 Magika 1.0,Rust 全面上阵带来性能与安全大升级

谷歌近日推出 Magika 1.0,这是一款基于人工智能的文件类型识别系统的全新稳定版。本次更新意味着 Magika 在性能与安全层面实现了大幅跃升,因为核心引擎已经全面迁移到 Rust。自去年开源以来,Magika 在社区中使用广泛,月下载量已突破 100 万次。

image.png

这一版本对整体架构做了重构,显著提升了处理速度与内存安全。谷歌表示,在单核处理器上每秒可识别数百个文件,配合多核 CPU 则可以扩展到每秒数千个。Magika 1.0 采用 ONNX Runtime 进行模型推理,并使用 Tokio 框架实现异步处理,以保证高效稳定运行。

在文件格式支持方面,Magika 1.0 的检测范围已覆盖 200 多种类型,几乎是初始版本的两倍。新增的类型包括数据科学与机器学习中的 Jupyter Notebooks、Numpy、PyTorch 等,以及现代编程与网页开发相关的 Swift、Kotlin、TypeScript 等。此外,还加入了与 DevOps 相关的文件类型,以及多种数据库与图形格式文件,如 SQLite 和 AutoCAD。

Magika 1.0 不仅在相似格式的识别上更精准,还加强了对不同编程语言文件的区分能力,比如 C 与 C++、JavaScript 与 TypeScript 等。为应对训练数据规模庞大以及部分类型样本不足的挑战,谷歌构建了自有数据集库 SedPack,并通过生成式 AI 工具 Gemini 产出高质量的合成训练数据,提升模型的泛化效果。

同时,Magika 更新了 Python 与 TypeScript 模块,方便开发者快速集成。用户可通过简单命令在不同操作系统上安装使用,谷歌也鼓励开发者加入社区,共同优化并扩展该工具的能力。

划重点:  

🌟 Rust 全面重构,性能与安全显著升级。  

📂 支持 200+ 文件格式,新增多种数据科学与编程语言类型。  

⚙️ 集成流程更简便,欢迎社区参与持续优化。  

爱智特-AI智能体一站式企业智能体交易学习发行平台|智能体教程|智能体社区
© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享