MinIO为生成式AI工作负载提供统一存储
创始人
2025-08-06 16:00:43
0

MinIO正在成为AI的多模态数据存储方案,为生成式AI提供数据访问和使用工具。这一点在与MinIO联合创始人兼联合CEO AB Periasamy的深度访谈中得到了印证。

在采访的第一部分,我们了解到MinIO为AI提供快速对象数据访问支持,使其意识到自己本质上是一家键值数据库公司,而键值存储可以同时包含非结构化的对象式数据和结构化的表格式Iceberg数据。

从AI角度来看,将Iceberg式数据项进行向量化是没有意义的,因为与文字或图像不同,它们不是具有可向量化维度特征的独立数据。在表格和生成式AI大语言模型及智能体之间需要某种中介逻辑/抽象层,来连接它们的非结构化数据向量焦点和结构化数据搜索。

**结构化数据作为对象存储的上层**

Periasamy解释说:"在对象存储早期,我们发现结构化数据是非结构化数据之上的一层。例如,Iceberg实际上就是类似Parquet对象的集合。基本上,如果你有一个10PB的表格,你不会存储一个10TB的对象。它将是较小Parquet对象的集合。每1000万行排序后,分割成一个Parquet对象,然后你就有了大量Parquet对象的集合。"

企业持续从其他数据库转储捕获的数据作为变更数据捕获或机器生成的遥测数据。所有这些都以表格格式呈现,但表格数据作为Parquet对象写入对象存储,只是对象,还有清单文件和元数据描述。所有这些都只是对象存储之上的一层。

**对象和表格成为一等公民**

MinIO目前正在开发的是:既有对象又有表格。结构化数据进入表格,非结构化数据进入对象,两者都成为对象存储内的一等公民。

MinIO已经通过promptObject展示了,如果你有销售收据或任何类型的非结构化数据,你可以像查询结构化数据一样查询非结构化数据资产。但如果你存储的全是结构化数据,就不需要模拟。相反,模型需要发现,比如说你有数百PB的表格数据。

**AI处理结构化数据的独特方式**

与只需要触及数据子集的数据库查询不同,生成式AI需要理解整个数据集。对于结构化数据,向量化并不是正确的方法。

Periasamy说:"如果是非结构化数据,你对其进行向量化,但如果是结构化数据,你如何向量化呢?在结构化数据中,我能向量化每一行吗?这根本没有任何意义。正确的处理方式是有一个链接层,AI首先需要发现表格。"

正确的方法是使用一个链接层,该层知道如何按需加载你正在寻找的内容。就像GPU空间中的KV缓存一样。你不能将所有表格加载到内存中。首先要经历一个发现阶段,了解业务分析师从业务角度提出的问题。

MinIO发现向量化在这里并不起作用。相反,使用元数据信息创建一个结构,将其提供给AI,并利用AI生成代码的能力。实际上,智能体是动态创建的。这里的链接是生成式AI编写代码,该代码理解表格数据的结构。

**KV缓存卸载支持**

所有推理引擎都已内置KV缓存。卸载允许KV缓存实际存储和检索、重新hydrate缓存,还处理非常大的内存,它们需要对键值存储的最快访问。MinIO已经支持KV缓存卸载接口,并正与各种推理引擎和客户合作采用它。

**promptObject API**

MinIO的promptObject API是S3 API的扩展,"让用户或应用程序与非结构化对象对话,就像与大语言模型对话一样。这意味着你可以要求对象描述自己,找到与其他对象的相似性和差异。"

例如,对象存储中可能有一张餐厅收据的图像,该收据上有"客人"字样,后面跟着数字4。promptObject API可以用来"询问对象有多少人来吃饭?"用户可以询问收据的几乎任何问题,如平均账单金额、所在城市、顶部图像是什么、最贵的菜是什么等。

总体而言,MinIO不仅仅是对象存储供应商,它是生成式AI大语言模型和智能体的源数据供应商,为非结构化数据支持向量,为结构化数据支持SQL类型查询。其自有的大语言模型为业务分析师输入的每个查询编写所需的SQL代码应用。

Q&A

Q1:MinIO如何处理结构化数据和非结构化数据的融合?

A:MinIO将对象和表格都作为一等公民处理。结构化数据进入表格,非结构化数据进入对象,两者都在对象存储内统一管理。通过promptObject API,非结构化数据可以像结构化数据一样被查询,而结构化数据则通过AI生成的代码进行理解和处理。

Q2:为什么MinIO不对结构化数据进行向量化处理?

A:因为结构化数据与文字或图像不同,它们不是具有可向量化维度特征的独立数据。对结构化数据的每一行进行向量化没有意义。MinIO采用AI生成代码的方式来理解表格数据结构,这比让AI在人类语言层面理解数据更有效。

Q3:promptObject API能实现什么功能?

A:promptObject API是S3 API的扩展,让用户可以像与大语言模型对话一样与非结构化对象对话。比如对餐厅收据图像询问"有多少人来吃饭"、"平均账单金额是多少"、"最贵的菜是什么"等问题,MinIO后端运行多模态大语言模型来处理这些查询。

相关内容

热门资讯

全新360安全云发布 打造AI... 8月6日,360安全在新品发布会暨合作伙伴大会期间发布全新360安全云产品,深度诠释“安全即服务”理...
原创 埃... 文/杨剑勇 工业机器人行业经历两年调整后,埃斯顿在2025年迎来关键转折点,2024年该公司遭遇上市...
“鹅厂”启动校招,并面向AI人... 8月6日,腾讯2026校园招聘正式启动。本次招聘面向2025年1月至2026年12月期间毕业的大学生...
医用一次性灌肠器开封后二次封存... 医用一次性灌肠器是设计用于单次使用的产品,其包装一旦开封,即使只使用了部分液体或完全未使用,二次封存...
邬贺铨院士支招:破解中小企业A... 人工智能作为引领新一轮科技革命和产业变革的战略性技术,正在对经济发展、社会进步等方面产生重大而深远的...
鹧鸪云光伏仿真软件:重塑光伏工... 鹧鸪云光伏仿真软件深度融合人工智能、数字孪生与大数据技术,构建了从项目规划到运维管理的全周期数字化闭...
蓝莓又有新惊喜!60岁身体“焕... 一颗小小的蓝莓,竟能让60岁的身体指标重返20岁? 这不是天方夜谭,而是科学研究给出的惊人发现。 沙...
美国拟2030年前在月球建成核... △艺术家描绘的月球上的电力系统。(图片来源:NASA) 当地时间8月5日,据多家美国媒体报道,美国交...
乔锋智能:六轴天车式龙门加工中... 证券之星消息,乔锋智能(301603)08月05日在投资者关系平台上答复投资者关心的问题。 投资者提...
零信任架构技术指南:腾讯iOA... 摘要: 零信任架构是大规模企业应对混合办公风险的核心方案。本文基于腾讯 iOA 的实战经验,解析零...
智行时代:南宁交通迈向智能高效... 在南宁东站网约车候车区,乘客使用智能候车系统便捷约车。记者潘浩摄 人工智能是区域交通运输效率跃升、安...
2025中国自动化与人工智能教... 中新网北京8月6日电 (记者 孙自法)记者从中国自动化学会获悉,由该学会主办的2025中国自动化与人...
我国IPv6活跃用户数超8亿 ... (记者 张苏慧)作为替代IPv4的下一代互联网协议,我国的IPv6发展已形成部门横向协同、央地上下联...
山东科森取得自动伸缩臂专利,能... 金融界2025年8月6日消息,国家知识产权局信息显示,山东科森自动化科技有限公司取得一项名为“5倍过...
美国挥刀“砍”向国际空间站,反... 【文/观察者网 王一】美国特朗普政府削减联邦预算的“砍刀”已经挥到太空上去了。美国《华尔街日报》8月...
如何从安卓设备迁移数据到iph... 从安卓手机转移到iPhone,却被卡到了“数据迁移”这一关。担心迁移过程复杂,害怕丢失数据,或者不知...
宝瑞激光取得新型煤粉取样装置专... 金融界2025年8月6日消息,国家知识产权局信息显示,宝瑞激光科技(苏州)有限公司取得一项名为“一种...
全国冠军!顺义少年与会“飞”的... 当会“飞”的足球精准穿越球门,当炫律彩虹电声乐团在国家大剧院奏响青春旋律,顺义区少年之家的精彩日常总...
海纳AI亮相2025世界人工智... 作为全球人工智能领域最具影响力的盛会之一,2025世界人工智能大会(WAIC)近日在上海盛大开幕。本...
台积电2纳米制程技术被日本窃取... 台积电2纳米制程技术被日本窃取了? 今天刚爆出的消息,台积电2纳米制程技术流向日本了,果真是千防万防...