今天,百度智能云千帆雅致推出全新视觉意会模子—— Qianfan-VL,并全面开源!
该系列包含 3B、8B 和 70B 三个尺寸版块,是面向企业级多模态期骗场景,进行了深度优化的视觉意会大模子。Qianfan-VL 不仅具备出色的基础通用智商,还针对产业落地中的高频需求,如 OCR 和评释垂直场景作念了专项强化,使其在本色期骗中进展愈加不凡。
Qianfan-VL 系列模子是由百度智能云千帆模子研发团队,基于开源模子进行设立,并在百度自研昆仑芯 P800 上完周至过程揣测任务。昆仑芯 P800 提供了宏大的算力复旧,确保模子大概高效处理海量数据与复杂算法,同期支抓单任务 5000 卡范围的并行揣测。这统统集不仅优化了模子揣测的效力,更使得模子在性能进展上达到了新的高度,在通用和垂类任务评测中展现出 SOTA 水平。
Qianfan-VL 模子具备三大性格:
多尺寸模子本旨不同场景需求:提供 3B、8B、70B 三种规格的模子,让不同范围的企业和设立者都能找到相宜的责罚有谋略。
提供想考推明智商:8B 和 70B 模子支抓通过绝顶 token 激活想维链智商,粉饰复杂图表意会、视觉推理、数学解题等多种场景。
OCR 与文档意会智商增强:主打 OCR 全场景识别和复杂版面文档意会两大特色智商,在多项基准测试中进展优异,为企业级期骗提供高精度的视觉意会责罚有谋略。
模子性能与效力通用智商基准测试进展
在通用智商基准测试中,Qianfan-VL 系列模子(3B、8B、70B)展现出显耀中枢上风。
从视觉意会到专科领域问答,模子性能随参数范围增大普及显耀,体现出很好的 Scaling 趋势。在 ScienceQA 等专科问答测试中,精确度进展凸起;多模态任务如 RefCOCO 等,物体识别与相干智商优异;同期,在种种通用基准测试里,相较主流模子,举座进展也颇为亮眼,充分彰显出在视觉意领略用智商上的出色实力,为不同场景下的智能期骗提供了有劲复旧。

OCR 与文档意会基准测试进展
Qianfan-VL 系列模子(3B、8B、70B)在 OCR 与文档意会领域尽显不凡实力。
一方面,具备 OCR 全场景识别智商,能精确识别手写体、数学公式、当然场景翰墨,还可对卡证单子信息进行结构化索要;另一方面,复杂版面文档意会智商凸起,可自动分析版面元素,精确证据表格、图表,罢了文档智能问答与结构化证据。从基准测试进展看,在 OCRBench、种种专科测试中,相较于主流模子,收货优异且随参数范围普及抓续向好,为企业级期骗提供了高精度的视觉意会责罚有谋略,有劲鼓舞文档智能处理场景的高效落地。

数学解题基准测试进展
Qianfan-VL 系列的 8B 和 70B 模子,在想考推明智商方面进展不凡。
它们支抓通过绝顶 token 激活想维链智商,能粉饰复杂图表意会、视觉推理、数学解题等多类场景。这类任务需都集视觉信息与外部常识进行组合推理,而模子通过领略无数视觉类、文本类推理数据并用于后熟谙,从 benchmark 进展来看,推理揣测相干任务效力显耀普及。
在中枢推理期骗场景上,复杂图表意会与推理方面,可从复杂图表索要要津信息,进行数据分析、趋势量度、相干推理及统诡计计;数学解题与视觉推理领域,能罢了几何推理、公式识别、分步求解与逻辑推断。从数学解题基准测试进展看,在 MathVista-mini、MathVision 等多项测试中,相较于主流模子,收货优异且随参数范围普及抓续向好,为复杂推理场景下的期骗提供了强力支抓。

模子架构瞎想与时代特色
Qianfan-VL 通过先进的多模态架构瞎想,凭借抓续预熟谙和三大时代转换,罢了了领域增强的通用视觉 - 道话智商。

智商增强熟谙有谋略:转换的四阶段熟谙计谋,在保抓通用智商基础上罢了领域智商显耀普及
高精度数据合成管线:构建面向多模态任务的大范围数据合成管线,涵盖文档识别、数学解题、图表意会、表格识别、公式识别、当然场景 OCR 等中枢任务,通过雅致化的管线瞎想和中间过程数据构造,罢了高质料熟谙数据的范围化坐褥。
昆仑芯驱动大模子高效揣测:基于百度自研昆仑芯 P800 芯片,构建了业界卓越的超大范围(5000 卡)分散式揣测系统,通过转换的并行计谋和算子优化,显耀普及大模子任务的处感性能与运转效力。
模子期骗案例 OCR 识别场景



(左滑稽查更多)数学推理场景

文档意会场景

形势 期末余额 年头余额 流动钞票: 货币资金 5,288,011,738.39 2,629,981,089.49 结算备付金 拆出资金 以公允价值计量且其变动计入当期损益的金融钞票 3,226,301.37 6,830,273.97 生息金融钞票 应收单子 1,010,636.94 888,800.00 应收账款 389,409,537.65 290,733,812.62 预支款项 474,301,533.93 509,510,514.92 应收保费 应收分保账款 应收分保公约准备金 应收利息 8,746,899.35 1,645,890.39 应收股利 其他应收款 291,499,926.83 364,426,205.02 买入返售金融钞票 存货 69,558,687.59 79,651,862.50 折柳为抓有待售的钞票 一年内到期的非流动钞票 其他流动钞票 533,938,653.95 545,184,036.20 流动钞票整个 7,059,703,916.00 4,428,852,485.11 非流动钞票: 披发贷款和垫款 可供出售金融钞票 981,477,845.00 42,732,350.00 抓有至到期投资 永恒应收款 永恒股权投资 478,328,423.92 482,914,333.17 投资性房地产 固定钞票 11,211,345,599.37 11,517,509,788.66 在建工程 344,034,065.45 558,797,792.68
除上述场景期骗案例外,Qianfan-VL 通常可期骗在图表分析、视频意会等场景中,均呈现出不凡的模子效力。
Qianfan-VL 系列模子的开源体育游戏app平台,对百度智能云千帆来说,更像是 "把模子放进信得过坐褥力场景" 的第一小步;往日,百度智能云端示会秉抓着对时代的执着追求与对期骗场景的深度洞悉,不休推出全新的产业级模子,全方向助力 AI 时代在各行业落地。
