8月7日音讯,人工智能公司面壁智能宣告正式开源其最新的端侧AI多模态模型——MiniCPM-V 2.6。官方称 MiniCPM-V 2.6 模型仅 8B 参数,获得 20B 以下单图、多图、视频了解 3 SOTA 成果。
据面壁智能官方介绍,MiniCPM-V 2.6 模型在多项功用上完成了初次在端侧的布置,包含实时视频了解、多图联合了解、多图ICL(上下文少样本学习)视觉类比学习、多图OCR等。这些功用的参加,使得端侧模型可以更靠近杂乱的实在国际场景,充沛的发挥其传感器富集、靠近用户的优势。
据介绍,在模型功率与功能方面,MiniCPM-V 2.6模型具有极高的像素密度(Token Density),比GPT-4o的单token编码像素密度高两倍,从而在端侧设备上完成了极高的运转功率。量化后的模型仅需6GB内存,端侧推理速度高达每秒18个token,比上代模型快33%。此外,该模型还支撑多种语言和推理结构,逐渐提升了其使用的广泛性和灵活性。
值得一提的是,MiniCPM-V 2.6 模型在OCR才能上也连续了其一向的SOTA功能水平,并进一步掩盖到单图、多图、视频了解等多个场景。经过一致的高清视觉架构,该模型将OCR才能进行搬迁和常识同享,完成了从单图到多图及视频的流通拓宽,明显节省了视觉token的数量和资源耗费。
官网
阿里店铺