kaiyun体育官方网站云开全站入口 (中国)官网入口登录-开云体育1、该模子概况径直生成图像-kaiyun体育官方网站云开全站入口 (中国)官网入口登录
你的位置:kaiyun体育官方网站云开全站入口 (中国)官网入口登录 > 资讯 > 开云体育1、该模子概况径直生成图像-kaiyun体育官方网站云开全站入口 (中国)官网入口登录
开云体育1、该模子概况径直生成图像-kaiyun体育官方网站云开全站入口 (中国)官网入口登录
发布日期:2025-06-30 06:24     点击次数:140

开云体育1、该模子概况径直生成图像-kaiyun体育官方网站云开全站入口 (中国)官网入口登录

智东西

作家 | 李水青

裁剪 | 心缘

智东西6月28日报说念,昨昼夜深,阿里推出多模态斡旋贯通与生成模子Qwen VLo。该模子不仅概况“看懂”宇宙,更能基于贯通进行高质地的再创造,具有三大亮点:贯通和生成更准确,营救盛开指示裁剪修改图片,多语言指示营救。

用户即日起不错通过Qwen Chat拜谒该模子(预览版),比如径直发送访佛“生成一张可人猫咪的图片”的指示来生成图像,或者上传一张猫咪的图片并条款“给猫咪头上加顶帽子”来修改图像。

Qwen VLo以一种渐进式生成面目生成图片。在生成经由中,模子会对臆测的实质不时调整和优化,从而确保最散伙尾愈加和解一致,在擢升视觉成果同期带来更纯真和可控的创作体验。

体验地址:

https://chat.qwenlm.ai/

一、贯通和生成更准确,营救盛开指示修改图片

从领先的QwenVL到Qwen2.5 VL ,阿里本次推出的Qwen VLo在原始多模态贯通与生成智力上进行了全面升级。

以下是Qwen VLo的中枢亮点:

1、更精确的实质贯通与再创造

以往的多模态模子在生成经由中容易出现语义不一致的问题,举例将汽车误生成其他类型的物体,或者无法保留原图的关键结构特征。而Qwen VLo通过更高大的细节捕捉智力,概况在生成经由中保持高度的语义一致性。

2、营救盛开指示裁剪修改生成

用户不错通过当然语言提议多样创意性指示,如“将这张画风改为梵高作风”、“让这张相片看起来像19世纪的老相片”或“给这张图片添加一个晴明的太空”。Qwen VLo概况纯真反应这些盛开性指示,并生成妥当用户预期的末端。

不管是艺术作风挪动、场景重构也曾细节修饰,模子齐能莽撞。以致一些传统的视觉感知东说念主物如臆测深度图、分割图、检测图以及边际信息等也不错通过裁剪指示松驰完成。

更进一步,像许多更复杂的指示,比如一条指示中同期包含修改物体、修改笔墨、更换配景,模子也能完成。

3、多语言指示营救

Qwen VLo营救包括汉文、英文在内的多种语言指示,破裂了语言壁垒,为各人用户提供了斡旋且方便的交互体验。

二、像东说念主类画师一样考究创作,一句话“指哪改哪”

Qwen VLo更像一个东说念主类画师, 把柄我方的贯通再进行创作,底下是一些具体的例子。

1、该模子概况径直生成图像,并对其进行修改,举例替换配景、添加主体、进行作风挪动,以致不错完成基于盛开指示的大幅修改,包括检测和分割等视觉感知任务。

用户:生成一个可人的柴犬

Qwen VLo:

用户:配景改成草原

Qwen VLo:

用户:给它带上红色帽子和玄色透明墨镜,帽子上写着“QwenVLo”

Qwen VLo:

用户:酿成吉卜力作风

Qwen VLo:

用户:酿成3d Q版作风

Qwen VLo:

用户:把它放到水晶球里

Qwen VLo:

用户:桌面上摆着这个水晶球,生成以一个东说念主的第一视角在公园的圆形咖啡桌上在条记本上画画

Qwen VLo:

用户:用蓝色的蒙版检测框框出图中的笔

Qwen VLo:

用户:用粉色的mask分割出图中的狗狗边际

Qwen VLo:

2、Qwen VLo会把柄我方的贯通进行从头创作,这意味着在作风诊治和挪动方面领有更大的发达空间,比如将卡通变为写实、将形象酿成气球等兴味兴味的生成成果。

用户:酿成信得过相片

Qwen VLo:

用户:配景换成埃菲尔铁塔

Qwen VLo:

用户:酿成气球飘到空中

Qwen VLo:

用户:把西瓜换成榴莲

Qwen VLo:

3、Qwen VLo在图像与指示贯通上的上风使其概况更好地剖释复杂指示,一条指示中不错包含多个操作和修改,从而一次性完成多重担务,举例生成海报、组合物体等。

Qwen VLo:

4、Qwen VLo除了能对图像的裁剪和再创作,还不错完成一些对已有信息的标注,比如检测、分割、边际检测等。

用户:生成摆满生果的桌面

Qwen VLo:

用户:臆测边际检测图

Qwen VLo:

用户:用红色mask分割图中香蕉的边际

Qwen VLo:

5、Qwen VLo不错营救多张图像的输入贯通和生成。(多图输入的功能还莫得厚爱上线)

用户:把这些洗澡用品,放到这个红色的篮子内部

Qwen VLo:

6、除了图文同期输入的情况,Qwen VLo也营救文本到图像的径直生成,包括通用图像和中英文海报等。

用户:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Qwen VLo!” made out of colorful energy

(一幅史诗级的动漫艺术作品:夜晚,一位巫师立于山顶,向昏黑的太空阐发天地咒语,由彩色能量组成的“Qwen VLo!”字样在夜空中暴露。)

Qwen VLo:

7、Qwen VLo营救动态长宽比的图像生成,关于长宽比高达4:1,1:3等细长类型图像也能松驰掌执。(顶点长宽比图像生告成能还莫得厚爱上线。)

用户:动漫插画;水彩手绘;出路是草坡,草坡上有个东说念主在奔走,动态感,然后是镇静的白云;蓝色配景;豪情档次多渐变;过渡当然和解

Qwen VLo:

8、动作斡旋的贯通与生成模子,Qwen VLo还不错对生成的实质进行再分析和贯通,举例识别生成图片中的狗和猫的品种。

用户:Generate a puppy and a kitten.

Qwen VLo:

用户:What breed of cat and dog is this?

Qwen VLo:

结语:斡旋贯通与生成,看图语言再升级

Qwen VLo还立异性地引入了一种全新的渐进式生成机制,这一机制不仅擢升了生见效力,还适用于需要考究摈弃的长段落笔墨生成任务。

同期,Qwen VLo还属于预览阶段,在生成的经由可能存在不妥当事实、不所有这个词和原图一致、指示不恪守、在识别生图和贯通的意图不够褂讪的问题。

当年,模子不仅不错用文本修起问题,还不错用图像来传递思法和含义。举例,生成暗示图、添加扶植线、标注关键区域等功能,齐将为用户提供更多元化的一样技巧。

与此同期开云体育,具备输出智力的多模态模子也为研发者提供了新的监督面目。通过生成任务,他们们不错更好地匡助模子贯通宇宙。



相关资讯