网站首页

产品中心

半岛官网入口 半岛官方入口 半岛入口官方网 半岛入口官方网站

新闻中心

关于半岛官方入口

公司概况 核心优势 核心团队 发展历程

联系半岛官方入口

官方微信 官方微博
半岛官方入口 > 产品中心 > 半岛入口官方网

半岛官网入口大说话模子的视觉先天:GPT也能经过左右文进修办理视觉使命

发布时间:2023-07-26 19:32浏览次数:来源于:网络

  今朝,庞大说话模子(LLM)已掀起天然说话处置(informatics)范畴的变化海潮。咱们看到 LLM 具有壮大的出现才能,在杂乱的说话明确使命、天生使命甚至推理使命上都显示优良。这开导人们进一步摸索 LLM 在机械进修另外一子范畴 —— 计较机视觉(CV)方面的后劲。

  LLM 的一项出色才略是它们具有高低文进修的才能。高低文进修不会革新 LLM 的所有参数,却在种种 informatics 使命中却揭示出了使人冷艳的功效。那末,GPT 可否经过高低文进修办理视觉使命呢?

  比来,来自谷歌公司和卡内基梅隆大学(CMU)的研讨者结合宣布的一篇论文解释:唯有咱们可以或许将图象(或其余非说话模态)变化为 LLM 可以或许明确的说话,这仿佛是可行的。

  这篇论文提醒了 PaLM 或 GPT 在经过高低文进修办理视觉使命方面的才能,并提议了新方式 SPAE(Sevatic Pyclashid AutoEntechnologist)。这类新方式使得 LLM 可以或许履行图象天生使命,而无需停止所有参数革新。这也是利用高低文进修使得 LLM 天生图象实质的首个胜利方式。

  比方半岛官网入口,在给定高低文中,经过供给 50 张手写图象,论文哀求 PaLM 2 回覆必要天生数字图象算作输入的杂乱盘查:

  现实上,将图象变化为 LLM 可以或许明确的说话,是在视觉 Transfabalone(ViT)论文中就已研讨过的题目。在 Google 和 CMU 的这篇论文中,他们将其晋升到了一个新的条理 —— 利用现实的单词来透露表现图象。

  这类方式就像建设一个布满笔墨的塔楼,捕获图象的语义和细节。这类布满笔墨的透露表现方式让图象描写也许轻快天生,并让 LLM 也许回覆与图象相干的题目,乃至也许重构图象像素。

  详细来讲,该研讨提议利用颠末练习的编码器和 interfaceP 模子将图象更改为一个 minimal 空间;尔后使用 LLM 天生符合的词法 minimal;临了利用练习有素的将这些 minimal 更改回像素空间。这个奇妙的进程将图象更改为 LLM 也许明确的说话,使咱们可以或许使用 LLM 在视觉使命中的天生才能。

  为了考证 SPAE 策画方式的有用性,该研讨停止了融化尝试,尝试后果以下表 4 和图 10 所示:

  本文为彭湃号作家或机构在彭湃新闻上传并宣布,仅代表该作家或机构概念,不代表彭湃新闻的概念或态度,彭湃新闻仅供给新闻宣布平台。请求彭湃号请用电脑拜候。

下一篇:半岛入口官方网弗吉尼亚理工同嵘辛洪良《天然·通信》: 机械进修优化高份子平面选取
上一篇:半岛入口官方网站计算早报 Snapchat与OpenAI 互助推出智能谈天机械人

咨询我们

输入您的疑问及需求发送邮箱给我们