AI前沿日报2023.08.15

cckuailong

读完需要

分钟

速读仅需 3 分钟

AI 图像修复替换技术 -- Inst-Inpaint

与传统的图像修复方法不同，传统方法通常需要用户定义要删除的像素的二进制掩码，这可能既耗时又容易出错。Inst-Inpaint 则可以根据文本提示来自动识别并删除图像中的对象。

论文：https://arxiv.org/abs/2304.03246

GitHub：https://github.com/abyildirim/inst-inpaint

官方网站：http://instinpaint.abyildirim.com

演示：https://huggingface.co/spaces/abyildirim/inst-inpaint-inpaint

AudioCraft 的 WEB UI 实现

AudioCraft 是 Meta 开源的声音处理框架，AudioCraft Plus 是一款 Web UI，使用更加便捷。

源码：https://github.com/GrandaddyShmax/audiocraft_plus

规范化你的 LLM 输出 -- Outlines

LLM 最让人头疼的是经常不能按照想要的格式规范化输出，没有规范化输出，LLM 的工程化落地将变得遥不可及。Outlines 的出现解决了这一点，感兴趣的同学可以去官方 Github 看看。

源码：https://github.com/normal-computing/outlines

Nvidia 推出多模态视觉语言模型 -- NeVA

上传一张图片，直接问他关于图片的问题，NeVA 会回答的很好。

体验地址：https://catalog.ngc.nvidia.com/orgs/nvidia/teams/playground/models/neva

多语言音视频语料库 -- MuAViC

提供了涵盖 9 种语言的超过 1200 小时音视频数据

源码：https://github.com/facebookresearch/muavic

Intel 推出沉浸式 360 度视图 LLM -- LDM3D

这个扩散模型根据文本提示生成图像和深度信息。使用定制的 Gradio 6dof three.js 组件，可以生成沉浸式 360 度视图。

演示地址：https://huggingface.co/spaces/Intel/ldm3d

模型下载：https://huggingface.co/Intel/ldm3d-pano

Llama-2 7b 跑在价值 100 块的香橙派上

当然是 100 美元了，每秒 5token。

原文：https://blog.mlc.ai/2023/08/09/GPU-Accelerated-LLM-on-Orange-Pi

强大的开源抠图软件 -- background-removal

直接在浏览器就可以离线运行，背后的模型是 ONNX ( https://onnx.ai ) ，然后利用 WASM 运行在浏览器上。

演示地址：https://img.ly/showcases/cesdk/web/background-removal/web

源码：https://github.com/imgly/background-removal-js

最新登顶 Huggingface 开源模型榜单的 LLM -- Platypus

但是鉴于之前 Falcon 也排了很长时间第一，但是实战效果一般，对抱抱脸的评测排名持怀疑态度。

项目地址：https://platypus-llm.github.io

论文：https://arxiv.org/abs/2308.07317

速读论文 AI 助手 -- 《假设我只有 5 岁》

你没看错，就叫这个名字。。。

大部分论文的 Abstract 其实都不那么易读，因为论文是写给 researcher 看的，不是写给普通人看的，如果没有相关的研究背景，就需要查询很多的资料。

但是借助这个 AI 助手，我可以很方便地快速了解一篇我不熟悉的论文。

使用方法：

1）截图论文的第一页（马上会支持直接搜索 paper）

2）粘贴 or 上传到这个 AI 助手中，点击发送

体验地址：https://app.copilothub.ai/chat?id=9352

Meta 推出 Humpback（驼背鲸） -- 通过指令回译自对齐

数据质量对大模型来说确实很重要，研究过程中，他们使用不同级别的过滤数据，微调了一个模型，结果表明，只有最好的样本才能得出比其他样本表现更好的模型。

该研究提出了一种自训练方法（self-training），该方法通常假定可以访问基本语言模型、少量种子数据和未标记的样本集（例如网络语料库）。未标记数据往往是一大堆形态各异的文档，由人类编写，其中包括人类感兴趣的各种话题内容，但最重要的是没有与指令进行配对。

这里还有两个关键的假设，第一个假设是这个非常大的文本集（未标记样本集）存在一些子集，适合作为某些用户指令的生成样本。第二个假设是可以预测这些候选答案的指令，这些指令可以用于形成高质量样本对，以训练指令遵循模型。

该研究提出指令回译过程包含两个核心步骤：

论文：https://huggingface.co/papers/2308.06259

CausalLM 预训练并不适合于上下文学习

近期的实证证据表明，基于转换器的上下文学习在使用前缀语言模型（prefixLM）时表现更好，其中上下文样本可以相互关注，而与因果语言模型（causalLM）相比，后者使用自回归注意力，禁止上下文样本关注未来的样本。虽然这个结果直观，但从理论的角度来看，人们尚未理解其背后的原因。在本文中，我们采用理论方法分析了在特定参数构造下的 prefixLM 和 causalLM 的收敛行为。我们的分析表明，这两种 LM 类型都以线性速率收敛到它们的稳定点，但 prefixLM 收敛到线性回归的最优解，而 causalLM 的收敛动态遵循在线梯度下降算法，即使样本数量无限增长，也不能保证其最优性。我们通过在合成和真实任务上的实证实验以及使用各种类型的转换器来支持我们的理论主张。我们的实验验证了，在所有设置中，causalLM 的表现始终低于 prefixLM。

论文：https://arxiv.org/abs/2308.06912

延展阅读：

prefixLM 和 causalLM 两种预训练方式的区别是什么？

attention mask 不同，前者的 prefix 部分的 token 互相能看到，后者严格遵守只有后面的 token 才能看到前面的 token 的规则。ChatGLM 是 prefixLM，GPT 是 causalLM。

好文推荐｜关于大模型的一些知识

清华大佬 suc16 的系列分享，很通俗易懂

https://zhuanlan.zhihu.com/p/624918286