在这个技术革新的时代,每一次进步都可能引领新的方向。小红书技术团队始终站在技术前沿,近期在多个顶级学术会议上成功发表了多篇高质量论文。
8月24日(周六)14:00-18:00,【REDtech 来了】特别策划——2024小红书顶会论文分享 (校招专场)线上直播即将开启!
立即预约不错过👇
此次直播,我们将与大家分享小红书在ACL、CVPR、SIGIR、IJCV等顶会上的研究成果。届时,论文作者孙一平、于劲鹏、李尚霖、李易为、王昊臣、王星霖、杨东杰、袁沛文等将亲临直播间,在直播中跟大家分享、交流,欢迎弹幕交流,还有惊喜小红书周边等你来拿。
让我们一起探索新机遇与挑战,共同见证小红书技术团队的成长与突破。8月24日(周六)下午,我们直播间不见不散!
直播观看方式
直播时间:
2024 年 8 月 24 日 14:00-18:00
直播平台:
微信视频号【小红书技术REDtech】、微信视频号【小红书招聘】、小红书号【招聘薯】、B站【小红书技术REDtech】将同步实时直播。
直播议程
分享人:杨东杰,论文入选ACL 2024
针对大型语言模型在推理时面临的GPU内存限制问题,我们提出PyramidInfer方法。该方法利用注意力权重的一致性,首次提出在大模型推理的预填充阶段(区别于生成阶段)采取逐层提取关键键值对进行KV缓存的压缩,减少内存消耗。实验显示,此方法相比Accelerate提升了2.2倍的处理速度,并减少了54%的GPU内存占用。
论文地址:
https://arxiv.org/abs/2405.12532
分享人:于劲鹏,入选CVPR 2024
得益于扩散模型(diffusion model)的发展,主体驱动的零样本(zero-shot)图像生成技术取得了巨大的进步。然而,目前大多数方法在主体选择性和主体一致性保持上都存在缺陷,对参考图(reference image)中特定主体关键表征的理解上存在偏差,导致生成结果无法很好地保持特定主体的特征或风格。小红书智能创作团队在CVPR 2024上创新性地提出了一种主体选择的关键特征提取方法,并以此来指导目标图像的生成。团队提出的SSR-Encoder主体特征提取模块可以从单张或多张参考图中提取关键特征,单独或组合生成主体一致的图像结果,并且该方法可以与ControlNet等一致性控制方法以及LoRA等风格迁移方法很好地兼容。
论文地址:
https://arxiv.org/abs/2312.16272
分享人:李易为,入选ICLR 2024
自洽性方法(Self-Consistency,SC)一直是思维链推理中广泛使用的解码策略,通过生成多个思维链并取多数答案作为最终答案,来提高模型的性能。但它是一种高成本的方法,需要进行预设大小的多次采样。在 ICLR 2024 上,小红书提出一种简单且可扩展的采样过程 —— 早停自洽性方法(Early-Stopping Self-Consistency,ESC),它能在不牺牲性能的情况下,大幅度降低 SC 的成本。在此基础上,团队进一步推导出一种 ESC 控制方案,以动态选择不同任务和模型的性能-成本平衡。三种主流推理任务(数学,常识和符号推理)的实验结果显示,ESC 在六个基准测试中显著降低了平均采样次数,同时几乎保持原有性能。
论文地址:
https://openreview.net/pdf?id=ndR8Ytrzhh
分享人:李易为,入选AAAI 2024 oral
大语言模型(LLMs)在各种推理任务上表现优异,但其黑盒属性和庞大参数量阻碍了它在实践中的广泛应用。特别是在处理复杂的数学问题时,LLMs 有时会产生错误的推理链。传统研究方法仅从正样本中迁移知识,而忽略了那些带有错误答案的合成数据。在 AAAI 2024 上,小红书搜索算法团队提出了一个创新框架,首次提出并验证了负样本在模型蒸馏过程中的价值,构建一个模型专业化框架,除了使用正样本外,还充分利用负样本来提炼 LLM 的知识。该框架包括三个序列化步骤,包括负向协助训练(NAT)、负向校准增强(NCE)和动态自洽性(ASC),涵盖从训练到推理的全阶段过程。一系列广泛的实验,展示了负向数据在 LLM 知识蒸馏中的关键作用。
论文地址:
https://arxiv.org/pdf/2312.12832
分享人:袁沛文,入选 ACL 2024 oral
小红书在 ACL 2024 中提出了 BatchEval 方法,能够以更低的开销达到类人水平的文本评测效果。团队首先从理论层面分析了现有文本评测方法在评测鲁棒性方面的不足来自于评测打分分布不均匀、在得分集成方面的次优表现源自于评测视角多样性的缺失。在此基础上,受人类评测过程中通过样本间比较来建立更加立体全面、视角多样的评测基准启发,类比提出BatchEval。与当前最先进的若干方法相比,BatchEval在评测开销与评测效果两方面都取得了显著更优的表现。
论文地址:
https://arxiv.org/abs/2401.00437
分享人:袁沛文,入选 ACL 2024 findings
小红书在 ACL 2024 中提出了 PEEM 方法,其能够通过模型间的互一致性实现对于超越人类水平的大语言模型的准确评测。团队首先分析了当前大语言模型迅猛发展的趋势会加速其在多个方面逐渐达到甚至超越人类水平,在此情况下,人类将难以再提供准确的评测信号。为实现该场景下的能力评测,团队提出了以模型间的互一致性为评测信号的设想,并推导出了在评测样本无穷时,如果存在参考模型与待评测模型间预测分布独立,则与该参考模型间的一致性可以作为模型能力的准确度量。在此基础上,团队提出了基于 EM 算法的 PEEM 方法,实验证实其能够有效缓解现实中上述条件的不充足,从而实现对超越人类水平的大语言模型的准确评测。
论文地址:
https://github.com/ypw0102/PEEM
分享人:王星霖,入选ACL2024 Main
小红书在 ACL 2024 中提出了 Fine-Grained Self-Consistency (FSC) 方法,能够显著提升自洽性方法在自由格式生成任务上的表现。团队首先通过实验分析了现有面向自由格式生成任务的自洽性方法的不足来自于粗粒度的共性样本选择,其无法有效利用不同样本细粒度片段之间的共性知识。在此基础上团队提出了基于大模型自融合的 FSC 方法,实验证实其在代码生成、摘要生成以及数学推理任务上都取得了显著更优的表现,同时保持了相当的消耗。
论文地址:
https://github.com/WangXinglin/FSC
分享人:孙一平,入选CIKM 2024
小红书向量检索团队在 CIKM 2024 中提出了一种适应实时的多流在线近似最近邻搜索 GPU 系统(RTAMS-GANNS)。近似最近邻搜索(ANNS)在搜索和推荐系统中,尤其是在基于检索增强生成(RAG)的大型语言模型(LLM)应用中,发挥了重要作用。然而,现有系统主要针对离线场景设计,难以满足在线应用中实时插入新向量的需求。为此,团队提出的 RTAMS-GANNS 通过引入基于显存块的动态向量插入算法,大幅提升了实时插入的效率,避免了传统方法中的大量显存拷贝和性能瓶颈。此外,通过将系统调用提升到用户层级控制,并利用基于流缓存的动态资源池,系统能够使多个流并发执行而不会产生额外的执行阻塞,从而在高 QPS 检索时实现实时插入而不影响在线检索性能。这些创新使 RTAMS-GANNS 在实际应用中表现出色,已成功部署于工业级搜索和推荐系统,为数亿用户提供了高效服务。
https://arxiv.org/abs/2408.02937
分享人:李尚霖,入选CVPR2024
小红书在CVPR 2024提出了基于指令引导的零样本图像编辑方法(Zero-shot instruction-guided local editing),团队对指令引导扩散模型与描述引导扩散模型的注意力机制进行深入探索并取得了关键发现,利用指令引导扩散模型交叉注意力层“编辑响应”(edit-aware)的特点,构建了仅需单条指令完成精准图像局部编辑的方法,旨在解决现有生成式局部编辑方法指令复杂,编辑粗糙等问题。该方法在人类评估与定量实验中显著优于现有的相关方法,实现了卓越的局部编辑结果和用户友好性。
论文地址:
https://openaccess.thecvf.com/content/CVPR2024/papers/Li_ZONE_Zero-Shot_Instruction-Guided_Local_Editing_CVPR_2024_paper.pdf
分享人:王昊臣,入选ICCV2023 oral和IJCV
小红书在IJCV提出了开集视频目标分割(OV-VIS: Open Vocabulary Video Instance Segmentation)引入开放词汇视频实例分割任务,允许对视频中任意类别的对象进行分割、跟踪和分类,扩展了现有视频实例分割方法的能力,有助于短视频编辑,视频打标等业务。
论文地址:
https://link.springer.com/article/10.1007/s11263-024-02076-w
扫描👇下方二维码进入直播交流群,将第一时间获取直播链接及开播提醒;可一键打包获取精心整理的【论文 PDF 合集】,还有机会与论文作者直接交流!
//小红书【REDstar】顶尖人才计划//
扫描二维码,投递REDstar岗位👇
//校招岗位提前投//
4大技术方向,快速投递通道开启!
投递简历,请邮件发送至:
并在标题注明【投递xx岗位】
机器学习算法工程师
工作职责
负责小红书App的推荐、搜索、交易、增长、发布、直播等业务场景的技术探索,能够从复杂的业务环境中抽象出清晰具体的技术问题,并将大模型、机器学习等技术有效应用于具体业务上,提升亿级用户体验。
任职资格
1.计算机、人工智能、电子信息、自动化、软件或数学等相关专业;
2.编程基本功扎实,熟悉常用的数据结构和算法,擅长Java/C++/Python中至少一门语言;
3.具备独立开展研究工作的能力,有大模型、搜索、推荐、广告、NLP、图像识别、机器学习、深度学习,数据挖掘、知识工程、大数据统计等相关背景者优先;
4.熟悉机器学习和数据挖掘领域前沿技术,在国际顶级会议(Recsys、KDD、NIPS、ICML、ACL、SIGIR)以第一作者发表过高水平论文者优先,或在知名竞赛(例如KDD Cup、Kaggle、ACM、AOI等)中取得领先名次者优先;
5.踏实勤奋,自我驱动,有良好的沟通能力和团队合作能力,有持续学习新知识的能力,有较强的逻辑思维能力,抽象、概括和总结能力
计算机视觉/多模态算法工程师
内容理解方向:
1.负责多模态内容理解、图像理解以及NLP相关的工作,应用图像和NLP技术,提升发布侧基础工具效果和体验;
2.负责包括但不限于大规模预训练模型、数据挖掘,持续优化并时刻保持技术先进性,将业界SOTA模型落地并改进以获取业务线上收益;
3.紧密关注相关领域业界的最新进展,并负责在发布&增长等业务的落地应用。
生成方向:
1.负责多模态生成/GAN等图像生成相关算法研发与优化, 跟进计算机视觉领域的前沿技术研究;
2.参与技术规划制定, 把握图像生成技术最新发展趋势;
3.推动技术在特效/素材生成/辅助设计等领域的应用。
基础视觉方向:
1.参与计算机视觉(检测、分割、人脸、人体)的前沿技术的研究和落地;
2.为小红书发布侧提供基础视觉算法能力,为更多的模版服务,提升UGC使用体验。
AIGC方向:
1.参与计算机视觉、自然语言处理、多模态等领域的前沿技术研究;
2.利用前沿AIGC算法,打造业内领先的多媒体内容理解和生成能力。
任职资格
1.统招本科及以上学历,计算机、数学、电子信息、自动控制、软件工程和数学等相关专业优先;
2.熟练掌握TensorFlow /PyTorch /Caffe /MXNet等深度学习框架中的至少一种;
3.具备优秀的编程能力和经验,熟悉Python、C/C++、Java等编程语言,对数据结构和算法设计有较为深刻的理解;
4.优秀的分析和解决问题能力,对新技术充满好奇,敢于挑战高难度,善于提出解决方案并快速验证;
5.了解DiscoDiffusion、DALLE、StableDiffusion、chatGPT等前沿技术;
6.关注多模态与文本生成领域的业界最新动态,如Midjourney、Runway、chatGPT等;
7.具备优秀的研究和创新能力,在CVPR /ICCV /ECCV /NIPS /ICML /SIGGRAPH /ACL / EMNLP等会议上发表过论文者和参加过ACM竞赛者优先。
引擎架构工程师
工作职责
1.深度参与小红书社区搜索/推荐/电商业务,满足产品、算法对于核心引擎或者基础平台的功能需求,抽象通用的业务开发框架与组件,提升业务支持效率,将现有技术逐步平台化和产品化;
2.负责攻克服务中高并发、高可靠性、高扩展性、高稳定性、业务复杂等带来的各种挑战及技术难关,能够基于领域架构以及微服务定义业务模型和服务等,识别当前架构中存在的问题,并推动架构升级,体系化地解决问题;
3.参与搜索引擎、推荐引擎、模型预测、向量检索等大规模算法服务系统、平台的设计、研发及调优工作,提升效率降低成本,对xtr、bert、LLM、搜推、cvnlp等模型进行深度优化,通过算子融合、模型压缩、量化等手段优化现有模型推理性能,设计并实现高效的分布式离线推理方案,支持高效的离线批量模型推理,并支持业务的大模型相关探索,如LLM的AI能力在问答、客服等多个场景的落地;
4.负责深度学习领域的调研和技术引入,通过新硬件、新技术的落地,持续提升模型能力。
任职资格
1.统招本科及以上学历;计算机、人工智能、电子信息、自动化、软件或数学等相关专业;
2.编程基本功扎实,具有扎实的数据结构和算法功底,熟悉常用的设计模式、软件架构模式、计算网络、操作系统,擅长Java/C++至少一门语言;
3.熟悉微服务、消息队列、MYSQL、缓存等技术,深入了解Transformer、LLM 模型者,熟悉 tensorflow/pytorch等训练推理框架,掌握GPU等的高性能计算优化技巧优先;
4. 在Github上拥有有影响力的开源项目,或者是行业著名开源项目的核心贡献者优先,参加过ACM竞赛者优先,对推荐前沿技术有了解的优先;
5.优秀的分析、抽象、解决问题能力,对新技术充满好奇,敢于挑战高难度,善于提出解决方案并快速验证。
NLP算法工程师
工作职责
1.负责各业务线相关NLP应用技术研发,包括但不限于query理解和规划,向量召回,个性化排序,MRC,RAG,多模态问答等方向。
2.探索LLM,Agent等创新NLP技术与搜索业务的结合,构建智能agent等AI native 应用。
3.负责基础NLP相关算法研发,面向但不限于:文本/多模态预训练,LLM/M-LLM,文本理解,多模态理解,知识抽取,智能客服,对话系统等;(以上方向擅长一个即可),推动NLP算法在公司业务中的落地。
任职资格
1.计算机/电子信息/自动控制/软件工程/数学等相关专业,硕士及以上学历;
2.扎实的NLP和机器学习理论基础,熟悉预训练、LLM,文本理解,多模态理解等相关算法,有搜索问答,大模型,NLP中台相关场景的业务实践经验者优先;
3.具备优秀的研究和创新能力,在ACL /EMNLP /NAACL /COLING /CVPR /ICCV /ICLR /NeurIPS等会议上发表过论文者优先
4.具备优秀的编程能力和经验,熟悉Python、C/C++、Java等编程语言,具有扎实的数据结构和算法功底;
5.优秀的分析、解决问题能力,对新技术充满好奇,敢于挑战高难度,善于提出解决方案并快速验证。
往期精彩内容指路
添加小助手,
了解更多内容
微信号 / REDtech01
阅读原文,了解REDstar更多信息
👇
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...