小样本学习 CLIP 一般的图像分类是把图片用backbone编码成一个feature vector,然后用一个classifier weight matrix W 乘上得到分类结果,$W_i$是class i的 prototype weight vector f=\operatorname{ ...
建模推理能力的预训练任务POET
Reasoning Like Program Executors基于自然语言的推理一直是一个比较重要的问题,目前的大规模预训练模型普遍缺乏真正的推理能力,因为它们在训练时候的任务,无论是像BERT的掩码语言模型,还是GPT的自回归语言模型,建模的仍然是token与token之间共现的概率分布,而缺乏 ...
2021-我的生活与思考-投资篇💰
2021-我的生活与思考-投资篇💰今年入门了投资,是从接触和认识有知有行,E大,孟岩,张潇雨这些人和app开始的。我在有知有行上学完了孟岩和张潇雨写的投资第一课,对投资的基本概念有了一些了解,更重要的是学习投资的心态,如何管理自己的心态是比管理仓位更重要的事情,当自己的仓位配置超出了自己心理能承受 ...
2021-我的生活与思考-网球篇🎾
2021-我的生活与思考-网球篇🎾来深圳以后打网球的频率比之前高了很多,虽然我们学校没有网球场,但是隔壁哈工大有,基本上是每周开完组会我都会去打,每次都能打上两个小时左右,精疲力尽但也十分满足。 网球教会了我很多东西,用孟岩他们在播客里谈到的话说:它就像一面镜子,映照出那个自己都不认得的自己,身体 ...
《NCE与InfoNCE》
NCE与InfoNCE背景NCE的背景任务是用一个参数化的分布$P_{\theta}(x)$去估计一个真实的分布$P_{D}(x)$,$P_{\theta}(x)$一般写成Gibbs distribution的形式 \begin{eqnarray} P_{\theta}(x) & = & \fra ...
【EMNLP2020】控制对话生成中的specificity
本文介绍一篇2020EMNLP-findings上的论文《Consistent Response Generation with Controlled Specificity》,介绍在对话生成中控制回复的specificity。 所谓specificity,我把它翻译成“具体的程度”,举个例子,我跟 ...
【ICLR2021】CoCon: 一种自监督的可控文本生成方法
ICLR2021的论文《CoCon:A Self-Supervised Approachfor Controlled Text Generation》,提出一种用文本去指导文本生成的无监督方法,是follow了CTRL和PPLM的后续工作。作者设计了一个叫做CoCon的模块,插入transforme ...
CS224n-lecture15-NLG
CS224n-lecture15-NLG LMs and Decoding Algorithm前面学过了 greedy decoding 和 beam search decoding,使用不同的k的影响是什么样的? 较小的k,类似于greedy decoding,容易生成不符合语法,不自然,无意义 ...
CS224n-lecture11-CNN for NLP
CS224n-lecture11-CNN for NLP 使用1d cnn去卷积词向量,假设词向量的维度为d(这就是 channel 的深度),句子长度为n,batch_size = bs,输入维度为(bs, n, d),卷积核的kernel size = h,即为h-gram,卷积核维度为h*d, ...