论文及博客阅读笔记（持续更新）

Posted on 2021-05-08 | Edited on 2022-03-25 | In deep learning | Comments:

小样本学习 CLIP 一般的图像分类是把图片用backbone编码成一个feature vector，然后用一个classifier weight matrix W 乘上得到分类结果，$W_i$是class i的 prototype weight vector f=\operatorname{ ...

建模推理能力的预训练任务POET

Posted on 2022-02-26 | Edited on 2022-03-25 | In NLP | Comments:

Reasoning Like Program Executors基于自然语言的推理一直是一个比较重要的问题，目前的大规模预训练模型普遍缺乏真正的推理能力，因为它们在训练时候的任务，无论是像BERT的掩码语言模型，还是GPT的自回归语言模型，建模的仍然是token与token之间共现的概率分布，而缺乏 ...

2021-我的生活与思考-投资篇💰

Posted on 2022-02-04 | Edited on 2022-03-25 | In 随笔 | Comments:

2021-我的生活与思考-投资篇💰今年入门了投资，是从接触和认识有知有行，E大，孟岩，张潇雨这些人和app开始的。我在有知有行上学完了孟岩和张潇雨写的投资第一课，对投资的基本概念有了一些了解，更重要的是学习投资的心态，如何管理自己的心态是比管理仓位更重要的事情，当自己的仓位配置超出了自己心理能承受 ...

2021-我的生活与思考-网球篇🎾

Posted on 2022-02-04 | In 随笔 | Comments:

2021-我的生活与思考-网球篇🎾来深圳以后打网球的频率比之前高了很多，虽然我们学校没有网球场，但是隔壁哈工大有，基本上是每周开完组会我都会去打，每次都能打上两个小时左右，精疲力尽但也十分满足。网球教会了我很多东西，用孟岩他们在播客里谈到的话说：它就像一面镜子，映照出那个自己都不认得的自己，身体 ...

《NCE与InfoNCE》

Posted on 2021-06-20 | Edited on 2021-06-21 | In deep learning | Comments:

NCE与InfoNCE背景NCE的背景任务是用一个参数化的分布$P_{\theta}(x)$去估计一个真实的分布$P_{D}(x)$，$P_{\theta}(x)$一般写成Gibbs distribution的形式 \begin{eqnarray} P_{\theta}(x) & = & \fra ...

【EMNLP2020】控制对话生成中的specificity

Posted on 2021-01-31 | Edited on 2021-02-01 | In deep learning | Comments:

本文介绍一篇2020EMNLP-findings上的论文《Consistent Response Generation with Controlled Specificity》，介绍在对话生成中控制回复的specificity。所谓specificity，我把它翻译成“具体的程度”，举个例子，我跟 ...

【ICLR2021】CoCon: 一种自监督的可控文本生成方法

Posted on 2021-01-24 | Edited on 2021-01-26 | In deep learning | Comments:

ICLR2021的论文《CoCon:A Self-Supervised Approachfor Controlled Text Generation》，提出一种用文本去指导文本生成的无监督方法，是follow了CTRL和PPLM的后续工作。作者设计了一个叫做CoCon的模块，插入transforme ...

回首过去的三年

Posted on 2020-11-04 | Comments:

回首过去的三年>> 回顾我过去的大学三年生活、自学之路，并总结一点经验心得，最后展望未来，不感兴趣的朋友可以直接跳到“读书心得”部分。今年终于迈入大四的门槛，从一名三年前刚刚踏入大学时懵懵懂懂的“萌新”变成了这个学校中老油条的“老人”，不过我很快也将成为读研所在大学的一名萌新，正所 ...

CS224n-lecture15-NLG

Posted on 2020-08-06 | Edited on 2020-08-07 | In CS224n | Comments:

CS224n-lecture15-NLG LMs and Decoding Algorithm前面学过了 greedy decoding 和 beam search decoding，使用不同的k的影响是什么样的？较小的k，类似于greedy decoding，容易生成不符合语法，不自然，无意义 ...

CS224n-lecture11-CNN for NLP

Posted on 2020-08-03 | Edited on 2020-08-07 | In CS224n | Comments:

CS224n-lecture11-CNN for NLP 使用1d cnn去卷积词向量，假设词向量的维度为d(这就是 channel 的深度)，句子长度为n，batch_size = bs，输入维度为(bs, n, d)，卷积核的kernel size = h，即为h-gram，卷积核维度为h*d， ...

TianHongZXY

浪漫骑士行吟诗人自由思想者

GitHub E-Mail 知乎