emmm..这个系列可能会有好几篇文章吧,用来弥补对黑色九月的无知..
Shi H, Wang C. Self-supervised document clustering based on bert with data augment[J]. arXiv preprint arXiv:2011.08523, 2020.
作者指出对比学习作为一种效果很好且并不复杂的模型设计,很容易与深度模型进行结合。在本文中,基于BERT,分别提出了自监督对比学习(SCL)和使用无监督数据增强(UDA)的小样本(few-shot)对比学习(FCL)用于文本聚类。对短文本和长文本的聚类中,SCL实现了无监督方法中的SOTA;FCL的性能则接近于有监督方法。
用于FCL和SCL的学习框架如下所示。
笔者比较疑惑的一点是,在以字为输入的BERT中,其实停用词对于整个句子的embedding的影响不大。论文中这种直接去停用词的方式,是否会造成上下文语义的断层还有待考证。
(3)BERT由基于隐含表示的对比学习损失进行回调。在完成了学习的迭代之后,将数据集中的所有样本输入微调好的编码器中获取对应的样本隐含表示,并使用k-means得到聚类结果。
given dataset, total_epochs and batch_size
for epoch in range(total_epochs):
for batch in batches:
training
# for scl & for fcl
obtain the fune-tuned Encoder
get the clustering results though the k-means
但是这种方法使得在选取负例样本时,存在一定的概率选到来自相同类簇的样本。至于这种偏差会带来多大的性能影响还未知。
Total Loss
我的疑虑:
未进行消融实验,不能直接说明性能的提升来自哪个部分。