[程序员] Bert 情感分类任务中,为什么输出前要先 x=x[:, 0, :]

在 B 站看到一个 hugging face 的预训练模型应该如何使用的教学

它提到如果要用来做分类任务的话,比如对文本情感进行分类,一般结构不是 bert block *n -> mlp 输出么,视频里说在 bertblock 结束后,进入 mlp 前,要先把网络的输出只取第一维,也就是比如[32, n, 512]取[:, 0, :]变成[32, 512]然后再进入 mlp

这是为什么呢?如果不是做分类任务,而是做回归类任务,比如给情绪打个分之类的,也需要这么操作吗?