TDM3.0 beam search采样不会很耗时吗

TDM3.0训练时是采用beam search得到样本，然后根据样本的子节点max得到该节点的拟合值，但是一个样本假设耗时0.3s,一个batch有2048个样本，那一个batch的耗时不就将近600s?这不会超级耗时吗