您上面的2个模型在某种意义上似乎不具有可比性。第一个模型正在尝试压缩178个值的向量。这些向量很可能包含一些冗余信息,因此合理地假设您将能够对其进行压缩。
第二个模型正在尝试通过单个GRU层压缩23 x
178个向量的序列。这是具有大量参数的任务。重复向量仅获取第一GRU层(编码器)的输出,并将其输入到第二GRU层(解码器)的输入。但是随后您需要使用解码器的单个值。建议您
return_sequences=True在第二个GRU(解码器)中使用,而不要使用TimeDistributed层。否则,您是在说23x178序列是由均具有相同值的元素构成的。必须导致很高的错误/无法解决。
我建议您退后一步。您的目标是寻找序列之间的相似性吗?还是能够做出预测?对于相似性任务,最好使用自动编码器方法。为了做出预测,我建议您更着重于在序列步骤的输出中应用Dense(1)层的方法。
您的数据集是否开放?有空吗?如果可以的话,我很想尝试一下。



