Gradient Descent on Token Input Embeddings

3 points by kp1197 13 hours ago

kp1197 13 hours ago

Does performing gradient descent on token input embeddings lead to interpretable results? And if not, why?