Transferring Knowledge on Time Series with the Transformer