ccc:
我以為 GPT 是用 MLM + NSP 當 loss,結果搞錯了 BERT 才是 MLM + NSP
GPT1 除語言模型外,有4 種 Task (Refined Task)
- Classification
- Entailment
- Similarity
- Multiple Choice
GPT 的語言模型是用 n-gram 的馬可夫模型, P(x[t] | x[t-1], ... x[t-n]) ...
ccc:
我以為 GPT 是用 MLM + NSP 當 loss,結果搞錯了 BERT 才是 MLM + NSP
GPT1 除語言模型外,有4 種 Task (Refined Task)
GPT 的語言模型是用 n-gram 的馬可夫模型, P(x[t] | x[t-1], ... x[t-n]) ...