I am examining the sentence pairs classification dataset [1] automatically translated by a group of researchers from English to Turkish [2]. They say in their paper that they have manually examined the translations and that they were fine, I am not sure I agree. They say they have examined 1K out of 570K (<0.2%) of sentence pairs manually, and furthermore when I examine the sentence pairs in Turkish, as a native Turkish speaker, I have difficulty understanding what the translations mean and what the corresponding label might be. Even though it is very nice of them to share these translated datasets publicly, I find that their conclusions are perhaps a bit premature (with respect to using these translated datasets to train for the sentence semantic comparison tasks). Perhaps this is a general problem for a resource constrained language, as the translations do not work very well (resulting in “chicken translate”), and it may be better to use Sentence Transformer multilingual pack directly [3] rather than fine tuning the Bert model on the translated MNLI-TR dataset.
[1] https://github.com/boun-tabi/NLI-TR
[2] https://arxiv.org/abs/2004.14963
[3] https://github.com/UKPLab/sentence-transformers
sample #1
PS. sample training data (from [1], in Turkish):
“genre”: “government”,
“gold_label”: “contradiction”,
“pairID”: “102489c”,
“promptID”: “102489”,
“sentence1”: “Endişelerinizden bahsetmek istemem ama sizin yerinizde olsaydım, bu 1 doların yakın vadeli fiyat sonuçları hakkında daha fazla endişe duyabilirdim.”,
“sentence2”: “Sizin sorunlarınız hakkında, yakın vadeli oranlardan daha çok endişeliyim.”
sample #2
“genre”: “slate”,
“gold_label”: “entailment”,
“pairID”: “133002e”,
“promptID”: “133002”,
“sentence1”: “Shesol’un atıfta bulunduğu ancak nispeten incelenmeden geçmesine izin verdiği olağanüstü bir istatistik alın.”,
“sentence2”: “Çok alakalı ama kullanılmakta olan veriler vardı.”
},
sample #3
“genre”: “telephone”,
“gold_label”: “entailment”,
“pairID”: “101457e”,
“promptID”: “101457”,
“sentence1”: “Mevsim boyunca ve sanırım senin seviyendeyken onları bir sonraki seviyeye düşürürsün. Eğer ebeveyn takımını çağırmaya karar verirlerse Braves üçlü A’dan birini çağırmaya karar verirlerse çifte bir adam onun yerine geçmeye gider ve bekar bir adam gelir.”,
“sentence2”: “Eğer insanlar hatırlarsa, bir sonraki seviyeye düşersin.”
},