huggingface · SaulLu · Apr 11, 2022 · Apr 6, 2022 · Apr 6, 2022 · Apr 6, 2022
diff --git a/src/transformers/convert_slow_tokenizer.py b/src/transformers/convert_slow_tokenizer.py
@@ -19,6 +19,7 @@
 allow to make our dependency on SentencePiece optional.
 """
 
+import warnings
 from typing import Dict, List, Tuple
 
 from tokenizers import Regex, Tokenizer, decoders, normalizers, pre_tokenizers, processors
@@ -429,6 +430,12 @@ def __init__(self, *args):
             m.ParseFromString(f.read())
         self.proto = m
 
+        if self.proto.trainer_spec.byte_fallback:
+            warnings.warn(
+                "The sentencepiece tokenizer that you are converting to a fast tokenizer uses the byte fallback option"
+                " which is not implemented in the fast tokenizers."
+            )
+
     def vocab(self, proto):
         return [(piece.piece, piece.score) for piece in proto.pieces]