`olm.data.tokenization.base`

Classes

Bases: ABC

Abstract base class for all tokenizers in OLM.

Defines the interface for converting between text strings and integer token IDs. Subclasses must implement encode and decode methods.

Converts a sequence of token IDs back into a text string.

Parameters

Returns

Converts a text string into a sequence of token IDs.

Parameters

text (str): The input text to tokenize.
add_special_tokens (bool): Whether to include tokenizer-specific special tokens such as BOS/EOS markers.

Returns

Saves the tokenizer to a file.

Parameters

Returns

None