`data.tokenizer`¶

class olmo_core.data.tokenizer.TokenizerConfig(vocab_size, eos_token_id, pad_token_id, bos_token_id=None, identifier=None)[source]¶

A configuration class that represents a tokenizer.

identifier: Optional[str] = None¶: The identifier of the tokenizer. Could be a path or HuggingFace identifier.

padded_vocab_size(pad_multiple=128)[source]¶

Returns the vocab size padded to be a multiple of pad_multiple. This is useful to set model embeddings to this number to increase throughput.

classmethod dolma2()[source]¶

Get a dolma2 tokenizer config.

classmethod dolma2_sigdig()[source]¶

Get a dolma2_sigdig tokenizer config.

classmethod gpt_neox_olmo_dolma_v1_5()[source]¶

classmethod gpt2()[source]¶

Get a gpt2 tokenizer config.

classmethod from_hf(identifier)[source]¶

Initialize a tokenizer config from a model on HuggingFace.

Parameters:: identifier (str) – The HF model identifier, e.g. “meta-llama/Llama-3.2-1B”.
Return type:: TokenizerConfig

class olmo_core.data.tokenizer.TokenizerLike(*args, **kwargs)[source]¶: Bases: Protocol

class olmo_core.data.tokenizer.TokenizerName(value)[source]¶

An enumeration of tokenizer identifiers commonly used OLMo researchers.

dolma2_sigdig = 'allenai/dolma2-tokenizer-sigdig'¶: The R2L dolma2 tokenizer.

gpt_neox_olmo_dolma_v1_5 = 'allenai/gpt-neox-olmo-dolma-v1_5'¶: A modified GPT NeoX tokenizer.

data.tokenizer¶