CrossEncoder based on NAMAA-Space/GATE-Reranker-V1

This is a Cross Encoder model finetuned from NAMAA-Space/GATE-Reranker-V1 using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.

Model Details

Model Description

Model Sources

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import CrossEncoder

# Download from the 🤗 Hub
model = CrossEncoder("yoriis/GTE-tydi")
# Get scores for pairs of texts
pairs = [
    ['أين تأسست اليوغا؟', 'هربرت نورمان شوارزكوف جنرال متقاعد من القوات المسلحة الأمريكية خدم بين عامي 1956 و1991، ولد في ترنتون - نيو جيرسي، في الولايات المتحدة الأميركية، كان قائد قوات التحالف الدولي ضد قوات الاحتلال العراقي في دولة الكويت خلال حرب الخليج الثانية عام 1991م التي عرفت بعاصفة الصحراء. والده، هربرت شوارزكوف، كان ضابط كبير بالشرطة أيضاً، تسلم قيادة شرطة نيوجرسي ومن بعدها ولّي عام 1946 تنظيم القوات الأمنية الإيرانية، رزق هربرت بولد فأعطاه الحرف الأول من اسمه واسم والده، نورمان.'],
    ['متى بدأت جائزة نوبل في علم الوظائف  التي تمنحها الأكاديمية الملكية السويدية للعلوم؟', 'ميراي شونِن كونان  (بالروماجي: Mirai Shōnen Conan) أي "فتى المستقبل كونان" اشتهر المسلسل بالعربية باسم عدنان ولينا نسبة لاسم البطلين الرئيسيين، لكن اسمه الرسمي للنسخة العربية هو "مغامرات عدنان" وهو مسلسل أنمي ياباني مدبلج إلى العربية من إنتاج شركة نيبون أنيميشن (Nippon Animation)، مكون من 26 حلقة. عُرض على الشاشات العربية خلال فترة الثمانينيات، وما زال يتكرر عرضه حتى الآن على العديد من القنوات. أشرف على إخراجه المخرج ميازاكي أحد أعظم مخرجي ورسامي الرسوم المتحركة اليابانية، وكان ذلك في عام 1978 وهو مقتبس عن رواية المد الهائل أي المد المذهل لألكسندر كي ويقع المسلسل ضمن إطار ما بعد نهاية العالم.'],
    ['ما هي اللافلزات في الكيمياء؟', 'سيغيسموند شلومو فرويد يعرف اختصارًا بـ<b data-parsoid=\'{"dsr":[68,87,3,3]}\'>سيغموند فرويد (6 مايو 1856—23 سبتمبر، 1939) هو طبيب نمساوي من أصل يهودي، اختص بدراسة الطب العصبي ومفكر حر[1] يعتبر مؤسس علم التحليل النفسي.[2] وهو طبيب الأعصاب النمساوي الذي أسس مدرسة التحليل النفسي وعلم النفس الحديث. اشتهر فرويد بنظريات العقل واللاواعي،[3] وآلية الدفاع عن القمع وخلق الممارسة السريرية في التحليل النفسي لعلاج الأمراض النفسية عن طريق الحوار بين المريض والمحلل النفسي. كما اشتهر بتقنية إعادة تحديد الرغبة الجنسية والطاقة التحفيزية الأولية للحياة البشرية، فضلا عن التقنيات العلاجية، بما في ذلك استخدام طريقة تكوين الجمعيات وحلقات العلاج النفسي، ونظريته من التحول في العلاقة العلاجية، وتفسير الأحلام كمصادر للنظرة الثاقبة عن رغبات اللاوعي.[4]'],
    ['اين توجد شجرة دم الاخوين ؟', 'يعود ظهورها على سطح الأرض إلى أكثر من 50 مليون عام ويرجح ظهورها في حوض البحر الأبيض المتوسط. تنتشر اليوم في جزيرة سوقطرة اليمنية التي أصبحت محمية طبيعية بسبب احتوائها على الكثير من الكائنات النادرة حيوانية كانت ام نباتية ومن أهمها شجرة دم الاخوين . يناسب هذه الشجرة الأرض الصخرية والأماكن العالية وهي تستطيع ان تتحمل الجفاف بشكل كبير وهذا يعود إلى قدرتها على الاحتفاظ بالماء لسنين طويلة.'],
    ['متى نشأة الإمبراطورية البيزنطينية ؟', 'العاج هو مادة تتكون منها أنياب الفيل وتتوفر في أفريقيا التي تعدّ من أهم مصادره, كذلك يوجد في الهند وبلدان شرق آسيا.[1][2][3]'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)

# Or rank different texts based on similarity to a single text
ranks = model.rank(
    'أين تأسست اليوغا؟',
    [
        'هربرت نورمان شوارزكوف جنرال متقاعد من القوات المسلحة الأمريكية خدم بين عامي 1956 و1991، ولد في ترنتون - نيو جيرسي، في الولايات المتحدة الأميركية، كان قائد قوات التحالف الدولي ضد قوات الاحتلال العراقي في دولة الكويت خلال حرب الخليج الثانية عام 1991م التي عرفت بعاصفة الصحراء. والده، هربرت شوارزكوف، كان ضابط كبير بالشرطة أيضاً، تسلم قيادة شرطة نيوجرسي ومن بعدها ولّي عام 1946 تنظيم القوات الأمنية الإيرانية، رزق هربرت بولد فأعطاه الحرف الأول من اسمه واسم والده، نورمان.',
        'ميراي شونِن كونان  (بالروماجي: Mirai Shōnen Conan) أي "فتى المستقبل كونان" اشتهر المسلسل بالعربية باسم عدنان ولينا نسبة لاسم البطلين الرئيسيين، لكن اسمه الرسمي للنسخة العربية هو "مغامرات عدنان" وهو مسلسل أنمي ياباني مدبلج إلى العربية من إنتاج شركة نيبون أنيميشن (Nippon Animation)، مكون من 26 حلقة. عُرض على الشاشات العربية خلال فترة الثمانينيات، وما زال يتكرر عرضه حتى الآن على العديد من القنوات. أشرف على إخراجه المخرج ميازاكي أحد أعظم مخرجي ورسامي الرسوم المتحركة اليابانية، وكان ذلك في عام 1978 وهو مقتبس عن رواية المد الهائل أي المد المذهل لألكسندر كي ويقع المسلسل ضمن إطار ما بعد نهاية العالم.',
        'سيغيسموند شلومو فرويد يعرف اختصارًا بـ<b data-parsoid=\'{"dsr":[68,87,3,3]}\'>سيغموند فرويد (6 مايو 1856—23 سبتمبر، 1939) هو طبيب نمساوي من أصل يهودي، اختص بدراسة الطب العصبي ومفكر حر[1] يعتبر مؤسس علم التحليل النفسي.[2] وهو طبيب الأعصاب النمساوي الذي أسس مدرسة التحليل النفسي وعلم النفس الحديث. اشتهر فرويد بنظريات العقل واللاواعي،[3] وآلية الدفاع عن القمع وخلق الممارسة السريرية في التحليل النفسي لعلاج الأمراض النفسية عن طريق الحوار بين المريض والمحلل النفسي. كما اشتهر بتقنية إعادة تحديد الرغبة الجنسية والطاقة التحفيزية الأولية للحياة البشرية، فضلا عن التقنيات العلاجية، بما في ذلك استخدام طريقة تكوين الجمعيات وحلقات العلاج النفسي، ونظريته من التحول في العلاقة العلاجية، وتفسير الأحلام كمصادر للنظرة الثاقبة عن رغبات اللاوعي.[4]',
        'يعود ظهورها على سطح الأرض إلى أكثر من 50 مليون عام ويرجح ظهورها في حوض البحر الأبيض المتوسط. تنتشر اليوم في جزيرة سوقطرة اليمنية التي أصبحت محمية طبيعية بسبب احتوائها على الكثير من الكائنات النادرة حيوانية كانت ام نباتية ومن أهمها شجرة دم الاخوين . يناسب هذه الشجرة الأرض الصخرية والأماكن العالية وهي تستطيع ان تتحمل الجفاف بشكل كبير وهذا يعود إلى قدرتها على الاحتفاظ بالماء لسنين طويلة.',
        'العاج هو مادة تتكون منها أنياب الفيل وتتوفر في أفريقيا التي تعدّ من أهم مصادره, كذلك يوجد في الهند وبلدان شرق آسيا.[1][2][3]',
    ]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]

Evaluation

Metrics

Cross Encoder Classification

Metric Value
accuracy 0.9953
accuracy_threshold 0.213
f1 0.993
f1_threshold 0.213
precision 0.9918
recall 0.9943
average_precision 0.999

Training Details

Training Dataset

Unnamed Dataset

  • Size: 42,460 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 label
    type string string float
    details
    • min: 12 characters
    • mean: 29.57 characters
    • max: 89 characters
    • min: 32 characters
    • mean: 499.47 characters
    • max: 6288 characters
    • min: 0.0
    • mean: 0.34
    • max: 1.0
  • Samples:
    sentence_0 sentence_1 label
    أين تأسست اليوغا؟ هربرت نورمان شوارزكوف جنرال متقاعد من القوات المسلحة الأمريكية خدم بين عامي 1956 و1991، ولد في ترنتون - نيو جيرسي، في الولايات المتحدة الأميركية، كان قائد قوات التحالف الدولي ضد قوات الاحتلال العراقي في دولة الكويت خلال حرب الخليج الثانية عام 1991م التي عرفت بعاصفة الصحراء. والده، هربرت شوارزكوف، كان ضابط كبير بالشرطة أيضاً، تسلم قيادة شرطة نيوجرسي ومن بعدها ولّي عام 1946 تنظيم القوات الأمنية الإيرانية، رزق هربرت بولد فأعطاه الحرف الأول من اسمه واسم والده، نورمان. 0.0
    متى بدأت جائزة نوبل في علم الوظائف التي تمنحها الأكاديمية الملكية السويدية للعلوم؟ ميراي شونِن كونان (بالروماجي: Mirai Shōnen Conan) أي "فتى المستقبل كونان" اشتهر المسلسل بالعربية باسم عدنان ولينا نسبة لاسم البطلين الرئيسيين، لكن اسمه الرسمي للنسخة العربية هو "مغامرات عدنان" وهو مسلسل أنمي ياباني مدبلج إلى العربية من إنتاج شركة نيبون أنيميشن (Nippon Animation)، مكون من 26 حلقة. عُرض على الشاشات العربية خلال فترة الثمانينيات، وما زال يتكرر عرضه حتى الآن على العديد من القنوات. أشرف على إخراجه المخرج ميازاكي أحد أعظم مخرجي ورسامي الرسوم المتحركة اليابانية، وكان ذلك في عام 1978 وهو مقتبس عن رواية المد الهائل أي المد المذهل لألكسندر كي ويقع المسلسل ضمن إطار ما بعد نهاية العالم. 0.0
    ما هي اللافلزات في الكيمياء؟ سيغيسموند شلومو فرويد يعرف اختصارًا بـسيغموند فرويد (6 مايو 1856—23 سبتمبر، 1939) هو طبيب نمساوي من أصل يهودي، اختص بدراسة الطب العصبي ومفكر حر[1] يعتبر مؤسس علم التحليل النفسي.[2] وهو طبيب الأعصاب النمساوي الذي أسس مدرسة التحليل النفسي وعلم النفس الحديث. اشتهر فرويد بنظريات العقل واللاواعي،[3] وآلية الدفاع عن القمع وخلق الممارسة السريرية في التحليل النفسي لعلاج الأمراض النفسية عن طريق الحوار بين المريض والمحلل النفسي. كما اشتهر بتقنية إعادة تحديد الرغبة الجنسية والطاقة التحفيزية الأولية للحياة البشرية، فضلا عن التقنيات العلاجية، بما في ذلك استخدام طريقة تكوين الجمعيات وحلقات العلاج النفسي، ونظريته من التحول في العلاقة العلاجية، وتفسير الأحلام كمصادر للنظرة الثاقبة عن رغبات اللاوعي.[4] 0.0
  • Loss: BinaryCrossEntropyLoss with these parameters:
    {
        "activation_fn": "torch.nn.modules.linear.Identity",
        "pos_weight": null
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • num_train_epochs: 4
  • fp16: True

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss eval_average_precision
0.0942 500 0.094 0.9979
0.1884 1000 0.0454 0.9981
0.2826 1500 0.0355 0.9984
0.3768 2000 0.0246 0.9987
0.4710 2500 0.0336 0.9989
0.5652 3000 0.0314 0.9990
0.6594 3500 0.0243 0.9990
0.7536 4000 0.0228 0.9989
0.8478 4500 0.0315 0.9990
0.9420 5000 0.036 0.9990

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 4.1.0
  • Transformers: 4.54.1
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.9.0
  • Datasets: 4.0.0
  • Tokenizers: 0.21.4

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
Downloads last month
2
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for yoriis/GTE-tydi

Paper for yoriis/GTE-tydi

Evaluation results