Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper
•
1908.10084
•
Published
•
9
This is a Cross Encoder model finetuned from NAMAA-Space/GATE-Reranker-V1 using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import CrossEncoder
# Download from the 🤗 Hub
model = CrossEncoder("yoriis/GTE-tydi")
# Get scores for pairs of texts
pairs = [
['أين تأسست اليوغا؟', 'هربرت نورمان شوارزكوف جنرال متقاعد من القوات المسلحة الأمريكية خدم بين عامي 1956 و1991، ولد في ترنتون - نيو جيرسي، في الولايات المتحدة الأميركية، كان قائد قوات التحالف الدولي ضد قوات الاحتلال العراقي في دولة الكويت خلال حرب الخليج الثانية عام 1991م التي عرفت بعاصفة الصحراء. والده، هربرت شوارزكوف، كان ضابط كبير بالشرطة أيضاً، تسلم قيادة شرطة نيوجرسي ومن بعدها ولّي عام 1946 تنظيم القوات الأمنية الإيرانية، رزق هربرت بولد فأعطاه الحرف الأول من اسمه واسم والده، نورمان.'],
['متى بدأت جائزة نوبل في علم الوظائف التي تمنحها الأكاديمية الملكية السويدية للعلوم؟', 'ميراي شونِن كونان (بالروماجي: Mirai Shōnen Conan) أي "فتى المستقبل كونان" اشتهر المسلسل بالعربية باسم عدنان ولينا نسبة لاسم البطلين الرئيسيين، لكن اسمه الرسمي للنسخة العربية هو "مغامرات عدنان" وهو مسلسل أنمي ياباني مدبلج إلى العربية من إنتاج شركة نيبون أنيميشن (Nippon Animation)، مكون من 26 حلقة. عُرض على الشاشات العربية خلال فترة الثمانينيات، وما زال يتكرر عرضه حتى الآن على العديد من القنوات. أشرف على إخراجه المخرج ميازاكي أحد أعظم مخرجي ورسامي الرسوم المتحركة اليابانية، وكان ذلك في عام 1978 وهو مقتبس عن رواية المد الهائل أي المد المذهل لألكسندر كي ويقع المسلسل ضمن إطار ما بعد نهاية العالم.'],
['ما هي اللافلزات في الكيمياء؟', 'سيغيسموند شلومو فرويد يعرف اختصارًا بـ<b data-parsoid=\'{"dsr":[68,87,3,3]}\'>سيغموند فرويد (6 مايو 1856—23 سبتمبر، 1939) هو طبيب نمساوي من أصل يهودي، اختص بدراسة الطب العصبي ومفكر حر[1] يعتبر مؤسس علم التحليل النفسي.[2] وهو طبيب الأعصاب النمساوي الذي أسس مدرسة التحليل النفسي وعلم النفس الحديث. اشتهر فرويد بنظريات العقل واللاواعي،[3] وآلية الدفاع عن القمع وخلق الممارسة السريرية في التحليل النفسي لعلاج الأمراض النفسية عن طريق الحوار بين المريض والمحلل النفسي. كما اشتهر بتقنية إعادة تحديد الرغبة الجنسية والطاقة التحفيزية الأولية للحياة البشرية، فضلا عن التقنيات العلاجية، بما في ذلك استخدام طريقة تكوين الجمعيات وحلقات العلاج النفسي، ونظريته من التحول في العلاقة العلاجية، وتفسير الأحلام كمصادر للنظرة الثاقبة عن رغبات اللاوعي.[4]'],
['اين توجد شجرة دم الاخوين ؟', 'يعود ظهورها على سطح الأرض إلى أكثر من 50 مليون عام ويرجح ظهورها في حوض البحر الأبيض المتوسط. تنتشر اليوم في جزيرة سوقطرة اليمنية التي أصبحت محمية طبيعية بسبب احتوائها على الكثير من الكائنات النادرة حيوانية كانت ام نباتية ومن أهمها شجرة دم الاخوين . يناسب هذه الشجرة الأرض الصخرية والأماكن العالية وهي تستطيع ان تتحمل الجفاف بشكل كبير وهذا يعود إلى قدرتها على الاحتفاظ بالماء لسنين طويلة.'],
['متى نشأة الإمبراطورية البيزنطينية ؟', 'العاج هو مادة تتكون منها أنياب الفيل وتتوفر في أفريقيا التي تعدّ من أهم مصادره, كذلك يوجد في الهند وبلدان شرق آسيا.[1][2][3]'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)
# Or rank different texts based on similarity to a single text
ranks = model.rank(
'أين تأسست اليوغا؟',
[
'هربرت نورمان شوارزكوف جنرال متقاعد من القوات المسلحة الأمريكية خدم بين عامي 1956 و1991، ولد في ترنتون - نيو جيرسي، في الولايات المتحدة الأميركية، كان قائد قوات التحالف الدولي ضد قوات الاحتلال العراقي في دولة الكويت خلال حرب الخليج الثانية عام 1991م التي عرفت بعاصفة الصحراء. والده، هربرت شوارزكوف، كان ضابط كبير بالشرطة أيضاً، تسلم قيادة شرطة نيوجرسي ومن بعدها ولّي عام 1946 تنظيم القوات الأمنية الإيرانية، رزق هربرت بولد فأعطاه الحرف الأول من اسمه واسم والده، نورمان.',
'ميراي شونِن كونان (بالروماجي: Mirai Shōnen Conan) أي "فتى المستقبل كونان" اشتهر المسلسل بالعربية باسم عدنان ولينا نسبة لاسم البطلين الرئيسيين، لكن اسمه الرسمي للنسخة العربية هو "مغامرات عدنان" وهو مسلسل أنمي ياباني مدبلج إلى العربية من إنتاج شركة نيبون أنيميشن (Nippon Animation)، مكون من 26 حلقة. عُرض على الشاشات العربية خلال فترة الثمانينيات، وما زال يتكرر عرضه حتى الآن على العديد من القنوات. أشرف على إخراجه المخرج ميازاكي أحد أعظم مخرجي ورسامي الرسوم المتحركة اليابانية، وكان ذلك في عام 1978 وهو مقتبس عن رواية المد الهائل أي المد المذهل لألكسندر كي ويقع المسلسل ضمن إطار ما بعد نهاية العالم.',
'سيغيسموند شلومو فرويد يعرف اختصارًا بـ<b data-parsoid=\'{"dsr":[68,87,3,3]}\'>سيغموند فرويد (6 مايو 1856—23 سبتمبر، 1939) هو طبيب نمساوي من أصل يهودي، اختص بدراسة الطب العصبي ومفكر حر[1] يعتبر مؤسس علم التحليل النفسي.[2] وهو طبيب الأعصاب النمساوي الذي أسس مدرسة التحليل النفسي وعلم النفس الحديث. اشتهر فرويد بنظريات العقل واللاواعي،[3] وآلية الدفاع عن القمع وخلق الممارسة السريرية في التحليل النفسي لعلاج الأمراض النفسية عن طريق الحوار بين المريض والمحلل النفسي. كما اشتهر بتقنية إعادة تحديد الرغبة الجنسية والطاقة التحفيزية الأولية للحياة البشرية، فضلا عن التقنيات العلاجية، بما في ذلك استخدام طريقة تكوين الجمعيات وحلقات العلاج النفسي، ونظريته من التحول في العلاقة العلاجية، وتفسير الأحلام كمصادر للنظرة الثاقبة عن رغبات اللاوعي.[4]',
'يعود ظهورها على سطح الأرض إلى أكثر من 50 مليون عام ويرجح ظهورها في حوض البحر الأبيض المتوسط. تنتشر اليوم في جزيرة سوقطرة اليمنية التي أصبحت محمية طبيعية بسبب احتوائها على الكثير من الكائنات النادرة حيوانية كانت ام نباتية ومن أهمها شجرة دم الاخوين . يناسب هذه الشجرة الأرض الصخرية والأماكن العالية وهي تستطيع ان تتحمل الجفاف بشكل كبير وهذا يعود إلى قدرتها على الاحتفاظ بالماء لسنين طويلة.',
'العاج هو مادة تتكون منها أنياب الفيل وتتوفر في أفريقيا التي تعدّ من أهم مصادره, كذلك يوجد في الهند وبلدان شرق آسيا.[1][2][3]',
]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
evalCrossEncoderClassificationEvaluator| Metric | Value |
|---|---|
| accuracy | 0.9953 |
| accuracy_threshold | 0.213 |
| f1 | 0.993 |
| f1_threshold | 0.213 |
| precision | 0.9918 |
| recall | 0.9943 |
| average_precision | 0.999 |
sentence_0, sentence_1, and label| sentence_0 | sentence_1 | label | |
|---|---|---|---|
| type | string | string | float |
| details |
|
|
|
| sentence_0 | sentence_1 | label |
|---|---|---|
أين تأسست اليوغا؟ |
هربرت نورمان شوارزكوف جنرال متقاعد من القوات المسلحة الأمريكية خدم بين عامي 1956 و1991، ولد في ترنتون - نيو جيرسي، في الولايات المتحدة الأميركية، كان قائد قوات التحالف الدولي ضد قوات الاحتلال العراقي في دولة الكويت خلال حرب الخليج الثانية عام 1991م التي عرفت بعاصفة الصحراء. والده، هربرت شوارزكوف، كان ضابط كبير بالشرطة أيضاً، تسلم قيادة شرطة نيوجرسي ومن بعدها ولّي عام 1946 تنظيم القوات الأمنية الإيرانية، رزق هربرت بولد فأعطاه الحرف الأول من اسمه واسم والده، نورمان. |
0.0 |
متى بدأت جائزة نوبل في علم الوظائف التي تمنحها الأكاديمية الملكية السويدية للعلوم؟ |
ميراي شونِن كونان (بالروماجي: Mirai Shōnen Conan) أي "فتى المستقبل كونان" اشتهر المسلسل بالعربية باسم عدنان ولينا نسبة لاسم البطلين الرئيسيين، لكن اسمه الرسمي للنسخة العربية هو "مغامرات عدنان" وهو مسلسل أنمي ياباني مدبلج إلى العربية من إنتاج شركة نيبون أنيميشن (Nippon Animation)، مكون من 26 حلقة. عُرض على الشاشات العربية خلال فترة الثمانينيات، وما زال يتكرر عرضه حتى الآن على العديد من القنوات. أشرف على إخراجه المخرج ميازاكي أحد أعظم مخرجي ورسامي الرسوم المتحركة اليابانية، وكان ذلك في عام 1978 وهو مقتبس عن رواية المد الهائل أي المد المذهل لألكسندر كي ويقع المسلسل ضمن إطار ما بعد نهاية العالم. |
0.0 |
ما هي اللافلزات في الكيمياء؟ |
سيغيسموند شلومو فرويد يعرف اختصارًا بـسيغموند فرويد (6 مايو 1856—23 سبتمبر، 1939) هو طبيب نمساوي من أصل يهودي، اختص بدراسة الطب العصبي ومفكر حر[1] يعتبر مؤسس علم التحليل النفسي.[2] وهو طبيب الأعصاب النمساوي الذي أسس مدرسة التحليل النفسي وعلم النفس الحديث. اشتهر فرويد بنظريات العقل واللاواعي،[3] وآلية الدفاع عن القمع وخلق الممارسة السريرية في التحليل النفسي لعلاج الأمراض النفسية عن طريق الحوار بين المريض والمحلل النفسي. كما اشتهر بتقنية إعادة تحديد الرغبة الجنسية والطاقة التحفيزية الأولية للحياة البشرية، فضلا عن التقنيات العلاجية، بما في ذلك استخدام طريقة تكوين الجمعيات وحلقات العلاج النفسي، ونظريته من التحول في العلاقة العلاجية، وتفسير الأحلام كمصادر للنظرة الثاقبة عن رغبات اللاوعي.[4] |
0.0 |
BinaryCrossEntropyLoss with these parameters:{
"activation_fn": "torch.nn.modules.linear.Identity",
"pos_weight": null
}
eval_strategy: stepsnum_train_epochs: 4fp16: Trueoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 8per_device_eval_batch_size: 8per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 5e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1num_train_epochs: 4max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.0warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: batch_samplermulti_dataset_batch_sampler: proportional| Epoch | Step | Training Loss | eval_average_precision |
|---|---|---|---|
| 0.0942 | 500 | 0.094 | 0.9979 |
| 0.1884 | 1000 | 0.0454 | 0.9981 |
| 0.2826 | 1500 | 0.0355 | 0.9984 |
| 0.3768 | 2000 | 0.0246 | 0.9987 |
| 0.4710 | 2500 | 0.0336 | 0.9989 |
| 0.5652 | 3000 | 0.0314 | 0.9990 |
| 0.6594 | 3500 | 0.0243 | 0.9990 |
| 0.7536 | 4000 | 0.0228 | 0.9989 |
| 0.8478 | 4500 | 0.0315 | 0.9990 |
| 0.9420 | 5000 | 0.036 | 0.9990 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}