AI & ML interests

Ontology + Concordance: The meeting of meaning

Recent Activity

huu-ontocord updated a dataset 1 day ago

ontocord/synthetic-prompt-common-pile-annotated

huu-ontocord published a dataset 1 day ago

ontocord/synthetic-prompt-common-pile-annotated

felfri authored a paper 3 days ago

LIME: Making LLM Data More Efficient with Linguistic Metadata Embeddings

View all activity

Papers

MixtureVitae: Open Web-Scale Pretraining Dataset With High Quality Instruction and Reasoning Data Built from Permissive-First Text Sources

View all Papers

ajibawa-2023

posted an update about 23 hours ago

Post

258

Stitched-Reasoning-Trajectories-7M

Dataset: ajibawa-2023/Stitched-Reasoning-Trajectories-7M
Stitched-Reasoning-Trajectories-7M is a massive-scale, synthetic multi-hop reasoning dataset. It was built by algorithmically "stitching" together discrete reasoning traces from the original glaiveai/reasoning-v1-20m dataset into continuous, coherent, and logically structured multi-agent trajectories.

By extracting internal sub-questions from <think> blocks and mapping high-information keyword overlaps, this dataset transforms single-turn Q&A pairs into deep, multi-step research plans. To ensure high quality and eliminate "topic drift," every trajectory has been verified using a dense semantic embedding model (BAAI/bge-large-en-v1.5).

The resulting dataset consists of 709 .jsonl files containing over 7.2 million entirely deduplicated, highly coherent reasoning chains.

huu-ontocord

updated a dataset 1 day ago

ontocord/synthetic-prompt-common-pile-annotated

Viewer • Updated 1 day ago • 202k • 9

huu-ontocord

published a dataset 1 day ago

ontocord/synthetic-prompt-common-pile-annotated

Viewer • Updated 1 day ago • 202k • 9

felfri

authored a paper 3 days ago

LIME: Making LLM Data More Efficient with Linguistic Metadata Embeddings

Paper • 2512.07522 • Published Dec 8, 2025

huu-ontocord

updated a model 9 days ago

ontocord/1.7b-MixtureVitae-web_curated-100BT

2B • Updated 9 days ago • 273

huu-ontocord

updated a model 10 days ago

ontocord/1.7b-MixtureVitae-curated-80BT

2B • Updated 10 days ago • 54

huu-ontocord

updated a model 11 days ago

ontocord/1.7b-Comma0.1-300BT

2B • Updated 11 days ago • 935

Harsh1729

updated a model 12 days ago

ontocord/1.7b-MixtureVitae-300BT-v1-decontaminated-16k

Feature Extraction • 2B • Updated 12 days ago • 42

Harsh1729

updated a model 13 days ago

ontocord/1.7b-MixtureVitae-300BT-v1-decontaminated-16k-SFT-openthoughts30k

Feature Extraction • 2B • Updated 13 days ago • 38

Harsh1729

published a model 13 days ago

ontocord/1.7b-MixtureVitae-300BT-v1-decontaminated-16k-SFT-openthoughts30k

Feature Extraction • 2B • Updated 13 days ago • 38

huu-ontocord

authored a paper 15 days ago

Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics

Paper • 2603.01209 • Published Mar 1 • 1

ajibawa-2023

posted an update 18 days ago

Post

1215

Ruby-Code-Large
Dataset : ajibawa-2023/Ruby-Code-Large

Ruby-Code-Large is a large-scale corpus of Ruby programming language source code comprising 331,743 code samples stored in .jsonl format. The dataset is designed to support research and development in large language model (LLM) pretraining, static analysis, web application development, and software engineering automation within the Ruby ecosystem.

By offering a substantial, language-focused dataset, Ruby-Code-Large enables targeted experimentation in dynamic programming, object-oriented design, and rapid application development—areas where Ruby is widely used, particularly in web frameworks and scripting.

Ruby-Code-Large addresses the lack of large, curated, Ruby-specific datasets, enabling focused research on expressive syntax, metaprogramming, and high-level abstractions.