🇷🇺 Russian Product Attribute Extractor (Qwen3.5-2B Fine-tuned)
Модель для извлечения характеристик из русскоязычных текстов с выводом в JSON.
Основана на Qwen/Qwen3.5-2B-Base и дообучена под задачу extraction.
🔧 Возможности
- Извлечение характеристик из текста
- Работа с неструктурированными описаниями
- Вывод строго в формате JSON
📥 Формат входа
Извлеки любую характеристику из текста. Выведи в формате JSON: {"name":"","values":[{"stringValue":""}]}
Текст: <ВАШ ТЕКСТ>
Ответ:
📤 Формат выхода
{
"name": "Название характеристики",
"values": [
{
"stringValue": "Значение"
}
]
}
🚀 Пример использования
from transformers import pipeline
pipe = pipeline(
"text-generation",
model="GreenMap/qwen3.5-2b-ru-json-extractor",
tokenizer="GreenMap/qwen3.5-2b-ru-json-extractor",
device=0,
trust_remote_code=True,
)
def build_prompt(text: str) -> str:
return (
"Извлеки любую характеристику из текста. Выведи в формате JSON: "
"{\"name\":\"\",\"values\":[{\"stringValue\":\"\"}]}\n"
f"Текст: {text}\n"
"Ответ:\n"
)
text = "выкл. авт. NXB-63"
prompt = build_prompt(text)
result = pipe(
prompt,
max_new_tokens=256,
do_sample=False,
)
output = result[0]["generated_text"]
json_part = output.split("Ответ:\n")[-1].strip()
print(json_part)
⚙️ Рекомендуемые параметры
max_new_tokens=256
do_sample=False
⚠️ Ограничения
- Извлекает одну характеристику за раз
- Требует строгого формата prompt
🏋️ Обучение
- Базовая модель:
Qwen/Qwen3.5-2B-Base - Тип: full fine-tuning
- Формат данных:
{
"prompt": "...Ответ:\n",
"response": "{...}"
}
📌 Применение
- Парсинг характеристик товаров
- Обработка технических описаний
- Извлечение структурированных данных
- Downloads last month
- 402