Spaces:

lianghsun
/

data-contribute

Sleeping

App Files Files Community

lianghsun commited on Nov 17

Commit

1703267

1 Parent(s): 36605e0

first commit

Browse files

Files changed (2) hide show

app.py +240 -0
requirements.txt +4 -0

app.py ADDED Viewed

	@@ -0,0 +1,240 @@

+import streamlit as st
+import json
+from io import StringIO
+import requests
+from PyPDF2 import PdfReader
+from datetime import datetime, timezone, timedelta
+st.set_page_config(page_title="資料上傳與檢查工具", layout="wide")
+BACKEND_URL = st.secrets.get("BACKEND_URL", None)
+st.title("🌟 協助貢獻繁體中文資料")
+st.markdown("""
+歡迎加入我們，一起建立高品質的 **繁體中文語言資料集**！你提供的每一份資料，都能幫助未來的繁中模型更準確、更理解本地語境。
+我們非常感謝你的協助，你的貢獻將直接推動繁體中文 AI 生態的發展！🌱
+""")
+st.info("⚠️ 請勿上傳真實個資或敏感商業資料。")
+# ---- 本次上傳的共同設定（兩個 tab 共用） ----
+st.markdown("### 本次上傳設定")
+contributor_email = st.text_input("聯絡 email（選填）", placeholder="[email protected]")
+share_permission = st.checkbox(
+    "我同意將本次上傳的資料，未來在去識別化後以開源形式提供研究與模型訓練使用。",
+    value=False,
+)
+# 產生 UTC+8 的上傳時間（每次互動當下）
+tz_utc8 = timezone(timedelta(hours=8))
+uploaded_at = datetime.now(tz_utc8).isoformat()
+tab_jsonl, tab_pdf = st.tabs(["對話資料 (.jsonl)", "預訓練 PDF"])
+# ---------- Tab 1: JSONL ----------
+with tab_jsonl:
+    st.subheader("上傳對話資料")
+    sample_prompt = """你現在是一個資料標註助手，請幫我產生一組適合用來微調聊天模型的對話資料，輸出格式必須是 `.jsonl`。
+格式要求：
+- 每一行是一個獨立的 JSON 物件。
+- 每個 JSON 物件必須包含一個 `messages` 欄位。
+- `messages` 是一個陣列，元素為依照 OpenAI Chat API 格式的訊息物件：
+  - `{"role": "system" | "user" | "assistant", "content": "文字內容"}`
+- `content` 一律使用純文字字串（不要使用多段 content / 不要使用 function_call）。
+- 不要輸出程式碼區塊標記 ```，只輸出純文字內容。
+- 不要在檔案中加入註解或說明文字，每一行只能是 JSON。
+範例（僅供格式參考）：
+{"messages": [
+  {"role": "system", "content": "你是一個友善的客服人員。"},
+  {"role": "user", "content": "請問我要如何申請退貨？"},
+  {"role": "assistant", "content": "您好，若您要申請退貨，請先登入會員中心，在「訂單管理」中選擇欲退貨的訂單，點選「申請退貨」，依指示填寫原因並送出。"}
+]}
+{"messages": [
+  {"role": "system", "content": "你是一個勞動法規諮詢助手。"},
+  {"role": "user", "content": "加班費要怎麼算？"},
+  {"role": "assistant", "content": "依據勞動基準法第24條，加班工資應依平日或休息日的不同，分別以正常工資的一又三分之一、二又三分之一等倍數計算。實務上請再確認公司內部規章。"}
+]}
+請依照以上規格輸出多行 `.jsonl` 對話資料。"""
+    st.markdown("##### 請將以下的 prompt 貼到你的對話生成模型中，產生符合格式的對話資料：")
+    st.code(sample_prompt, language="markdown")
+    jsonl_file = st.file_uploader(
+        "上傳對話資料 `.jsonl` 檔",
+        type=["jsonl"],
+        accept_multiple_files=False
+    )
+    jsonl_valid = False
+    parsed_lines = []
+    if jsonl_file is not None:
+        st.markdown("#### 檔案檢查結果")
+        content = jsonl_file.read().decode("utf-8")
+        f = StringIO(content)
+        errors = []
+        allowed_roles = {"system", "user", "assistant"}
+        for idx, line in enumerate(f, start=1):
+            line = line.strip()
+            if not line:
+                continue
+            try:
+                obj = json.loads(line)
+            except json.JSONDecodeError as e:
+                errors.append(f"第 {idx} 行不是合法 JSON：{e}")
+                continue
+            if "messages" not in obj or not isinstance(obj["messages"], list):
+                errors.append(f"第 {idx} 行缺少 messages 欄位或型態錯誤。")
+                continue
+            for m_idx, msg in enumerate(obj["messages"]):
+                if not isinstance(msg, dict):
+                    errors.append(f"第 {idx} 行第 {m_idx+1} 則訊息不是物件。")
+                    continue
+                role = msg.get("role")
+                msg_content = msg.get("content")
+                if role not in allowed_roles:
+                    errors.append(f"第 {idx} 行第 {m_idx+1} 則 role 非預期：{role}")
+                if not isinstance(msg_content, str):
+                    errors.append(f"第 {idx} 行第 {m_idx+1} 則 content 需為字串。")
+            parsed_lines.append(obj)
+        if errors:
+            st.error("格式檢查失敗，請修正後重新上傳：")
+            for e in errors[:20]:
+                st.write("- " + e)
+            if len(errors) > 20:
+                st.write(f"... 還有 {len(errors) - 20} 筆錯誤未顯示")
+        else:
+            jsonl_valid = True
+            st.success(f"檢查通過！共 {len(parsed_lines)} 筆對話。")
+            st.markdown("#### 範例預覽（前 2 筆）")
+            for i, obj in enumerate(parsed_lines[:2], start=1):
+                st.json(obj)
+    # 上傳按鈕：會在送出前幫每一筆加上 metadata
+    if st.button("上傳", disabled=not (jsonl_file and jsonl_valid or BACKEND_URL is None)):
+        if BACKEND_URL is None:
+            st.warning("尚未設定 BACKEND_URL，無法實際送出，請在 `st.secrets` 中配置。")
+        else:
+            # 準備 metadata（會附加在每一行 JSON 物件上）
+            meta = {
+                "uploaded_at": uploaded_at,  # UTC+8 ISO 字串
+                "contributor_email": contributor_email if contributor_email.strip() else None,
+                "share_permission": bool(share_permission),
+            }
+            # 重新組一份帶 metadata 的 jsonl 內容
+            enriched_lines = []
+            for obj in parsed_lines:
+                obj_with_meta = {
+                    **obj,
+                    "metadata": meta,
+                }
+                enriched_lines.append(json.dumps(obj_with_meta, ensure_ascii=False))
+            payload = "\n".join(enriched_lines).encode("utf-8")
+            files = {"file": ("contrib.jsonl", payload, "application/jsonl")}
+            try:
+                resp = requests.post(f"{BACKEND_URL}/upload-jsonl", files=files)
+                if resp.ok:
+                    st.success("已成功送交後端伺服器，等待後端進一步檢查與處理。")
+                else:
+                    st.error(f"後端回傳錯誤：{resp.status_code} {resp.text}")
+            except Exception as e:
+                st.error(f"送出時發生錯誤：{e}")
+# ---------- Tab 2: PDF ----------
+with tab_pdf:
+    st.subheader("上傳預訓練 PDF（純文字型）")
+    st.markdown("""
+**格式說明**
+- 檔案副檔名：`.pdf`
+- 內容須為可擷取文字的 PDF（非掃描圖片）。
+- 系統會抽樣頁面檢查是否能讀取到足夠文字內容。
+""")
+    pdf_files = st.file_uploader(
+        "上傳一個或多個 PDF 檔",
+        type=["pdf"],
+        accept_multiple_files=True
+    )
+    pdf_results = []
+    if pdf_files:
+        for pdf in pdf_files:
+            st.markdown(f"#### 檢查檔案：`{pdf.name}`")
+            try:
+                reader = PdfReader(pdf)
+                num_pages = len(reader.pages)
+                sample_pages = [0, 2, 4]  # 第 1,3,5 頁（若存在）
+                text_snippets = []
+                for p in sample_pages:
+                    if p < num_pages:
+                        page = reader.pages[p]
+                        text = page.extract_text() or ""
+                        text_snippets.append(text)
+                total_text = "".join(text_snippets)
+                text_len = len(total_text)
+                if text_len < 100:
+                    st.warning(f"未擷取到足夠文字內容（抽樣字數 {text_len}）。此 PDF 可能是掃描型，建議先做 OCR。")
+                else:
+                    st.success(f"檢查通過！頁數：{num_pages}，抽樣字數：{text_len}")
+                    st.markdown("**文字預覽（前 300 字）**")
+                    st.text(total_text[:300])
+                pdf_results.append((pdf, text_len))
+            except Exception as e:
+                st.error(f"讀取 PDF 時發生錯誤：{e}")
+    any_valid_pdf = any(tlen >= 100 for _, tlen in pdf_results) if pdf_results else False
+    if st.button("上傳文本", disabled=not (pdf_files and any_valid_pdf or BACKEND_URL is None)):
+        if BACKEND_URL is None:
+            st.warning("尚未設定 BACKEND_URL，無法實際送出，請在 `st.secrets` 中配置。")
+        else:
+            files = []
+            for pdf, text_len in pdf_results:
+                if text_len < 100:
+                    continue  # 跳過疑似掃描檔
+                pdf.seek(0)
+                files.append(("files", (pdf.name, pdf.getvalue(), "application/pdf")))
+            if not files:
+                st.warning("沒有通過文字檢查的 PDF 檔案可送出。")
+            else:
+                # PDF 部分的 metadata 用 form data 一起送出，讓後端可以記錄
+                meta = {
+                    "uploaded_at": uploaded_at,
+                    "contributor_email": contributor_email if contributor_email.strip() else "",
+                    "share_permission": json.dumps(bool(share_permission)),
+                }
+                try:
+                    resp = requests.post(f"{BACKEND_URL}/upload-pdf", files=files, data=meta)
+                    if resp.ok:
+                        st.success("已成功送交後端伺服器，等待後端進一步檢查與處理。")
+                    else:
+                        st.error(f"後端回傳錯誤：{resp.status_code} {resp.text}")
+                except Exception as e:
+                    st.error(f"送出時發生錯誤：{e}")

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+streamlit
+requests
+PyPDF2
+pdfplumber