去識別化保護個資
AI 分析無後顧之憂
採用自動化技術,自動偵測並替換姓名、身分證、電話、地址等 7 種個資。地端運行,3 秒完成去識別化,確保律師保密義務與 PDPA 合規。
四大核心技術
自動化去識別化處理
文字文件在伺服器上自動去識別化後才送 AI;掃描件經使用者同意後以 AI 辨識文字再去識別化
- •繁體中文深度學習模型:針對台灣法律文件優化
- •CPU 運算:無需 GPU,部署成本低
- •即時處理:50 頁卷證約 3-5 秒完成去識別化
- •不可逆替換:原始個資不儲存、不傳輸、不還原
7 種個資自動偵測
結合規則引擎與深度學習,高精度偵測台灣常見個資格式
- •姓名:中文姓名、英文姓名(支援職稱過濾)
- •身分證字號:A123456789 格式 + checksum 驗證
- •電話號碼:手機 09XX、市話 (0X)XXXX-XXXX
- •Email:完整 email 格式偵測
- •地址:完整地址(含縣市、區、路、巷弄號)
- •統一編號:8 位數字 + checksum 驗證
- •組織名稱:公司、事務所、機關團體
智慧排除機制
自動排除法律文件中不應替換的專有名詞
- •裁判字號:最高法院 110 年台上字第 1234 號
- •法院名稱:台灣台北地方法院、智慧財產及商業法院
- •法規名稱:民法、刑法、消費者保護法
- •日期格式:民國年度、西元年度
瀏覽器端回填
去識別後文件送 AI 分析,律師在瀏覽器端自行回填真實資料
- •不可逆設計:伺服器不儲存對照表
- •純客戶端回填:JavaScript 執行,不經伺服器
- •Markdown 下載:回填後可直接下載成 .md 檔案
- •PDPA 合規:個資處理符合個資法第 6 條要求
實際案例:律師上傳 50 頁離婚訴訟卷證
王律師手上有一件離婚案件,卷證共 50 頁,包含當事人身分證影本、戶籍謄本、通訊記錄、財產清單。王律師想用 AI 分析案情,但擔心客戶個資外洩。
1. 上傳原始卷證(含個資)
1 秒王律師上傳 50 頁 PDF,包含: • 當事人姓名:張三、李四 • 身分證字號:A123456789、B987654321 • 電話:0912-345-678 • 地址:台北市大安區○○路 123 號
2. AI 自動去識別化
3 秒命名實體識別(NER)偵測到: • 2 個姓名 → 替換為 [姓名-1]、[姓名-2] • 2 個身分證字號 → 替換為 [身分證字號-1]、[身分證字號-2] • 1 個手機 → 替換為 [手機-1] • 1 個地址 → 替換為 [地址-1] ✅ 排除不應替換的內容: • 「台灣台北地方法院」(法院名稱) • 「民法第 1052 條」(法條)
3. 去識別化文件送 AI 分析
即時AI 收到的文件: 「[姓名-1] 與 [姓名-2] 於民國 100 年結婚,婚後育有一子。[姓名-1] 主張 [姓名-2] 有通姦行為,並提出通訊記錄為證。[姓名-1] 之聯絡方式為 [手機-1],戶籍地址為 [地址-1]...」 原始個資(張三、A123456789、0912-345-678)完全沒有傳送至第三方 AI 服務
4. 律師瀏覽器端回填
10 秒AI 分析完成後,王律師在自己的電腦上: • 點擊「回填個資」按鈕 • 系統自動將 [姓名-1] 還原為「張三」 • 將 [身分證字號-1] 還原為「A123456789」 • 下載完整版 Markdown 文件 整個回填過程在瀏覽器執行,不經過伺服器
✅ 最終結果
王律師成功用 AI 分析案情。上傳後在伺服器完成去識別化(3 秒),僅去識別化後的文字送 AI 分析,符合律師保密義務與 PDPA 規範。若為掃描件,需先經使用者同意後以 AI 辨識文字,再進行去識別化。
常見問題
去識別化的準確度如何?▼
我們採用雙層偵測:(1) 規則引擎:偵測身分證(含 checksum 驗證)、電話、Email、統編等結構化資料,準確度 95%+;(2) 深度學習模型:繁體中文命名實體識別,偵測姓名、地址、組織,準確度 85-90%。智慧排除機制:自動排除法院名稱、法條、裁判字號等不應替換的內容,避免誤判。提醒:律師上傳前仍需檢查去識別化結果,確認無遺漏。
原始文件會存在哪裡?會不會外洩?▼
原始文件僅在分析會話期間暫存於伺服器記憶體,會話結束後自動清除。安全措施:(1) 上傳後立即去識別化(3-5 秒);(2) 去識別化後的文件才送 AI 分析;(3) 原始文件不寫入硬碟、不備份、不傳輸;(4) 會話結束(關閉瀏覽器或 30 分鐘無操作)後,記憶體自動清空。對照表儲存:伺服器不儲存「[姓名-1] = 張三」的對照表,回填由律師在瀏覽器端自行執行。
符合 PDPA(個資法)規範嗎?▼
完全符合。PDPA 第 6 條要求:蒐集特種個資需當事人書面同意。我們的合規設計:(1) 上傳前勾選同意(含特種個資告知);(2) 去識別化處理:姓名、身分證等替換為匿名標記後,已非「可直接辨識個人」之資料;(3) 跨境傳輸揭露:隱私政策明確說明去識別化後文件傳送至受委託之第三方 AI 服務提供者,該服務承諾零資料留存、不訓練模型(詳見隱私權政策);(4) 稽核紀錄:所有上傳操作寫入稽核紀錄。
去識別化會不會影響 AI 分析品質?▼
幾乎不影響。法律分析關注的是「法律關係」而非「具體姓名」。例如:原始文件「張三與李四簽訂契約」→ 去識別化「[姓名-1] 與 [姓名-2] 簽訂契約」,AI 仍能分析契約法律關係。律師回填後即可還原完整文件。少數影響情境:人名與法律爭點相關時(如「王大同商標爭議」),去識別化可能影響分析。此時律師可選擇:(1) 手動排除特定姓名不替換;(2) 分析後再補充說明。
去識別化需要多少積分?▼
去識別化本身不消耗積分(在自有伺服器運行)。僅 AI 分析時消耗積分,計費方式與一般對話相同。實際消耗:50 頁卷證(約 25,000 字)使用標準模式分析,約 300-500 積分(相當於 NT$90-150)。省積分技巧:先用快速模式做初步分析(約 100 積分),確認方向後再用專業模式深度分析。
可以不去識別化直接上傳嗎?▼
技術上可以(系統不強制),但強烈不建議。風險:(1) 律師保密義務:律師法第 33 條規定律師對職務上知悉秘密負保密義務,直接上傳客戶資料可能違反;(2) PDPA 風險:未經當事人同意將個資傳送至境外第三方 AI 服務,違反個資法第 21 條;(3) 倫理風險:律師公會可能認定違反律師倫理規範。建議:律師執業案件一律使用去識別化;一般民眾自己的案件可自行決定。