HuggingFace镜像/LFM2-350M-PII-Extract-JP
模型介绍文件和版本分析
下载使用量0
Liquid AI
Playground Playground Playground Leap

LFM2-350M-PII-Extract-JP

本模型基于 LFM2-350M 构建,旨在从日文文本中提取个人身份信息(PII)并以 JSON 格式输出。

提取结果可直接在设备端用于屏蔽合同、邮件、个人医疗报告、保险账单等文档中的敏感信息。

具体而言,该模型经过训练可从日文文档和文本中提取以下信息:

  • 地址/位置(JSON 键:address)
  • 公司/机构/组织名称(JSON 键:company_name)
  • 电子邮箱地址(JSON 键:email_address)
  • 人名(JSON 键:human_name)
  • 电话号码(JSON 键:phone_number)

演示

在 MacBook Pro 上运行。

提取质量

我们对包括 GPT-5 以及启用思维模式的 320 亿参数 Qwen3 模型在内的多款模型进行了评估。
下图展示了在 finepdf 数据集中随机抽取的 1000 个样本(切分为 100–1000 字符的片段)上的平均召回率得分。
总体而言,我们发现LFM2-350M-PII-Extract-JP 仅用 3.5 亿参数就实现了与 GPT-5 相当的性能,将云级性能带到了设备端应用!

模型大小与召回率得分

样本响应

输入文本输出 JSON
田中 太郎 様

平素より格別のご高配を賜り、誠にありがとうございます。

このたび、山田 花子 が ABCコーポレーション赤坂オフィス へ 田中 太郎 様をご招待いたしました。

ご来訪当日は、本メールに記載の「受付番号」または「受付QRコード」を使用してチェックインを行っていただきます。以下のいずれかの方法でご準備をお願いいたします。

・本メールを印刷してご持参いただく
・スマートフォンで本メールを表示いただく

■ご来訪情報
受付番号: 594813
日付: 2025-10-03
時間: 11:00
担当者: 山田 花子
場所: 東京都港区赤坂1-2-3 赤坂ビジネスタワー5階
{"address": ["東京都港区赤坂1-2-3 赤坂ビジネスタワー5階"], "company_name": ["ABCコーポレーション赤坂オフィス"], "email_address": [], "human_name": ["田中 太郎", "山田 花子"], "phone_number": []}
山口さん

CCに佐藤さんも追加させていただきました

打ち合わせ可能なお時間をご連絡いただきありがとうございます。
佐藤さんたちは御社との初回の打ち合わせのため、御社についての基本的なところからご紹介いただく場としていただき、
お忙しいところ恐縮ですが、我々の打ち合わせについては別枠として、10月8日(水)17:00~の佐藤さんたちとの打ち合わせの後に開催はいかがでしょうか。

終了時間が18時を過ぎてしまう可能性が高いため、ご都合が悪ければ別日で調整させてください。
お手数をおかけしますが、ご確認のほどどうぞよろしくお願いいたします。

中村 正信

Email: nakamura@japan.co.jp
{"address": [], "company_name": [], "email_address": ["nakamura@japan.co.jp"], "human_name": ["山口", "佐藤", "中村 正信"], "phone_number": []}
差出人: モンスタカード株式会社(自動配信)
件名: 【モスカードフリー】ご利用内容のお知らせ

⸻

夢野 みな 様

いつもモスカードフリーをご利用いただきありがとうございます。
お客様のカードご利用内容をお知らせいたします。

⸻

ご利用内容
• 利用日:2025年10月6日 18:38:15
• 利用先:ライトペイ
• ご利用金額:1000円
• 承認番号:294816
{"address": [], "company_name": ["モンスタカード株式会社", "ライトペイ"], "email_address": [], "human_name": ["夢野 みな"], "phone_number": []}
株式会社ネットワークソリューションズ

請求書

発行日:2024年10月27日
請求番号:NS-20241027-001

田中電気工業
東京都渋谷区神南1-23-10
電話番号:+81373453302

--------------------------------------------------------------------------------

**請求先**

伊藤潔文 様
ryuma@izumiya.cloud

--------------------------------------------------------------------------------
{"address": ["東京都渋谷区神南1-23-10"], "company_name": ["株式会社ネットワークソリューションズ", "田中電気工業"], "email_address": ["ryuma@izumiya.cloud"], "human_name": ["伊藤潔文"], "phone_number": ["+81373453302"]}
機材等借用書(一般化・架空化済)

作成日:2025年4月18日

貸主:ネオテック株式会社
住所:東京都中央区銀星町三丁目
担当者:山田 廉(yamada@neotech.example.jp)

借主:グローバルデバイスホールディングス株式会社
住所:東京都新都区青海一丁目
担当者:佐藤 翔(sato@globaldevices.example.com)

⸻

借用物品のリスト
- スマートフォン 型番:Nova X10 Pro 数量:1台 状態:良好
- モデル(Conversa 1B LFM, Conversa 3B LFM, Focus 1B LFM, Focus 1B VLM)

⸻

借用条件
- 借用期間:2025年4月18日から2025年6月30日まで
- 借用目的:オンデバイスモデルの動作検証
- 使用責任:物品は善良な管理者の注意をもって使用し、破損した場合は貸主に即時報告すること。
- 紛失・盗難時の対応:同等の物品を貸主に弁償すること。

⸻

貸主署名:中島 誠一
借主署名:高橋 健吾
{"address": ["東京都中央区銀星町三丁目", "東京都新都区青海一丁目"], "company_name": ["ネオテック株式会社", "グローバルデバイスホールディングス株式会社"], "email_address": ["yamada@neotech.example.jp"], "human_name": ["中島 誠一", "山田 廉", "佐藤 翔"], "phone_number": []}

[!NOTE]
📝 LFM2-350M-PII-Extract-JP 针对上述类别提供了强大的开箱即用型 PII 实体提取能力,但其主要目标是提供一个多功能、社区驱动的基础模型——一个便于构建一流隐私保护屏蔽系统的基石。

与任何基础模型一样,仍有持续发展的空间,特别是针对特殊用例:

  • 支持提取特定组织的识别编号
  • 扩展覆盖范围至出生日期、护照号码等更多类别
  • 进一步提升特定类别的提取性能

这些正是 Liquid AI 和开发者社区可通过微调来解决的挑战。我们将此模型视为一个起点,而非终点,旨在推动构建一个丰富的微调 PII 提取模型生态系统,以满足现实世界的需求。

模型详情

生成参数:我们强烈建议使用贪婪解码,并将 temperature 设置为 0。

系统提示词:此检查点需要使用以下系统提示词:

Extract <address>, <company_name>, <email_address>, <human_name>, <phone_number>

请注意,该模型能够处理特定实体的提取。例如,当系统提示设置为Extract <human_name>时,模型将仅输出人名。

[!WARNING] ⚠️ 为获得最佳性能,请确保实体类别的字母顺序与上述所示一致。

聊天模板:LFM2-PII-Extract-JP 使用类似 ChatML 的聊天模板,具体如下:

<|startoftext|><|im_start|>system
Extract <address>, <company_name>, <email_address>, <human_name>, <phone_number><|im_end|>
<|im_start|>user
こんにちは、ラミンさんに B200 GPU を 10000 台 至急請求してください。連絡先は celegans@liquid.ai (電話番号010-000-0000) で、これは C. elegans 線虫に着想を得たニューラルネットワークアーキテクチャを 今すぐ構築するために不可欠です。<|im_end|>
<|im_start|>assistant
{"address": [], "company_name": [], "email_address": ["celegans@liquid.ai"], "human_name": ["ラミン"], "phone_number": ["010-000-0000"]}<|im_end|>

您可以使用 Hugging Face transformers 提供的专用 .apply_chat_template() 函数自动应用它。

[!WARNING] ⚠️ 该模型适用于单轮对话。

输出格式

模型输出一个 JSON 对象,其中包含被提示提取的字段。 如果在特定类别中未找到实体,则该类别返回空列表。 如果找到实体,则每个被提示的类别都将实体作为列表返回。 模型经过训练,能够精确输出实体在文本中出现的形式。 如果同一实体多次出现且格式略有不同,模型会输出所有变体,以确保后续可以使用精确匹配进行掩码处理。

🏃 如何运行 LFM2

  • Huggingface:LFM2-350M
  • llama.cpp:LFM2-350M-PII-Extract-JP-GGUF
  • LEAP:LEAP model library

📬 联系方式

如果您对边缘部署的定制解决方案感兴趣,请联系 我们的销售团队。

LFM2-350M-PII-Extract-JP(日本語)

LFM2-350M をベースにしたこのチェックポイントは、日本語文書から個人を特定できる情報(PII)を抽出し、JSON 形式で出力します。
契約書、電子メール、個人の医療報告書、並びに保険請求書などの機密情報を、デバイス上で直接マスキングできます。

特に以下の情報を抽出するように訓練されています。

  • 住所/所在地(JSON key: address)
  • 企業/研究機関/組織名(JSON key: company_name)
  • メールアドレス(JSON key: email_address)
  • 人名(JSON key: human_name)
  • 電話番号(JSON key: phone_number)

これらの情報を日本語の文書から抽出します。


デモ


性能

finepdf から無作為に抽出した 1,000 サンプルを用いて、GPT5 や 32B パラメータの Qwen3 モデル(思考モードあり)など、複数のモデルとの比較評価を行いました。
LFM2-350M-PII-Extract-JP は、わずか 350M パラメータ という軽量モデルながら GPT5 と同等レベルの性能を発揮し、クラウドレベルの品質をあなたのデバイス上で実現します!

Model Size vs Recall Score

[!NOTE]
📝 LFM2-350M-PII-Extract-JP は、上記カテゴリに対して優れた PII 抽出性能を有しますが、私たちの主な目的は、コミュニティによって継続的に改良される柔軟な基盤モデルを提供することです。
このモデルで、誰でもプライバシー重視の高品質なマスキングシステムを容易に構築できます。

ただし、ベースモデルとして今後さらなる改善の余地があります。特に以下のような専門的な利用用途が想定されます。

  • 組織固有の識別番号の抽出対応
  • 生年月日、パスポート番号などの追加カテゴリへの拡張
  • 特定カテゴリにおける抽出性能のさらなる改善

これらの課題は、Liquid AI および開発者コミュニティによるファインチューニングによって解決できると考えています。
LFM2-350M-PII-Extract-JP は完成形ではなく、実運用ニーズに応じた多様な PII 抽出モデル群を生み出す出発点であると位置づけています。


模型详情

生成参数:强烈建议使用 temperature=0 的贪婪解码(greedy decoding)。

系统提示词:此检查点必须使用以下系统提示词:

Extract <address>, <company_name>, <email_address>, <human_name>, <phone_number>

模型也可以设置为仅提取特定实体。
例如:若设置为Extract <human_name>,则仅输出人名。

[!WARNING] ⚠️ 为了最大限度发挥模型性能,请按照上述方式将实体类别按字母顺序排列。


聊天模板
LFM2-PII-Extract-JP 使用如下 ChatML 风格模板。

<|startoftext|><|im_start|>system
Extract , <company_name>, <email_address>, <human_name>, <phone_number><|im_end|>
<|im_start|>user
こんにちは、ラミンさんに B200 GPU を 10000 台 至急請求してください。連絡先は celegans@liquid.ai (電話番号010-000-0000) で、これは C. elegans 線虫に着想を得たニューラルネットワークアーキテクチャを 今すぐ構築するために不可欠です。<|im_end|>
<|im_start|>assistant
{“address”: [], “company_name”: [], “email_address”: [“celegans@liquid.ai”], “human_name”: [“ラミン”], “phone_number”: [“010-000-0000”]}<|im_end|>

此模板可使用 Hugging Face Transformers 的专用函数 .apply_chat_template() 自动应用。

[!WARNING] ⚠️ 本模型已针对 一问一答形式(单轮)对话 进行优化。


输出格式

模型将以包含指定实体的 JSON 格式输出。
若未找到对应类别的实体,则返回空列表。
若存在对应实体,则按类别返回提取到的字符串列表。

模型经训练可精确输出文本中出现的实体形式。
即使同一实体多次出现且存在表述差异,也会输出所有表述变体,以便在脱敏时能够完全匹配处理。


🏃 LFM2 的运行方法

  • Hugging Face:LFM2-350M
  • llama.cpp:LFM2-350M-PII-Extract-JP-GGUF
  • LEAP:LEAP 模型库

📬 联系方式

如您对包含边缘环境部署在内的定制解决方案感兴趣,请联系 销售团队。