AIAS1/2_nlp_sdks
2024-10-31 15:19:55 +08:00
..
embedding update readme 2024-10-20 16:27:54 +08:00
kits no message 2023-11-05 04:50:11 +08:00
lexical_analysis update english comments 2023-03-21 20:46:31 +08:00
translation no message 2024-10-31 15:19:55 +08:00
README_CN.md update readme 2024-10-20 16:27:54 +08:00
README.md update readme 2024-10-20 16:27:54 +08:00

项目清单:

  • 2_nlp_sdks - [自然语言 SDK]
  1). 工具箱系列sentencepiecefastTextnpy/npz文件处理等。
  2). 大模型
  3). 词向量
  4). 机器翻译
      ...

fastText - kits/fasttext_sdk

fastText是一个快速文本分类算法。

解析npy/npz文件 - kits/npy_npz_sdk

java读取python numpy保存的npz、npy文件。。

Sentencepiece分词 - kits/sentencepiece_sdk

Sentencepiece分词的Java实现。

jieba分词 - lexical_analysis/jieba_sdk

jieba分词java版本的简化实现。

词法分析SDK [中文] - lexical_analysis/lac_sdk

词法分析模型能整体性地完成中文分词、词性标注、专名识别任务。

202种语言互相翻译 - translation/trans_nllb_sdk

支持202种语言互相翻译,支持 CPU / GPU。

中英互相翻译 - translation/translation_sdk

可以进行英语和中文之间的翻译,支持 CPU / GPU。

代码特征向量提取工具箱 - embedding/*

3个SDK
1.code2vec_sdk
2.codet5p_110m_sdk
3.mpnet_base_v2_sdk
自然语言与代码特征提取工具箱提供3个SDK以满足不同精度与速度的需要。。

文本特征提取向量工具箱【中文】 - embedding/*

文本语义特征提取工具箱提供4个 SDK
1.m3e_cn_sdk
2.text2vec_base_chinese_sdk
3.text2vec_base_chinese_sentence_sdk
4.text2vec_base_chinese_paraphrase_sdk

文本特征提取向量工具箱【中文】 - embedding/*

文本语义特征向量提取工具箱【多语言】提供 3 个 SDK
1.sentence_encoder_15_sdk支持 15 种语言)
2.sentence_encoder_100_sdk支持100种语言
3.text2vec_base_multilingual_sdk支持50+种语言)