mirror of https://github.com/MetaGLM/FinGLM.git synced 2024-11-25 16:35:52 +08:00

History

ChatGLM金融大模型挑战赛: 随便起个名Baseline

Repo structure:

/data/allpdf: 存储所有的年报pdf文件注意: 所有的pdf文件需要以类似2020-01-21__江苏安靠智能输电工程科技股份有限公司__300617__安靠智电__2019年__年度报告.pdf的方式命名。

/preprocess_data: 存储数据预处理代码

/dev: 在数据库中查询问题的相关字段

/dev/agent: 利用langchain进行计算问题

/src && /scripts: 存储ChatGLM2 Finetune及Inference代码

pip install -r requirements.txt & bash run.sh

python preprocess_data/pdf2txt.py

或者

wget -P ./data https://sail-moe.oss-cn-hangzhou.aliyuncs.com/open_data/hackathon_chatglm_fintech/alltxt.zip & unzip alltxt.zip

此时获取data/lines_txt所有处理好的txt文件

python preprocess_data/transfer_file.py
python preprocess_data/extract_report.py
python preprocess_data/txt_aggregate.py

获取data/parse_question.json，其中每一个record包含了对应的Company_name，DATE，task_key

python dev/create_table.py

python dev/extract_question.py

python dev/search.py

bash scripts/eval.sh

获得最终输出结果在output文件夹中

python dev/post_process.py

(此功能仅仅提供一个思路，实际效果并不如使用预定设置问题回答模版) 在使用dev/search.py获得计算题中相关字段后，使用Langchain PALchain解决计算问题

因为chatglm把中文问题解析成PAL的能力不强，所以中间使用额外huggingface模型Helsinki-NLP/opus-mt-zh-en对输入问题进行翻译。同时可以使用其他LLM api代替chatglm2(换成中文能力更强的OPENAI gpt-turbo3.5可以不使用翻译)。

为了提升中文PAL prompt能力，可以根据需求自行构建dev/agent/math-prompt.py的PAL prompt。

预处理阶段，pdf2txt数据提取准确率不足，需要配合更细粒度的数据提取工具。