6月7日,中国科学院上海药物研究所研究员郑明月课题组在五项化学文本挖掘任务上对多个大语言模型的能力进行了全面综合的探究,展现了微调大语言模型成为一种通用高效的生成式文本挖掘方法,为大模型的落地应用提供参考。相关研究发表于《化学科学》。
近两年,以ChatGPT为代表的大语言模型(LLM)引领了人工智能和自然语言处理领域的快速发展。利用通用大语言模型强大的文本理解和文字处理能力,从复杂化学文本中灵活准确地提取信息,有望解放数据标注工人的劳动力,加速领域数据的标准化和结构化收集,推动化学领域的研究和发展。
研究团队基于多种LLMs探索了不同策略,利用零样本、少样本提示工程来指导GPT-4和GPT-3.5-turbo,并对GPT-3.5-turbo、Llama3、Mistral、T5和BART等语言模型进行参数高效微调或全量参数微调。结果显示,经过全参微调的LLMs表现出良好的性能,显著减少了对提示工程的依赖性。其中,微调后的GPT-3.5-turbo 在所有任务中都表现出色,甚至优于基于大量领域内数据自适应或任务自适应预训练后微调的特定模型。经过微调的开源大模型如Mistral 和Llama3 也表现出了一定的竞争力。
化学文本段落中蕴含丰富化学信息,五项结构化提取任务的数据形式。图片来源于《化学科学》
相关论文信息:https://doi.org/10.1039/D4SC00924J
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。