首页  >  观点建议  >  观点建议详情

瞭望·瞭望访谈 | 大模型推动地理科学迈向地理智能——专访中国科学院院士周成虎

2024-11-04   新华社   阅读量:109

中国科学院院士周成虎

    相比通用语言大模型,“坤元”更熟悉地理学的语言模式、专业术语和领域知识,在地理学基准测试集上的准确性提升了31.3%

    未来“坤元”计划打造出一个地理科研协作大平台,每个科学家和科研团队都能够拥有专属的地理大模型,每个科研人员都可以通过平台共享数据、模型或者寻求跨学科合作,通过这样的方式来与数百万科学家一起协同工作

    大模型本质上还是一个生成式人工智能,所以大模型采集的数据、形成的分析结果到底是对还是错,最终还需要通过人来判断,确保大模型生成及分析结果的准确性与可靠性

    文 |《瞭望》新闻周刊记者 扈永顺

    “坤”指大地;“元”指起始,也指神经元。“坤元”寓意为大地的神经元系统,我国科学家以“坤元”命名了全球首个地理科学大模型。

    日前,由中国科学院地理科学与资源研究所联合中国科学院青藏高原研究所、中国科学院自动化研究所研发的“坤元”大模型发布,旨在拓宽普通大众的地理视野,增强地理科技工作者的智力,加速重大地理科学发现。

    “今天‘坤元’作为地理科学大模型的起步,也希望能够在此基础上集聚全球地理信息,融汇全域的地理空间知识,构建能够服务人类可持续发展等复杂问题求解的新科技体系,进而促进新的地理科学发展,推动地理科学迈向地理智能。”“坤元”大模型科学顾问、中国科学院院士周成虎向《瞭望》新闻周刊记者介绍。

    “坤元”大模型更懂地理

    《瞭望》:研发“坤元”大模型的契机是什么?

    周成虎:今天我们正迎来新一轮的科技革命和产业变革,以生成式人工智能为核心的现代人工智能技术正在重塑我们的社会,人工智能正成为科学研究的新工具。

    地理科学包含了自然、人文、社会、经济等多个学科领域,是一个高度综合性的学科。大模型可以把不同时期地理知识统一在一个时空框架下,为解决全球气候变化、可持续发展问题提供新的科技手段。这是我们研发“坤元”地理科学大模型的初衷。

    早在三年前我们就一直在思考,地理科学涉及太多知识,它的大模型应该怎么做。我们从做知识图谱到知识库的管理然后开始做大模型,这是个慢慢演变的过程。为什么我们能做?

    第一,中国科学院地理科学与资源研究所是全球最大的地理科学研究所,拥有丰富的科研积累和人才团队;

    第二,中国科学院拥有众多各类研究所,有数学、自动化等学科的科研力量,通过多个学科研究者的联合和协同,例如把计算机、信息科学和地理学的人组合在一起,能实现科学与技术的提升;

    第三,我们有强大的计算能力,中国科学院有做国产智能芯片的企业,有算力的支撑。

    相比于通用大模型,“坤元”更聚焦于地理科学领域,它已学习了300万篇地理科学领域的相关科技文献、98部经典教材、88部经典著作、34部标准规范,还有1万张专题地图、10万份专业图表和5万条专业问答。“坤元”构建了涵盖全谱系地理科学知识的语料库,增强了其在处理地理相关任务时的专业性和精确性。这种专门化的模型在特定领域应用上有很大的优势,也能满足更精细化的需求。

    《瞭望》:“坤元”大模型的应用优势体现在哪些方面?

    周成虎:“坤元”是一个以地理科学语言和地理科学思维为支撑的科学大模型,具备“懂地理”“精配图”“知人心”“智生图”等特点,实现了地理专业问题解答、地理学文献智能分析、地理数据资源查询、地理数据挖掘分析、专题地图绘制等功能。

    在“懂地理”方面,研发团队建立了涵盖4大类、16小类的地理全学科语料库,提供320亿词元供大模型自监督学习,并制作了4万余条高质量地理学指令进行模型微调。相比通用语言大模型,“坤元”更熟悉地理学的语言模式、专业术语和领域知识,在地理学基准测试集上的准确性提升了31.3%。

    在“精配图”方面,团队自主研发了面向多层次地图信息的多模态检索技术、支持地理认知与图形表达的知识推理技术。这些技术使得“坤元”能够在解答地理学提问的同时,根据生成的文字答案检索不同地理要素,并匹配地理景观照片、专题地图或示意图表呈现给提问者。

    在“知人心”方面,团队创新提出了基于“认知启航—应用智导—前沿研析”框架的用户画像精准判别与响应技术,保证“坤元”能够充分考虑地理知识爱好者、地理学专业学生以及科研人员等不同人群地理科学知识储备的差异情况,以图文共现的方式给出适配用户知识结构的地理学专业问题解答。

    在“智生图”方面,团队基于“坤元”开发的科研助手,可以根据用户指令完成概念理解、数据获取、信息分析、制图等流程,最终生成用户需要的专业地理图表。

    推动地理科学向地理智能迈进

    《瞭望》:目前“坤元”大模型已经发挥了哪些作用?

    ?周成虎:“坤元”拥有相当于千万个博士的庞大知识储量,它意味着原来在发表论文时一个人的工作会得到千万个博士的帮助。现在我们已经使用“坤元”来完成研究的辅助工作,例如文献的辅助阅读工作、撰写综述以及辅助撰写论文等。文献辅助阅读方面,做一项具有创新性的研究,会需要很多前沿研究支持,以前检索、阅读一段时间内的文献经常会存在漏网之鱼,这个过程也非常辛苦,“坤元”有助于解决这些问题。它还能从上百万篇文献中凝练出需要的内容,写成一段综述文字供参考。论文辅助撰写方面,它可以根据我们给出的论文框架、数据、图表等辅助论文的撰写。

    在“坤元”大模型支持下,我们已经开展了一系列研究试验,已在高水平期刊发表学术论文十余篇。

    《瞭望》:如何利用大模型推动地理科学向地理智能迈进?

    周成虎:地理科学大模型驱动地理科学研究范式变革,目标是将地理科学研究从各个研究组、各个课题或各个区域的小作坊模式转变为平台科研模式,将“坤元”打造成为地理科学领域研究者之间的重要协作工具。

    “坤元”大模型研制分三个阶段:第一个阶段是发布“坤元”地理科学语言大模型,它了解地理学概念与知识体系,支持知识问答和文献归纳,实现文配图、文生图,成为一名合格的“地理学家”。第二个阶段是训练地理识图大模型,或者叫地图大模型,能够进行通用、专题地图的学习和认知,具备空间分析和归纳能力,既可以解释地图,也可以生成地图,成为一名“地图学家”。第三个阶段是将基于大模型打造一系列地理专业智能体,能够提供综合性地理问题智能解决方案,可以创造地理分析的方法,成为一名“地理智能科学家”。

    未来“坤元”计划打造出一个地理科研协作大平台,每个科学家和科研团队都能够拥有专属的地理大模型,每个科研人员都可以通过平台共享数据、模型或者寻求跨学科合作,通过这样的方式来与数百万科学家一起协同工作。

    中国科学院地理科学与资源研究所承担的中国科学院基础与交叉前沿科研先导专项(B类)“数据—模型驱动地理智能系统与典型场景应用研究”专项启动及实施方案专家论证会已于4月召开,旨在推动地理信息系统向地理智能系统跨越革新,抢占国际地理智能制高点。“坤元”的研发正是在该专项的支持下,按照既定的研究框架有序推进。