英国政府希望借助国家数据图书馆(NDL)加速人工智能进步。但最新研究提醒,若公共数据集的可用性得不到提升,该计划或将遭遇不小阻力。开放数据研究所(ODI)指出,现有数据常见标题易误导、元数据不足等问题,实际分析时难以高效利用。
在 2024 年秋季预算案中,政府确认推进 NDL,承诺为研究人员和企业提供关键的数据洞察,带动经济增长并改善生活质量。政府同时宣布为该项目投入 1 亿英镑,这笔资金来自政府计划在 2028/29 财年前拨给科学、创新与技术部(DSIT)的 19 亿英镑预算。
ODI 近日发布一个名为“NDL-Lite”的原型系统,可接入逾 10 万个公共数据集。研究发现,不少数据集存在标签不一致、内容陈旧,且人工智能工具难以顺畅获取等问题。ODI 警示称,一旦缺少权威数据,AI 系统往往会转向新闻报道或商业数据等其他来源,但这些信息并不总是可靠。
尽管 ODI 指出搭建 NDL 的直接成本不高,但要把数据打磨到适合 AI 处理仍需大量工作。研究还提到,即便是“犯罪”这样的大类概念,也难以进行有效分析。部分数据集由于缺少统一的共享标准,难以整合,给分析带来障碍。
开放数据研究所教授 Elena Simperl 表示,公共数据的体量与其实际可用性之间的差距正不断扩大。她强调,若政府不能及时更新数据并提升元数据质量,人工智能系统可能会转而依赖更易获取的其他信息来源。
政府发言人称,政府希望“最大化公共部门数据的收益”,以提升服务效率并促进经济增长。为此,政府正通过数字公共基础设施的现代化计划,改进数据共享并提升使用便利性。
国家数据图书馆是帮助研究人员和数据科学家获取公共数据的最新举措,但 ODI 的研究提醒,这一计划务必避免成为错失良机。
划重点:
🔍 NDL 旨在以公共数据驱动 AI,但正遭遇数据可用性难题。
💡 ODI 发现,许多公共数据集标签不统一、数据陈旧。
📉 若数据质量不提升,AI 可能改用其他来源,其可靠性难以保证。

















用户38505528 7个月前0
粘贴不了啊用户12648782 8个月前0
用法杂不对呢?yfarer 8个月前0
草稿id无法下载,是什么问题?