在人工智能行业迅猛发展的浪潮下,生成式人工智能(Generative AI)的崛起为互联网行业带来了革命性的变化。百度的文心一言、必应的Bing AI、以及备受瞩目的ChatGPT,均为生成式AI成功应用于实际场景的典范。
根据麦肯锡公司(McKinsey & Company)的行业研究报告[1],与2020年相比,全球投资机构对AI行业的投资额增长了425%。截至2023年,全球AI行业的股权投资金额已达50亿美元。此外,微软与OpenAI达成了投资协议,计划向AI领域投资100亿美元。在这一背景下,生成式AI的快速发展已成为不容置疑的事实,大语言模型的训练成为全球AI从业者关注的焦点。
图1 – McKinsey大数据工程师行业调研报告
然而,无论是大语言模型还是神经网络模型,追溯其发展根源,支撑其高速进展的基本动力都是相同的——数据。在大数据时代,掌握数据意味着拥有比他人更快一步的先机。从全球角度看,数据分析行业在2018年以来的职位数量增长了560%。随着商业规模的扩大,企业对数据分析的需求也日益增加。然而,在当前市场上,我们难以找到一款专为数据分析行业定制的AI工具。
但是今天当我看到有一款专门为数据分析而定制化的一款全新的AI工具的时候,我非常的欣喜,终于有一款AI产品是专门为数据分析行业所设计的。TableAgent在实际的使用过程中,展现出了AI对数据分析行业所能带来的革命性的改变。[MOU1] 为了更好的了解产品性能,九章云极为我们提供了技术预览版,每人每天有五次对话次数,可以通过申请身份认证获取更多的对话次数。
体验链接:https://tableagent.DataCanvas.com
作为九章云极研发的数据分析智能体,TableAgent以其强大的数据处理和分析能力引起了我的极大兴趣。整体的页面TableAgent采用了基于Python的开源可视化工具:Gradio。产品可以根据用户提出的问题生成并执行代码,从数据中获取答案,TableAgent在处理数据的分类分析方面表现的非常卓越。通过提出问题,TableAgent能够迅速生成并执行相应的数据分析代码,从海量数据中提取出有关特定类别的有用信息。这种高效的分类分析能力使得用户能够轻松地对复杂的数据进行整理和归类,极大地提高了工作效率。在我的实际使用中,我选取了全球的高校数据进行分析,以了解不同地区高校学术信誉、毕业生就业等情况。通过简单的提问,TableAgent能够准确无误地为我生成代码,从而在非常短的时间内完成数据的分类分析,为我的决策提供了有力支持。
图2 – Data Graph
在技术预览版中,我可以清晰的看到数据模型是通过什么样的方法去进行分析预测,可以以Data Graph的形式看到数据分析结构,同时也能够看到整体的分析流程,这对于数据分析来讲,是有据可依的重要指标。
首先在体验过程中,为了检验TableAgent在商用领域能够体现的价值,测试其落地后实际可操作性,我选择了“考研、留学教育申请”的行业模拟其在商用领域的应用。所以我选择了由平台提供的数据源——全球大学QS排名。
为了了解这个数据源的一些基础信息,我首先让TableAgent为我输出了该数据集的一些字段名,见图3。在获取到基础信息后,我假定有一名学生来到了我所在的机构进行咨询,他想要报考一所国际交流项目多、国际声誉好的学校,为他读完研究生后申请海外的博士做准备。那么我为了回答这个问题,我向TableAgent提出了问题,TableAgent首先为我挑选了我的第一个要求,就是国际交流项目多的一些高校的列表,然后它又为我挑选了国际学术声誉好的高校,并根据这两个数据的结果拟合(图4)出了我想要的双因素结果,见图5。
图3 – 数据集基础信息
图4 – 双因素拟合过程
图5 – 双因素查询结果
这名学生在了解了这些学校以后提出了新的疑问,他目前所学习的领域为网络信息安全领域,他希望在读博后能够以海归的身份回国留在国内高校当一名教授或副教授,那么有哪些高校对于归国留学生的待遇会比较好?对于AI来讲,这样的问题是一个比较“绕弯”式的难题,AI需要对语句进行彻底的分析才能够理解,这也是AI在实际应用领域中所面临的重大问题之一。为了解决这个问题,我向TableAgent提出了问题,在处理这样的“绕弯”式的提问的过程中,TableAgent展现出了其语言模型的准确度。它首先对我提出的问题进行了解析,将我的问题分步解析成了五点,见图6。在经过解析后,TableAgent将五种数据进行了分类评分拟合,并最终给到我一个满足我所提出问题的答案。
图6 – “绕弯”式提问的分步解析
引用我同事看到这款产品说的一句话:“它能做到的比ChatGPT的数据处理能力强了很多,而且它真的可以对我们对他提出的要求进行准确的剖析,说明背后支持其进行自然语言解析的大语言模型也是很牛的!”
但是我也注意到TableAgent在对数据进行预测方面有待提高。虽然产品可以生成执行代码以进行数据预测,但在实际应用中,我发现其预测结果的准确性和稳定性有一些波动[MOU2] 。在与九章云极的工程师沟通后,我得知由于在技术预览版中,只整合了统计分析类工具,所以会出现预测方面不准确的问题。但由于预测这种行为本质上是可以通过人为手段进行干预的,其对产品的实际使用影响并不是特别显著。用户可以通过调整参数、引入更多的先验知识等方式,对预测结果进行优化,以满足实际需求。也希望能够在落地产品中看到TableAgent在预测方面能够有出色的表现。
简单的总结一下,TableAgent无论是在数据处理,还是在对于用户输入文本的理解,都是有着极高的准确度的。随着人工智能技术的日益成熟,AI与数据分析产生了深刻的融合。生成式人工智能(Generative AI)等先进技术的涌现,为数据的智能处理和解释提供了全新的途径。这种人工智能工具在数据分析中的应用不仅提高了工作效率,也使非专业人士能够更轻松地利用数据进行决策支持。
但是在数据分析行业仍面临着一些挑战,比较重要的就是隐私和安全的问题。随着数据的增长,保护个人隐私和确保数据的安全性成为行业发展中需要解决的重要问题。国家也陆续出台了数据安全法、个人信息保护法[2]等数据合规性的法律法规。此类产品在如何处理数据合规性与跨境数据传输的技术层面仍是互联网数据行业从业者应该思考的问题。
展望未来,数据分析行业将继续发展壮大,大数据技术和人工智能的不断演进将推动其不断创新。从更智能的数据分析工具到更高效的数据处理技术,我们可以期待在未来看到更多的创新,助力企业更好地利用数据资产,迎接数字时代的挑战。数据分析行业正引领着数字化转型的浪潮,为未来创造更加智能、高效和可持续的发展。
参考文献:
[1] McKinsey Technology Trends Outlook 2023. https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-top-trends-in-tech
[2] 中华人民共和国数据安全法. https://www.gov.cn/xinwen/2021-06/11/content_5616919.htm