GBase新闻

专注于数据库软件产品和服务,致力于成为用户最信赖的数据库产品供应商

场景为王! GBASE南大通用的向量数据库研发之道

发布时间:2024-04-03

近期,向量数据库领域风起云涌,一系列重大事件接连发生,引起了业界的广泛关注。先是某科技巨头宣布推出全新的向量数据库产品,这款基于全导航图技术的黑马,在权威评测榜单ANN-Benchmarks上大放异彩,一举包揽6项数据集评测的桂冠;紧接着,又传出某知名电商平台通过引入向量数据库技术,成功提升了推荐系统的准确性和用户满意度。这些事件无疑将向量数据库推向了聚光灯下,成为了数据库领域的新宠。

那么,用户面对不断推出的向量数据库产品,以及他们眼花缭乱的性能优势广告时,如何选择适合自己业务需求的解决方案?近日,GBASE南大通用产品经理白军奎接受了国内专业数据库及架构技术社区ITPUB的特别采访,道出了GBASE向量数据库背后的“黑科技”与“避坑”之旅。

采访嘉宾:白军奎,南大通用8a产品经理,18年数据库从业经验,长期奋战在国产数据库一线,先后从事数据库的研发、测试、技术支持、L2支持经理、产品经理等工作。

对专业的数据库厂商来说,向量数据库的技术实现门槛并不算高,诸如通常要具备的高维度支持、相似度搜索、多向量字段支持、快速插入和更新、多模型联合分析与大模型结合等能力。但要将其应用于实际场景中并发挥出最大价值,却是一个不断“踩坑”和“填坑”的过程,从产品的工程化、产品化,到后续的功能完善、场景适配、性能优化、稳定性提升等方面,每一步都充满了挑战。

面对这些问题,GBASE南大通用在二十年的数据库研发过程中,积累了宝贵的工程经验,已经准备好了一套完善的解决方案来帮助客户应对挑战。
“我们通过与客户进行深入的沟通和交流,了解到具体需求和场景,然后基于自身的技术能力和经验,提供定制化的数据库解决方案。”

技术路线和架构设计思考

当前,向量数据库的技术路线主要分为两种:一种是在非传统关系型数据库上构建专用向量数据库,另一种是基于通用关系型数据库增加向量数据库的支持能力。GBASE南大通用选择了后者。

“我们选择在通用关系型数据库基础上增加向量数据库的支持能力,这主要基于我们深厚的OLTP、OLAP关系型数据库研发积累,以及对非结构化数据管理、分析领域的深入理解。”白军奎讲道。

这种技术路线的优势在于,它能很好地复用已有的SQL语法、开发接口、存储优化以及分布式计算能力。同时,向量数据库天然具备关系型运算能力,能够实现向量计算和关系运算的算法融合,为用户提供更高效、更灵活的解决方案。

在GBase向量数据库的架构设计中,南大通用采用了存算分离的架构。这种架构能够实现资源独立扩展,计算资源可以随需扩展,无需进行数据重分布,从而大大提高了系统的可用性和扩展性。

“存算分离架构的设计初衷主要是为了解决传统存算一体架构下的一系列问题,如单点故障、数据重分布性能损耗、数据冗余等。”白军奎表示。在这种架构下,计算和存储资源可以独立扩展,不仅提高了系统的灵活性,还降低了成本。同时,不同计算资源可以共享同一份数据,减少了数据冗余和一致性风险。

此外,存算分离架构还带来了更高的系统可用性和稳定性。由于避免了单点故障导致的服务降级,用户可以享受到更可靠的数据服务。同时,资源的弹性扩展也使得用户可以根据业务需求灵活调整计算或存储资源,满足不断增长的数据处理需求。

选型关注存算分离、易用性

在进行向量数据库选型时,用户应关注多个关键性能指标以确保其满足业务需求并具备高效、可靠的性能。

首先,考虑到向量数据的庞大量级,选择分布式、存算分离的向量数据库至关重要。这种架构能够提供弹性资源扩展,确保数据库能够轻松应对不断增长的数据量,并实现资源的高效利用。同时,存算分离的设计还能够实现数据共享存储,避免数据冗余,提高数据一致性。

其次,易用性是另一个关键指标。用户应优先选择采用标准SQL和开发接口的向量数据库,以降低开发使用难度,提高开发效率。这样的数据库能够提供更直观、更易于理解的操作方式,使开发人员能够更快速地掌握并运用数据库功能。

此外,支持向量数据和结构化数据联合分析也是一个明确的业务需求。用户应选择具备这一功能的向量数据库,以便能够同时处理和分析不同类型的数据,满足业务场景的多样化需求。

最后,高安全、高可靠、易管理的能力也是选型过程中不可忽视的因素。用户应选择具备完善的安全机制和可靠性保障的向量数据库,确保数据的安全性和可靠性。同时,易管理的数据库能够降低运维难度,提高运维效率,为用户带来更好的使用体验。

写在最后

当前,GBase向量数据库已完成了产品化和发布,正在和合作伙伴进行向量数据库应用场景的探索。下一步是基于业务和市场牵引,与更多的大模型厂商、应用厂商等合作伙伴进行对接,形成细致的行业大模型应用工具和方案,为客户的大模型应用提供价值和支撑。

“智能化运维和自动化优化将成为未来数据库发展的重要方向,而大模型技术将在这个过程中发挥关键作用。“”白军奎强调。

GBASE南大通用将利用大模型技术,实现对数据库运行信息、操作审计信息和数据访问信息的全面采集和分析。通过这些信息,针对不同业务场景、不同计算引擎和不同数据内容,采用最优的数据存储、计算和访问策略,从而大幅提升数据库的性能和效率。

同时,在数据应用方面,GBASE南大通用也将通过引入大模型技术,对库内海量数据进行特征提取、数据使用协助、SQL审核和优化等操作,帮助用户更好地理解和利用他们的数据,同时提高数据查询和处理的准确性和效率。

GBASE南大通用正积极地向数据云的方向演进和发展,采用云化的存算分离技术,以及元数据统一、计算调度统一、数据存储统一的湖仓一体技术,为用户打造一个坚实的数据云服务平台,帮助用户轻松管理和利用自己的数据资产,满足各种业务需求。