文本、图像、音视频等海量的非结构化数据占数据总量不断上升,预计2025年,将达到八成以上。这些数据由于结构不统一,所以在计算机中通常以向量形式进行特征提取后,再进行存储、计算、应用。为了解决海量数据场景下,向量的存储、计算问题,向量数据库应运而生,其通过数据算法和计算机工程,将向量特征进行分组和索引,以实现高效的相似性搜索。《数据库发展研究报告(2023年)》显示,向量数据库作为12个数据库技术发展趋势之一,其使用场景十分广泛,包括但不限于支撑文本翻译、产品推荐、语义搜索、图像搜索、视频推荐、异常检测、欺诈检测、人脸识别等应用。
近日,在中国信通院“可信数据库”向量数据库产品测试中,拓尔思信息技术股份有限公司(简称:拓尔思)TRS海贝搜索数据库系统顺利完成向量数据库产品基础能力测试。测试过程依据标准在基本功能、运维管理、安全性、兼容性、扩展性、高可用以及工具生态七大能力域的相关要求。测试结果表明,该产品在向量数据库的功能完备性、易用性、通用性等方面均符合标准要求。
《向量数据库技术要求》是中国信通院云计算与大数据研究所依托中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)和中国信通院数据库应用创新实验室(CAICT DBL),联合超过50家企业专家参与编制的技术标准,拓尔思为核心参编单位之一。其包含基本功能、运维管理、安全性 、兼容性、扩展性、高可用以及工具生态七大能力域共47个测试项,其中分为27个必选项和20个可选项。作为业内首个向量数据库技术标准,可为向量数据库的研发、测试以及选型提供参考。
TRS海贝搜索数据库系统V10.0是市场上极少数同时符合搜索数据库标准和向量数据库标准的纯国产自研软件之一。该系统在倒排索引的基础上,引入了高性能的HNSW向量索引,不仅支持常见的文本检索、拼音检索、同义词检索等,还可以搭配大模型(深度学习引擎)实现语义搜索、图片搜索、跨模态搜索以及融合搜索等,可广泛用于企业搜索、检索增强生成(RAG)以及智能问答等应用场景。
TRS海贝搜索数据库功能架构图
(1)融合检索
TRS海贝搜索数据库采用全文索引和向量索引融合的方式提供检索服务,融合检索的好处是显而易见的。一方面,这种融合使得搜索结果更加准确和全面。全文检索技术提高了搜索的召回率,而向量检索技术则提高了搜索的精确度,两者相结合能够为用户提供更加全面和准确的搜索结果。另一方面,融合了两种检索技术也提高了搜索的效率。通过全文检索技术,在最初阶段就过滤掉大量无关的数据,从而减小了向量检索的搜索空间,大大提升了整体搜索的效率和性能。
(2)高性能
海贝搜索数据库引入了内存索引、列存储、索引分片等技术,进一步提高了数据存储、检索和分析的效率。自带的分时归档视图,不仅可以实现冷热数据自动分区,同时还支持多种存储混合使用以提供高效的检索服务;通过使用镜像数据库,用户进行简单的配置,就可以实现读写分离、大小库以及访问隔离等;通过对各类型服务器硬件的匹配支持,能够充分发挥出硬件的优良性能。
(3)数据安全
海贝搜索数据库采用多副本机制解决数据的可用性问题,通过数据校验以及WAL技术解决数据的完整性问题,通过完善的权限管理机制、HTTPS、加密存储等机制解决数据访问和数据存储的机密性问题。作为自主可控的国产化加密数据引擎,支持数据与索引的完全加密。在加密算法方面,该系统采用更加安全的国产加密算法,并且可以结合国产加密卡,达到金融级数据安全。
依托TRS海贝搜索数据库强大的检索能力,TRS海聚数据融合平台的数据整合能力以及TRS拓天大模型的生成能力,拓尔思打造了一套完整的检索增强生成解决方案。该解决方案充分发挥信息检索和大模型生成的优势,为用户提供更准确、实时和可靠的生成能力,增强用户的信息获取体验。
TRS检索增强生成(RAG)解决方案
TRS 海贝搜索数据库已经广泛服务于安全大数据、媒体大数据、政府大数据以及军队大数据等众多细分行业,公安部、新华社、市场监督管理总局、海关总署、专利局、商标局等众多政务客户都选择了该款产品。国家层面几个重大的基础数据库,例如企业信用信息公示系统、专利检索系统等都构建在TRS海贝搜索数据库之上。
目前,第二批向量数据库基础能力测试项目开启报名,欢迎相关单位报名参与!
具体测试流程如下:
报名周期:即日起开始报名,2024年5月15日截止
测试时间:2024年2月-6月上旬
专家评审会时间:2024年6月中旬
证书颁发:2024年7月可信数据库发展大会
联系人:
刘老师
13691032906
数据库是基础软件的重要一员,是支撑全球数字经济蓬勃发展的核心技术产品。为推动我国数据库产业国际地位从跟跑、并跑到领跑,多家数据库企业、应用单位、系统集成商、数据库服务企业、硬件制造商,共同成立公益性免费社群数据库应用创新实验室(以下简称“实验室”),打造了中国数据库产业的“联合舰队”。实验室持续致力于推动我国数据库产业创新发展,以实际问题为导向,以合作共赢为目标,联合政、产、学、研、用等多方力量,协同推进数据库领域应用创新的相关工作。实验室将一直秉承开放理念,持续欢迎数据库领域各企业、各机构、各组织申请加入。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……
还没有评论,来说两句吧...