CBR在因特网教育资源检索中的应用(一)

摘要  对因特网教育资源的检索日益受到关注,而目前基于关键词的检索方法效率不高,特别是对多媒体资源的检索显得相形见绌,人们迫切需要一种对因特网教育资源,尤其是多媒体教育资源更为有效的检索方法。基于内容的检索CBR(Content-BasedRetrieva l)应运而生。它的出现将对提高因特网教育资源检索的质量和效率起到积极作用。
关键词 内容;多媒体;检索;因特网;教育资源.
AbsractBecausetherapiddevelopmentoftheInternethasresultedinincreasingamountofeducationalresource,especiallyinmultimediaforms,themethodsofretrieva lbasedonkeywordsarenotsatisfying.Peopleneedmoreefficientmethodsofeducationalresourceretrieva lintheInternet.Content-BasedRetrieva l(CBR)isanefforttohandlethis"educationalresourceexplosion"problem.Thispaperpresentsasurveyofcurrentmethodsofresourceretrieva lintheInternet,thenintroducestheapplicationofCBRineducationalresourceretrieva lintheInternetanditsgreatvalue.
Keywords:content;multimedia;retrieva l;theInternet;educationalresource.
一、目前因特网教育资源检索的局限性
目前对因特网教育资源的检索方法可分为三类:主题目录(subjectdirectory)、搜索引擎(searchengine)、元搜索引擎(metasearchengine)。主题目录由人工收集、编排,虽然检索结果更人性化,但效率低、周期长,无法适应因特网资源庞大、变化快的特点。搜索引擎又分为自动搜索(auto-retrieva l)和全文检索(fulltextretrieva l)。自动搜索依靠蜘蛛(Spider)、爬虫(Webcrawler)等搜索工具自动完成,效率高、更新快,但Spider不能访问Cookie、java script或Java技术制作的网页,建立包容所有因特网资源的数据库也不现实,且搜索结果往往不切题。全文检索以文本信息为检索对象,建立全文数据库,可以高效检索海量非结构化数据,但不能有效过滤不相关内容。元搜索引擎让用户同时搜索若干数据库和搜索引擎,相对于单一搜索引擎它能查找到更多的资源,但由于必须兼顾不同搜索引擎,采用的是简单直接的搜索策略,反而失去了每个搜索引擎自身的特色。总之,现有一般检索方法均是基于关键词的检索,由于关键词标引工作量大,而标引同用户的检索概念常常不一致,导致查准率和查全率低。目前最好的搜索引擎其全球网页覆盖率还不到五成。虽然因特网这个世界最大的信息资源库为我们提供了极为丰富的教育资源,但现有的检索方法并没有使我们能有效地加以利用,我们常常感?quot;生活在信息的海洋中,却忍受着知识的饥渴。"
未来因特网的发展使这种检索方法的局限性日益凸现。首先,因特网海量数据的产生。因特网每天新添150万个文件,8个月增长1倍,其网页遍及全球300万个服务器,总数将由1997年2月的3.2亿猛增至2002年的80亿。利用现有的检索技术要在这以指数形式不断增长的资源数据库中提取所需如同大海捞针。其次,非结构化数据大量涌现。因特网的资源可分为结构化数据和非结构化数据。结构化数据能用数据或统一的结构加以表示,如数字、符号等。非结构化数据则不能,如图像、声音、视频等。这类数据的特征,如图像中的颜色、纹理,视频中的镜头、场景,声音中的音调、音色等虽可赋予名字、文件格式、采样率等属性,但其中没有可确认的词或可比较的实体,不能像文本那样搜索其内容,因此很难用现有基于关键词的检索方法检索。当然可以人工输入其属性和描述来弥补,但随着数据量的增大人工注释的强度也将加大。而且,人对非结构化数据的感知,如音乐的旋律很难付诸文字。第三,新一代高速因特网的出现对基于内容的多媒体信息检索提出了迫切要求。1996年美国启动的NGI(NextGenerationInternet)计划目标是实现端到端的传送速率比目前的Internet快成百至上千倍,可达到100Mbps至1Gbps,实现大量交互式多媒体的高速传送,构建可视化、合作型虚拟现实(VR)和3D虚拟环境。今年8月国家863计划中被称为宽带互联网"心脏"的核心路由器项目正式通过了国家科技部组织的验收,标志着我国新一代高速互联网"中国高速信息示范网"的攻坚战基本完成。这个高速信息实验网以IP技术为基础,将计算机、电信和电视网三网合一,将使以电路交换技术为基础的传统电信网逐渐退出历史舞台。总之,未来的因特网将是以人为中心,支持服务质量控制(QoS),实现多用户多媒体实时交互,这就要求在资源检索方面,用基于内容的多媒体检索取代传统基于关键字的检索。