信息检索[上下学期通用]

文档属性

名称 信息检索[上下学期通用]
格式 rar
文件大小 4.2MB
资源类型 教案
版本资源 通用版
科目 信息技术(信息科技)
更新时间 2006-11-03 11:27:00

图片预览

文档简介

(共127张PPT)
信息检索利用技术
复习大纲
 主要概念
信息检索(Information Retrieval)
广义的信息检索是指信息存储与检索(Information Storage and Retrieval)
狭义的信息检索则仅指该过程的后半部分,即相当于人们所说的信息查寻(information search)。
信息包含知识,知识包含情报。系列化的信息成为知识,知识中的特定需要部分就是情报。但也有的情报只是消息,并非知识。
文献、资料、数据都是信息的物质载体。
信息
知识
情报
信息源(information source)
是获取信息的一切来源的总称。即包括图书,期刊,广播电视,广告,实物等一切能提供信息的来源,其外延相当广泛。
社会信息源的类型
口头信息源以口头方式进行传递、直接作用于人的感觉(又称交往信息资源)零次信息、准信息。
实物信息源它是信息存在的一种物质形式。一切物质实体蕴含着的丰富信息均可视为实物信息,它给人们提供了充分认识事物的物质备件。
文献信息源利用一定的记录手段将系统化的信息内容存储在各类载体上而形成的一类信息源。
文献信息源的类型
  根据文献载体形式划分
 1.手写文献
 2.印刷型文献
 3.缩微型文献
 4.视听型文献
 5.机读型文献(电子文献)
根据文献出版类型划分
1.正式出版信息(又称“白色信息”)受到一定的知识产权保护,信息质量可靠,利用率高的信息。
 
正式出版信息按加工程度
 一次出版信息(primary information)
 二次出版信息(secondary information)
 三次出版信息(tertiary information)   
一次出版信息:
   主要包括学术专著、报刊论文、文学作品、科研报告以及电子图书(如超星)、电子期刊(如CNKI)、电子报纸(如人民网)等。
二次出版信息:
   是检索一次文献的工具。
   主要包括书目(如《全国新书目》)、索引(《全国报刊索引数据库》)、文摘、图书馆目录(OPAC)和导航指南类资源(搜索引擎、网络导航和书目数据库)等。
全国报刊索引数据库
三次出版信息:
   指通过二次出版信息提供的线索,选用一次出版信息内容,进行分析综合后而编写的文献。三次出版信息的特点在于高度浓缩和深度加工,是知识在更高层次上的网络化和综合化。
   包括综述研究和参考工具两类。综述研究类如专题述评、动态综述、进展报告等;参考工具类有字辞(词)典、百科全书、年鉴、手册等。互联网上包括网络述评、参考数据库、网站推荐等。
2.半正式出版信息(也称灰色文献)也称灰色文献,受到一定知识产权的保护,但没有正式纳入出版信息系统描述性信息。专指非公开发表,通过正规渠道无法获得,有重要参考价值的文献。
(1)会议资料
(2)学位论文
(3)内部刊物
(4)档案文献
(5)政府出版物
3.非正式出版信息(黑色信息)指流动性、随意性较强,信息量大,信息质量难以保证和控制的动态性信息。
例:INTERNER上黑色信息
电子邮件
网络论坛
电子会议
电子公告版新闻
个人主页
检索方法
直接检索法不依靠检索工具,通过浏览或查询原始文献直接获取信息
追溯法利用信息后面所附的参考信息进行追踪查找。
工具法利用检索工具查找信息的一种方法,目前是查找信息中最常用的。亦称常用法。
顺查法
倒查法
抽查法
交替法各种检索方法的相互交替使用过程。
信息检索的分类
根据检索手段的不同,信息检索可分为手工检索、光盘检索、联机检索和网络检索。网络检索是信息检索的发展方向。根据检索对象形式的不同,信息检索可分为:
事实型信息检索(Fact Retrieval)
数值型信息检索(Data Retrieval)
文献型信息检索(Document Retrieval)
事实型信息检索
以客观事实为检索对象,查找某一事物发生的时间、地点及过程的检索。
这类信息检索主要借助于各种搜索引擎、指南数据库和全文数据库。
例:define:管理会计学(利用搜索引擎)
数值型信息检索是以数值或数据为对象的一种检索,包括文献中的某一数据、公式、图表,以及某一物质的化学分子式等。
完成数据型信息检索主要借助于各种数值数据库和统计数据库、全文数据库等。
文献型信息检索是以文献为检索对象的检索。
凡查找某一主题、时代、地区、文种的有关文献,以及回答这些文献的出处和收藏处所等。完成文献型信息检索主要借助于各种书目型数据库。
信息的线索检索
例:有关“太平天国的资料有哪些?”
利用书目、文摘和书目型数据库等检索工具,检索的结果是提供了信息线索。
信息全文检索:以查找到信息的全文为目的。如使用CNKI、重庆维普等。
具体分为
  信息的线索检索是一种相关性的检索,检索的结果是信息线索,只能作为初步的检索,还必须进一步查找,直到找到有关的一次信息。
数据与事实检索是一种确定性检索,检索的结果是可供科研人员直接利用的信息,而不是某一信息线索。
检索语言
  目前使用的检索语言包括人工语言和自然语言。
自然语言可以为不懂人工语言的网络用户提供极大的便利。
What is GM food
人工语言主要有分类语言与主题语言。
检索语言类型
描述信息内容
特征的语言
描述信息外表
特征的语言
分类语言
主题语言
书/刊名
著者/团体著者
出版事项
代码/序号
分类语言
分类组织法
古代分类法
现代分类法
人大法
科图法
中图法
四部分类法
杜威十进分类法
《中国图书馆分类法》 (简称“中图法”)
《中国图书馆图书分类法》把所有知识门类分为5大部类,22大类.用拼音字母A--Z表示(L,M,W,Y除外)。
二十二个大类叫做一级类目,以下展开分别为二级、三级等 .
马克思主义列宁主义毛泽东思想列于首位。
哲学是关于自然科学和社会科学的概括和总结,作为第二部类,排在社科、自科之前。
“社科”部类下分九大类,在“自科”下分十大类。
对一些内容庞杂,类无专属,无法按某一学科内容性质分类的图书,作为一个基本部类置于最后。
中图法5个基本部类
马克思主义、列宁主义、毛泽东思想
哲学
社会科学
综合性图书
自然科学
A 马克思主义 列宁主义 毛泽东思想 B 哲学 C 社会科学总论 D 政治 法律
E 军事 F 经济 G 文化 科学
 教育 体育 H 语言 文字
I 文学 J 艺术 K 历史 地理 N 自然科学
  总论
O 数理科学                和化学 P 天文学
 地球科学 Q 生物科学 R 医药 卫生
S 农业科学 T 工业技术 U 交通运输 V 航空 航天
X 环境科学 Z 综合性图书
《中图法》的标记符号,采用拉丁字母与阿拉伯数字相结合的混合号码制。
拉丁字母用来表示大类,其他各级类目则用阿拉伯数字表示。
例:“TP3”
T 代表一级类目——工业技术
P 代表二级类目——自动化、计算机技术
3 代表三级类目——计算技术、计算机技术
图书是依据图书分类号和书次号来进行组织排列的。
图书分类号:凡性质相同的图书,其分类号相同。
书次号:为区别相同分类号的图书,给每本图书一个书次号。我馆是用作者姓名的四角号码作为书次号。
索书号:由分类号和书次号就构成读者查找所需图书的专用符号,即索书号。
索书号
H319/4333
分类号H319
书次号4333
如何提高四、六级听力应试能力
龚心沅等编著
利用分类途径查找信息的步骤
分析研究所需要查找信息的内容主题。
判断该主题在分类法中属于哪一大类,然后再从大类一级一级往下寻找,直到查找到具体的类目(或有关类目),记下类号为止。
根据检索到的类号查得所需信息。
主题语言
检索语言构成
1.等同关系:指两个或两个以上的词所表达的概念完全相同或基本相同。
2.从属关系: (又称上下位关系)
3.相关关系:交叉关系(部分重合关系)、矛盾关系、对立关系、并列关系。
等同关系:指两个或两个以上的词所表达的概念完全相同或基本相同。包括同义关系和准同义关系。
从属关系: 一系列从属关系的概念,总称为一个概念系。
相关关系
交叉关系(部分重合关系):两个交叉概念外延的重合部分往往形成一个新概念。
矛盾关系:外延上互相排斥,而外延之和等于其上位概念总和的概念间的关系。
对立关系:在外延上互相排斥,但其外延之和不等于其上位概念总和的概念间的关系。
并列关系:也称同位关系。是指同一个上位概念之下的几个下位概念间的关系。
主题词的选取:
选取最专指的主题词
除了使用常用的关键词外,还应当使用同义词、近义词作为检索入口,这样才能保证查全率。
避免使用“研究”、“探讨”、“论述”、“中国”、“世界”等词作为主题词。
尽量使用名词、物体、人名、地名、机构名等作为主题词。
在对复杂课题的分析时,要选择多个主题词构造检索式。
要分清主要概念和次要概念,确定需要排除的某些概念和不宜选用的泛指概念,以便在制定检索策略时有所侧重,保证检索提问的确切表达。
各种类型的检索课题对检索的查全率和查准率有着不同的要求。
对文献量较大或属于成熟学科的课题,应优先考虑查准率,从众多的相关信息中选取针对性较强的信息。
对文献较少或新兴学科的课题,可适当放宽检索范围来保证查全率,以免遗漏重要的参考信息。
方法:
用增加上位概念或下位概念的方法来扩检。
缩检:使用专指性较强的概念或增加限制概念来缩小检索范围,还可通过对字段进行限定的方式来保证查找的准确性。
对研究课题进行主题分析。
将所得出的主题概念转换成主题词。
按主题词字顺法去翻查目录、索引或输入计算机数据库。
利用主题语言查找信息的方法和步骤
检索词
检索式
检索策略
检索词是用户给出的字、词、字符或短语,用于查找含有它的记录。
检索式也称检索提问表达式。简单的检索式是一个检索词或多个检索词,复杂的检索式由多个检索词和字段名通过关系算符(逻辑算符与位置算符)连接而成。
检索策略是就一个问题检索一个(或多个)数据库所输入的全部检索式的集合,是为满足信息需求所制定的一系列检索式
关于检索词
短语检索
短语用“”表示,检索出与“”内形式完全相同的语言,因而也有人称之为“精确检索”.
截词检索
通配符 * 代替任意一个或多个字符,?代表一个字符。中英文都可采用。
检索式:字段
英文检索字段 中文检索字段 检索字段缩写
Title 题名 Ti,title,T
Author 作者 AU
Keyword 关键词 K,KEY
Subject 主题 SU,sub,subject
All Fields 任意字段、任意词 All Fields,U
Journal Name 刊名 J, journal name
Abstract 摘要 AB,abs, Abstract,R
英文检索字段 中文检索字段 检索字段缩写
Full Text 全文 Text, Full Text
ISBN 国际标准书号 isbn
ISSN 国际标准刊号 IS
Language 语种 LA, Language
Adviser 导师 Ad, adviser, advisor
Allintitle:农村 OR农民 OR农业 author:王?
尽管网上信息检索实际上不分字段,但大多数网络检索工具者具有类似于字段限制检索的功能,
如:标题(Title)、图像(image)、文本(text)、主机名(host)、域名(domain)、链接(link)、统一资源管理器(URL)、新闻组(newsgroups)、电子邮件(E-mail)等。
关系算符(逻辑算符与位置算符)
布尔逻辑运算符
逻辑与 AND (*)
逻辑或 OR (+)(l)
逻辑非 NOT, AND NOT(-)
例:利用英文搜索引擎查找网络信息检索方面的资料。
网络
Web
Internet
WWW
逻辑关系 OR
信息检索
search*
retrieval*
逻辑关系OR
检索式可表示为:(Web OR Internet OR WWW)AND(search* OR retrieval*)
网络与信息的逻辑关系AND
布尔逻辑运算符的运算顺序:NOT-AND-OR,可用括号改变。若有括号,则括号在先,这同算术运算中的四则运算相似。
大多数网络搜索引擎都支持布尔逻辑运算,但表现形式不尽相同,还有的直接把布尔逻辑运算符隐含在菜单中 。
位置算符
用特定的算符来表达检索词与检索词之间的关系。
WITH(W)
前后词的顺序不能颠倒,也不能插入词,但允许有空格或标点符号。
(Wn)-Wordsn,(Wn)表示在此算符两侧的检索词之间允许插入n个(最大数量)实词或虚词,两个检索词的词序不能颠倒。
AB tax W5 reform
缩小检索范围的相关主题词
NEAR(N)前后词的顺序可以颠倒,不能插入词。
(Nn)-Nearn
(Nn)表示两个词位置可以颠倒,两个词间插入词的最多数目是n个。
AB tax N5 reform
信息检索的步骤
结果
Y
初步检索结果
分析
课题
分析研究课题
选择合适
搜索引擎或数据库
拟定检索式
和检索策略
获取原始文献(一次信息)
确定检索词
N
分析研究课题
①明确检索目的。
②分析信息检索的特点。重点分析信息的内容包含几个主要概念,哪些是次要的概念。
③选择信息检索范围
明确学科或专业的范围
时间范围
地域范围
语言范围
信息类型
选择合适搜索引擎或数据库
搜索引擎和数据库在查询范围、检索功能等方面各具特色。要根据检索课题选择适合的搜索引擎或数据库。
确定检索词
(1)使用同义词、近义词以尽可能全面覆盖检索范围。
(2)使用限定词:通过对关键词的年代、语种、数量、学科等的设定,使检索结果逼近用户需求。
(3)利用前一次检索的结果作为后一次检索的范围,逐步缩小检索范围。(又称二次检索或进阶检索)
(4)尽可能使用仅在所需的内容中存在的较特殊的词语,明确查询范围。
构造恰当的检索式和检索策略
当主题词不止一个时,就要使用搜索引擎各种功能和运算符将关键词组成检索式。
检索式表达了检索课题的各概念之间的关系,确切地表达了用户的情报需求,是检索策略的具体体现。
初步检索结果(调整检索策略)
检索过程是一个动态的随机过程,在初检时,会不可避免地产生一些和检索目标相差甚远的现象。如检索范围过宽、偏窄或误检时,有必要修正检索策略,调整检索手段,进行新一轮的循环检索,从而实现检索目标的完善。
获取原始文献
这是检索过程的终结,也是进行信息检索的最终目的。
要进行一次成功的信息检索活动,除了要掌握一般的检索知识和方法外,重要的是要培养综合性的检索能力。这与广泛的知识积累,加强语言文字的阅读理解能力,注重调查研究是分不开的。
检中结果
查全率
查准率
检中结果是指数据库中满足检索式的那些记录的集合。检索质量有两个重要评价指标。
查全率(recall ratio,简写为R)指检索出的相关信息与信息系统中的相关信息总量之比。
查准率(Precision ratio,简写为P)指检索出的相关信息量和检索出的信息总量之比。
  检索出的相关信息量
  
  检索出的信息总量
P=
*100 %=
a
a+b
*100 %
   检出相关文献量
  
信息系统中相关文献总量
R=
*100 %=
a
a+c
*100 %
a=命中的
b=误检的
c=漏检的
R是衡量系统检索出的与课题相关信息的能力
P是衡量系统拒绝非相关信息的能力
查全率和查准率能否同时提高?
C
40
60
70
90
查全率R
20
40
50
90
查准率P
A
B
D
搜索引擎
search engine
是提供给用户进行关键词、词组或自然语言检索的工具。
搜索引擎强调的是检索功能,而不是导引、浏览。
主要英文搜索引擎
AltaVista(http://www.)
提供基本检索(Simple Search)和高级检索(Advanced Search)两种检索界面。
例:检索贝多芬钢琴奏鸣曲中的月光奏鸣曲。
基本检索
高级检索
可以使用布尔逻辑算符和NEAR位置算符。可设定检索结果的时间范围(菜单中选择)
例:american AND trade AND opportunity AND drink AND cola AND adult
Excite(http://www.)
检索方式完备:有简单关键词检索、高级检索、分类目录检索和专题检索等。
Excite提供基本检索和高级检索。高级检索支持布尔逻辑运算。基本检索允许使用自然语言。
分类检索
Yellow page
White page
专题检索
Yahoo!(http://www.)
对WWW的网点信息按主题建立分类索引。索引按字母顺序列出14大类。每一大类下又列出若干子类。
AOL(http://search.)
除提供一般意义的网页搜索外,同时提供人物查询(white page)、黄页查询(yellow page)、电子邮件查询、地图查询、股市查询等。
作为门户网站,在主要信息分类里,用户可以对日常生活中的很多信息进行浏览。
AOL使用关键词检索。
主要中文搜索引擎
中文雅虎(http://cn.)
图片搜索
搜狐(http://www.)
搜狗(http://www./)
天网搜索(http://e.pku.)
例:搜索视频文件“一个馒头引发的血案”。
百度(http://www.)
百度地图搜索:现在支持在全国58个大中型城市进行搜索。
从武汉大学 到黄鹤楼
百度国学搜索
是百度与国学公司合作推出的针对中国传统文化方面的专业搜索,提供了大量的丰富的古典名著、历史资料、人名书名等,为传播中华古代文明和国学研究提供使用的便利。
百度地区搜索
通过地区搜索,可以限定只搜索某个或某几个地区的网页。
新浪(http://)
语法搜索
网页标题搜索:网页标题通常是对网页内容提纲领式的归纳。
intitle
allintitle
使用的方式: (all)intitle:主题词”。(all)intitle:和后面的主题词之间不要有空格。
把搜索范围限定在特定站点中——site
“site:” 后的网站域名不能有http://、www 、和“/” 。
把搜索范围限定在URL链接中——inurl
表示返回的网页链接中包含第一个关键字。后面的关键字则出现在链接中或者网页文档中。
allinurl
搜索标题或内容中包含输入的URL字符:domain
当我们无法从site或inurl参数中得到理想的结果时,可使用domain。
Google(http://www.)
搜索引擎忽略词以及强制搜索
Google对一些网路上出现频率极高的英文单词,如“i”、“com”、“www” 、“http”, “.com”等,以及一些符号如“*”、“.”等,和“的”等字符自动忽略。
如果要对忽略的关键字进行强制搜索,则需要在该关键字前加上 “+”号。或者使用英文双引号强制。
大部分常用英文符号(如问号,句号,逗号等)无法成为搜索关键字,加强制也不行。
在某一类文件中查找信息 filetype:
示例:搜索几个资产负债表的Office文档。
资产负债表 filetype:doc OR filetype:xls OR filetype:ppt
搜索所有链接到某个URL地址的网页 link:
link不能与其他语法相混合操作
示例:link:www.chinaren.com
related查找与某个页面结构内容相似的网页。
cache相当于使用普通搜索结果页面中的“网页快照”功能。
info用来显示与某链接相关的一系列搜索。
罕用高级搜索参数
图片高级搜索
Google图像搜索目前支持的语法包括基本的搜索语法如“ ”(精确检索)、逻辑AND(空格表示)、“-”(NOT)、“OR”、“site”、 “intitle”、“inurl”和 “filetype:”(后缀只能是几种限定的图片格式)等。
学术搜索(搜索学术文章)
http://scholar.
数据库
根据载体的不同,可分为
联机数据库(Online Database)
光盘数据库(CD-ROM database)
网络数据库(Networked Database)
数据库
参考数据库
源数据库
书目数据库
指南数据库
数值数据库
文本-数值数据库
全文数据库
字(辞)典数据库
多媒体数据库
图像数据库
根据数据库的内容与功能划分
参考数据库(Reference Databases) 主要指二次信息数据库。它指引用户到另一信息源获得原文或其它更详细的信息。
书目数据库主要著录文献的标题、著者、出处、摘要、主题词等,指引用户查找原始文献。
指南数据库是存贮关于某些机构、人物、出版物、程序、活动等简要描述,亦称指示性数据库。
联机计算机图书馆中心(OCLC)
OCLC(Online Computer Library Center)是世界是最大的文献信息服务的机构之一。
FirstSearch 联机信息检索服务是OCLC从1992年推出的。可检索约80个数据库,数据库被分成15个主题范畴。
举例:
Intellectual Property
世界范围的图书、WEB资源和其它资料的OCLC书目库
国家书目数据库
法律援助
联机公共检索目录(OPAC)
联机公共检索实际上是一个图书馆的馆藏目录数据库,是一个单位全部文献的清单。读者可通过上网对提供OPAC服务的图书馆馆藏资源进行远程检索。
CALIS联合书目数据库
(http://opac.calis.)
出版者目录数据库
特色书推荐
新书推荐
亚马逊网上书店
http://www.amazon.com
源数据库(Source Databases)是指能直接提供原始资料或具体数据的数据库。
数值数据库(Numeric database):包括与统计数据库、科学技术数据等,提供以数据方式表示的数据库。
文本-数值数据库(Textual-Numeric Database):能同时提供文本信息和数值数据。如产品市场报告数据库、商情数据库等。
全文数据库(Full test Database):存贮全文或文献中的主要部分的一种源数据库。包括新闻消息全文库、法律法规全文库、期刊全文库等。
字(词)典数据库(dictionary database)也称术语数据库(terminological bank),计算机化的术语词典或词库,俗称电子词典或机读辞典。
图像数据库(image database, graphic database)提供人们存储和检索图像及其文字说明资料的一种源数据库。以图像、图形为记录单位。如家具、灯具、产品图片、广告、建筑设计等资料的存贮。
多媒体数据库(Multimedia database)把文字、数值、声音、图像等不同信息进行统一处理和管理的数据库。
全文数据库举例
超星数字图书馆
CNKI
同课章节目录