实验2: 网络信息资源检索实验(K02)
一、实验名称和性质
所属课程 | 信息存储与检索 |
实验名称 | 网络信息资源检索 |
实验学时 | 4 |
实验性质 | □验证 □综合√设计 |
必做/选做 | √必做 □选做 |
二、实验目的
1.了解网络信息资源的构成和特点。
2.掌握搜索引擎的类型、作用、检索范围和检索结果。
3.熟练掌握Google的使用方法。
4.了解引文的著录规则。
三、实验的软硬件环境要求
硬件环境要求:
本实验需要使用账号登陆Internet网。
使用的软件名称、版本号以及模块:
本实验需要登上Internet网,能使用其中的google搜索引擎。实验室要求装有Office等基本文字处理软件。
四、知识准备
前期要求掌握的知识:
学习过有关信息资源的基本概念;了解信息检索系统的构成和工作原理;熟练掌握信息检索策略的构造方法和修改方法;全面学习过Google搜索引擎的检索帮助。
五、实验内容
1.按题目要求完成1-5的引文著录规则检索课题,记录检索式、检索步骤及检索结果。
2.按题目要求完成6的google基本用法的检索课题,记录下检索式及检索结果。
3.综合运用各种google检索技术,完成7-10的综合性检索题目,要求记录检索式,检索策略的调整方法,及每一步得到的结果。
六、设计性实验
1.实验要求
(1)请查找文后参考文献著录规则GB/T 7714-2005的全文。
要求:请记录您拟定的关键词,编写的检索式,使用的搜索工具。列举另一种查找其全文的方法,比较两者的异同。
(2)以下是某同学著录的引文,您知道它代表哪类文献吗?格式是否正确?
王珊 陈红编著,《数据库系统原理教程》,清华大学出版社,2002
要求:请用正确的引文著录规则对其重新著录,并记录检索步骤,检索工具。
(3)以下是某同学著录的引文,您知道它代表哪类文献吗?格式是否正确?
徐黎镇,「中山大学电子布告栏系统使用简介」,教育部电子计算中心简讯第 8204 期,1993
要求:请用正确的引文著录规则对其重新著录,并记录检索步骤,检索工具。
(4)以下是某同学著录的引文,您知道它代表哪类文献吗?格式是否正确?
陈 健. UML技术应用探讨[j]. 计 算 机 工 程.2004,1.第30卷 第2期
要求:请用正确的引文著录规则对其重新著录,并记录检索步骤,检索工具。
(5)以下是某同学著录的引文,您知道它代表哪类文献吗?格式是否正确?
邢志宇.http://www.sowang.com/ZHUANJIA/XZHY/20041122.htm.2007-09-10
要求:请用正确的引文著录规则对其重新著录,并记录检索步骤,检索工具。
(6)利用Google搜索 http://www.google.com.hk,记录检索式和命中结果的数量。
①一般检索:
用逻辑与查出“电子商务”、“购物网站”相关的网页。
使用Site查出嘉兴学院网站(site:www.zjxu.edu.cn)中有关“科研项目”的网页。
使用intitle查出有关“嘉兴学院数学与信息工程学院”问题的网页。
使用filetype分别查出有关"文本挖掘"的ppt(课件)和PDF文件。
利用图像检索功能查出金庸先生的图像?选取一张进行下载。
②高级检索
通过高级检索功能查出最近1个月以内搜索到的标题含有“山西煤矿透水事件”的网页。
③特殊检索
用“天气”或“tq”命令查出明天嘉兴的最高温度。
④学术检索
查出“社会问答网站”方面的高引文献。
⑤在线词典
请利用google的在线词典(http://www.google.com.hk/dictionary),对以下来自于DEMETRIOS GEORGE GLINOS博士的论文SYNTAX-BASED CONCEPT EXTRACTION FOR QUESTION ANSWERING中的文摘进行翻译。
Question answering (QA) stands squarely along the path from document retrieval to text understanding. As an area of research interest, it serves as a proving ground where strategies for document processing, knowledge representation, question analysis, and answer extraction may be evaluated in real world information extraction contexts. The task is to go beyond the representation of text documents as “bags of words” or data blobs that can be scanned for keyword combinations and word collocations in the manner of internet search engines. Instead, the goal is to recognize and extract the semantic content of the text, and to organize it in a manner that supports reasoning about the concepts represented. The issue presented is how to obtain and query such a structure without either a predefined set of concepts or a predefined set of relationships among concepts.
This research investigates a means for acquiring from text documents both the underlying concepts and their interrelationships. Specifically, a syntax-based formalism for representing atomic propositions that are extracted from text documents is presented, together with a method for constructing a network of concept nodes for indexing such logical forms based on the discourse entities they contain. It is shown that meaningful questions can be decomposed into Boolean combinations of question patterns using the same formalism, with free variables representing the desired answers. It is further shown that this formalism can be used for robust question answering using the concept network and WordNet synonym, hypernym, hyponym, and antonym relationships.
This formalism was implemented in the Semantic Extractor (SEMEX) research tool and was tested against the factoid questions from the 2005 Text Retrieval Conference (TREC), which operated upon the AQUAINT corpus of newswire documents. After adjusting for the limitations of the tool and the document set, correct answers were found for approximately fifty percent of the questions analyzed, which compares favorably with other question answering systems.
(7)某男士计划周六携带一家人去上海科技馆旅游一天,请为其安排行程,包括交通、主要景点参考、门票价格、用餐选择等。
(8)某同学具有较高的外语、计算机编程能力,且对智能信息处理较感兴趣,请为其准备考研方面的预备信息,包括学校、专业、导师、报考时间、考试科目、参考书籍等,并推荐最优方案。
(9)某毕业生准备进行电子商务领域的自主创业,其经营的产品主要为山核桃,请为其提供创业计划及营销手段。
(10)请查找两个国外智能信息检索领域的授课网站,对其考核方式、教学内容、实验项目设计等进行记录及分析。