我的七条搜索准则

IsaacZ 发表于 2006-3-18 13:20:13

搜索引擎9238译　2002.7

　　几年前，当我第一次为搜索初学者做一份书目指南之前，我不得不静下心去想，到底什么是我能教给他们的最简单、最重要的东西？什么是我们职业搜索者知道的，而这些学生不懂的？什么课程是导致找到和找不到区别产生的原因以及是他们需要学习的？我的脑海中逐渐浮现四句话，我在办公室中把它们写在一张纸上：我的四条搜索准则。在逝去的这几年中，我已在这基础上加了一些内容。但是，我和我的同行们仍然清楚的了解并在实践它们，在我看来，这就是我们职业搜索者和普通用户之所以区别的地方。
　　我没有发明这些准则，我只是使它们条理化文字化。条理化文字化--当职业搜索者收到人们的问题时做的另一件事。
 准则一: 去信息应该在的地方 （Rule One：Go Where It Is ）
　　普通人或许以为，象我们这样擅长搜索的人，一定是因为知道一些使用搜索引擎的秘籍。其实，我们真正知道的，恰恰是这个事实：对于很多问题，是无法用搜索引擎解决的，因为互联网上并不存在所需信息。也许答案藏在1935年出版的一本《哈泼的》中（Harper's），或者藏在1865年出版的一张《纽约时报》中，或者藏在一本对比不同欧洲国家医疗保险管理政策的书中，或者藏在一段未发表的论文中，或者藏在一份宝时洁（P&G）做的产权市场调查中，或者藏在1965年的一场参议院听证会记录中。
 　　当任何人向我们提出一个问题时，无论是否熟悉该领域，我们做的第一件事，是搜寻我们脑海中积累的信息地理图。当我们说出"让我们试一下联机医学文献分析和检索系统（MEDLINE）"时，我们已经评估过用户的需求（关于某种医药环境下的特殊疗法）和知识水平（医学教授或学生），并确定了哪里最可能找得到符合他们需求的信息（医疗文献中的文章）。
 　　无论那问题是什么，我们都会经历同样的信息地理图搜寻和确认过程：被问及艺术品的复制时，我们会去搜寻艺术百科全书或者互联网；被问及1966年1美元可以买到什么时，我们会去搜寻《美国历史统计》（Historical Statistics）或《美国统计摘要》（Statistical Abstracts）或者1966年的本地报纸广告。不同的工具可以找回不同的信息，而图书馆员们的技巧正是了解哪一种工具可以最好的完成哪一种任务。
 　　当一个图书馆员问我特拉华流域（Delaware watershed）的原始信息时，我的第一个反应是：
· 美国陆军工程军团（Army Corps of Engineers）. · 美国渔业及野生动物服务（U.S. Fish and Wildlife Service）. · 美国环保局（Environmental Protection Agency）. · 特拉华州的同类部门（equivalent agencies for the state of Delaware）.
　　明确了这个主题，我就在searchgov.com作了一次搜索，果然，从联邦政府的这几个部门和其它部门发现了一大堆相关文件。但是联想到大多数关心流域问题的人都是科学家，我也用了SciSeek.com去搜索互联网上的科学网站，那使我找到了大量其它与这个流域的环境、化学、工程相关的信息。
 　　然后，我通过EBSCOhost 搜索多个全文数据库，那使我找到了从包括科学杂志、旅行杂志和体育杂志上的相关文章。
 　　图书馆员们也明白，不同信息源的风格是互相不可代替的。杂志和报纸会用读者简明易懂的语言解释复杂晦涩的主题，而学术和专业杂志则发表原始的研究文章（仅仅是普通用户问题中的"研究"可能自动把我们送向一个杂志全文检索库）。但是因为"研究"必然被限制在一个主题的很小的、可掌控的领域，它就象一个难题的小块。当我们想看这一个小块的风格时，或者当我们想知道一个主题的广泛背景时，我们会去找书，书会概括和让你理解一个最初的研究。政府文件则会提供统计、法律、金融信息，甚至会有关于"我们是谁？"、"我们拥有什么？"、"我们已经到了哪一步？"等公开资料。
 　　我们了解每一种信息源风格的长处和短处。互联网长于图片和示范，对于政府文件，对于FAQ文档，对于讨论组，对于传输全文数据库；但是我们也知道，互联网对于1995年前的杂志和政府文件，几乎是没什么用的。对于这些资料，我们仍然需要使用我们的旧索引和期刊备份。我们也比仅仅信任互联网权威和准确性知道得更多，你也许会在互联网上找到一段引证 -- 甚至它的好几个版本-- 但是不要指望找到它的正确起源。我们对于互联网信息源的态度是冷战式的怀疑：信任它，但是只有在确证以后。
 　　我们知道谁最可能制造不同类别的信息。对于大多数严肃的统计数据，我们会从《美国统计摘要》开始，但是对于生活类统计数据，我们会去搜寻那些为需要推广产品的广告主们做的专业的市场调研报告。被问及美国男孩洗澡的频度时，我查询了一个全文商业期刊数据库，查找会在诸如《美国人口统计数据》（American Demographics）等杂志上发表的市场调研报告。（顺便提一下那问题的答案，答案有违我们的直觉：超过三分之一的男孩，每天至少洗澡两次。）
 　　我们知道，有时最好的信息源正是普通的人，作为个体的或作为群体之一的，对某主题有热情的人。当我们的用户需要关于糖尿病的可靠的、权威的信息时，我们会带他们去美国糖尿病协会（American Diabetes Association）的网站；当我们的用户想和有相同疾病经验的人交流，想了解糖尿病患者如何生活时，我们会带他们去相关的支持团体。
 　　当我们想知道一种崭新科技或策略是否有效时，我们会去找互联网上的相关讨论组。而当一个主题非常偏僻晦涩时，我们会直接上网，因为互联网是那些拥有古怪偏好（如风笛、中世纪地图、劣质的涂鸦作品）的人们分享他们热情的最佳场所。
 　　我们职业搜索者，完全可以被描述成信息世界中旅行者的向导: 我们之所以能帮助我们的旅行者快速到达目的地，是因为我们知道目的地在哪里，是因为我们知道最佳的路线是什么，因为我们知道应该坐飞机，火车，还是汽车。

准则二: 你得到什么答案，取决于你怎么提问 （Rule Two：The Answer You Get Depends on the Questions You Ask） 　推论：问题决定答案，如果你不喜欢答案，那么换问题吧
 　　普通人或许以为，图书馆员们一定知道所有的答案。其实，我们真正知道的，是如何问出好问题。我们知道如何在宽泛和特殊之间自如滑动调节搜索范围，直到我们找到那任务最关键的影响因素。
 　　我们用来滑动调节搜索范围的方法之一，是语言。如果我们用一个特殊关键词没有发现足够的信息，我们就会转向概念更宽泛的一个层面；如果我们发现了太多信息，我们就会尝试更特殊的关键词。
 　　举例来说，当我们被要求寻找这方面的研究资料：肥胖者与身材标准者做相同的工作，是否肥胖者挣的钱更少？一些我们会尝试的关键词，可能是"肥胖"或"体重"（obesity or weight），"薪水"或"工资"或"收入"（salary or wages or pay），"歧视"或"区别"（discrimination or differential）。我们也有可能使用更宽泛的陈述：肥胖和雇用歧视（Obesity and employment discrimination），这或许会找回各种关于歧视的研究资料：面试，薪水，评估，提升，等等。不管我们用哪种关键词组合，我们都知道，我们会得到不同的搜索结果，因此，我们当然会使用所有想得到的合理关键词。而且，当我们点击到有价值的新发现时，我们还会使用我们从连续的搜索过程中遇到的网页中发现的任何新关键词。
 　　此外，我们还使用其它方法来滑动调节搜索范围。当我们决定搜索主题标题时，我们会从最特殊的关键词开始，以保证我们找回的文件和主题完全相关。当我们对找到什么相关内容几乎不存指望，-- 当我们需要的只是damn fool luck， -- 我们会从最宽泛的关键词开始搜索。一旦我们找到了什么资料，我们就会用尽技巧利用它，顺藤摸瓜连本带利找出更多相关资料。
 　　当我们从概念最宽泛的关键词开始搜索时，我们会使用"OR"组织关键词，就象用一个拖网捕捉到四分之一英里内半径内的每一条鱼；并使用"AND"组织关键词，用这个方法来滑动调节到最狭窄的搜索范围，就象扔掉不合格的鱼。
 　　当我们想搜索无限信息宇宙中的一小块时，-- 一个卡片目录，或者《联机医学文献分析和检索系统》，或者一个特殊搜索引擎如searchgov.com -- 我们也是在搜索一个统一体的狭窄概念领域。
 　　狭窄搜索的风险是：某些相关信息中并不含有我们使用的关键词，或者我们选择的特殊搜索引擎或数据库中并没有索引某些相关信息，因此我们可能错过这些相关信息。而当我们从最宽泛概念开始搜索时，也要冒只找到无效结果的风险，比如当我测遍搜索引擎寻找一个名?quot;E."的歌手信息时。
 　　通过在宽泛和狭窄的概念之间滑动调节；组合不同的关键词、不同的搜索方法、不同的搜索资源；总是想着还能找到其它什么内容；我们大幅度提高了这种可能性：不是为顾客发现一个答案，而是为顾客发现一个最佳答案。

准则三: 答案必须迎合需求 （Rule Three：The Answer Should Match the Information Need）
 　　图书馆员们需要理解的，不仅是问题，还需要理解：哪一种答案会使顾客满意。如果我们给他们的答案不是他们想要的那一种，那我们能算是回答了他们吗：有人要一篇百科全书文章，你给他一摞书，虽然那摞书中有答案？有人要一个特定问题的口头答案，你给他一个网站，虽然那网站中有答案？有位病人要了解他刚被诊断患上的一种疾病的信息，你给他一本专业医学学术杂志上的晦涩文章，虽然那文章中有答案？有人仅仅想打印几篇文章好带回家去看，你给他一打文摘？
 　　接受这个假设：图书馆员是一群迷失在猎获的战栗中的好学者。我们总是能更顽强的追溯蛛丝马迹，跟那些在某方面有需求或感兴趣的顾客相比，我们总是能找到更多的信息。除非我们是在帮一个学者做研究，我们面临的问题通常不是找到信息，而是知道什么时候该停下来。-- 给一个礼貌的建议，当然，存在其它用户可采用的途径，他们应该要求更多。
 准则四: 搜索是一个多步骤的过程 （Rule four：Research Is a Multi-Stage Process）
　　有时，猎获过程只能是迂回曲折的。为了寻找歌手"E."的信息，我需要从一本摇滚百科全书或摇滚网站开始，我去了"终极乐队名单"（UBL.com），在那里找到了"E."的一个传记，一个音乐唱片分类目录，他现在的乐队The Eels的信息，他们的官方网站，以及巡回演出信息。
 　　如果有人真的想寻找某个主题所有最细枝末节的信息，这会激活我们侦探犬般灵敏的本能，引发我们拥有的每一丝技巧。首先，我们会去每一个我们认为可能有所找信息的地方，搜索不止一个数据库，而是每一个似乎可能的数据库。我们会搜寻期刊数据库，论文摘要，OCLC联机联合编目目录(WorldCat)，会议论文索引，等等。我们会急速走遍整个互联网，既使用普通搜索引擎，也使用特殊搜索引擎、专业网站和看不见的数据库。
 　　每当我们发现什么的时候，我们都会从中观察发掘更多线索。跟随书目中的每一条信息，搜寻这些作者的更多作品，找到那些作者的e-mail，进行引用搜索，查找谁在引用他们的作品。每当我们发现有用的新关键词时，我们都会回到我们已搜索过的地方，使用新关键词再次搜索。当我们找到一些正是我们的顾客脑海中所想信息时，我们会极尽利用数据库或搜索引擎提供的任何功能-- 可点击的主题或者一个"more like this"的功能-- 寻找更多的类似条目。
 准则五: 信息本身是无意义的，只有人提问之后才有价值 （Rule Five：信息 Is Meaningless Until Queried by Human Intelligence）
 数据：瑞典是最大的烹调酱用户。 数据：51%的圣路易士居民说他们从未去过圣路易士拱门。 数据：根据NEC研究院的资料，1.5% 的网站是色情网站。
　　现在你知道这些数据了，你更聪明了还是更happy了？事实上，你能有什么理由关心这些呢？没有上下文，这些数据只是数据，不是信息。只有在我们象这样提问时，它们才成为有价值的信息：
· 如果我计划在瑞典做销售莎莎酱，会面临什么样的竞争？ · 圣路易士是否应该面向本地居民做旅行宣传广告？ · 互联网上的色情问题到底有多严重？（注意：解答这个问题需要远超过以上数据的信息）
　　这个世界充满了无穷无尽的内容：箭头，陶器碎片，软体动物化石，古老的文字和日记，五十年代的菜谱，垒高拼装玩具，芭比娃娃。
 　　所有这些数据都是无意义的，直到有人做一些事-- 提一个问题，把它们与其它数据放在一起，思考它们的意义，直到有人归并这些碎片并发现一个过去的文明，或者在破烂文字中发现政治阴谋的痕迹，或者从这些旧菜谱中得知罐装汤和袋装食品是什么时候开始渗入我们生活的。
 　　除非你知道自己要用它们做什么，随便的数据堆积是无意义的。你必须从一个问题开始，或者一个主题，最好有一个明确的陈述不仅让你明白什么信息是你需要的，而且让你明白什么信息对你是无用的。如果你说你想找到专利权的经济效果，你完全可以只聚焦于成功者和失败者。
 　　这意味着你可以忽略保护专利权的争论以及什么发明可以授予专利的辩论。你的数据应该聚焦于股价、资产平衡表、和价格目录。
 准则六: 向你的答案提问 ―― 信息可能是真的，但仍然是错的 （Rule Six：Question Your Answers - Information May Be True But Still Wrong）
 　　我住在爱荷华州的达芬波特市。2001年5月，我们招待了天知道多少网络新闻记者，他们都把他们的相机指向我们的，被密西西比河包围和淹没的，棒球馆。那些相机显示了我们的河流对这国家的驱动-- 淹没-- 小队志愿者在填充沙袋。令人小小惊讶的是每一个我打过电话的亲戚都提出送浮袋给我，但我不需要它。
 　　这些记者一直在报道着事实，直到我们离开。他们忽略的是告诉剩余的故事，把相机镜头移向四周，或者移向旁边。如果他们有那么做，那么这个国家就会认识到：达芬波特市建在一座惊人高大的山上，99%的城区都没有收到洪水的影响，只要不遇到更糟的情况。
 　　洪峰到来的那一天，太阳高照，而我正在监督一队建筑工人为我的房子盖一个日光浴室。
 　　这是一个令我们警醒的故事。这些记者无疑是诚实的，他们不会故意歪曲事实，但是某种程度上他们又确实这么做了。必须记住，某些我们利用的信息源，比如任何一方的政客在谈到2000大选期间发生在佛罗里达的戏剧性变化时，都使数据显得支持他们那个版本的真实。我们必须明白，所有我们的知识都是不完整的的临时的，会随着新的证据和理论的出现而变化。三十年以前，恐龙还被认为是冷血动物，但现在它们不是了。恐龙自己从来没变过，是人，是新的证据和解释使之变化。所以我们总是倾向于不完全肯定我们给别人的答案。
 　　我们对如何向数据提问有足够的了解。当我们确信一个不可能为零的搜索结果为零时，我们会重新审视我们的搜索策略--我们是否拼错单词或姓名了？我们是否找错地方了？我们向统计数据提问，问"这是谁说的?"，问"他们是怎么知道的?quot;，问"他们的方法是什么？"，如果有人给我们成年美国人挖鼻孔的精确比例，我们足够清楚必须怀疑有多少人会诚实的回答这个问题。我们不会满足于获得的第一个答案。我们不断地求证，求证，再求证。
 准则七: 问图书馆员 （Rule Seven：Ask a Lbrarian）
我们会……，废话，我们当然会问图书馆员。
· 因为我们冷静的了解我们的收藏。
· 因为有时人们如果在预期地点没有找到预期答案，就会放弃。（有多少次真实的问题被隐蔽在表面问题的背后："读者指南在哪儿？"）
· 因为我们努力发现人们真正需求的信息，并且把它转化成我们的系统能理解的问题。
· 因为我们更擅长于面面俱到的考虑一个事物的前前后后-- 如果我们没有关于暹罗猫的书，我们还有关于猫类繁殖和饲养的书；我们还有杂志索引和数据库可能帮我们找到关于暹罗猫的文章；我们甚至可能在顾客不屑一顾的儿童书籍中找到一本合适的书。
· 因为我们了解如何命令各种数据库起立、打滚、舔我们的脸。我们的用户没有找到答案的事实，并不意味着答案不存在。（诚然，事实可能是我们也找不到答案。） · 因为，跟我们的用户不同，我们在去开始搜寻的时候，是带着太平洋底的深信，深信答案存在，而以上帝的名义，凭作为图书馆员的荣誉，我们会把它找出来。
　　问题是，为什么会只有我们，几乎没有别人再懂这些？
 　　这些准则真被当做准则受到重视吗？它们应该是的，因为我所知道的每一个优秀图书馆员，所有时间都在实践它们。这可以用来解释，为什么我们能够如此一致的、轻易的，制造一些超越我们的目录和计算机的神秘，找到使外行吃惊的答案。 　　我常常暗示我的学生，信息就象匹萨饼，-- 你越饿，你就吃得越多。你的搜索需求越彻底，你越需要彻底搜索所有可利用资源。这是我的猜测，关于什么格式的信息分别占据了在过去3个世纪中累计总信息的多少百分比。我相信由地区、国家、国际政府创造的文件是这几个世纪中最大的独立信息源；然后是书和期刊；即使已有着超过10亿网页，而且在以每天几百万的速度增加，互联网在能有竞争力之前，还有很多需要迎头赶上的地方；剩下的小块还包括诸如论文、会议文献、录像、电影、图片、地图、数据库，等等。
 　　这个信息匹萨饼的每一个小碎片，都还能被分割得最小，甚至一个如杂志或期刊这样的小碎片，也还能被细分成索引不同内容的不同数据库--联机医学文献分析和检索系统（Medline），科教资源信息中心（ERIC），生物学文摘（Biological Abstracts），美国国立农业图书馆馆藏检索（Agricola）。如果你真的想进行完整的搜索，检查支离破碎的每一个可能小片。
 　　下边这些是最初的信息准则，比我当初写下时和誊写时已漂亮点了。从那以后它们已有所成长：
1. Go where it is. 2. The answer you get depends on the question you ask. 3. Research is a multi-stage process. 4. Ask a librarian.

页: [1]

点拨论坛，菜鸟家园's Archiver

我的七条搜索准则