officeba > 单独文章


Office SharePoint Server 2007 搜索模块的两个“大”问题

这篇文章算是来给Office SharePoint Server 2007 “揭丑”了,确切来说,是给Office SharePoint Server 2007中的搜索功能模块“揭丑”。其实,这里要说的两个问题很早就已经暴露出来了,但是为啥直到现在才进行“揭丑”行动呢?因为直到现在,我才能确定这两个问题已经有解决之道(或者有望解决),呵呵,否则,仅仅说问题,而不说怎么解决,您不是会更郁闷吗...

先来说第一个问题:不能正确对路径大小写敏感的内容源进行爬网。

Windows操作系统的一个特点就是对文件(或者文件夹)路径的大小写是不敏感的,也就是说,我们在Windows操作系统里面指定一个文件的路径,比如“C:\a.tmp”,如果你使用“c:\A.TMP”也是完全没有问题的。所以,构建在Windows IIS之上的Web应用,基本上对于路径也是大小写不敏感的,比如用户浏览“https://www.microsoft.com/products”和“https://www.microsoft.com/Products”对于服务器而言是一回事。但是这个假设仅仅在Windows平台上才适用,对于非Windows操作系统,它完全有可能对于路径是大小写敏感的,也就是说,对于一个构建在非Windows平台上的Web应用来说,“https://webapp/portal”和“https://webapp/Portal”对于服务器而言可是不一样的。

这似乎和我们平时的使用体验不一样,有人会说,“俺访问俺们公司一个Unix+Apache+Java的Web应用时,输入URL就从来没注意过大小写啊!”嗯,这应该是因为,要么Web服务器就配置成了大小写不敏感,要么Web服务器会自动进行大小写纠错,也就是说,如果你在浏览器中敲入“https://webapp/portal”,这个http访问到了Web服务器之后,Web服务器自动将这个请求导向到“https://webapp/Portal”上。

现在再回到正题上,由于Office SharePoint Server 2007是一个完全基于Windows平台的应用,所以,在当初对它的搜索爬网引擎进行设计时,就设计成了这样:当爬网引擎得到一个URL后,爬网引擎不管3721,就先把这个URL的字母全部转换成小写,然后再去访问它。比如,爬网引擎在爬一个Web应用首页时,得到了首页上的一个链接“https://webapp/News”,那么爬网引擎会直接把这个URL转换成“https://webapp/news”,然后再去访问它。如果这个Web应用恰好就是路径大小写敏感的,那么,嘿嘿,Office SharePoint Server 2007的爬网引擎就抓瞎了...

暂且不论当初为啥要这样设计,但是这的确是一个相当大的问题,因为如果我们需要Office SharePoint Server 2007对一个路径大小写的Web应用进行爬网(其实这样的Web应用数量是不少的),那么Office SharePoint Server 2007除了在日志里面纪录一些错误信息之外(甚至在日志中,这些URL都是全部小写的...),它几乎不能为我们爬任何有用的内容。

值得庆幸的是,现在我们对于这个问题有了解决办法,KB 932619描述了这个问题以及解决方法:安装hotfix 932620和hotfix 932621,然后按照KB 932619中的描述修改注册表就OK了。

第二个问题:不能对基于Forms验证的Web应用进行爬网

现在Office SharePoint Server 2007只能对要么匿名访问、要么基于Windows集成认证的Web应用进行爬网,但是对于大量的基于Forms验证的Web应用,却无能为力。幸运的是,很快微软也会发布相应的hotfix来增加对基于Forms验证的Web应用进行爬网的功能了

声明:欢迎各大网站转载本站文章,还请保留一条能直接指向本站的超级链接,谢谢!

时间:2007-09-27 13:41:14,点击:65824


【OfficeBa论坛】:阅读本文时遇到了什么问题,可以到论坛进行交流!Excel专家邮件:342327115@qq.com(大家在Excel使用中遇到什么问题,可以咨询此邮箱)。

【声明】:以上文章或资料除注明为Office自创或编辑整理外,均为各方收集或网友推荐所得。其中摘录的内容以共享、研究为目的,不存在任何商业考虑。如有任何异议,请与本站联系,本站确认后将立即撤下。谢谢您的支持与理解!


相关评论

我要评论

评论内容