会员注册
登录
网页游戏
会员
插件
统计
个人家园
帮助
我爱电脑技术论坛
»
网站建设
» 浅谈搜索引擎技术的难点
‹‹ 上一主题
|
下一主题 ››
发新话题
发布投票
发布商品
发布悬赏
发布活动
发布辩论
发布视频
打印
[综合类]
浅谈搜索引擎技术的难点
白雪公主
等级:论坛贵宾
UID: 11479
精华:
3
积分:
36410
帖子:
4749
威望:
3871
金钱:
44569 D币
宣传币:
0 X币
踢楼币:
0 T币
经验:
17级
阅读权限:
50
注册:
2007-12-25
状态:
荣誉勋章
您还未获得勋章,请继续努力!
楼主
大
中
小
发表于 2008-3-20 11:41
只看该作者
浅谈搜索引擎技术的难点
搜索引擎的难点包括如下几点:
1) 是否支持并发的爬取数据,如果要并发,要保证所有采集器能合作采集,不会出现重复采集的情况.
2) 采集的数据还要有一个排重的过程. 只需要采集一个网站更新的数据
3) 对于需要cookie数据的网页如何采集的问题,部分网站需要通过cookie数据登陆网站
4) 自动通过识别码的验证
5) 一些网站对于密集访问的请求会拒绝,技术上也要进行处理
6) 对于一些特殊网页的采集问题, 比如flash网页,一些游戏网页等,很多网站会让采集程序陷入其中,采集数万无效数据,显然是浪费了采集程序的精力
7) 大数据量的存储也是个难点,据说Google的存储是自己开发的架构,没用任何的数据库,因为数据库的查询效率还是有一定损失. 可以采用数据块的模式,然后通过散列表的模式连接.
以上主要列出的是后台采集器的相关技术难点,在前台检索、查询效率等方面仍有许多难点.
UID
11479
帖子
4749
精华
3
积分
36410
阅读权限
50
在线时间
255 小时
注册时间
2007-12-25
最后登录
2008-11-26
查看详细资料
TOP
‹‹ 上一主题
|
下一主题 ››
论坛特色区
新手教程
系统DIY
新手报道
技术交流中心~~→网络、编程、综合交流
有问必答(520知道)
菜鸟学堂
计算机名词解释
网站建设
网络安全区
电脑综合区
原创作品专区
原创精品软件
网吧技术
技术交流中心~~→系统及软硬件交流
最新资讯
硬件交流中心
系统维护交流
软件学习交流
PhotoShop图像合成
QQ专区
编程语言
网络资源区
系统美化
软件下载区
源码下载
素材共享
教程下载区
网络资源
小说下载
在线视频教程专区
手机维修视频教程
After Effect视频教程,星火,李涛主讲
从入门到精通 Visual FoxPro视频教程
Turbo C 的使用视频教学
Photoshop视频教程集合
电脑维修视频教程
AutoCad视频教程
TCPIP协议原理在线视频教程
PhotoShop视频教程星火李涛主讲
手机数码区
数码摄影
手机世界
娱乐休闲交流区
灌水中心
贴图区
影音动漫
综合游戏讨论区
我是女生
会员风采
论坛站务区
事务处理
论坛活动
投诉建议
重大事件投拆区
站内申请
控制面板首页
编辑个人资料
积分交易
积分记录
公众用户组
勋章
访问推广
照相馆
宣传中心
幸福恋人
转贴工具
社区银行
领取红包
勋章中心
基本概况
流量统计
客户软件
发帖量记录
版块排行
主题排行
发帖排行
积分排行
交易排行
在线时间
管理团队
管理统计