获取千万级数据需要多久

燃烧的冰2019-11-4 534

采集器获取千万级数据需要多久?采集器是否直接入库到网站数据库,还是储存在本地数据库,然后再向目标站一条条提交?采集器能否把https链接的图片本地化?还是只能把http的图片本地化?

有经验的朋友都发表下

最新回复(8)
  • 林飞飞2019-11-5
    2
    没采集过这么多,最多2天采了300w。
    用过2款采集器,都是先本地再通过接口发到网站。少数采集器也能通过sql直接发
    采集器图片,一是通过网站接口直接图片本地化到服务器,不经过本机,支不支持https看接口。二是下载https图片或链接,再通过ftp上传,可以https。我一般都是用ftp
  • 燃烧的冰2019-11-5
    3
    请问2楼用的什么采集器,2天采300w
  • 林飞飞2019-11-5
    4
    燃烧的冰 请问2楼用的什么采集器,2天采300w
    平时用ET,系统资源占用少,比较稳定采的慢。
    300w是自己易语言写的采集工具。采集的某个网盘文件。 解析json,格式化合成到sql命令到csv。然后用Navicat直接往服务器数据库导入
  • 林飞飞2019-11-5
    5
    现在服务器有800w的文件,每次按标题搜索文件,快了也要1分钟才能出结果,慢的时候要3,5分钟。服务器是2G内存,连续搜索几次,服务器硬盘很快就占慢了,停止搜索就会慢慢恢复回去
  • 燃烧的冰2019-11-5
    6
    你们都是牛人啊。要看怎么设计的搜索,大数据量索引不好搞,设计不好就崩盘。
  • lzwj20192019-11-7
    7
    一直用火车头,习惯了!比较慢,比较专注于运营,技术方面惭愧,自己是杂而无序!
  • lzwj20192019-11-7
    8
    考虑到网站运行速度及空间,图片等相关文件等,一般不采集,前期wordpress有采集,占用空间,影响网站打开速度!google比较考虑网页打开速度!
  • 林飞飞2019-11-9
    9
    lzwj2019 考虑到网站运行速度及空间,图片等相关文件等,一般不采集,前期wordpress有采集,占用空间,影响网站打开速度!google比较考虑网页打开速度!
    666 图片和网站不分离
返回
发新帖