Matlab-爬取论文数据

家电修理 2023-07-16 19:16www.caominkang.com电器维修

现在网上的爬虫程序很多,但大多不实用!今天,我们以爬取论文数据为例了解Matlab爬虫!

,明确我们要爬取什么数据!如下图,第一张图片表示年积日,第二张图片表示第一天里有哪些数据,我们打算爬取一年的ionPrf数据!

1.构造网址,分别是

‘https://data.cosmic.ucar.edu/gnss-ro/cosmic1/postProc/level2/2016/001/’

‘https://data.cosmic.ucar.edu/gnss-ro/cosmic1/postProc/level2/2016/365/’

the_url='https://data.cosmic.ucar.edu/gnss-ro/cosmic1/postProc/level2/2016/';
for i=1:365
 doy=sprintf('%03d',i);
 url=[the_url,doy,'/'];
end

2.读取页面源代码

contents=ebread(url);

3.解析页面源代码

hT=htmlTree(contents);

4.从hT中寻找...

A_label=findElement(hT,'a');

5.获取链接

url_donload=getAttribute(A_label,'href');

6.找到ionPrf文件在数组里的位置,然后提取出来

flag=cellfun(@isempty,regexp(url_donload,'ionPrf'));
url_donload=url_donload(~flag);

7.组合网页链接

url_donload=url+url_donload;

结果示例https://data.cosmic.ucar.edu/gnss-ro/cosmic1/postProc/level2/2016/001/ionPrf_postProc_2016_001.tar.gz

8.下载数据

% filename自己设置,这里不展开
ebsave(filename,url_donload);

完整代码见面包多

Copyright © 2016-2025 www.caominkang.com 曹敏电脑维修网 版权所有 Power by