go?colly?爬虫实现示例

 更新时间:2022年09月30日 15:30:03   作者:如此风景  
这篇文章主要为大家介绍了go?colly?爬虫实现示例,效果是根据输入的浏览器cookie及excel必要行列号,从excel中读取公司名称,查询公司法人及电话号码。并写回到excel中指定行
(福利推荐:【腾讯云】服务器最新限时优惠活动,云服务器1核2G仅99元/年、2核4G仅768元/3年,立即抢购>>>:9i0i.cn/qcloud

(福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅2998元/3年,立即抢购>>>:9i0i.cn/aliyun

正文

贡献某CC,go源码爬虫一个,基于colly,效果是根据输入的浏览器cookie及excel必要行列号,从excel中读取公司名称,查询公司法人及电话号码。并写回到excel中指定行。

package main
import (
   "bufio"
   "fmt"
   "github.com/gocolly/colly/debug"
   "github.com/gocolly/colly/extensions"
   "github.com/xuri/excelize/v2"
   "net/url"
   "os"
   "runtime"
   "strconv"
   "time"
)
import "github.com/gocolly/colly"
var (
   cookies string
   tempUrl string
   tempGongSiName string
   tempI int
)
func main() {
   //要处理的文件全名
   var fileName string
   //列的名称
   var namelie string
   //开始行号
   var startNum int
   //结束行号
   var endNum int
   var personLie string
   var phoneLie string
   fmt.Println("请输入浏览器cookies 在浏览器 开发者模式F12,情况下找到控制台(consol) 输入(注意,Cookie中如果有 HttpOnly的需要在开发工具中将HttpOnly取消掉,然后再执行后面命令):document.cookie  即可,然后复制出来! 右击,复制字符串内容")
   //fmt.Scan(&cookies)  //此行遇到空格会 默认输入完毕了,所以不能用它
   reader := bufio.NewReader(os.Stdin)
   res, _, err := reader.ReadLine()
   if nil == err {
      cookies=string(res)
   }else{
      fmt.Println("读取cookie错误 error:", err)
      return
   }
   //fmt.Println("输入的cookie是:"+cookies)
   fmt.Println("请输入文件全路径:(字符串类型)")
   fmt.Scan(&fileName)
   fmt.Println("请输入Excel要查询公司名称列的字母(字母大写):")
   fmt.Scan(&namelie)
   fmt.Println("请输入Excel指定列的第一个行号(数字类型):")
   fmt.Scan(&startNum)
   fmt.Println("请输入Excel指定列的最后一个行号(数字类型):")
   fmt.Scan(&endNum)
   fmt.Println("请输入Excel联系人的所在列的字母(字母大写):")
   fmt.Scan(&personLie)
   fmt.Println("请输入Excel联系电话所在列的字母(字母大写):")
   fmt.Scan(&phoneLie)
   //输出所有输入的信息,验证正确
   //fmt.Println(fileName,namelie,startNum,endNum,personLie,phoneLie)
   f, err := excelize.OpenFile(fileName)
   if err!=nil {
      fmt.Println(err)
      return
   }
   c:=initCollector(f,personLie,phoneLie)
   //上面打开的工作簿记得关闭吆。
   defer func() {
      // 关闭工作簿
      if err := f.Close(); err != nil {
         fmt.Println(err)
      }
   }()
   for i:=startNum;i<=endNum;i++{
      // 获取工作表中指定单元格的值
      cell, err := f.GetCellValue("Sheet1", namelie+strconv.Itoa(i))
      if err != nil {
         fmt.Println("读取第"+strconv.Itoa(i)+"行出错!")
         return
      }else{
         fmt.Println("开始抓取:"+cell+"  数据")
         tempGongSiName = cell
         tempI = i
         visitUrl(c)
         time.Sleep(1*time.Second)
      }
   }
   fmt.Println("-------------亲爱的,程序成功执行完毕。--------我要喝咖啡,我要吃肉肉------!")
}
///初始化收集器
func initCollector(f *excelize.File,personLie string,phoneLie string,) *colly.Collector {
   c := colly.NewCollector(colly.MaxDepth(1), colly.Debugger(&debug.LogDebugger{}))
   extensions.RandomUserAgent(c)                              // 使用随机的UserAgent,最好能使用代理。这样就不容易被ban
   c.SetProxy("socks5://127.0.0.1:7890")
   c.OnError(func(response *colly.Response, err error) {
      fmt.Println("---->onError  --------爬取出错了"+err.Error())
      runtime.Goexit()
   })
   c.OnResponse(func(response *colly.Response) {
      fmt.Println("---->onResponse")
   })
   c.OnXML("table", func(element *colly.XMLElement) {
      fmt.Println("---->onXML")
   })
   c.OnRequest(func(r *colly.Request) {
      r.Headers.Set("Cookie",cookies)
      r.Headers.Add("referer", tempUrl)
      r.Headers.Add("sec-fetch-mode", "cors")
      r.Headers.Add("sec-fetch-site", "same-origin")
      r.Headers.Add("accept", "text/javascript, application/javascript, application/ecmascript, application/x-ecmascript, */*; q=0.01")
      r.Headers.Add("accept-encoding", "gzip, deflate, br")
      r.Headers.Add("accept-language", "en,zh-CN;q=0.9,zh;q=0.8")
      r.Headers.Add("X-Requested-With", "XMLHttpRequest")
   })
   c.OnHTML("tr:first-child", func(e *colly.HTMLElement) {//拿到查询的第一条数据。
      fmt.Println("---->onHtml---获取成功!")
      //拿到第一条的公司主要信息。
      //fmt.Println("---->"+e.DOM.Find(".relate-info").Text())
      sellectEle := e.DOM.Find(".relate-info")
      //最终查询出来的人
      name:=sellectEle.Find("div:nth-child(1)").Find("div>span").First().Find("a").Text()
      //最终查询出来的电话
      phone:=sellectEle.Find("div:nth-child(2)").Find("div>span").First().Find("span>span").Find(":nth-child(2)").Text()
      //fmt.Println("--->>>"+name)
      //fmt.Println("--->>>"+phone)
      f.SetCellValue("Sheet1", personLie+strconv.Itoa(tempI), name)
      fmt.Println("将"+tempGongSiName+"人名 ("+name+") 写入  "+personLie+strconv.Itoa(tempI))
      f.SetCellValue("Sheet1", phoneLie+strconv.Itoa(tempI), phone)
      fmt.Println("将"+tempGongSiName+"电话 ("+phone+") 写入  "+phoneLie+strconv.Itoa(tempI))
      f.Save()
   })
   c.OnScraped(func(response *colly.Response) {
      fmt.Println("onScraped")
   })
   return c
}
//访问给定名称
func visitUrl(c *colly.Collector){
   tempUrl:="https://www.xxx.com/web/search?key="+url.QueryEscape(tempGongSiName)
   c.Visit(tempUrl)
}

以上就是go colly 爬虫实现示例的详细内容,更多关于go colly 爬虫的资料请关注程序员之家其它相关文章!

相关文章

  • GO语言映射(Map)用法分析

    GO语言映射(Map)用法分析

    这篇文章主要介绍了GO语言映射(Map)用法,以实例形式较为详细的分析了针对映射的创建、填充、遍历及修改等操作的技巧,需要的朋友可以参考下
    2014-12-12
  • Go map发生内存泄漏解决方法

    Go map发生内存泄漏解决方法

    这篇文章主要介绍了Go map发生内存泄漏解决方法详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-11-11
  • Go语言提升开发效率的语法糖技巧分享

    Go语言提升开发效率的语法糖技巧分享

    每门语言都有自己的语法糖,像java的语法糖就有方法变长参数、拆箱与装箱、枚举、for-each等等,Go语言也不例外。本文就来介绍一些Go语言的语法糖,需要的可以参考一下
    2022-07-07
  • 一文带你了解如何正确理解和使用Golang中nil

    一文带你了解如何正确理解和使用Golang中nil

    在?Golang?中,nil?是一个预定义的标识符,在不同的上下文环境中有不同的含义,但通常表示“无”、“空”或“零值”,本文主要来带大家了解下nil的正确使用,需要的可以参考下
    2023-12-12
  • Go语言实战之实现一个简单分布式系统

    Go语言实战之实现一个简单分布式系统

    如今很多云原生系统、分布式系统,例如?Kubernetes,都是用?Go?语言写的,这是因为?Go?语言天然支持异步编程。本篇文章将介绍如何用?Go?语言编写一个简单的分布式系统,需要的小伙伴开业跟随小编一起学习一下
    2022-10-10
  • Golang中可比较的数据类型详解

    Golang中可比较的数据类型详解

    在日常开发中,比较操作是最常用的基本操作之一,可以用来判断变量之间是否相等或者对应的大小关系,本文将深入解析 Golang 中可比较的数据类型,并结合代码示例来说明如何在不同情况下进行比较,需要的朋友可以参考下
    2024-01-01
  • 深入了解Go语言编译链接的过程

    深入了解Go语言编译链接的过程

    Go在编译时会将interface和channel关键字转换成runtime中的结构和函数调用,所以小编觉得很有必要就Go的编译过程理一理做个进行总结,下面就来和小编一起了解一下Go语言编译链接的过程吧
    2023-08-08
  • Golang应用程序性能优化技巧分享

    Golang应用程序性能优化技巧分享

    随着科技的进步,人人都想要快速的应用,这就需要优化您的应用程序性能。本文为大家整理了一些Golang应用程序性能优化的技巧,希望对大家有所帮助
    2023-04-04
  • Go语言JSON解析器gjson使用方法详解

    Go语言JSON解析器gjson使用方法详解

    这篇文章主要介绍了Go语言json解析框架与gjson,JSON?解析是我们不可避免的常见问题,在Go语言中,我们可以借助gjson库来方便的进行json属性的提取与解析,需要的朋友可以参考一下
    2022-12-12
  • go mock server的简易实现示例

    go mock server的简易实现示例

    这篇文章主要为大家介绍了go mock server的简易实现示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2022-07-07

最新评论

?


http://www.vxiaotou.com