こんにちは、五足のわらじです。

受託案件の中で、様々なサイトからある情報の最新の状態を取得するという内容の業務がありまして、対象のサイトが多数あるのでスクレイピングシステムにより差分が発生したときのみ通知するようにし、通知のあったものを取得しに行くということをやっています。

基本的にはクライアント側で用意してくれているスクレイピングシステムを使うのですが、そのシステムで対処できないケースも一定数あって、本来なら改良してほしいところなのですが、そのシステムを作った人がもういないので対応できないとのこと。

で、結局自前でスクレイピングシステムを作ったというお話を以前しました。

とはいえ、私もがっつり開発する時間はないので、とりあえず中核の機能のみ取り急ぎで作ったのみでした。

簡単に説明すると、対象のページの特定の場所のをCSSセレクタで指定し、そこで抜き出した情報をデータベースに保存して、次回クローリングしたときに差異があれば通知するというものです。

クローリングに必要な情報もデータベースに一緒に保存し、cronを使って毎日自動でクローリングさせてます。

抜き出す情報は、テキストや属性値はもちろん、画像をダウンロードして保存することも可能。

画像も前回取得したものとクローリングで取得したものに差異があれば通知するようにしています。

ここまでは2日程度で出来上がったのですが、実はこれだけではいろいろと問題があるので、あとで機能を追加することにしていました。

②に続く。

著者

五足のわらじ
五足のわらじ
在宅ワークを4つと、サラリーマンを1つ、合計五足のわらじを履いて走り回ってます⇒2017年7月より在宅ワークで独立しました

在宅ワークは、アフィリエイト、アプリ制作、LINEスタンプ・着せかえ制作、ライターの4つをやっていて、サラリーマンは辞めましたが、それに替えて法人化を目指して新規事業を立ち上げ中です。

自宅では、デザイン、コーディング、プログラミング、ライティング、写真、イラスト、アニメーション、音楽、マーケティングなど、ひとりですべて行っているマルチクリエイターです。
事務所では、単純作業からマネージャー職といった包括的な業務まで、幅広い分野の受託業務を行ってます。

もともと在宅ワークは副業でしたが、収入を普通のサラリーマン並みに増加させることができたので、いまは在宅ワークと事務所での受託業務のみで生活しています。

在宅ワークはすべて独学でやってきましたので、これから独学で在宅ワークを始めようと思っている方の参考になればと思ってブログを始めました。

いいことばかりじゃなくて、辛いことや失敗したことなども正直に書いていきますので、これから始めたいと思っている人もぜひ参考にしてください!