「Diffbot」是美國一家指令機器學習和計算機視覺演算法以及公共API開發的初創公司,該公司通過計算機視覺、機器學習和人工智慧來處理Web頁面,並計劃實現整個網頁的“機器可讀”。
「Diffbot」公司通過將計算機視覺技術應用於網頁,其中在視覺上解析了重要元素的網頁並以結構化格式。2015年宣佈通過抓取網路並使用其自動網頁提取來構建一個結構化網路資料的大型資料庫,從而開發其自動“
知識圖 ” 版本。
Diffbot的理念就是通過“視覺機器人”來掃描和識別不同的網頁型別(主要是非結構化的資料),再將這些豐富的資料來源應用於其他應用。Diffbot創始人兼執行長Mike
Tung表示:“我們在獲取頁面之後會對其進行分析,然後通過成熟先進的技術進行結構化的處理。”
Diffbot的API使用計算機視覺將網頁資訊轉化成資料庫,軟體開發者可以提取其中的資料進行再次利用,包括產品圖片、航運成本、折扣價格、SKU碼以及建議零售價等等。(資訊來源於CloudTimes)
Diffbot將大多數Web頁面劃分為數個大類——新聞訊息,頭版,圖片,事件和概要等等。Diffbot
首先識別這些部分,然後轉化為可用的資料庫格式。該公司已經發布了頭版API和文章API,還有產品API。