Url2io 是一個提供簡單且強大的網頁正文提取服務,提供ESTful API 介面,用來提取並解析網頁中的正文區域,實現網頁正文提取、標題提取、釋出日期提取、下一頁連結提取等。
URL2Article 用來提取並解析網頁中的正文區域,實現網頁正文提取、標題提取、釋出日期提取、下一頁連結提取等,功能特色如下:
1、標題識別:不僅僅是簡單地提取 title 標籤,而是智慧識別網頁正文的標題;
2、正文識別:提取的內容將不含有任何廣告、導航和其他非正文內容。網頁正文中的所有連結、圖片和其他媒體將予以保留。
3、釋出日期識別:智慧識別文章的釋出日期;
4、下一頁連結識別:智慧識別當前網頁的下一頁連結。因為一篇完整的文章會被分成多個頁面,所以這個功能會非常有用。