Skip to content

Latest commit

 

History

History
50 lines (38 loc) · 2.14 KB

README_ja.md

File metadata and controls

50 lines (38 loc) · 2.14 KB

main_content_extractor

最新情報は英語のREADME.mdです。

Description

このライブラリは、HTMLからメインコンテンツのみを抽出するためのものです。
LLMに関する情報や、LangChainやLlamaIndexへのデータ投入用に開発しました。

本ライブラリはHTMLの要素情報や階層情報が含まれているため、これらを利用する際に有用です。
例えば、メインコンテンツのリンク一覧や見出しを取得する際に役立ちます。

trafilaturaは非常に優れたメインコンテンツ抽出ライブラリですが、必要なデータが欠落したり、HTMLを出力できないといった問題があります。
これらの問題に対処するために、本ライブラリがあります。

メインコンテンツ抽出のシーケンスは下記のとおりです。

image
HTML形式の他にText形式、Markdown形式での出力もサポートしています。これは、よりLLMで扱いやすい形式でデータを出力できるようにするためのものです。

メインコンテンツの抽出にはtrafilaturaが使用されています。
trafilaturaではHTML形式での出力ができないため、HTML情報が含まれたXML形式で出力され、その後HTMLに変換されています。
XMLからHTMLへの変換は不可逆的なものであり、完全に元のデータと一致するわけではありません。

Installration

pip install git+https://github.com/HawkClaws/main_content_extractor.git

HowToUse

import requests
from main_content_extractor import MainContentExtractor

# Get HTML using requests
url = "https://developer.mozilla.org/ja/docs/Web"
response = requests.get(url)
response.encoding = 'utf-8'
content = response.text

# Get HTML with main content extracted from HTML
extracted_html = MainContentExtractor.extract(content)

# Get HTML with main content extracted from Markdown
extracted_markdown = MainContentExtractor.extract(content,output_format="markdown")