HTML(또는 html5)을 Tree 구조로 파싱하는 방법이 있을까요
DOM을 사용할라하니 </ > 종료 태그가 없는게 걸러지지가 않아서 못하겠고
제리코같은 파서들은 특정 파서들을 쭈욱 뽑아내는거라서 트리구조로 형성을 하기가 힘들더군요;;
전체 HTML 구조를 tree 구조로 구조화해서 분석하려고 합니다. 고수님들 부탁드려요
htmlcleaner 도 있습니다만, 원하시는 사항에 맞는지 모르겠네요
htmlcleaner는 well-formed 형식으로 만들어주는 기능이 있던데
또다른 기능이 있나요?
제리코파서를 이용하여 트리구조를 직접 만들면 되지 않나요?
제리코파서를 알아본바에 의하면 특정 태그를 설정하면 해당 태그 값만 가져오는거 아닌가요?
트리구조로 만드는게 난해해서요;; 방법이 있을까요?;
로그인 유지
htmlcleaner 도 있습니다만, 원하시는 사항에 맞는지 모르겠네요