웹 크롤링하기 [Beautiful Soup]
코딩/이미지 분류 [PyTorch] 2020. 12. 22. 02:36

위키 검색에서 예상치 못한 문제점이 발생하였다. 1) 모델에서 뱉어내는 개 이름이 정확한 품종의 풀네임이 아닌 경우가 있어서, 위키에서 검색을 잘 못한다. ex) 웰시코기의 경우 풀네임이 Pembroke Welsh Corgi -> Pembroke로는 검색이 안됨. 2) 그리고 위키API에서 없는 페이지의 경우, 특정 페이지가 아닌 링크가 담긴 검색결과가 나온다. 따라서 우선 특정 사이트에서 크롤링하는 방법을 사용하기로 했다. 기존 사이트의 URL을 통해 크롤링을 하려고 하면, 추가 라이브러리를 사용하면 된다. 우선 타겟으로 한 사이트는 다음과 같다. 미국 애견 협회로 세계에서 2번째로 오래되었다고 한다. 그리고 1번의 문제를 해결하기 위해, 위 사이트에서 검색한 결과에서 제일 상단에 위치한 저 Breed..