Как я могу перевести это выражение XPath в BeautifulSoup?
-
06-07-2019 - |
Вопрос
В ответ на предыдущий вопрос, несколько человек предложили мне использовать Прекрасный суп для моего проекта.Я боролся с их документацией и просто не могу ее разобрать.Может кто-нибудь указать мне на раздел, где я должен быть в состоянии перевести это выражение в выражение BeautifulSoup?
hxs.select('//td[@class="altRow"][2]/a/@href').re('/.a\w+')
Приведенное выше выражение взято из Шершавый.Я пытаюсь применить регулярное выражение re('\.a\w+')
Для td class altRow
чтобы получить ссылки оттуда.
Я также был бы признателен за ссылки на любые другие учебные пособия или документацию.Я не смог найти ни одного.
Спасибо за вашу помощь.
Редактировать: Я смотрю на это Страница:
>>> soup.head.title
<title>White & Case LLP - Lawyers</title>
>>> soup.find(href=re.compile("/cabel"))
>>> soup.find(href=re.compile("/diversity"))
<a href="/diversity/committee">Committee</a>
Тем не менее, если вы посмотрите на источник страницы "/cabel"
есть ли там:
<td class="altRow" valign="middle" width="34%">
<a href='/cabel'>Abel, Christian</a>
По какой-то причине результаты поиска не видны BeautifulSoup, но они видны XPath, потому что hxs.select('//td[@class="altRow"][2]/a/@href').re('/.a\w+')
уловители "/кабель"
Редактировать: коббал:Это все еще не работает.Но когда я ищу это:
>>>soup.findAll(href=re.compile(r'/.a\w+'))
[<link href="/FCWSite/Include/styles/main.css" rel="stylesheet" type="text/css" />, <link rel="shortcut icon" type="image/ico" href="/FCWSite/Include/main_favicon.ico" />, <a href="/careers/northamerica">North America</a>, <a href="/careers/middleeastafrica">Middle East Africa</a>, <a href="/careers/europe">Europe</a>, <a href="/careers/latinamerica">Latin America</a>, <a href="/careers/asia">Asia</a>, <a href="/diversity/manager">Diversity Director</a>]
>>>
он возвращает все ссылки со вторым символом "а", но не имена юристов.Таким образом, по какой-то причине эти ссылки (такие как "/ cabel") не видны BeautifulSoup.Я не понимаю почему.
Решение
Я знаю, что BeautifulSoup - это канонический модуль синтаксического анализа HTML, но иногда вы просто хотите удалить некоторые подстроки из некоторого HTML, и в pyparsing есть несколько полезных методов для этого.Используя этот код:
from pyparsing import makeHTMLTags, withAttribute, SkipTo
import urllib
# get the HTML from your URL
url = "http://www.whitecase.com/Attorneys/List.aspx?LastName=&FirstName="
page = urllib.urlopen(url)
html = page.read()
page.close()
# define opening and closing tag expressions for <td> and <a> tags
# (makeHTMLTags also comprehends tag variations, including attributes,
# upper/lower case, etc.)
tdStart,tdEnd = makeHTMLTags("td")
aStart,aEnd = makeHTMLTags("a")
# only interested in tdStarts if they have "class=altRow" attribute
tdStart.setParseAction(withAttribute(("class","altRow")))
# compose total matching pattern (add trailing tdStart to filter out
# extraneous <td> matches)
patt = tdStart + aStart("a") + SkipTo(aEnd)("text") + aEnd + tdEnd + tdStart
# scan input HTML source for matching refs, and print out the text and
# href values
for ref,s,e in patt.scanString(html):
print ref.text, ref.a.href
Я извлек 914 ссылок с вашей страницы, от Абеля до Зупиковой.
Abel, Christian /cabel
Acevedo, Linda Jeannine /jacevedo
Acuña, Jennifer /jacuna
Adeyemi, Ike /igbadegesin
Adler, Avraham /aadler
...
Zhu, Jie /jzhu
ZÃdek, AleÅ¡ /azidek
Ziółek, Agnieszka /aziolek
Zitter, Adam /azitter
Zupikova, Jana /jzupikova
Другие советы
один из вариантов - использовать lxml (я не знаком с beautifulsoup, поэтому не могу сказать, как с ним поступить), он по умолчанию поддерживает XPath - путь
Редактировать:
попробуй (непроверенный) проверенный:
soup.findAll('td', 'altRow')[1].findAll('a', href=re.compile(r'/.a\w+'), recursive=False)
Я использовал docs в http://www.crummy.com/software/BeautifulSoup/documentation.html
суп должен быть красивым блюдом
import BeautifulSoup
soup = BeautifulSoup.BeautifulSoup(html_string)
Я только что ответил на это в списке рассылки Beautiful Soup в качестве ответа на электронное письмо Зейнель в список.По сути, на веб-странице есть ошибка, которая полностью уничтожает Beautiful Soup 3.1 во время синтаксического анализа, но просто искажается Beautiful Soup 3.0.
Поток расположен в Архив групп Google.
Похоже, что вы используете BeautifulSoup 3.1
Я предлагаю вернуться к BeautifulSoup 3.0.7 (из-за эта проблема)
Я только что протестировал с 3.0.7 и получил результаты, которые вы ожидаете:
>>> soup.findAll(href=re.compile(r'/cabel'))
[<a href="/cabel">Abel, Christian</a>]
Тестирование с помощью BeautifulSoup 3.1 дает результаты, которые вы видите.Вероятно, в html есть неверно сформированный тег, но при беглом просмотре я не понял, что это было.