rascunhos, colas e Insights

Categorias de posts

Postagens:

image_pdfimage_print

Expressões XPath / Chrome

Expressão Descrição
/ Dá o nó raiz
// Dá todos os nós
. Dá o nó atual
.. Dá o nó pai
@ Dá atributos
[n] Dá o enésimo elemento
[last()] Dá o último elemento
[last()-n] Dá o enésimo elemento do último
[position()<n] Dá os primeiros n elementos
[x>n] Dá todos os elementos x contendo um elemento maior que n

Continue lendo

Marcado como: python, scrapy, spath

Livros Python gratuitos

Marcado como: livros, python

Python: NLTK (Kit de ferramentas de linguagem natural)

Inicio de treinamento da biblioteca NLTK Python. Instalando bibliotecas utilizadas:

pip install NLTK pyenchant lockfile numpy scipy scikit-learn execnet pymongo redis lxml beautifulsoup4 python-dateutil charade

 

Baixar também NLTK-Trainer: https://github.com/japerk/nltk-trainer

Referencias:

http://www.nltk.org/

http://text-processing.com

Marcado como: NLTK, python

Urllib e BeautifulSoup

Exemplo simples para inicio rápido no Windows e Linux (Python 2.7 e Python 3)

Windows

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.google.com.br")
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

Ubuntu / Debian

Ex1:

import urllib2 
from bs4 import BeautifulSoup
html = urllib2.urlopen("http://www.google.com.br")
soup = BeautifulSoup(html, 'html.parser')
print(soup.prettify())

Continue lendo

Marcado como: BeautifulSoup, python, urlopen

Envio de e-mail com Python e smtp externo

Marcado como: email, python, sender, smtp

geckodriver para selenium

Para baixar o geckodriver: https://github.com/mozilla/geckodriver/releases

copiar o arquivo  para o diretório do ubuntu: /usr/local/bin

Pronto!

Continue lendo

Marcado como: Browser Headless, Chrome Canary, geckodriver, python, selenium

Python conectando ao Mysql

Marcado como: insert, mysql, python, sql
subir