Merge pull request #107 from AmbientLighter/feature/fix-typo

ruairif · web-flow · commit 6d6d5ce9cf84 · 2017-10-20T18:24:33.000+01:00
Fix typo in docstrings, remove unused imports, fix PEP indents. Update Travis configuration.
diff --git a/.travis.yml b/.travis.yml
@@ -1,10 +1,13 @@
 language: python
-python: 2.7
 
-env:
-- TOXENV=py27
-- TOXENV=py34
-- TOXENV=pypy
+matrix:
+  include:
+  - python: 2.7
+    env: TOXENV=py27
+  - python: 2.7
+    env: TOXENV=py34
+  - python: pypy
+    env: TOXENV=pypy
 
 install:
 - pip install cython
diff --git a/scrapely/extraction/__init__.py b/scrapely/extraction/__init__.py
@@ -72,7 +72,7 @@ def __init__(self, td_pairs, trace=False, apply_extrarequired=True):
                     descriptor._required_attributes.append(attr)
                     # not always is present a descriptor for a given attribute
                     if attr in descriptor.attribute_map:
-                        # not strictly necesary, but avoid possible inconsistences for user
+                        # not strictly necessary, but avoid possible inconsistencies for user
                         descriptor.attribute_map[attr].required = True
             modified_parsed_tdpairs.append((parsed, (t, descriptor)))
         # templates with more attributes are considered first
diff --git a/scrapely/extraction/pageobjects.py b/scrapely/extraction/pageobjects.py
@@ -111,7 +111,7 @@ class Page(object):
     def __init__(self, htmlpage, token_dict, page_tokens):
         self.htmlpage = htmlpage
         self.token_dict = token_dict
-        # use a numpy array becuase we can index/slice easily and efficiently
+        # use a numpy array because we can index/slice easily and efficiently
         if not isinstance(page_tokens, ndarray):
             page_tokens = array(page_tokens)
         self.page_tokens = page_tokens
diff --git a/scrapely/extraction/pageparsing.py b/scrapely/extraction/pageparsing.py
@@ -9,7 +9,7 @@
 
 from scrapely.htmlpage import HtmlTagType, HtmlTag, HtmlPage
 from scrapely.extraction.pageobjects import (AnnotationTag,
-    TemplatePage, ExtractionPage, AnnotationText, TokenDict, FragmentedHtmlPageRegion)
+    TemplatePage, ExtractionPage, AnnotationText, TokenDict)
 
 
 def parse_strings(template_html, extraction_html):
@@ -79,6 +79,8 @@ def handle_tag(self, html_tag, index):
 _AUTO_CLOSE_TAGS_ON_CLOSE = {
     "select": ["option"],
 }
+
+
 class TemplatePageParser(InstanceLearningParser):
     """Template parsing for instance based learning algorithm"""
 
diff --git a/scrapely/extractors.py b/scrapely/extractors.py
@@ -401,7 +401,7 @@ def image_url(txt):
         >>> image_url('http://s7d4.scene7.com/is/image/Kohler/jaa03267?hei=425&wid=457&op_usm=2,1,2,1&qlt=80')
         ['http://s7d4.scene7.com/is/image/Kohler/jaa03267?hei=425&wid=457&op_usm=2,1,2,1&qlt=80']
         >>> image_url('../image.aspx?thumb=true&amp;boxSize=175&amp;img=Unknoportrait[1].jpg')
-        ['../image.aspx?thumb=true&boxSize=175&img=Unknoportrait%5B1%5D.jpg']
+        ['../image.aspx?thumb=true&boxSize=175&img=Unknoportrait[1].jpg']
         >>> image_url('http://www.sundancecatalog.com/mgen/catalog/test.ms?args=%2245932|MERIDIAN+PENDANT|.jpg%22&is=336,336,0xffffff')
         ['http://www.sundancecatalog.com/mgen/catalog/test.ms?args=%2245932|MERIDIAN+PENDANT|.jpg%22&is=336,336,0xffffff']
         >>> image_url('http://www.site.com/image.php')
diff --git a/scrapely/htmlpage.py b/scrapely/htmlpage.py
@@ -91,7 +91,7 @@ def __repr__(self):
     _COMMENT_REGEXP = re.compile(_COMMENT, re.DOTALL)
 
     def parse_html(text):
-        """Higher level html parser. Calls lower level parsers and joins sucesive
+        """Higher level html parser. Calls lower level parsers and joins successive
         HtmlDataFragment elements in a single one.
         """
         # If have doctype remove it.
diff --git a/tests/test_extraction.py b/tests/test_extraction.py
@@ -5,13 +5,11 @@
 tests should focus on specific bits of functionality work correctly.
 """
 from unittest import TestCase
-from nose_parameterized import parameterized
+from parameterized import parameterized
 
 from scrapely.htmlpage import HtmlPage
-from scrapely.descriptor import (FieldDescriptor as A,
-        ItemDescriptor)
-from scrapely.extractors import (contains_any_numbers,
-        image_url, html, notags)
+from scrapely.descriptor import FieldDescriptor as A, ItemDescriptor
+from scrapely.extractors import contains_any_numbers, image_url, html, notags
 from scrapely.extraction import InstanceBasedLearningExtractor
 
 # simple page with all features
@@ -1290,7 +1288,6 @@
 ]
 
 
-
 class TestExtraction(TestCase):
     @parameterized.expand(TEST_DATA)
     def test_extraction(self, name, templates, page, descriptor, expected_output):
diff --git a/tests/test_pageparsing.py b/tests/test_pageparsing.py
@@ -1,10 +1,7 @@
 """
 Unit tests for pageparsing
 """
-import os
-from six import StringIO
 from unittest import TestCase
-import numpy
 
 from scrapely.htmlpage import HtmlPage
 from scrapely.extraction.pageparsing import (
@@ -204,16 +201,19 @@
 </head>
 """
 
+
 def _parse_page(parser_class, pagetext):
     htmlpage = HtmlPage(None, {}, pagetext)
     parser = parser_class(TokenDict())
     parser.feed(htmlpage)
     return parser
 
+
 def _tags(pp, predicate):
     return [pp.token_dict.token_string(s) for s in pp.token_list \
             if predicate(s)]
 
+
 class TestPageParsing(TestCase):
 
     def test_instance_parsing(self):
@@ -227,11 +227,11 @@ def test_instance_parsing(self):
         closep = lambda x: pp.token_dict.token_type(x) == TokenType.CLOSE_TAG
         self.assertEqual(_tags(pp, closep), ['</p>', '</html>'])
 
-    def _validate_annotation(self, parser, lable_region, name, start_tag, end_tag):
-        self.assertEqual(lable_region.surrounds_attribute, name)
-        start_token = parser.token_list[lable_region.start_index]
+    def _validate_annotation(self, parser, label_region, name, start_tag, end_tag):
+        self.assertEqual(label_region.surrounds_attribute, name)
+        start_token = parser.token_list[label_region.start_index]
         self.assertEqual(parser.token_dict.token_string(start_token), start_tag)
-        end_token = parser.token_list[lable_region.end_index]
+        end_token = parser.token_list[label_region.end_index]
         self.assertEqual(parser.token_dict.token_string(end_token), end_tag)
 
     def test_template_parsing(self):
diff --git a/tests/test_scraper.py b/tests/test_scraper.py
@@ -5,6 +5,7 @@
 from scrapely.htmlpage import HtmlPage
 from . import iter_samples
 
+
 class ScraperTest(TestCase):
 
     def _assert_extracted(self, extracted, expected):
diff --git a/tests/test_template.py b/tests/test_template.py
@@ -5,6 +5,7 @@
     FragmentAlreadyAnnotated, best_match
 from scrapely.extraction import InstanceBasedLearningExtractor
 
+
 class TemplateMakerTest(TestCase):
 
     PAGE = HtmlPage("http://www.example.com", body=u"""
diff --git a/tox.ini b/tox.ini
@@ -11,7 +11,7 @@ usedevelop = True
 deps =
     -rrequirements.txt
     nose
-    nose-parameterized
+    parameterized
     doctest-ignore-unicode
     coverage
     cython