KR20160059455A - 웹 페이지 인코딩 인식 방법, 인식 장치, 프로그램 및 저장매체 - Google Patents

웹 페이지 인코딩 인식 방법, 인식 장치, 프로그램 및 저장매체 Download PDF

Info

Publication number
KR20160059455A
KR20160059455A KR1020157007129A KR20157007129A KR20160059455A KR 20160059455 A KR20160059455 A KR 20160059455A KR 1020157007129 A KR1020157007129 A KR 1020157007129A KR 20157007129 A KR20157007129 A KR 20157007129A KR 20160059455 A KR20160059455 A KR 20160059455A
Authority
KR
South Korea
Prior art keywords
encoding
resource
web page
html
scheme
Prior art date
Application number
KR1020157007129A
Other languages
English (en)
Inventor
징롱 주오
진송 판
판 티안
Original Assignee
시아오미 아이엔씨.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 시아오미 아이엔씨. filed Critical 시아오미 아이엔씨.
Publication of KR20160059455A publication Critical patent/KR20160059455A/ko

Links

Images

Classifications

    • G06F17/2252
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F17/2217
    • G06F17/2765

Abstract

본 발명은 웹 페이지 인코딩 인식 방법 및 장치에 관한 것으로서 컴퓨터 네트워크 분야에 속한다. 상기 웹 페이지 인코딩 인식 방법은, 적어도 하나의 웹 페이지 리소스를 포함하는 웹 페이지 데이터를 로딩하는 단계와; 상기 웹 페이지 리소스가 HTML리소스인지의 여부 및 인코딩 방식을 선언하였는지 여부를 검출하는 단계와; 상기 웹 페이지 리소스가 HTML리소스이며 인코딩 방식을 선언하지 않았으면, 상기 HTML리소스의 인코딩 방식을 인식하는 단계와; 인식한 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 상기 HTML리소스를 디코딩하는 단계를 포함한다. 본 발명은 관련 기술에서 웹 페이지 인코딩 중의 "charset" 필드를 빠트렸을 때 브라우저가 깨진 글자를 표시할 수 있는 문제를 해결하고 웹 페이지 리소스에 인코딩 방식을 선언하지 않을지라도 정상적으로 웹 페이지 리소스를 디코딩하고 표시할 수 있는 효과에 도달하였다.

Description

웹 페이지 인코딩 인식 방법 및 인식 장치{METHOD AND DEVICE FOR IDENTIFYING ENCODING OF WEB PAGE}
본 발명은 컴퓨터 네트워크 분야에 관한 것으로, 더 상세하게는 웹 페이지 인코딩 인식 방법 및 인식 장치에 관한 것이다.
본원 발명은 출원번호가 CN 201410562477.9이고 출원일자가 2014년 10월 21일인 중국 특허 출원에 기반하여 제출하였고 상기 중국 특허 출원의 우선권을 주장하는바, 상기 중국 특허 출원의 모든 내용은 본원 발명에 원용된다.
네트워크 기술의 발전에 따라 사용자가 단말기 중의 브라우저를 사용하여 웹 페이지를 브라우징하는 것은 가장 흔히 사용되는 한가지 기능이다.
웹 페이지 데이터가 상이한 인코딩 방식을 사용하여 인코딩될 수 있기 때문에, 브라우저는 우선 웹 페이지 데이터 중의 "charset" 필드에 근거하여 웹 페이지 데이터의 인코딩 방식을 인식함으로써 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 웹 페이지 데이터에 대해 디코딩 한 다음 웹페이지 데이터에 대해 표시하게 된다. 하지만, 웹 사이트 구축과 웹 페이지 편집 기술이 갈수록 보편화되면서 수많은 통상의 지식을 가진 자가 개발한 웹 페이지 데이터에서는 "charset" 필드를 빠트리거나 틀리게 쓰는데, 이때 브라우저는 디폴트 디코딩 방식을 사용하여 디코딩하여 깨진 글자가 표시될 수 있게 된다.
관련 기술에서 웹 페이지 인코딩 중의 "charset" 필드를 빠트리거나 틀리게 쓸 때 브라우저가 깨진 글자를 표시하는 문제를 해결하기 위해, 본 발명의 실시예는 웹 페이지 인코딩 인식 방법 및 장치를 제공한다.
상기 과제를 해결하기 위한 기술적 해결수단은 하기와 같다.
본 발명의 실시예에 근거하여 제공한 웹 페이지 인코딩 인식 방법은:
적어도 하나의 웹 페이지 리소스를 포함하는 웹 페이지 데이터를 로딩하는 단계와;
상기 웹 페이지 리소스가 HTML리소스인지의 여부 및 인코딩 방식을 선언하였는지 여부를 검출하는 단계와;
상기 웹 페이지 리소스가 HTML리소스이며 인코딩 방식을 선언하지 않았으면, HTML리소스의 인코딩 방식을 인식하는 단계와;
인식한 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 HTML리소스를 디코딩하는 단계를 포함한다.
일 실시예에서, 상기 웹 페이지 인코딩 인식 방법은:
상기 웹 페이지 리소스가 HTML리소스이며 인코딩 방식을 이미 선언했으면, 이미 선언한 인코딩 방식이 미리 설정한 인코딩 방식 중의 하나인지의 여부를 검출하는 단계;
이미 선언한 인코딩 방식이 미리 설정된 인코딩 방식 중의 하나가 아니면, 상기 HTML리소스의 인코딩 방식을 인식하거나 또는 상기 이미 선언한 상기 인코딩 방식에 대해 자동 오류 정정을 진행하여, 자동 오류 정정 후의 상기 인코딩 방식을 얻는 단계를 더 포함한다.
일 실시예에서, HTML리소스의 인코딩 방식을 인식하는 단계는:
예정된 문자 인코딩 인식 알고리즘을 사용하여 HTML리소스의 인코딩 방식을 인식하는 단계를 포함한다.
일 실시예에서, 상기 이미 선언한 인코딩 방식에 대해 자동 오류 정정을 진행하여 자동 오류 정정 후의 인코딩 방식을 얻는 상기 단계는:
상기 이미 선언한 인코딩 방식을 미리 설정된 인코딩 방식 중의 매 하나와 각각 철자 유사성을 산출하는 단계와;
가장 높은 철자 유사성이 미리 설정된 임계값보다 클 때, 가장 높은 철자 유사성과 대응되는 미리 설정된 인코딩 방식을 자동 오류 정정 후의 인코딩 방식으로 결정하는 단계를 포함한다.
일 실시예에서, 상기 웹 페이지 인코딩 인식 방법은:
웹 페이지 리소스가 CSS리소스이면 웹 페이지 데이터 중의 HTML리소스가 사용한 인코딩 방식을 CSS리소스의 인코딩 방식으로 인식하고, 인코딩 방식과 대응되는 디코딩 방식을 사용하여 CSS리소스를 디코딩하는 단계를 더 포함한다.
본 발명의 실시예의 제2 양태에 근거하면, 웹 페이지 인코딩 인식 장치가 제공되며, 상기 웹 페이지 인코딩 인식 장치는:
적어도 하나의 웹 페이지 리소스를 포함하는 웹 페이지 데이터를 로딩하도록 구성된 데이터 로딩 모듈과;
상기 웹 페이지 리소스가 HTML리소스인지의 여부 및 인코딩 방식을 선언하였는지 여부를 검출하도록 구성된 방식 검출 모듈과;
상기 웹 페이지 리소스가 HTML리소스이며 인코딩 방식을 선언하지 않았을 때, HTML리소스의 인코딩 방식을 인식하도록 구성된 방식 인식 모듈과;
상기 인식한 인코딩 방식과 대응되는 디코딩 방식을 사용하여 HTML리소스를 디코딩하도록 구성된 리소스 디코딩 모듈을 포함한다.
일 실시예에서, 상기 웹 페이지 인코딩 인식 장치는:
상기 웹 페이지 리소스가 HTML리소스이며 인코딩 방식을 선언하지 않을 때 이미 선언한 인코딩 방식이 미리 설정한 인코딩 방식 중의 하나인지의 여부를 검출하도록 구성된 인코딩 검출 모듈을 더 포함하며;
상기 이미 선언한 인코딩 방식이 미리 설정된 인코딩 방식 중의 하나가 아닐 때 상기 방식 인식 모듈이 HTML리소스의 인코딩 방식을 인식하거나; 또는 상기 웹 페이지 인코딩 인식 장치가, 이미 선언한 인코딩 방식에 대해 자동 오류 정정을 진행하여, 자동 오류 정정 후의 인코딩 방식을 얻도록 구성된 자동 오류 정정 모듈을 더 포함한다.
일 실시예에서, 방식 인식 모듈은 예정된 문자 인코딩 인식 알고리즘을 사용하여 HTML리소스의 인코딩 방식을 인식한다.
일 실시예에서, 자동 오류 정정 모듈은:
이미 선언한 인코딩 방식을 미리 설정된 인코딩 방식 중의 매 하나와 각각 철자 유사성을 산출하도록 구성된 철자 산출 서브모듈과;
가장 높은 철자 유사성이 미리 설정된 임계값보다 클 때 가장 높은 철자 유사성과 대응되는 미리 설정된 인코딩 방식을 자동 오류 정정 후의 인코딩 방식으로 결정하도록 구성된 자동 오류 정정 서브모듈을 포함한다.
일 실시예에서, 상기 웹 페이지 인코딩 인식 장치는:
웹 페이지 리소스가 CSS리소스일 때 웹 페이지 데이터 중의 HTML리소스가 사용한 인코딩 방식을 CSS리소스의 인코딩 방식으로 인식하고 인코딩 방식과 대응되는 디코딩 방식을 사용하여 CSS리소스를 디코딩하도록 구성된 인코딩 다중화 모듈을 더 포함한다.
본 발명의 실시예의 제3 양태에 근거하면, 웹 페이지 인코딩 인식 장치가 제공되며, 상기 웹 페이지 인코딩 인식 장치는:
프로세서; 및
상기 프로세서에 의해 실행 가능한 명령을 저장하기 위한 메모리를 포함하고;
상기 프로세서는:
적어도 하나의 웹 페이지 리소스를 포함하는 웹 페이지 데이터를 로딩하고;
웹 페이지 리소스가 HTML리소스인지의 여부 및 인코딩 방식을 선언하였는지의 여부를 검출하며;
웹 페이지 리소스는 HTML리소스이며 인코딩 방식을 선언하지 않았으면, HTML리소스의 인코딩 방식을 인식하고;
인식한 인코딩 방식과 대응되는 디코딩 방식을 사용하여 HTML리소스를 디코딩하도록 구성된다.
본 발명의 실시예에서 제공하는 기술적 해결수단은 하기와 같은 유리한 효과를 포함할 수 있다.
웹 페이지 리소스가 인코딩 방식을 선언하지 않았을 때 웹 페이지 리소스의 인코딩 방식을 인식하고 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 웹 페이지 리소스를 디코딩하여 관련 기술에서 웹 페이지 인코딩 중의 "charset" 필드를 빠트렸을 때 브라우저가 깨진 글자를 표시할 수 있는 문제를 해결함으로써 웹 페이지 리소스에 인코딩 방식을 선언하지 않을지라도 정상적으로 웹 페이지 리소스를 디코딩하고 표시할 수 있는 효과에 도달하였다.
상기의 일반적인 설명과 후술 되는 구체적인 설명은 단지 예시적이고 해석적인 것이며 본 발명을 한정하는 것이 아님을 이해해야 한다.
아래의 도면은 명세서의 일부분으로서 명세서 전체를 구성하며 본 발명에 맞는 실시예를 예시하여 본 발명의 원리를 해석하기 위한 것이다.
도1은 예시적 실시예에 따라 도시한 웹 페이지 인코딩 인식 방법의 흐름도이다.
도2는 예시적 실시예에 따라 도시한 웹 페이지 인코딩 인식 방법의 흐름도이다.
도3은 예시적 실시예에 따라 도시한 웹 페이지 인코딩 인식 장치의 블록도이다.
도4는 예시적 실시예에 따라 도시한 웹 페이지 인코딩 인식 장치의 블록도이다.
도5는 예시적 실시예에 따라 도시한 웹 페이지 인코딩 인식 장치의 블록도이다.
상기 도면을 통하여 본 발명의 명확한 실시예가 도시되었고 하기 내용에서 더욱 상세히 설명된다. 이러한 도면과 문자 설명은 그 어떤 방식으로 본 발명의 취지의 범위를 한정하려는 것이 아니라 특정된 실시예를 참고로 하여 본 기술 분야의 통상의 기술자로 하여금 본 발명의 개념을 이해하도록 하기 위한 것이다.
여기서, 예시적 실시예에 대해 상세하게 설명하고, 이를 첨부되는 도면에 예시적으로 나타냈다. 하기에서 첨부되는 도면에 대해 설명할 때 별도로 표시하지 않는 한, 다른 도면의 동일한 숫자는 동일하거나 유사한 구성요소를 나타낸다. 하기의 예시적 실시예에서 설명한 실시형태는 본 발명과 일치한 모든 실시형태를 의미하는 것은 아니다. 반대로, 이들은 첨부된 특허청구범위에서 설명한, 본 발명의 일부 양태와 일치한 장치와 방법에 대한 예일 뿐이다.
본 발명의 실시예에 관한 단말기는 휴대폰, 태블릿 PC, 전자책 리더기, MP3플레이어(Moving Picture Experts Group Audio Layer III, 동화상전문가그룹 오디오 계층3), MP4(Moving Picture Experts Group Audio Layer IV, 동화상전문가그룹 오디오 계층4) 플레이어, 랩톱 휴대용 컴퓨터 및 탁상용 컴퓨터 등일 수 있다.
도1은 예시적 실시예에 따라 도시한 웹 페이지 인코딩 인식 방법의 흐름도로서, 본 실시예는 상기 웹 페이지 인코딩 인식 방법을 단말기에 응용시켜 예를 들어 설명한다. 상기 웹 페이지 인코딩 인식 방법은 하기와 같은 단계를 포함할 수 있다.
단계 101에서는 적어도 하나의 웹 페이지 리소스(resource)를 포함하는 웹 페이지 데이터를 로딩(loading)한다.
웹 페이지 리소스는 통상적으로 HTML(HyperText Mark-up Language, 하이퍼텍스트 마크업 언어) 리소스와 CSS(Cascading Style Sheets, 캐스케이딩 스타일 시트) 리소스, 두 가지 유형으로 나뉜다.
단계 102에서는 웹 페이지 리소스가 HTML리소스인지의 여부 및 인코딩 방식을 선언(specify)하였는지 여부를 검출한다.
단계 103에서는 웹 페이지 리소스가 HTML리소스이며 인코딩 방식을 선언하지 않았으면 HTML리소스의 인코딩 방식을 인식(identify)한다.
단계 104에서는 인식한 인코딩 방식과 대응되는 디코딩 방식을 사용하여 HTML리소스를 디코딩한다.
상술한 바와 같이 본 실시예에서 제공한 웹 페이지 인코딩 인식 방법은 웹 페이지 리소스가 인코딩 방식을 선언하지 않았을 때 웹 페이지 리소스의 인코딩 방식을 인식하고 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 웹 페이지 리소스를 디코딩하여, 관련 기술에서 웹 페이지 인코딩 중의 "charset" 필드를 빠트렸을 때 브라우저가 깨진 글자를 표시할 수 있는 문제를 해결함으로써 웹 페이지 리소스에 인코딩 방식을 선언하지 않을지라도 정상적으로 웹 페이지 리소스를 디코딩하고 표시할 수 있는 효과에 도달하였다.
도2는 예시적 실시예에 따라 도시한 웹 페이지 인코딩 인식 방법의 흐름도이다. 본 실시예는 상기 웹 페이지 인코딩 인식 방법을 단말기에 응용시켜 예를 들어 설명한다. 상기 웹 페이지 인코딩 인식 방법은 하기와 같은 단계를 포함할 수 있다.
단계 201에서는 적어도 하나의 웹 페이지 리소스를 포함하는 웹 페이지 데이터를 로딩한다.
단말기가 하나의 웹 페이지를 표시하려 할 때 우선 상기 웹 페이지의 웹 페이지 데이터를 로딩한다. 웹 페이지마다 웹 페이지 데이터에는 적어도 하나의 웹 페이지 리소스가 포함된다.
웹 페이지 리소스는 HTML리소스와 CSS리소스 두 가지로 나뉠 수 있다.
단계 202에서는 웹 페이지 리소스가 HTML리소스인지의 여부를 검출한다.
매 웹 페이지 리소스를 디코딩하기 전에, 단말기는 우선 웹 페이지 리소스가 HTML리소스인지의 여부를 검출한다.
웹 페이지 리소스가 HTML리소스이면 단계 203으로 진입하고;
웹 페이지 리소스가 CSS리소스이면 단계 210으로 진입한다.
단계 203에서는 HTML리소스가 인코딩 방식을 선언하였는지의 여부를 검출한다.
흔히 보는 인코딩 방식에는 UTF-8(-bit Unicode Transformation Format, 8비트 유니코드 변환 형식), Big5(Big5코드), GB2312(정보 교환용 한자 인코딩 문자 집합), GBK(정보 교환용 한자 인코딩 문자 집합, ISO-8859-1(International Organization for Standardization, 국제 표준화 기구), ISO-8859-2등이 포함된다.
HTML리소스는 통상적으로 "charset" 필드를 사용하여 자신이 사용하는 인코딩 방식을 선언한다. 하지만, 웹 페이지 개발인원의 수준이 상이하기에 HTML리소스 중의 "charset" 필드가 빠트려지거나 틀리게 쓰일 수 있다.
HTML리소스가 인코딩 방식을 선언하지 않았으면 단계 204로 진입하고;
HTML리소스가 인코딩 방식을 선언하면 단계 206으로 진입한다.
단계 204에서는 HTML리소스가 인코딩 방식을 선언하지 않았으면 HTML리소스의 인코딩 방식을 인식한다.
단말기는 예정된 문자 인코딩 인식 알고리즘을 사용하여 HTML리소스의 인코딩 방식을 인식할 수 있다. 예정된 문자 인식 알고리즘은 chardet 문자 인코딩 인식 알고리즘일 수 있다.
예를 들어 HTML리소스가 인코딩 방식을 선언하지 않았으면 단말기는 chardet 문자 인코딩 인식 알고리즘을 사용하여 상기 HTML리소스가 사용한 인코딩 방식이 GB2312인코딩임을 인식해 낸다.
Chardet 문자 인코딩 인식 알고리즘은 문자 열의 인코딩 격식(format)을 인식하기 위한 알고리즘이다. 텍스트 문자의 인코딩 격식의 인식에 자주 쓰인다.
인식 속도를 가속화하기 위하여 단말기는 HTML리소스 중의 예정된 길이의 문자열을 추출할 수 있고 예정된 문자 인코딩 인식 알고리즘으로 상기 예정된 길이의 문자열의 인코딩 방식을 인식한다. 그리고 전체 HTML리소스 중의 모든 문자열을 인식할 필요가 없다.
단계 205에서는 인식한 인코딩 방식과 대응되는 디코딩 방식을 사용하여 HTML리소스를 디코딩한다.
HTML리소스가 사용한 인코딩 방식을 인식한 후 단말기는 인식한 인코딩 방식과 대응되는 디코딩 방식을 사용하여 HTML리소스를 디코딩한다.
단계 206에서 HTML리소스가 인코딩 방식을 이미 선언했으면 이미 선언한 인코딩 방식이 미리 설정한 인코딩 방식 중의 하나인지의 여부를 검출한다.
HTML리소스가 인코딩 방식을 이미 선언했을 때, 이미 선언한 인코딩 방식에 철자(spell) 오류가 발생할 수 있기에 단말기는 이미 선언한 인코딩 방식이 미리 설정한 인코딩 방식 중의 하나인지의 여부를 검출해야 한다.
미리 설정한 인코딩 방식은 UTF-8(8-bit Unicode Transformation Format, 8비트 유니코드 변환 형식), Big5(Big5코드), GB2312(정보 교환용 한자 인코딩 문자 집합), GBK(정보 교환용 한자 인코딩 문자 집합), ISO-8859-1(International Organization for Standardization, 국제 표준화 기구), ISO-8859-2 등을 포함하지만 이에 한정하지는 않는다.
이미 선언한 인코딩 방식이 미리 설정한 인코딩 방식 중의 한가지이면 단계 207로 진입하고;
이미 선언한 인코딩 방식이 미리 설정한 인코딩 방식 중의 하나가 아니면 단계 208로 진입한다.
단계 207에서는 이미 선언한 인코딩 방식이 미리 설정한 인코딩 방식 중의 하나이면 이미 선언한 인코딩 방식과 대응되는 디코딩 방식을 사용하여 HTML리소스를 디코딩한다.
이미 선언한 인코딩 방식이 미리 설정한 인코딩 방식 중의 한가지일 때 이미 선언한 인코딩 방식이 철자 오류가 없다는 것을 의미하고 단말기는 이미 선언한 인코딩 방식과 대응되는 디코딩 방식을 사용하여 HTML리소스를 디코딩한다.
단계 208에서는 이미 선언한 인코딩 방식이 미리 설정한 인코딩 방식 중의 하나가 아니면, HTML리소스의 인코딩 방식을 인식하거나 또는 이미 선언한 인코딩 방식에 대해 자동 오류 정정을 진행하여 자동 오류 정정 후에 인코딩 방식을 얻는다.
이미 선언한 인코딩 방식이 미리 설정한 인코딩 방식 중의 하나가 아니면 이미 선언한 인코딩 방식이 철자 오류가 존재한다는 것을 의미한다. 이때, 본 실시예는 두 가지 상이한 처리 방식을 제공한다.
첫 번째 처리 방식: 단말기가 HTML리소스의 인코딩 방식을 인식한다.
인식 방식은 단계 204와 동일한바, 단말기는 예정된 문자 인코딩 인식 알고리즘을 사용하여 HTML리소스의 인코딩 방식을 인식할 수 있다. 예정된 문자 인식 알고리즘은 chardet 문자 인코딩 인식 알고리즘일 수 있다.
두 번째 처리 방식: 단말기가 이미 선언한 인코딩 방식에 대해 자동 오류 정정을 진행하여 자동 오류 정정 후의 인코딩 방식을 얻는다.
자동 오류 정정의 과정은 하기와 같다. 단말기는 이미 선언한 인코딩 방식과 미리 설정된 인코딩 방식 중의 매 하나와 각각 철자 유사성을 산출하며, 미리 설정된 인코딩 방식에 6가지가 있다면 6개의 철자 유사성을 산출할 수 있다. 가장 높은 철자 유사성이 미리 설정된 임계값보다 클 때 단말기는 가장 높은 철자 유사성과 대응되는 미리 설정된 인코딩 방식을 자동 오류 정정 후의 인코딩 방식으로 결정한다.
예를 들어 이미 선언한 인코딩 방식은 "GB2812"이고, 미리 설정된 인코딩 방식은 6가지가 있으며 산출된 철자 유사성도 6가지가 있다. 여기서, 미리 설정된 인코딩 방식 "GB2312"와 가장 높은 철자 유사성 83%가 존재하고 이는 미리 설정된 임계값 60%보다 크다. 그러므로 단말기는 미리 설정된 인코딩 방식 "GB2312"를 자동 오류 정정한 후에 인코딩 방식으로 결정한다.
주목해야 할 것은 첫 번째 처리 방식과 두 번째 처리 방식 중의 하나를 선택하여 사용할 수도 있고 이들을 결합하여 사용할 수도 있다. 가능한 결합 사용 방식으로는 우선 두 번째 처리 방식을 사용하여 처리하는 것인데 가장 높은 철자 유사성이 미리 설정된 임계값보다 작거나 두 개 또는 두 개 이상의 미리 설정된 인코딩 방식이 모두 가장 높은 철자 유사성을 구비할 때 단말기는 재차 첫 번째 처리 방식을 사용하여 다시 HTML리소스의 인코딩 방식을 인식할 수 있다.
단계 209에서는 다시 인식된 인코딩 방식 또는 자동 오류 정정 후의 인코딩 방식과 대응되는 디코딩 방식을 사용하여 HTML리소스를 디코딩한다.
단계 210에서는 웹 페이지 리소스가 CSS리소스이면 웹 페이지 데이터 중의 HTML리소스가 사용한 인코딩 방식을 CSS리소스의 인코딩 방식으로 인식하고 인코딩 방식과 대응되는 디코딩 방식을 사용하여 CSS리소스를 디코딩한다.
즉, 만약 현재 웹 페이지 리소스가 HTML리소스가 아니라 CSS리소스이면 동일한 웹 페이지 데이터 중의 HTML리소스와 CSS리소스가 통상적으로 동일한 인코딩 방식을 사용하기에 단말기는 상기 웹 페이지 데이터 중의 HTML리소스가 사용한 인코딩 방식을 CSS리소스의 인코딩 방식으로 인식하며, 여기서 HTML리소스의 인코딩 방식의 인식과정은 상기 단계 202 내지 단계 207의 내용을 참고할 수 있다.
다음, 단말기는 CSS리소스의 인코딩 방식과 대응되는 디코딩 방식을 사용하여 CSS리소스를 디코딩한다.
마지막으로, 디코딩하여 각 웹 페이지 리소스를 얻은 후, 단말기는 디코딩으로 얻은 웹 페이지 리소스에 근거하여 웹 페이지를 표시할 수 있다.
상술한 바와 같이, 본 실시예에서 제공한 웹 페이지 인코딩 인식 방법은 웹 페이지 리소스가 인코딩 방식을 선언하지 않았을 때 웹 페이지 리소스의 인코딩 방식을 인식하고 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 웹 페이지 리소스를 디코딩하여 관련 기술에서 웹 페이지 인코딩 중의 "charset" 필드를 빠트렸을 때 브라우저가 깨진 글자를 표시할 수 있는 문제를 해결함으로써 웹 페이지 리소스에 인코딩 방식을 선언하지 않을지라도 정상적으로 웹 페이지 리소스를 디코딩하고 표시할 수 있는 효과에 도달하였다.
본 실시예에서 제공한 웹 페이지 인코딩 인식 방법은 웹 페이지 리소스가 인코딩 방식을 선언하였지만 선언한 인코딩 방식에 철자 오류가 존재할 때 다시 인식한 인코딩 방식 또는 자동 오류 정정을 진행한 인코딩 방식과 대응되는 디코딩 방식으로 웹 페이지 리소스를 디코딩하여 관련 기술에서 웹 페이지 인코딩 중의 "charset" 필드를 틀리게 썼을 때 브라우저가 깨진 글자를 표시할 수 있는 문제를 해결함으로써 웹 페이지 리소스에서 선언한 인코딩 방식이 틀리게 쓰일지라도 정상적으로 웹 페이지 리소스를 디코딩하고 표시할 수 있는 효과에 도달하였다.
아래는 본 발명의 장치의 실시예로서 본 발명의 방법의 실시예를 수행하는데 사용될 수 있다. 본 발명의 장치의 실시예에 공개되지 않은 세부사항은 본 발명의 방법의 실시예를 참조하기 바란다.
도3은 예시적 실시예에 따라 도시한 웹 페이지 인코딩 장치의 블록도로서, 상기 웹 페이지 인코딩 인식 장치는 소프트웨어, 하드웨어 또는 양자의 결합으로 단말기의 일부 또는 전부가 될 수 있다.
상기 웹 페이지 인코딩 인식 장치는,
적어도 하나의 웹 페이지 리소스를 포함하는 웹 페이지 데이터를 로딩하도록 구성된 데이터 로딩 모듈(320)과;
웹 페이지 리소스가 HTML리소스인지의 여부 및 인코딩 방식을 선언하였는지 여부를 검출하도록 구성된 방식 검출 모듈(340)과;
웹 페이지 리소스는 HTML리소스이며 인코딩 방식을 선언하지 않았을 때 HTML리소스의 인코딩 방식을 인식하도록 구성된 방식 인식 모듈(360)과;
인식한 인코딩 방식과 대응되는 디코딩 방식을 사용하여 HTML리소스를 디코딩하도록 구성된 리소스 디코딩 모듈(380)을 포함한다.
상술한 바와 같이, 본 실시예에서 제공한 웹 페이지 인코딩 인식 장치는 웹 페이지 리소스가 인코딩 방식을 선언하지 않았을 때 웹 페이지 리소스의 인코딩 방식을 인식하고 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 웹 페이지 리소스를 디코딩하여 관련 기술에서 웹 페이지 인코딩 중의 "charset" 필드를 빠트렸을 때 브라우저가 깨진 글자를 표시할 수 있는 문제를 해결함으로써 웹 페이지 리소스에 인코딩 방식을 선언하지 않을지라도 정상적으로 웹 페이지 리소스를 디코딩하고 표시할 수 있는 효과에 도달하였다.
도4는 예시적 실시예에 따라 도시한 웹 페이지 인코딩 인식 장치의 블록도이다. 상기 웹 페이지 인코딩 인식 장치는 소프트웨어, 하드웨어 또는 양자의 결합으로 단말기의 일부 또는 전부가 될 수 있다.
상기 웹 페이지 인코딩 인식 장치는,
적어도 하나의 웹 페이지 리소스를 포함하는 웹 페이지 데이터를 로딩하도록 구성된 데이터 로딩 모듈(320)과;
웹 페이지 리소스가 HTML리소스인지의 여부 및 인코딩 방식을 선언하였는지 여부를 검출하도록 구성된 방식 검출 모듈(340)과;
웹 페이지 리소스는 HTML리소스이며 인코딩 방식을 선언하지 않았을 때 HTML리소스의 인코딩 방식을 인식하도록 구성된 방식 인식 모듈(360)과;
인식한 인코딩 방식과 대응되는 디코딩 방식을 사용하여 HTML리소스를 디코딩하도록 구성된 리소스 디코딩 모듈(380)을 포함한다.
선택적으로 상기 웹 페이지 인코딩 인식 장치는,
웹 페이지 리소스는 HTML리소스이며 인코딩 방식을 선언하지 않을 때 이미 선언한 상기 인코딩 방식이 미리 설정한 인코딩 방식 중의 하나인지의 여부를 검출하도록 구성된 인코딩 검출 모듈(352)을 더 포함하고;
이미 선언한 인코딩 방식이 미리 설정된 인코딩 방식 중의 하나가 아닐 때,
방식 인식 모듈(360)이 HTML리소스의 인코딩 방식을 인식하거나, 또는 상기 웹 페이지 인코딩 인식 장치가, 이미 선언한 인코딩 방식에 대해 자동 오류 정정을 진행하여 자동 오류 정정 후의 인코딩 방식을 얻도록 구성된 자동 오류 정정 모듈(370)을 더 포함한다.
선택적으로 방식 인식 모듈(360)은 예정된 문자 인코딩 인식 알고리즘을 사용하여 HTML리소스의 인코딩 방식을 인식한다.
선택적으로, 자동 오류 정정 모듈(370)은,
이미 선언한 인코딩 방식을 미리 설정된 인코딩 방식 중의 매 하나와 각각 철자 유사성을 산출하도록 구성된 철자 산출 서브모듈(372)과;
가장 높은 철자 유사성이 미리 설정된 임계값보다 클 때, 가장 높은 철자 유사성과 대응되는 미리 설정된 인코딩 방식을 자동 오류 정정한 후의 인코딩 방식으로 결정하도록 구성된 자동 오류 정정 서브모듈(374)을 포함한다.
선택적으로, 상기 웹 페이지 인코딩 인식 장치는,
웹 페이지 리소스가 CSS리소스일 때 웹 페이지 데이터 중의 HTML리소스가 사용한 인코딩 방식을 CSS리소스의 인코딩 방식으로 인식하고 인코딩 방식과 대응되는 디코딩 방식을 사용하여 CSS리소스를 디코딩하도록 구성된 인코딩 다중화 모듈(354)을 더 포함한다.
상술한 바와 같이, 본 실시예에서 제공한 웹 페이지 인코딩 인식 장치는 웹 페이지 리소스가 인코딩 방식을 선언하지 않았을 때 웹 페이지 리소스의 인코딩 방식을 인식하고 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 웹 페이지 리소스를 디코딩하여 관련 기술에서 웹 페이지 인코딩 중의 "charset" 필드를 빠트렸을 때 브라우저가 깨진 글자를 표시할 수 있는 문제를 해결함으로써 웹 페이지 리소스에 인코딩 방식을 선언하지 않을지라도 정상적으로 웹 페이지 리소스를 디코딩하고 표시할 수 있는 효과에 도달하였다.
본 실시예에서 제공한 웹 페이지 인코딩 인식 장치는 웹 페이지 리소스가 인코딩 방식을 선언하였지만 선언한 인코딩 방식에 철자 오류가 존재할 때 다시 인식 또는 자동 오류 정정을 진행한 인코딩 방식과 대응되는 디코딩 방식으로 웹 페이지 리소스를 디코딩하여 관련 기술에서 웹 페이지 인코딩 중의 "charset" 필드를 틀리게 썼을 때 브라우저가 깨진 글자를 표시할 수 있는 문제를 해결함으로써 웹 페이지 리소스에서 선언한 인코딩 방식이 틀리게 쓰였을지라도 정상적으로 웹 페이지 리소스를 디코딩하고 표시할 수 있는 효과에 도달하였다.
상기 실시예의 장치에 있어서 각 모듈이 실행하는 동작의 구체적인 방식은 이미 상기 웹 페이지 인코딩 인식 방법의 실시예에서 상세하게 설명하였으므로 여기서 이에 대하여 더 이상 상세하게 설명하지 않도록 한다.
도5는 일 예시적 실시예에 따라 도시한 단말기(500)의 블록도이다. 예를 들어, 장치(500)는 휴대폰, 컴퓨터, 디지털방송 단말기, 메시지 송수신 기기, 게임 콘솔, 태블릿 기기, 의료기기, 휘트니스 기기(fitness facility), 개인 휴대 정보 단말기 등일 수 있다.
도5를 참조하면, 장치(500)는 프로세스 어셈블리(502), 메모리(504), 전원 어셈블리(506), 멀티미디어 어셈블리(508), 오디오 어셈블리(510), 입력/출력(I/O) 인터페이스(512), 센서 어셈블리(514) 및 통신 어셈블리(516)와 같은 하나 또는 다수의 어셈블리를 포함할 수 있다.
프로세스 어셈블리(502)는 통상적으로 표시, 전화 호출, 데이터 통신, 카메라 동작 및 기록동작과 관련한 장치(500)의 전체 동작을 제어한다. 프로세스 어셈블리(502)는 상기 웹 페이지 인코딩 인식 방법의 전부 또는 일부 단계를 완성하도록 하거나 또는 다수의 프로세서(520)를 포함하여 명령을 실행할 수 있다. 이 외에, 프로세스 어셈블리(502)는 프로세스 어셈블리(502)와 기타 어셈블리 사이의 교류가 편리하도록 하나 또는 다수의 모듈을 포함할 수 있다. 예를 들어, 프로세스 어셈블리(502)는 멀티미디어 어셈블리(508)와 프로세스 어셈블리(502) 사이의 교류가 편리하도록 멀티미디어모듈을 포함할 수 있다.
메모리(504)는 장치(500)의 작동을 지지하도록 각종 유형의 데이터를 저장하도록 구성된다. 이러한 데이터의 예시는 장치(500)에서 작동하기 위한 그 어느 하나의 응용 프로그램 또는 방법의 명령, 연락 데이터(contact data), 전화번호부 데이터, 메시지, 이미지, 동영상 등을 포함한다. 메모리(504)는 정적 랜덤 액세스 메모리(SRAM), 전기적 소거 가능한 프로그램 가능 판독전용 메모리(EEPROM), 소거 및 프로그램 가능 판독전용 메모리(EPROM), 프로그램 가능 판독전용 메모리(PROM), 판독 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 디스크 또는 CD와 같은 모든 유형의 휘발성 또는 비휘발성 메모리 기기 또는 그들의 조합으로 이루어질 수 있다.
전원 어셈블리(506)는 장치(500)의 각종 어셈블리에 전력을 제공한다. 전원 어셈블리(506)는 전원관리시스템, 하나 또는 다수의 전원, 장치(500)에 전력을 생성, 관리 및 분배하는 것과 관련되는 기타 어셈블리를 포함할 수 있다.
멀티미디어 어셈블리(508)는 상기 장치(500)와 사용자 사이에 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서 스크린은 액정디스플레이(LCD)와 터치패널(TP)을 포함할 수 있다. 스크린이 터치패널을 포함하면, 스크린은 사용자가 입력한 신호를 수신하도록 터치스크린으로 실현될 수 있다. 터치패널은 터치, 슬라이딩과 터치패널의 손동작을 감지하도록 하나 또는 다수의 터치센서를 포함한다. 상기 터치센서는 터치 또는 슬라이딩 동작의 경계를 감지할 수 있을 뿐만 아니라 상기 터치 또는 슬라이딩 동작과 관련한 지속시간과 압력도 검출할 수 있다. 일부 실시예에서, 멀티미디어 어셈블리(508)는 전방 카메라 및/또는 후방 카메라를 포함한다. 기기(500)가 작동모드 예를 들어, 촬영모드 또는 동영상모드일 경우, 전방 카메라 및/또는 후방 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 각각의 전방 카메라와 후방 카메라는 고정된 광학렌즈 시스템이거나 초점 거리와 광학 줌 능력을 구비할 수 있다.
오디오 어셈블리(510)는 오디오신호를 출력 및/또는 입력하도록 구성된다. 예를 들어, 오디오 어셈블리(510)는 마이크(MIC)를 포함하며, 장치(500)가 작동모드, 예를 들어 호출모드, 기록모드 및 음성인식 모드일 경우, 마이크는 외부의 오디오신호를 수신하도록 구성된다. 수신된 오디오신호는 더욱이 메모리(504)에 저장되거나 통신 어셈블리(516)를 거쳐 발송될 수 있다. 일부 실시예에서 오디오 어셈블리(510)는 오디오신호를 출력하기 위한 스피커를 더 포함한다.
입출력(I/O) 인터페이스(512)는 프로세스 어셈블리(502)와 주변 인터페이스모듈 사이에 인터페이스를 제공하되 상기 주변 인터페이스모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼은 홈버튼, 음량버튼, 작동버튼과 잠금버튼을 포함할 수 있지만 이에 한정하지는 않는다.
센서 어셈블리(514)는 하나 또는 다수의 센서를 포함하여 장치(500)에 여러 방면의 상태평가를 제공한다. 예를 들어, 센서 어셈블리(514)는 기기(500)의 온/오프 상태, 어셈블리의 상대위치, 예를 들어 상기 어셈블리는 장치(500)의 모니터와 키패드를 검출할 수 있고, 센서 어셈블리(514)는 장치(500) 또는 장치(500)의 한 어셈블리의 위치변화, 사용자와 장치(500)의 접촉여부, 장치(500) 방위 또는 가속/감속과 장치(500)의 온도변화를 검출할 수 있다. 센서 어셈블리(514)는 아무런 물리접촉이 없을 경우 주변 물체의 존재를 검출하도록 구성된 근접센서를 포함할 수 있다. 센서 어셈블리(514)는 CMOS 또는 CCD 영상센서와 같은 광 센서를 더 포함하여 영상응용에 사용한다. 일부 실시예에서, 상기 센서 어셈블리(514)는 가속도센서, 자이로센서, 자기센서, 압력센서 또는 온도센서를 더 포함할 수 있다.
통신 어셈블리(516)는 장치(500)와 기타 기기 사이의 유선 또는 무선방식의 통신이 편리하도록 구성된다. 장치(500)는 예를 들어 WiFi, 2G 또는 3G 또는 이들의 조합 같은 통신표준에 의한 무선 네트워크에 접속(access)할 수 있다. 일 예시적 실시예에서, 통신 어셈블리(516)는 방송신호를 거쳐 외부 방송관리 시스템의 방송신호 또는 방송과 관련한 정보를 수신한다. 일 예시적 실시예에서, 상기 통신 어셈블리(516)는 근거리 통신을 촉진하도록 근거리 자기장 통신(NFC)모듈을 더 포함한다. 예를 들어 NFC모듈은 무선주파수 인식(RFID)기술, 적외선 통신규격(IrDA)기술, 초광대역(UWB)기술, 블루투스(BT)기술과 기타 기술에 기반하여 실현할 수 있다.
예시적인 실시예에서 장치(500)는 상기 웹 페이지 인코딩 인식 방법을 수행하도록 하나 또는 다수의 응용 주문형 직접회로(ASIC), 디지털신호 프로세서(DSP), 디지털신호 처리기기(DSPD), 프로그램 가능 논리 소자(PLD), 필드 프로그램 가능 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 기타 전자부품에 의해 실현될 수 있다.
예시적인 실시예에서, 명령을 포함한 비일시적 컴퓨터 판독 가능한 기록매체, 예를 들어 상기 웹 페이지 인코딩 인식 방법을 완성하도록 장치(500)의 프로세서(520)가 실행하는 명령을 포함한 메모리(504)를 더 제공한다. 예를 들어, 비일시적 컴퓨터 판독 가능한 기록매체는 ROM, 랜덤 액세스 메모리(RAM), CD-ROM, 테이프, 플로피 디스켓과 광 데이터 저장기기 등일 수 있다.
비일시적 컴퓨터 판독 가능한 기록매체는, 상기 기록 매체의 명령이 장치(500)의 프로세서에 의해 실행될 때, 장치(500)가 도1 또는 도2에 도시한 웹 페이지 인코딩 인식 방법을 수행하도록 한다.
본 발명이 속하는 기술분야에서 통상의 지식을 가진 자들은 명세서를 고려하여 여기서 공개한 발명을 실시한 후 본 발명의 기타 실시형태를 용이하게 생각해낼 수 있다. 본원 발명은 본 발명의 모든 변형, 용도 또는 적응성 변화를 포함하고 이러한 변형, 용도 또는 적응성 변화는 본 발명의 일반적인 원리를 따르며 본 발명이 공개하지 않은 본 기술분야에서의 공지된 상식 또는 통상적인 기술수단을 포함한다. 명세서와 실시예는 예시적인 것일 뿐 본 발명의 진정한 범위와 기술적 사상은 하기의 청구범위에 의해 밝혀질 것이다.
본 발명은 상기에서 설명하고 도면에 도시한 정확한 구조에 한정되는 것이 아니라 그 범위를 벗어나지 않는 한 여러 가지 수정과 변경을 할 수 있음을 이해해야 한다. 본 발명의 범위는 첨부되는 청구범위에 의해서만 한정된다.

Claims (11)

  1. 적어도 하나의 웹 페이지 리소스를 포함하는 웹 페이지 데이터를 로딩하는 단계와;
    상기 웹 페이지 리소스가 HTML리소스인지의 여부 및 인코딩 방식을 선언하였는지 여부를 검출하는 단계와;
    상기 웹 페이지 리소스가 HTML리소스이며 인코딩 방식을 선언하지 않았으면 상기 HTML리소스의 인코딩 방식을 인식하는 단계와;
    인식한 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 상기 HTML리소스를 디코딩하는 단계를 포함하는 웹 페이지 인코딩 인식 방법.
  2. 제1항에 있어서,
    상기 웹 페이지 리소스가 HTML리소스이며 인코딩 방식을 이미 선언했으면, 이미 선언한 상기 인코딩 방식이 미리 설정된 인코딩 방식 중의 하나인지의 여부를 검출하는 단계;
    이미 선언한 상기 인코딩 방식이 상기 미리 설정된 인코딩 방식 중의 하나가 아니면, 상기 HTML리소스의 인코딩 방식을 인식하거나 또는 이미 선언한 상기 인코딩 방식에 대해 자동 오류 정정을 진행하여 자동 오류 정정 후의 상기 인코딩 방식을 얻는 단계를 더 포함하는 웹 페이지 인코딩 인식 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 HTML리소스의 인코딩 방식을 인식하는 상기 단계는,
    예정된 문자 인코딩 인식 알고리즘을 사용하여 상기 HTML리소스의 인코딩 방식을 인식하는 단계를 포함하는 웹 페이지 인코딩 인식 방법.
  4. 제2항에 있어서,
    이미 선언한 상기 인코딩 방식에 대해 자동 오류 정정을 진행하여 자동 오류 정정 후의 상기 인코딩 방식을 얻는 상기 단계는,
    이미 선언한 상기 인코딩 방식을 상기 미리 설정된 인코딩 방식 중의 매 하나와 각각 철자 유사성을 산출하는 단계와;
    가장 높은 상기 철자 유사성이 미리 설정된 임계값보다 클 때 가장 높은 상기 철자 유사성과 대응되는 상기 미리 설정된 인코딩 방식을 자동 오류 정정 후의 상기 인코딩 방식으로 결정하는 단계를 포함하는 웹 페이지 인코딩 인식 방법.
  5. 제1항에 있어서,
    상기 웹 페이지 리소스가 CSS리소스이면 상기 웹 페이지 데이터 중의 상기 HTML리소스가 사용한 인코딩 방식을 상기 CSS리소스의 인코딩 방식으로 인식하고, 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 상기 CSS리소스를 디코딩하는 단계를 더 포함하는 웹 페이지 인코딩 인식 방법.
  6. 적어도 하나의 웹 페이지 리소스를 포함하는 웹 페이지 데이터를 로딩하도록 구성된 데이터 로딩 모듈과;
    상기 웹 페이지 리소스가 HTML리소스인지의 여부 및 인코딩 방식을 선언하였는지 여부를 검출하도록 구성된 방식 검출 모듈과;
    상기 웹 페이지 리소스가 HTML리소스이며 인코딩 방식을 선언하지 않았을 때 상기 HTML리소스의 인코딩 방식을 인식하도록 구성된 방식 인식 모듈과;
    인식한 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 상기 HTML리소스를 디코딩하도록 구성된 리소스 디코딩 모듈을 포함하는 웹 페이지 인코딩 인식 장치.
  7. 제6항에 있어서,
    상기 웹 페이지 리소스가 HTML리소스이며 인코딩 방식을 이미 선언했으면 이미 선언한 상기 인코딩 방식이 미리 설정된 인코딩 방식 중의 하나인지의 여부를 검출하도록 구성된 인코딩 검출 모듈을 더 포함하며;
    이미 선언한 상기 인코딩 방식이 상기 미리 설정된 인코딩 방식 중의 하나가 아닐 때,
    상기 방식 인식 모듈이 상기 HTML리소스의 인코딩 방식을 인식하거나, 또는
    상기 웹 페이지 인코딩 인식 장치가, 이미 선언한 상기 인코딩 방식에 대해 자동 오류 정정을 진행하여 자동 오류 정정 후의 상기 인코딩 방식을 얻도록 구성된 자동 오류 정정 모듈을 더 포함하는 웹 페이지 인코딩 인식 장치.
  8. 제6항 또는 제7항에 있어서,
    상기 방식 인식 모듈은 예정된 문자 인코딩 인식 알고리즘을 사용하여 상기 HTML리소스의 인코딩 방식을 인식하는 웹 페이지 인코딩 인식 장치.
  9. 제7항에 있어서,
    상기 자동 오류 정정 모듈은,
    이미 선언한 상기 인코딩 방식을 상기 미리 설정된 인코딩 방식 중의 매 하나와 각각 철자 유사성을 산출하도록 구성된 철자 산출 서브모듈과;
    가장 높은 상기 철자 유사성이 미리 설정된 임계값보다 클 때 가장 높은 상기 철자 유사성과 대응되는 미리 설정된 인코딩 방식을 자동 오류 정정 후의 상기 인코딩 방식으로 결정하도록 구성된 자동 오류 정정 서브모듈을 포함하는 웹 페이지 인코딩 인식 장치.
  10. 제6항에 있어서,
    상기 웹 페이지 리소스가 CSS리소스일 때 상기 웹 페이지 데이터 중의 상기 HTML리소스가 사용한 인코딩 방식을 상기 CSS리소스의 인코딩 방식으로 인식하고 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 상기 CSS리소스를 디코딩하도록 구성된 인코딩 다중화 모듈을 더 포함하는 웹 페이지 인코딩 인식 장치.
  11. 프로세서;
    상기 프로세서에 의해 실행 가능한 명령을 저장하기 위한 메모리를 포함하고;
    상기 프로세서는,
    적어도 하나의 웹 페이지 리소스를 포함하는 웹 페이지 데이터를 로딩하고;
    상기 웹 페이지 리소스가 HTML리소스인지의 여부 및 인코딩 방식을 선언하였는지의 여부를 검출하며;
    상기 웹 페이지 리소스가 HTML리소스이며 인코딩 방식을 선언하지 않았으면, 상기 HTML리소스의 인코딩 방식을 인식하고;
    인식한 상기 인코딩 방식과 대응되는 디코딩 방식을 사용하여 상기 HTML리소스를 디코딩하도록 구성된 웹 페이지 인코딩 인식 장치.

KR1020157007129A 2014-10-21 2015-01-22 웹 페이지 인코딩 인식 방법, 인식 장치, 프로그램 및 저장매체 KR20160059455A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410562477.9A CN104361021B (zh) 2014-10-21 2014-10-21 网页编码识别方法及装置
CN201410562477.9 2014-10-21
PCT/CN2015/071308 WO2016061930A1 (zh) 2014-10-21 2015-01-22 网页编码识别方法及装置

Publications (1)

Publication Number Publication Date
KR20160059455A true KR20160059455A (ko) 2016-05-26

Family

ID=52528283

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157007129A KR20160059455A (ko) 2014-10-21 2015-01-22 웹 페이지 인코딩 인식 방법, 인식 장치, 프로그램 및 저장매체

Country Status (8)

Country Link
EP (1) EP3012750A1 (ko)
JP (1) JP6130976B2 (ko)
KR (1) KR20160059455A (ko)
CN (1) CN104361021B (ko)
BR (1) BR112015006725A2 (ko)
MX (1) MX361564B (ko)
RU (1) RU2610245C2 (ko)
WO (1) WO2016061930A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104994128B (zh) * 2015-05-15 2019-04-26 北京网康科技有限公司 一种数据编码类型识别及转码方法和装置
CN105468753A (zh) * 2015-11-27 2016-04-06 北京金和网络股份有限公司 多编码格式数据显示系统及方法
CN106407438A (zh) * 2016-09-28 2017-02-15 珠海迈越信息技术有限公司 一种数据处理方法及系统
CN110020343B (zh) * 2017-09-01 2021-03-30 北京国双科技有限公司 网页编码格式的确定方法和装置
CN110674377A (zh) * 2019-09-24 2020-01-10 四川长虹电器股份有限公司 基于爬虫的新闻热点词获取方法
CN114024651A (zh) * 2020-07-16 2022-02-08 深信服科技股份有限公司 一种编码类型识别方法、装置、设备及可读存储介质
CN114415817A (zh) * 2020-10-28 2022-04-29 北京小米移动软件有限公司 显示控制方法、电子设备及存储介质
CN113595683A (zh) * 2021-07-07 2021-11-02 西安震有信通科技有限公司 基于各类编码文件的转换处理方法、装置、终端及介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3203544B2 (ja) * 1996-01-31 2001-08-27 日本電信電話株式会社 テキスト最尤復号方法及び最尤復号装置と、データ通信ネットワーク装置
JP2000132449A (ja) * 1998-10-27 2000-05-12 Nippon Telegr & Teleph Corp <Ntt> 代理アクセス方法、装置、および代理アクセスプログラムを記録した記録媒体
US6701320B1 (en) * 2002-04-24 2004-03-02 Bmc Software, Inc. System and method for determining a character encoding scheme
US7148824B1 (en) * 2005-08-05 2006-12-12 Xerox Corporation Automatic detection of character encoding format using statistical analysis of the text strings
US7711673B1 (en) * 2005-09-28 2010-05-04 Trend Micro Incorporated Automatic charset detection using SIM algorithm with charset grouping
US8271263B2 (en) * 2007-03-30 2012-09-18 Symantec Corporation Multi-language text fragment transcoding and featurization
CN101526963A (zh) * 2009-04-17 2009-09-09 深圳华为通信技术有限公司 网页编码识别方法、装置和终端设备
JP5565197B2 (ja) * 2010-08-18 2014-08-06 富士通株式会社 Webアプリケーションの連携方法、連携装置、および連携プログラム
RU2500024C2 (ru) * 2011-12-27 2013-11-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ автоматизированного определения языка и (или) кодировки текстового документа
CN103207877B (zh) * 2012-01-17 2016-12-14 阿里巴巴集团控股有限公司 解码方法及装置
US8938683B2 (en) * 2012-09-11 2015-01-20 Ebay Inc. Visual state comparator
TWI493365B (zh) * 2013-08-16 2015-07-21 Arphic Technology Co Ltd 多字集字碼輸入與即時顯示方法、系統與裝置

Also Published As

Publication number Publication date
MX2015003807A (es) 2016-08-02
JP2016539450A (ja) 2016-12-15
RU2015110973A (ru) 2016-10-20
BR112015006725A2 (pt) 2017-07-04
WO2016061930A1 (zh) 2016-04-28
MX361564B (es) 2018-12-11
RU2610245C2 (ru) 2017-02-08
CN104361021A (zh) 2015-02-18
CN104361021B (zh) 2018-07-24
EP3012750A1 (en) 2016-04-27
JP6130976B2 (ja) 2017-05-17

Similar Documents

Publication Publication Date Title
JP5956725B2 (ja) コンテキスト認識型ヘルプ・コンテンツを提供する方法、デバイス、及びコンピュータ・プログラム製品
JP6051338B2 (ja) ページロールバック制御方法、ページロールバック制御装置、端末、プログラム及び記録媒体
KR20160059455A (ko) 웹 페이지 인코딩 인식 방법, 인식 장치, 프로그램 및 저장매체
WO2016023341A1 (zh) 应用程序角标添加方法及装置
EP3337146B1 (en) Method and apparatus for displaying notification message
US20200394356A1 (en) Text information processing method, device and terminal
EP3128411A1 (en) Interface display method and device
EP3015997A1 (en) Method and device for facilitating selection of blocks of information
CN104951445B (zh) 一种网页处理方法及装置
EP3040856A1 (en) Firmware refreshing method and device
EP2963561A1 (en) Method and device for updating user data
CN105468606B (zh) 网页保存的方法及装置
EP3043252A1 (en) Method and electronic device for displaying electronic document
CN106502639A (zh) 一种数据刷新显示装置及方法
CN108108356B (zh) 一种文字翻译方法、装置及设备
CN111324214A (zh) 一种语句纠错方法和装置
CN112667852B (zh) 基于视频的搜索方法、装置、电子设备及存储介质
CN105320707B (zh) 基于即时通信的热词提示方法及装置
US20170060822A1 (en) Method and device for storing string
CN112182449A (zh) 页面加载方法、装置、电子设备及存储介质
US9679076B2 (en) Method and device for controlling page rollback
CN107526683B (zh) 应用程序功能冗余度的检测方法、装置及存储介质
US10423706B2 (en) Method and device for selecting information
US20160112491A1 (en) Method and device for identifying encoding of web page
CN110020244B (zh) 一种对网址信息进行纠错的方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application