webkit开发学习笔记全面第一版文档格式.docx

资源描述

webkit开发学习笔记全面第一版文档格式.docx

《webkit开发学习笔记全面第一版文档格式.docx》由会员分享，可在线阅读，更多相关《webkit开发学习笔记全面第一版文档格式.docx（31页珍藏版）》请在冰点文库上搜索。

webkit开发学习笔记全面第一版文档格式.docx

举个例子说明下：

google的chrome是一个浏览器对吧，那chrome主要包含以下模块：

外壳UI（多标签，菜单，状态栏，网址输入栏等），读取网络数据的模块，排版解析模块，JS解析引擎。

外壳UI是google自已写的，js引擎是google写的V8,读取网络数据模块用的winhttp，只有排版引擎用的webkit。

不知道我说清楚了没，呵呵。

WebKitisanopensourceWebcontentengineforbrowsersandotherapplications.Wevaluereal-worldwebcompatibility,standardscompliance,stability,performance,security,portability,usability,andrelativeeaseofunderstandingandmodifyingthecode（hackability）.

二．Webkit编译环境

Webkit的官网：

http:

//www.webkit.org/

说明：

下面的几种编译方法，越往下面看越简单噢。

1.Webkit提供以下几种主要的编译环境

1）.MaxosX（XcodeToolspackage）

2）.Windows（VisualStudio）最为常用，毕竟用winxp系统的还是多数

3）.QT

4）.GTK

具体的环境搭建见：

//www.webkit.org/building/tools.html

2.WebKitwinxp下编译小结

网上很多人抱怨webkit总是编译不过，确实，webkit没有提供一个下载代码后，直接可以用VS工具编译的方法，因为它用到了gcc编译环境，在windows下编译的话，需要安装cygwin才行，由于它的编译脚本用的perl，又需要安装perl的环境。

总之比较麻烦。

这也是因为网上的文章，有介绍QT安装环境的，有的是介绍官方webkit的安装环境的，还有的是介绍safari的，所以在网上查阅文档时一定要找到你相对应的才行。

重点要注意的地方：

1.下载Cygwin，一定要下载webkit提供的版本。

2.用vs2005的话，一定要打SP1.

3.QuickTimeSDK和directXSDK必不可少。

4.启动Cygwin，安装官网方法，执行./WebkitTools/Scripts/build-webkit脚本。

3.较简单的编译安装QTwebkit

直接在QT的官网下载如：

qt-sdk-win-opensource-2009.04.exe（该版本是我09年下半年使用的，官网上应该早有新版本了）

不需要cygwin,不需要quickTime，只需要执行下面几个步骤：

1、下载安装Visual.S.2005，或2008；

2、将qt-sdk-win-opensource-2009.04.exe解压到某个目录下；

以D:

\qt4.5.0为例

3、配置环境变量：

在“我的电脑”—“属性”---“高级”---环境变量---**的用户变量---新建，

添加一个变量名为QTDIR变量值为D:

\qt4.5.0\qt-win-opensource-src-4.5.0

PATH变量值为D:

\qt4.5.0\qt-win-opensource-src-4.5.0\bin

添加新的环境变量,名字为"

QMAKESPEC"

值为"

win32-msvc2005"

4、编译源代码

通过"

开始"

菜单->

MicrosoftVisualStudio2005"

VisualStudioTools"

运行命令行.

...

到qt源码的目录下,运行命令：

configure.exe-webkit

编译过程中,会问一个问题:

是否接受GPL协议,选'

经过一段时间以后,qmake被编译出来了.

接着编译一大堆代码,简单的敲入nmake即可.

5、编译应用程序

qmake

nmake

就会在该应用程序下，就会在debug目录下生成可以执行文件。

不过我个人不太喜欢QT，只是安装了跑一跑，QT的安装环境包含了webkit的源代码，同时它自带了一个简单的Browser项目（如下）:

编译运行。

在VisualStudio中设置browser工程为主工程，然后编译。

可以顺利编译完成，下面是运行后的效果图。

4.最最简单的webkit学习环境-ISee

5.Isee是一位中国人移植的webkit，在winxp下用vs2008直接编译即可调试，用于学习最好，强烈支持，也是一位同事推荐给我的，后面的代码走读主要基于该环境。

6.Isee还可以直接移植到wince平台运行噢。

7.官网：

备注：

原作者已经不再维护了。

所以webkit内核的版本号有点老。

8.webkit在vs2008中编译

见:

三．Webkit整体介绍

1.Webkit的结构图（以ISee架构举例）：

cairo

一个2D绘图库

casqt

Unicode处理用的库，从QT中抽取部分代码形成的

expat

一个XMLSAX解析器的库

freetype

矢量字库接口库，用于存取ttf矢量字体文件

libcurl

一个开源的url库，支持HTTP、FTP等协议

Libjpeg,libpng

图像解码库

libxml

基于DOM树的XML解析器

libxslt

XMLtransformengine

pthread

Pthread库，portofthePOSIXthreadlibrary

sqlite3

一个小型的数据库，据称在型入式平台是存取速度最快的数据库。

开源，编译后就一个400K的sqlite.dll。

移植非常方便，纯C写的。

wceshunt

一个用于WindowsCE平台下的C常用函数封装库

Zlib

Zlib库。

用于解压缩。

2.Webkit源代码由三大模块组成：

1）.WebCore，

2）.WebKit，

3）.JavaScriptCore。

WebCore：

排版引擎核心，WebCore包含主要以下模块：

Loader,Parser（DOM,Render）,Layout,Paint。

WebKit：

移植层，主要包含：

GUI，FileSystem,Thread，Text，图片编解码等与平台相关的函数。

JavaScriptCore：

JS虚拟机，相对独立，主要用于操作DOM，DOM是W3C定义的规范，主要用于定义外部可以操作的浏览器内核的接口，而webcore必须实现DOM规范。

（具体的DOM规范可以查w3c.）

3.WebKit分模块介绍（这里简单列出，后面再具体介绍）

Webkit平台相关

1）CURL网络库

2）libPng,LibJpeg图形处理相关

3）sqlite小型关系数据库

WebCore核心

1）Loader加载资源及Cache实现（Curl）

2）DOM:

HTML词法分析与语法分析

3）DOM:

DOM节点与Render节点创建，形成DOM树

4）Render：

Render树介绍，RenderBox

5）Layout：

排版介绍

6）CssParser模块

7）Binding-DOM与JavascriptCore绑定的功能

JavascriptCore-javascript引擎

1）API-基本javascript功能

2）Binding与其它功能绑定的功能,如:

DOM,C,JNI

3）DerviedSource自动产生的代码

4）PCRE-Perl-CompatibleRegularExpressions

5）KJS-JavascriptKernel

4.页面的整个处理流程—（简单介绍，详细流程在后面笔记中）

1.用户输入网址后，FrameLoader:

load函数会接收到URL。

2.把URL请求传给CURL库。

3.CURL发出http请求，得到数据后，传给Loader，开始解析。

4.通过DomBuilder按W3C的html规范生成Dom树

5.如果有javascript，JSEngine就通过ECMA-262标准完善Dom树

6.在生成DOM树的同时，同步生成Render树。

7.解析完后，调用Layout排版

8.Paint出来

Webkit-libCurl库介绍

前面有说道webkit仅仅是一个页面排版的引擎，所以，对webkit来说，网页数据（html文件，图片，.css,.js文件）的请求与接收都是通过第三方的库：

libCurl来处理。

打开webkit开发工程（.sln）即可以看到，libcurl可以被静态或动态链接到主工程中。

Libcurl就是指的curl,只是在webkit工程中，不作为单独的进程存在，而是被编译成动态库。

webkit主要用到curl的以下功能：

1）Http协议。

包含：

Get,put,Post,Cookie管理。

2）https协议。

3）本地文件缓存。

（前进，后退管理）

Webkit具体调用了哪些curl接口，详见后面Loader模块介绍章节。

这里简单列举：

1）curl_global_init（CURL_GLOBAL_ALL）;

2）curl_multi_init（）

3）curl_share_init（）

4）curl_share_setopt（）

5）curl_easy_getinfo（）

6）curl_multi_fdset（）

7）curl_multi_perform（）

8）curl_multi_info_read（）

9）curl_multi_cleanup（）

10）curl_share_cleanup（）

11）curl_global_cleanup（）;

可以看到，由于webkit要支持同时请求多个http数据，所以用到的是curl的multi接口。

在介绍Loader之前，先介绍一下libcurl，打下基础。

以下附一篇libcurl的介绍：

一、概念

1.为什么要使用libcurl

1）作为http的客户端，可以直接用socket连接服务器，然后对到的数据进行http解析，但要分析协议头，实现代理…这样太麻烦了。

2）libcurl是一个开源的客户端url传输库，支持FTP，FTPS，TFTP，HTTP，HTTPS，GOPHER，TELNET，DICT，FILE和LDAP，支持Windows，Unix，Linux等平台，简单易用，且库文件占用空间不到200K

2.get和post方式

客户端在http连接时向服务提交数据的方式分为get和post两种

1）Get方式将所要传输的数据附在网址后面，然后一起送达服务器，它的优点是效率比较高；

缺点是安全性差、数据不超过1024个字符、必须是7位的ASCII编码；

查询时经常用此方法。

2）Post通过Httppost处理发送数据，它的优点是安全性较强、支持数据量大、支持字符多；

缺点是效率相对低；

编辑修改时多使用此方法。

3.cookie与session

1）cookie

cookie是发送到客户浏览器的文本串句柄，并保存在客户机硬盘上，可以用来在某个Web站点会话之间持久地保持数据。

cookie在客户端。

2）session

session是访问者从到达某个特定主页到离开为止的那段时间。

每一访问者都会单独获得一个session，实现站点多个用户之间在所有页面中共享信息。

session在服务器上。

3）libcurl中使用cookie

保存cookie,使之后的链接与此链接使用相同的cookie

a）在关闭链接的时候把cookie写入指定的文件

curl_easy_setopt（curl,CURLOPT_COOKIEJAR,"

/tmp/cookie.txt"

）;

b）取用现在有的cookie，而不重新得到cookie

curl_easy_setopt（curl,CURLOPT_COOKIEFILE,"

b）http与https的区别

1）Http是明文发送，任何人都可以拦截并读取内容

2）Https是加密传输协议，用它传输的内容都是加密过的，https是http的扩展，其安全基础是SSL协议

c）base64编码

1）为什么要使用base64编码

如果要传一段包含特殊字符比较多的数据，直接上传就需要处理转意符之类的很多问题，用base64编码，它可以把数据转成可读的字串，base64由a-z,A-Z,+/总计64个字符组成。

2）传送base64编码的注意事项

由于base64的组成部分有加号，而加号是url中的转意字符，所以无论是get方式还是post，传到服务器的过程中，都会把加号转成空格，所以在传base64之前需要把base64编码后的加号替换成”%2B”，这样就可以正常发送了。

二、例程

d）代码

#include<

stdio.h>

curl/curl.h>

boolgetUrl（char*filename）

{

CURL*curl;

CURLcoderes;

FILE*fp;

if（（fp=fopen（filename,"

））==NULL）//返回结果用文件存储

returnfalse;

structcurl_slist*headers=NULL;

headers=curl_slist_append（headers,"

Accept:

Agent-007"

curl=curl_easy_init（）;

//初始化

if（curl）

{

curl_easy_setopt（curl,CURLOPT_PROXY,"

10.99.60.201:

8080"

//代理

curl_easy_setopt（curl,CURLOPT_HTTPHEADER,headers）;

//改协议头

curl_easy_setopt（curl,CURLOPT_URL,"

curl_easy_setopt（curl,CURLOPT_WRITEDATA,fp）;

res=curl_easy_perform（curl）;

//执行

curl_slist_free_all（headers）;

curl_easy_cleanup（curl）;

}

fclose（fp）;

returntrue;

}

boolpostUrl（char*filename）

））==NULL）

curl_easy_setopt（curl,CURLOPT_COOKIEFILE,"

//指定cookie文件

//curl_easy_setopt（curl,CURLOPT_COOKIEJAR,"

curl_easy_setopt（curl,CURLOPT_POSTFIELDS,"

logintype=uid&

u=xieyan&

psw=xxx86"

//指定post内容

//指定url

intmain（void）

getUrl（"

/tmp/get.html"

postUrl（"

/tmp/post.html"

e）编译

g++main.cpp-omain-lcurl

WebkitLoader模块介绍

前面说过，webkit只是一个排版引擎，在Webkit排版/渲染一个网页之前，它肯定需要从网络上、或者本地文件系统中读到网页的http数据，对吧，对webkit来讲，他要的就是数据，不管你是从网络读的还是本地文件读的。

Loader就是这样一个模块，它承上启下，不仅负责为webkit引擎提供数据，还控制着webkit的绘制。

另外，它同时还与提供数据的“来源”打交道。

先简单举例说明：

用户输入一个url，这时是Loader接收url请求，它把url传递给curl，设置curl的回调函数，当curl读到数据，loader把数据传递给Parser，开始生成DOM。

一．下面重点介绍一下与Loader相关的数据结构和模块。

Frame：

可以看做是浏览器外壳调用Loader的总入口，它就像我们印象中的一个网页，它关注的是页面的显示（FrameView）、页面数据的加载（FrameLoader）、页面内的各种控制器（Editor,EventHandler,ScriptController,etc.）等等，它包含以下模块（只列出重点）：

Document

Page

FrameView

RenderView

FrameLoader

DOMWindow

下面分别介绍（PS:

必须要了解这些概念，不然后面的东东都无法理解）:

1）Document:

这个类的爷爷类是Node，它是DOM树各元素的基类；

Document有个子类是HTMLDocument，它是整个文档DOM树的根结点，这样就明白了：

原来Document就是描述具体文档的代码，看一下它的头文件，就更明白了，它的属性与方法就是围绕着各种各样的结点：

Text，Comment，CDATASection，Element……

2）Page:

我的理解是，Page与Frame（严格说是FrameView）是一一对应的，Frame关注UI，Page关注数据。

现在的浏览器一般都提供同时打开多个窗口，每一个窗口对应的数据就是这个Page在管理了。

在page.cpp文件里，还有个重要的全局指针变量：

staticHashSet<

Page*>

*allPages;

这个变量包含了所有的page实例。

3）FrameView:

可以理解为为一个网页的ViewPort,它提供一个显示区域，同时包含的有Render根节点、layout排版相关接口、Scroll相关等。

FrameView是Layout排版的总入口。

4）RenderView:

与FrameView差不多，只是分工不同，它管理与Render树相关的东东。

5）FrameLoader：

重点，FrameLoader类将Documents加载到Frames。

当点击一个链接时，FrameLoader创建一个新的处于“policy”状态的DocumentLoader对象，一旦webkit指示FrameLoader将本次加载视为一个导航（navigation），FrameLoader就推动DocumentLoader进入“provisional”状态，（在该状态，DocumentLoader发调用CURL发起一个网络请求，并等待是html还是下载文件。

）同时,DocumentLoader会创建一个MainResourceLoader对象（该对象在后面单独介绍）。

6）。

展开阅读全文